Kompresja danych

wpis w: Articles | 0

ImageEdit

Główny artykuł: kompresja obrazów

kodowanie entropii powstało w 1940 roku wraz z wprowadzeniem kodowania Shannona-Fano, podstawy kodowania Huffmana, która została opracowana w 1950 roku. Kodowanie transformacji datuje się na koniec 1960 roku, wraz z wprowadzeniem kodowania szybkiej transformacji Fouriera (FFT) w 1968 roku i transformacji Hadamarda w 1969 roku.

ważną techniką kompresji obrazu jest dyskretna transformata cosinusa (DCT), technika opracowana na początku lat 70., DCT jest podstawą formatu JPEG, stratnej kompresji, który został wprowadzony przez Joint Photographic Experts Group (JPEG) w 1992 roku. JPEG znacznie zmniejsza ilość danych wymaganych do reprezentowania obrazu kosztem stosunkowo niewielkiej redukcji jakości obrazu i stał się najczęściej używanym formatem plików obrazu. Jego wysoce wydajny algorytm kompresji oparty na DCT był w dużej mierze odpowiedzialny za szeroką proliferację obrazów cyfrowych i zdjęć cyfrowych.

Lempel–Ziv–Welch (LZW) to algorytm kompresji bezstratnej opracowany w 1984 roku. Jest on używany w formacie GIF, wprowadzony w 1987 roku., DEFLATE, algorytm kompresji bezstratnej określony w 1996 roku, jest używany w formacie Portable Network Graphics (PNG).

kompresja falkowa, wykorzystanie falek w kompresji obrazu, rozpoczęło się po rozwoju kodowania DCT. Standard JPEG 2000 został wprowadzony w 2000 roku. W przeciwieństwie do algorytmu DCT używanego przez oryginalny format JPEG, JPEG 2000 zamiast tego wykorzystuje algorytmy dyskretnej transformacji falowej (DWT). Technologia JPEG 2000, która zawiera rozszerzenie Motion JPEG 2000, została wybrana jako standard kodowania wideo dla kina cyfrowego w 2004 roku.,

AudioEdit

Zobacz także: format kodowania Audio i kodek Audio

kompresja danych Audio, nie mylić z kompresją zakresu dynamicznego, ma potencjał, aby zmniejszyć przepustowość transmisji i wymagania przechowywania danych audio. Algorytmy kompresji dźwięku są implementowane w oprogramowaniu jako kodeki audio. W kompresji stratnej i bezstratnej redukuje się redundancję informacji, stosując metody takie jak kodowanie, kwantyzacja dyskretnej transformacji cosinusa i przewidywanie liniowe w celu zmniejszenia ilości informacji używanych do reprezentowania nieskompresowanych danych.,

algorytmy stratnej kompresji dźwięku zapewniają wyższą kompresję i są używane w wielu aplikacjach audio, w tym Vorbis i MP3. Algorytmy te niemal wszystkie polegają na psychoakustyce w celu wyeliminowania lub zmniejszenia wierności mniej słyszalnych dźwięków, zmniejszając w ten sposób przestrzeń potrzebną do ich przechowywania lub przesyłania.

akceptowalny kompromis między utratą jakości dźwięku a transmisją lub rozmiarem pamięci zależy od aplikacji., Na przykład jedna płyta compact disc (CD) o pojemności 640 MB zawiera około godzinę nieskompresowanej muzyki high fidelity, mniej niż 2 godziny muzyki skompresowanej bezstratnie lub 7 godzin muzyki skompresowanej w formacie MP3 ze średnią szybkością transmisji bitów. Cyfrowy rejestrator dźwięku może zazwyczaj przechowywać około 200 godzin wyraźnie zrozumiałej mowy w 640 MB.

bezstratna kompresja dźwięku tworzy reprezentację danych cyfrowych, które można dekodować do dokładnego cyfrowego duplikatu oryginału. Współczynnik kompresji wynosi około 50-60% oryginalnego rozmiaru, który jest podobny do tych dla ogólnej bezstratnej kompresji danych., Kodeki bezstratne wykorzystują dopasowanie krzywej lub prognozowanie liniowe jako podstawę do szacowania sygnału. Parametry opisujące estymację i różnicę między estymacją a rzeczywistym sygnałem są kodowane oddzielnie.

istnieje wiele bezstratnych formatów kompresji audio. Zobacz listę bezstratnych kodeków dla listy. Niektóre formaty są związane z odrębnym systemem, takim jak bezpośredni Transfer strumienia, używany w Super Audio CD i bezstratnym pakowaniu Meridian, używany w DVD-Audio, Dolby TrueHD, Blu-ray i HD DVD.,

niektóre formaty plików audio posiadają kombinację formatu stratnego i bezstratnej korekcji; pozwala to na usunięcie korekcji w celu łatwego uzyskania pliku stratnego. Takie formaty obejmują MPEG-4 SLS (skalowalny do bezstratnego), WavPack i OptimFROG DualStream.

gdy pliki audio mają być przetwarzane przez dalszą kompresję lub do edycji, pożądane jest działanie z niezmienionego oryginału (nieskompresowanego lub bezstratnie skompresowanego)., Przetwarzanie stratnie skompresowanego pliku w pewnym celu zwykle daje ostateczny wynik gorszy od utworzenia tego samego skompresowanego pliku z nieskompresowanego oryginału. Oprócz edycji dźwięku lub miksowania, bezstratna kompresja dźwięku jest często używana do archiwizacji lub jako kopie główne.

stratna kompresjaedytuj

porównanie spektrogramów dźwięku w nieskompresowanym formacie i kilku stratnych formatach., Spektrogramy stratne pokazują ograniczanie pasma wyższych częstotliwości, powszechną technikę związaną ze stratną kompresją dźwięku.

stratna Kompresja dźwięku jest stosowana w szerokim zakresie zastosowań. Oprócz samodzielnych aplikacji do odtwarzania plików w odtwarzaczach MP3 lub komputerach, cyfrowo skompresowane strumienie audio są używane w większości DVD wideo, telewizji cyfrowej, mediów strumieniowych w Internecie, radiu satelitarnym i kablowym oraz coraz częściej w naziemnych audycjach radiowych., Kompresja stratna zazwyczaj osiąga znacznie większą kompresję niż kompresja bezstratna, odrzucając mniej krytyczne dane na podstawie optymalizacji psychoakustycznej.

Psychoakustyka uznaje, że nie wszystkie dane w strumieniu audio mogą być postrzegane przez ludzki układ słuchowy. Większość stratnej kompresji zmniejsza redundancję, najpierw identyfikując Dźwięki nieistotne percepcyjnie, to znaczy dźwięki, które są bardzo trudne do usłyszenia. Typowe przykłady obejmują wysokie częstotliwości lub dźwięki, które występują w tym samym czasie co głośniejsze dźwięki. Te nieistotne dźwięki są kodowane z mniejszą dokładnością lub wcale.,

ze względu na naturę algorytmów stratnych, jakość dźwięku cierpi na utratę generacji cyfrowej, gdy plik jest dekompresowany i rekompresowany. To sprawia, że kompresja stratna nie nadaje się do przechowywania wyników pośrednich w profesjonalnych aplikacjach inżynierii audio, takich jak edycja dźwięku i nagrywanie wielościeżkowe. Jednak stratne formaty, takie jak MP3, są bardzo popularne wśród użytkowników końcowych, ponieważ Rozmiar pliku jest zmniejszony do 5-20% oryginalnego rozmiaru, a megabajt może przechowywać około minuty muzyki w odpowiedniej jakości.,

metody Kodowaniaedit

aby określić, jakie informacje w sygnale dźwiękowym są nieistotne percepcyjnie, większość algorytmów kompresji stratnej wykorzystuje transformaty, takie jak zmodyfikowana Dyskretna transformacja cosinusa (MDCT) do konwersji próbkowanych przebiegów w domenę transformacji, zazwyczaj domenę częstotliwości. Po przekształceniu częstotliwości składowe mogą być ustalane priorytetowo w zależności od tego, jak są słyszalne., Słyszalność komponentów widmowych jest oceniana na podstawie bezwzględnego progu słyszenia i zasad jednoczesnego maskowania-zjawiska, w którym sygnał jest maskowany przez inny sygnał oddzielony częstotliwością-a w niektórych przypadkach maskowanie czasowe-gdzie sygnał jest maskowany przez inny sygnał oddzielony czasem. Kontury o równej głośności mogą być również używane do ważenia percepcyjnego znaczenia składników. Modele kombinacji ludzkiego ucha i mózgu zawierające takie efekty są często nazywane modelami psychoakustycznymi.,

inne typy kompresorów stratnych, takie jak liniowe kodowanie predykcyjne (LPC) używane w mowie, są koderami źródłowymi. LPC wykorzystuje model ludzkiego przewodu głosowego do analizy dźwięków mowy i wnioskowania o parametrach wykorzystywanych przez model do ich wytworzenia. Te zmieniające się parametry są przesyłane lub przechowywane i wykorzystywane do napędzania innego modelu w dekoderze, który odtwarza dźwięk.

formaty stratne są często używane do dystrybucji strumieniowego przesyłania dźwięku lub komunikacji interaktywnej (np. w sieciach telefonii komórkowej)., W takich aplikacjach dane muszą być dekompresowane w miarę ich przepływu, a nie po przesłaniu całego strumienia danych. Nie wszystkie kodeki audio mogą być używane do przesyłania strumieniowego aplikacji.

opóźnienie jest wprowadzane za pomocą metod używanych do kodowania i dekodowania danych. Niektóre kodeki analizują dłuższy segment danych, zwany ramką, w celu optymalizacji wydajności, a następnie kodują go w sposób, który wymaga większego segmentu danych w jednym czasie do dekodowania., Nieodłączne opóźnienie algorytmu kodowania może być krytyczne; na przykład, gdy istnieje dwukierunkowa transmisja danych, na przykład podczas rozmowy telefonicznej, znaczne opóźnienia mogą poważnie pogorszyć postrzeganą jakość.

w przeciwieństwie do szybkości kompresji, która jest proporcjonalna do liczby operacji wymaganych przez algorytm, tutaj opóźnienie odnosi się do liczby próbek, które muszą zostać przeanalizowane przed przetworzeniem bloku audio. W minimalnym przypadku opóźnienie wynosi zero próbek (np. jeśli koder/dekoder po prostu zmniejsza liczbę bitów używanych do kwantyzacji sygnału)., Algorytmy domen czasowych, takie jak LPC, również często mają małe opóźnienia, stąd ich popularność w kodowaniu mowy dla telefonii. W algorytmach takich jak MP3 należy jednak przeanalizować dużą liczbę próbek, aby zaimplementować model psychoakustyczny w dziedzinie częstotliwości, a opóźnienie wynosi 23 ms (46 ms dla komunikacji dwukierunkowej).

kodowanie mowy edytuj

kodowanie mowy jest ważną kategorią kompresji danych audio. Modele percepcyjne używane do oszacowania tego, co ludzkie ucho może usłyszeć, różnią się zasadniczo od tych używanych w muzyce., Zakres częstotliwości potrzebnych do przekazania dźwięków ludzkiego głosu jest zwykle znacznie węższy niż w przypadku muzyki, a dźwięk jest zwykle mniej złożony. W rezultacie mowa może być kodowana w wysokiej jakości przy użyciu stosunkowo niskiej przepływności.

Jeśli dane, które mają być skompresowane, są analogowe (np. napięcie, które zmienia się w czasie), kwantyzacja jest używana do digitalizacji ich na liczby (zwykle liczby całkowite). Jest to określane jako konwersja analogowo-cyfrowa (A/D)., Jeśli liczby całkowite wygenerowane przez kwantyzację są po 8 bitów, to cały zakres sygnału analogowego jest podzielony na 256 przedziałów i wszystkie wartości sygnału w przedziale są kwantyzowane do tej samej liczby. Jeśli generowane są 16-bitowe liczby całkowite, to zakres sygnału analogowego dzieli się na 65 536 interwałów.

relacja ta ilustruje kompromis pomiędzy wysoką rozdzielczością (duża liczba interwałów analogowych) a wysoką kompresją (generowane małe liczby całkowite). Zastosowanie kwantyzacji jest wykorzystywane przez kilka metod kompresji mowy., Jest to możliwe dzięki kombinacji dwóch podejść:

  • tylko kodowanie dźwięków, które mogą być wykonane przez pojedynczy ludzki głos.
  • wyrzucając więcej danych w sygnale-zachowując tylko tyle, aby zrekonstruować „zrozumiały” głos, a nie Pełny Zakres częstotliwości ludzkiego słuchu.

prawdopodobnie najwcześniejszymi algorytmami używanymi w kodowaniu mowy (i ogólnie w kompresji danych audio) były algorytm prawa a i algorytm prawa μ.,

Historiaedit

Solidyne 922: pierwsza na świecie komercyjna karta dźwiękowa do kompresji bitów audio, 1990

Perceptual coding została po raz pierwszy użyta do kompresji kodowania mowy, z liniowym kodowaniem predykcyjnym (LPC). Pierwsze koncepcje LPC sięgają prac Fumitady Itakury (Uniwersytet w Nagoi) i Shuzo Saito (Nippon Telegraph and Telephone) w 1966 roku. W latach 70., Schroeder w Bell Labs opracował formę LPC o nazwie adaptive predictive coding (APC), algorytm kodowania percepcyjnego wykorzystujący właściwości maskujące ludzkiego ucha, a następnie we wczesnych latach 80. Kodowanie percepcyjne jest wykorzystywane przez nowoczesne formaty kompresji audio, takie jak MP3 i AAC.

pierwszy na świecie komercyjny system kompresji audio automatyzacji został opracowany przez Oscara Bonello, profesora inżynierii na Uniwersytecie w Buenos Aires., W 1983 roku, korzystając z psychoakustycznej Zasady maskowania krytycznych pasm, opublikowanej po raz pierwszy w 1967 roku, zaczął opracowywać praktyczną aplikację opartą na niedawno opracowanym komputerze IBM PC, a system automatyzacji transmisji został uruchomiony w 1987 roku pod nazwą Audicom. Dwadzieścia lat później prawie wszystkie stacje radiowe na świecie korzystały z podobnej technologii produkowanej przez wiele firm.

kompendium literatury dla wielu różnych systemów kodowania audio zostało opublikowane w IEEE ' s Journal on Selected Areas in Communications (JSAC), w lutym 1988 roku., O ile były dokumenty sprzed tego czasu, zbiór ten udokumentował całą gamę gotowych, działających koderów audio, prawie wszystkie z nich wykorzystujące techniki percepcyjne (tj. maskujące) oraz pewnego rodzaju analizę częstotliwości i bezgłośne kodowanie back-endowe. Kilka z tych prac zwróciło uwagę na trudność uzyskania dobrego, czystego dźwięku cyfrowego do celów badawczych. Większość, jeśli nie wszyscy, autorzy edycji JSAC byli również aktywni w MPEG-1 Audio committee, który stworzył format MP3.,

VideoEdit

Zobacz także: format kodowania wideo i kodek wideo

Kompresja wideo jest praktyczną implementacją kodowania źródłowego w teorii informacji. W praktyce większość kodeków wideo jest używana wraz z technikami kompresji dźwięku do przechowywania oddzielnych, ale uzupełniających się strumieni danych jako jeden połączony Pakiet przy użyciu tak zwanych formatów kontenerów.

nieskompresowane wideo wymaga bardzo wysokiej szybkości transmisji danych. Chociaż kodeki bezstratnej kompresji wideo działają przy współczynniku kompresji od 5 do 12, typowa kompresja stratna H. 264 wideo ma współczynnik kompresji między 20 A 200.,

dwie kluczowe techniki kompresji wideo stosowane w standardach kodowania wideo to dyskretna transformata cosinusa (DCT) i kompensacja ruchu (MC). Większość standardów kodowania wideo, takich jak formaty H. 26x i MPEG, zwykle używa kodowania wideo DCT z kompensacją ruchu (block motion compensation).

teoria Kodowaniaedit

Dane wideo mogą być reprezentowane jako seria nieruchomych klatek obrazu. Takie dane zazwyczaj zawierają obfite ilości przestrzennej i czasowej redundancji. Algorytmy kompresji wideo próbują zmniejszyć redundancję i przechowywać informacje w bardziej kompaktowy sposób.,

większość formatów i kodeków kompresji wideo wykorzystuje zarówno nadmiarowość przestrzenną, jak i czasową (np. poprzez kodowanie różnicowe z kompensacją ruchu). Podobieństwa można zakodować tylko poprzez przechowywanie różnic między np. czasowo sąsiadującymi ramkami (kodowanie między klatkami) lub przestrzennie sąsiadującymi pikselami (kodowanie wewnątrz klatki).Kompresja między klatkami (kodowanie temporalne delta) jest jedną z najpotężniejszych technik kompresji. Wykorzystuje dane z jednej lub więcej wcześniejszych lub późniejszych ramek w sekwencji do opisu bieżącej ramki., Z drugiej strony kodowanie Intra-frame wykorzystuje tylko dane z bieżącej klatki, skutecznie będąc kompresją nieruchomego obrazu.

Klasa wyspecjalizowanych formatów używanych w kamkorderach i edycji wideo wykorzystuje mniej złożone schematy kompresji, które ograniczają techniki przewidywania do przewidywania wewnątrz klatki.

zazwyczaj Kompresja wideo wykorzystuje dodatkowo techniki kompresji stratnej, takie jak kwantyzacja, które zmniejszają aspekty danych źródłowych, które są (mniej lub bardziej) nieistotne dla ludzkiej percepcji wzrokowej, wykorzystując percepcyjne cechy ludzkiej wizji., Na przykład niewielkie różnice w Kolorze są trudniejsze do zauważenia niż zmiany jasności. Algorytmy kompresji mogą uśrednić kolor na tych podobnych obszarach, aby zmniejszyć przestrzeń, w sposób podobny do tych stosowanych w kompresji obrazu JPEG. Podobnie jak w przypadku kompresji stratnej, istnieje kompromis między jakością wideo i przepływnością, kosztem przetwarzania kompresji i dekompresji oraz wymaganiami systemowymi. Wysoce skompresowane wideo może prezentować widoczne lub rozpraszające artefakty.,

Inne metody niż powszechnie stosowane formaty transformacji oparte na DCT, takie jak kompresja fraktalna, matching pursuit i wykorzystanie dyskretnej transformacji falkowej (DWT), były przedmiotem niektórych badań, ale zazwyczaj nie są używane w praktycznych produktach (z wyjątkiem stosowania kodowania falkowego jako koderów nieruchomych obrazów bez kompensacji ruchu). Zainteresowanie kompresją fraktalną wydaje się słabnąć, ze względu na niedawną analizę teoretyczną wykazującą porównawczy brak skuteczności takich metod.,

kodowanie między klatkamiedytuj
Główny artykuł: kodowanie między klatkami
więcej informacji: kompensacja ruchu

kodowanie między klatkami działa poprzez porównanie każdej klatki wideo z poprzednią. Poszczególne klatki sekwencji wideo są porównywane z jednej klatki do drugiej, a kodek kompresji wideo wysyła tylko różnice do klatki odniesienia. Jeśli ramka zawiera obszary, w których nic się nie przesunęło, system może po prostu wydać krótkie polecenie kopiujące tę część poprzedniej ramki do następnej., Jeśli fragmenty ramki poruszają się w prosty sposób, kompresor może wydać (nieco dłuższe) polecenie, które mówi dekompresorowi, aby przesunął, obrócił, rozjaśnił lub przyciemnił kopię. Ta dłuższa Komenda nadal pozostaje znacznie krótsza niż kompresja intraframe. Zazwyczaj enkoder przesyła również sygnał pozostałości, który opisuje Pozostałe bardziej subtelne różnice w stosunku do obrazów odniesienia. Wykorzystując kodowanie entropii, te sygnały pozostałości mają bardziej zwartą reprezentację niż sygnał pełny., W obszarach wideo o większym ruchu kompresja musi zakodować więcej danych, aby nadążyć za większą liczbą zmieniających się pikseli. Często podczas eksplozji, płomieni, stad zwierząt i w niektórych ujęciach panoramicznych detale o wysokiej częstotliwości prowadzą do spadku jakości lub zwiększenia zmiennej przepływności.,

Hybrydowe formaty transformacji blokowejedytuj

więcej informacji: Dyskretna transformata cosinusa

etapy przetwarzania typowego kodera wideo

obecnie prawie wszystkie powszechnie stosowane metody kompresji wideo (np. T lub ISO) mają tę samą podstawową architekturę, która pochodzi z H. 261, która została standaryzowana w 1988 roku przez ITU-T., Bazują one głównie na DCT, stosowanym do prostokątnych bloków sąsiednich pikseli i predykcji czasowej za pomocą wektorów ruchu, a obecnie także kroku filtrowania w pętli.

na etapie predykcji stosuje się różne techniki deduplikacji i kodowania różnic, które pomagają w dekorowaniu danych i opisywaniu nowych danych na podstawie już przesłanych danych.

następnie prostokątne bloki (pozostałości) danych pikseli są przekształcane do domeny częstotliwości, aby ułatwić kierowanie nieistotnych informacji w kwantyzacji i w celu pewnej redukcji nadmiarowości przestrzennej., Dyskretna transformata cosinusa (DCT), która jest szeroko stosowana w tym zakresie, została wprowadzona przez N. Ahmeda, T. Natarajana i K. R. Rao w 1974 roku.

na głównym etapie przetwarzania stratnego dane są kwantyzowane w celu zmniejszenia informacji nieistotnych dla ludzkiej percepcji wzrokowej.

w ostatnim etapie nadmiarowość statystyczna jest w dużej mierze eliminowana przez koder entropii, który często stosuje jakąś formę kodowania arytmetycznego.

w dodatkowym stopniu filtrowania w pętli można zastosować różne filtry do zrekonstruowanego sygnału obrazu., Obliczając te filtry również wewnątrz pętli kodowania mogą pomóc w kompresji, ponieważ mogą być stosowane do materiału odniesienia, zanim zostanie on wykorzystany w procesie predykcji i mogą być prowadzone za pomocą oryginalnego sygnału. Najpopularniejszym przykładem są filtry deblokujące, które rozmywają artefakty blokujące kwantyzację na granicach bloku transformacji.

Historiaedit

Główny artykuł: Video coding format § History

w 1967 roku, A. H. Robinson i C., Cherry zaproponował schemat kompresji Szerokości pasma dla transmisji analogowych sygnałów telewizyjnych. Dyskretna transformacja cosinusa (DCT), która jest podstawą współczesnej kompresji wideo, została wprowadzona przez Nasira Ahmeda, T. Natarajana i K. R. Rao w 1974 roku.

H. 261, który zadebiutował w 1988 roku, komercyjnie wprowadził dominującą podstawową architekturę technologii kompresji wideo. Był to pierwszy format kodowania wideo oparty na kompresji DCT, który następnie stał się standardem dla wszystkich głównych formatów kodowania wideo, które następnie. H.,261 został opracowany przez wiele firm, w tym Hitachi, PictureTel, NTT, BT i Toshiba.

Najpopularniejszymi standardami kodowania wideo stosowanymi w kodekach są standardy MPEG. MPEG – 1 został opracowany przez Motion Picture Experts Group (MPEG) w 1991 roku i został zaprojektowany do kompresji wideo w jakości VHS. W 1994 roku został zastąpiony przez MPEG-2 / H. 262, który został opracowany przez wiele firm, głównie Sony, Thomson i Mitsubishi Electric. MPEG-2 stał się standardowym formatem wideo dla TELEWIZJI Cyfrowej DVD i SD. W 1999 roku został zastąpiony przez MPEG-4 / H.,263, co było dużym krokiem naprzód w technologii kompresji wideo. Został opracowany przez wiele firm, głównie Mitsubishi Electric, Hitachi i Panasonic.

najczęściej używanym formatem kodowania wideo jest H. 264/MPEG-4 AVC. Został opracowany w 2003 roku przez wiele organizacji, głównie Panasonic, Godo Kaisha IP Bridge i LG Electronics. AVC wprowadził na rynek nowoczesne algorytmy context-adaptive binary arithmetic coding (CABAC) i context-adaptive variable-length coding (CAVLC)., AVC jest głównym standardem kodowania wideo dla płyt Blu-ray i jest szeroko stosowany przez strumieniowe usługi internetowe, takie jak YouTube, Netflix, Vimeo i iTunes Store, oprogramowanie internetowe, takie jak Adobe Flash Player i Microsoft Silverlight oraz różne transmisje HDTV za pośrednictwem telewizji naziemnej i satelitarnej.,

GeneticsEdit

Zobacz także: kompresja danych genomowych

algorytmy kompresji genetycznej są najnowszą generacją bezstratnych algorytmów kompresji danych (zazwyczaj sekwencji nukleotydów) przy użyciu zarówno konwencjonalnych algorytmów kompresji, jak i algorytmów genetycznych dostosowanych do określonego typu danych. W 2012 roku zespół naukowców z Johns Hopkins University opublikował algorytm kompresji genetycznej, który nie wykorzystuje genomu referencyjnego do kompresji., HAPZIPPER został dostosowany do danych Hapmapowych i osiąga ponad 20-krotną kompresję( 95% zmniejszenie rozmiaru pliku), zapewniając 2 – do 4-krotną lepszą kompresję i w znacznie szybszym czasie niż wiodące narzędzia kompresji ogólnego przeznaczenia. W tym celu Chanda, Elhaik i Bader wprowadzili kodowanie oparte na MAF (MAFE), które zmniejsza heterogeniczność zbioru danych poprzez sortowanie SNP według ich mniejszej częstotliwości alleli, homogenizując w ten sposób zbiór danych. Inne algorytmy z 2009 i 2013 roku (DNAZip i GenomeZip) mają stopień kompresji do 1200-krotnie-pozwalający na przechowywanie 6 miliardów ludzkich genomów diploidalnych w 2.,5 megabajtów (w stosunku do genomu referencyjnego lub uśrednionego dla wielu genomów). Po benchmark w genetyce / genomika kompresory danych, patrz

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *