ImageEdit
Entropie kódování vznikl v roce 1940 se zavedením Shannon–Fano, kódování, základ pro Huffmanovo kódování, který byl vyvinut v roce 1950. Transformace kódování sahá až do konce 1960, se zavedením rychlého Fourierova transformace (FFT) kódování v 1968 a Hadamardova transformace v 1969.
důležitou technikou komprese obrazu je diskrétní kosinová transformace (DCT), technika vyvinutá na počátku 70.let., DCT je základem pro JPEG, ztrátový kompresní formát, který byl představen společnou skupinou fotografických odborníků (JPEG) v roce 1992. JPEG výrazně snižuje množství dat potřebných k reprezentaci obrazu za cenu relativně malého snížení kvality obrazu a stala se nejpoužívanější formát souboru obrázku. Jeho vysoce efektivní kompresní algoritmus založený na DCT byl do značné míry zodpovědný za široké šíření digitálních obrázků a digitálních fotografií.
Lempel-Ziv-Welch (LZW) je bezeztrátový kompresní algoritmus vyvinutý v roce 1984. Používá se ve formátu GIF, představeném v roce 1987., DEFLATE, bezeztrátový kompresní algoritmus uvedený v roce 1996, se používá ve formátu Portable Network Graphics (PNG).
waveletová komprese, použití vlnek v kompresi obrazu, začalo po vývoji kódování DCT. Standard JPEG 2000 byl představen v roce 2000. Na rozdíl od algoritmu DCT používaného původním formátem JPEG používá JPEG 2000 místo toho algoritmy diskrétní waveletové transformace (DWT). Technologie JPEG 2000, která zahrnuje rozšíření Motion JPEG 2000, byla vybrána jako standard kódování videa pro digitální kino v roce 2004.,
AudioEdit
Audio komprese dat, nesmí být zaměňována s komprese dynamického rozsahu, má potenciál snížit přenosovou šířku pásma a požadavky na úložiště pro audio data. Algoritmy komprese zvuku jsou implementovány v softwaru jako zvukové kodeky. V obou ztrátová a bezeztrátová komprese, informační redundance je snížena, pomocí metod, jako je kódování, kvantování diskrétní kosinové transformace a lineární predikce pro snížení množství informací, které se používá k reprezentaci nekomprimovaná data.,
ztrátové algoritmy komprese zvuku poskytují vyšší kompresi a používají se v mnoha zvukových aplikacích včetně Vorbis a MP3. Tyto algoritmy téměř všechny spoléhají na psychoakustiku, aby eliminovaly nebo snížily věrnost méně slyšitelných zvuků, čímž snížily prostor potřebný k jejich uložení nebo přenosu.
přijatelný kompromis mezi ztrátou kvality zvuku a přenosem nebo velikostí úložiště závisí na aplikaci., Například jeden kompaktní disk 640 MB (CD) drží přibližně jednu hodinu nekomprimované hudby s vysokou věrností, méně než 2 hodiny hudby bezeztrátově komprimované nebo 7 hodin hudby komprimované ve formátu MP3 se střední bitovou rychlostí. Digitální zvukový záznamník může obvykle ukládat přibližně 200 hodin jasně srozumitelné řeči v 640 MB.
bezeztrátová komprese zvuku vytváří reprezentaci digitálních dat, která lze dekódovat na přesný digitální duplikát originálu. Kompresní poměry jsou kolem 50-60% původní velikosti, což je podobné jako u generické bezztrátové komprese dat., Bezeztrátové kodeky používají jako základ pro odhad signálu tvarování křivek nebo lineární predikci. Parametry popisující odhad a rozdíl mezi odhadem a skutečným signálem jsou kódovány Samostatně.
existuje řada bezztrátových formátů komprese zvuku. Viz seznam bezztrátových kodeků pro výpis. Některé formáty jsou spojeny s odlišným systémem, jako je přímý přenos proudu, používaný v Super Audio CD a Meridian bezztrátovém balení, používaný v DVD-Audio, Dolby TrueHD, Blu-ray a HD DVD.,
Některé formáty zvukových souborů funkce kombinace ztrátový formát a snížení korekce; to umožňuje odizolování korekci snadno získat ztrátovou souboru. Tyto formáty zahrnují MPEG-4 SLS (škálovatelné na bezeztrátové), WavPack a OptimFROG DualStream.
při zpracování zvukových souborů, a to buď další kompresí nebo pro úpravy, je žádoucí pracovat z nezměněného originálu (nekomprimovaného nebo bezztrátově komprimovaného)., Zpracování ztraceného komprimovaného souboru pro nějaký účel obvykle vytváří konečný výsledek nižší než vytvoření stejného komprimovaného souboru z nekomprimovaného originálu. Kromě úpravy zvuku nebo míchání se bezztrátová komprese zvuku často používá pro archivní ukládání nebo jako hlavní kopie.
Ztrátové audio compressionEdit
Porovnání spekter zvuku v nekomprimovaném formátu a několika ztrátové formáty., Ztrátové spektrogramy ukazují bandlimitování vyšších frekvencí, což je běžná technika spojená s ztrátovou kompresí zvuku.
ztrátová komprese zvuku se používá v široké škále aplikací. Kromě samostatný audio-pouze aplikace pro přehrávání souborů v MP3 přehrávače nebo počítače, digitálně komprimované zvukové proudy jsou používány ve většině video, Dvd, digitální televizní vysílání, streamování médií na Internet, satelitní a kabelové rádio, a stále více v pozemní rozhlasové vysílání., Ztrátová komprese obvykle dosahuje mnohem větší komprese než bezztrátová komprese, vyřazením méně kritických dat založených na psychoakustických optimalizacích.
Psychoakustika uznává, že ne všechna data v audio streamu mohou být vnímána lidským sluchovým systémem. Většina ztrátové komprese snižuje redundanci tím, že nejprve identifikuje vnímavě irelevantní zvuky, to znamená zvuky, které jsou velmi těžké slyšet. Typické příklady zahrnují vysoké frekvence nebo zvuky, které se vyskytují současně s hlasitějšími zvuky. Tyto irelevantní zvuky jsou kódovány se sníženou přesností nebo vůbec ne.,
vzhledem k povaze ztrátových algoritmů trpí kvalita zvuku ztrátou digitální generace, když je soubor dekomprimován a komprimován. Díky tomu je ztrátová komprese nevhodná pro ukládání průběžných výsledků v profesionálních aplikacích zvukového inženýrství, jako je editace zvuku a vícestopé nahrávání. Ztrátové formáty, jako je MP3, jsou však u koncových uživatelů velmi oblíbené, protože Velikost souboru je snížena na 5-20% původní velikosti a megabajt může ukládat hudbu za minutu v odpovídající kvalitě.,
Kódování methodsEdit
určit, jaké informace v audio signál je vjemově irelevantní, nejvíce ztrátové kompresní algoritmy použít transformuje jako modifikované diskrétní kosinové transformace (MDCT) převést časové domény do vzorku křivky do transformační doméně, typicky frekvenční doméně. Po transformaci mohou být frekvence komponent upřednostněny podle toho, jak jsou slyšitelné., Slyšitelnost spektrálních složek je hodnocena pomocí absolutní práh slyšení a principy simultánní maskování—jev, při němž je signál maskován další signál odděleny frekvenci—a, v některých případech, časové maskování—kde signál je maskován tím, že další signál odděleny časem. Kontury se stejnou hlasitostí mohou být také použity k vážení percepční důležitosti složek. Modely kombinace lidského ucha a mozku zahrnující takové účinky se často nazývají psychoakustické modely.,
jiné typy ztrátových kompresorů, jako je lineární prediktivní kódování (LPC) používané s řečí, jsou zdrojové kodéry. LPC používá model lidského vokálního traktu k analýze zvuků řeči a odvození parametrů používaných modelem k jejich výrobě v okamžiku na okamžik. Tyto měnící se parametry jsou přenášeny nebo uloženy a slouží k pohonu jiného modelu v dekodéru, který reprodukuje zvuk.
ztrátové formáty se často používají pro distribuci streamovaného zvuku nebo interaktivní komunikace (například v sítích mobilních telefonů)., V takových aplikacích musí být data dekomprimována jako datové toky, spíše než po přenosu celého datového toku. Ne všechny zvukové kodeky lze použít pro streamování aplikací.
latence je zavedena metodami používanými k kódování a dekódování dat. Některé kodeky budou analyzovat delší segment, tzv. rám, data pro optimalizaci účinnosti, a pak kód to způsobem, který vyžaduje větší segment dat najednou dekódovat., Přirozená latence kódovacího algoritmu může být kritická; například při obousměrném přenosu dat, například při telefonickém rozhovoru, může významné zpoždění vážně zhoršit vnímanou kvalitu.
Na rozdíl od rychlosti komprese, která je úměrná počtu operací požadovaných algoritmem, zde latence označuje počet vzorků, které musí být analyzovány před zpracováním bloku zvuku. V minimálním případě je latence nulová (např. pokud kodér/dekodér jednoduše sníží počet bitů použitých k kvantizaci signálu)., Algoritmy časových domén, jako je LPC, mají také často nízké latence, a proto jejich popularita v kódování řeči pro telefonii. V algoritmech jako MP3, nicméně, velký počet vzorků, které mají být analyzovány, aby provádět psychoakustický model ve frekvenční doméně, a latence je v pořadí 23 ms (46 ms pro obousměrnou komunikaci).
kódování řeči
kódování řeči je důležitou kategorií komprese zvukových dat. Percepční modely používané k odhadu toho, co lidské ucho slyší, se obecně poněkud liší od těch, které se používají pro hudbu., Rozsah frekvencí, předávat zvuky lidského hlasu jsou obvykle mnohem užší, než je potřebné pro hudbu a zvuk je obvykle méně komplexní. Výsledkem je, že řeč může být kódována ve vysoké kvalitě pomocí relativně nízké bitové rychlosti.
pokud jsou data, která mají být komprimována, analogová (například napětí, které se mění s časem), použije se kvantizace k digitalizaci na čísla (obvykle celá čísla). Toto je označováno jako analogově-digitální (a/D) konverze., Pokud jsou celá čísla generovaná kvantizací 8 bitů, pak je celý rozsah analogového signálu rozdělen na 256 intervalů a všechny hodnoty signálu v intervalu jsou kvantizovány na stejné číslo. Pokud jsou generována 16bitová celá čísla, rozsah analogového signálu je rozdělen na 65 536 intervalů.
tento vztah ilustruje kompromis mezi vysokým rozlišením (velký počet analogových intervalů) a vysokou kompresí (generovaná malá celá čísla). Tato aplikace kvantizace se používá několika metodami komprese řeči., Toho je dosaženo obecně nějakou kombinací dvou přístupů:
- pouze kódování zvuků, které by mohly být vytvořeny jediným lidským hlasem.
- zahodit více dat v udržování signálu jen natolik, aby rekonstruovat“ srozumitelný “ hlas, spíše než plný frekvenční rozsah lidského sluchu.
snad nejčasnější algoritmy používané v kódování řeči (a komprese zvukových dat obecně) byly a-law algoritmus a μ-law algoritmus.,
HistoryEdit
Solidyne 922: svět je první komerční audio bit komprese zvukové karty pro PC, 1990
Percepční kódování byl poprvé použit pro řeč kódování, komprese, lineární prediktivní kódování (LPC). Počáteční koncepty pro LPC se datují do práce Fumitady Itakury (Nagoya University) a Shuzo Saito (Nippon Telegraph a telefon) v roce 1966. Během 1970, Bishnu s. Atal a Manfred R., Schröder v Bell Labs vyvinuli formě LPC nazývá adaptivní prediktivní kódování (APC), percepční kódování algoritmus, který využil maskovací vlastnosti lidského ucha, následoval v začátku roku 1980 s code-excited linear prediction (POMOC) algoritmus, který dosáhl významných kompresní poměr pro svou dobu. Percepční kódování používají moderní formáty komprese zvuku, jako jsou MP3 a AAC.
první komerční automatizační audio kompresní systém na světě byl vyvinut Oscarem Bonellem, profesorem inženýrství na univerzitě v Buenos Aires., V roce 1983, pomocí psychoakustický princip maskování kritických pásmech, nejprve publikoval v roce 1967, on začal rozvíjet praktické aplikace založené na nedávno vyvinutých IBM PC počítači, a vysílání automatizace systému byla zahájena v roce 1987 pod názvem Audicom. O dvacet let později téměř všechny rozhlasové stanice na světě používaly podobnou technologii vyrobenou řadou společností.
literární kompendium pro širokou škálu audio kódovacích systémů bylo publikováno v časopise IEEE o vybraných oblastech komunikace (JSAC) v únoru 1988., Zatímco tam byly některé dokumenty z dřívější doby, tato kolekce zdokumentovanou celou řadu hotových, pracovní audio kodérů, téměř všechny z nich pomocí percepční (tj. maskování) metod a nějaké frekvenční analýzy a back-end tichý kódování. Několik z těchto dokumentů poznamenalo obtížnost získání dobrého, čistého digitálního zvuku pro výzkumné účely. Většina, ne-li všichni, autorů v JSAC edition byla také aktivní ve zvukové Komisi MPEG-1, která vytvořila formát MP3.,
VideoEdit
komprese videa je praktická implementace zdrojového kódování v teorii informací. V praxi se většina video kodeků používá vedle technik komprese zvuku k ukládání samostatných, ale doplňkových datových toků jako jednoho kombinovaného balíčku pomocí tzv.
nekomprimované video vyžaduje velmi vysokou rychlost přenosu dat. Přestože bezeztrátové kodeky komprese videa fungují při kompresním faktoru 5 až 12, typické video ztrátové komprese h.264 má kompresní faktor mezi 20 a 200.,
dvě klíčové techniky komprese videa používané ve standardech kódování videa jsou diskrétní kosinová transformace (DCT) a kompenzace pohybu (MC). Většina standardů kódování videa, jako jsou formáty H.26x a MPEG, obvykle používá kódování videa DCT kompenzované pohybem (kompenzace pohybu bloku).
teorie Kódováníedit
Video data mohou být reprezentována jako řada statických obrazových rámečků. Taková data obvykle obsahují velké množství prostorové a časové redundance. Algoritmy komprese videa se pokoušejí snížit redundanci a kompaktněji ukládat informace.,
většina formátů komprese videa a kodeků využívá prostorovou i časovou redundanci (např. rozdílným kódováním s kompenzací pohybu). Podobnosti lze zakódovat pouze ukládáním rozdílů mezi např. časově sousedními snímky (inter-frame coding) nebo prostorově sousedními pixely (intra-frame coding).Inter-frame komprese (Časové delta kódování) je jedním z nejsilnějších kompresních technik. To (re)používá data z jednoho nebo více dříve nebo později snímků v pořadí popsat aktuální snímek., Intra-frame kódování, na druhé straně, používá pouze data z aktuálního rámce, účinně je still-komprese obrazu.
třída specializovaných formátů používaných v videokamerách a editaci videa používá méně složité kompresní schémata, která omezují jejich Predikční techniky na predikci uvnitř rámce.
Obvykle komprese videa navíc využívá ztrátovou kompresi techniky, jako je kvantování, které snižují aspekty, zdroje dat, které jsou (více či méně) irelevantní pro lidské vizuální vnímání tím, že využívá percepční funkce lidského zraku., Například malé rozdíly v barvě jsou obtížnější vnímat než změny jasu. Kompresní algoritmy mohou průměrovat barvu v těchto podobných oblastech, aby snížily prostor, podobným způsobem jako v kompresi obrazu JPEG. Stejně jako u všech ztrátových kompresí existuje kompromis mezi kvalitou videa a přenosovou rychlostí, náklady na zpracování komprese a dekomprese a požadavky na systém. Vysoce komprimované video může představovat viditelné nebo rušivé artefakty.,
Jiné metody, než je převládající DCT-based transformace formátů, jako fraktální komprese, odpovídající výkon a použití diskrétní vlnkové transformace (DWT), byly předmětem nějakého výzkumu, ale nejsou obvykle používány v praktických výrobků (s výjimkou pro použití waveletové kódování jako stále obraz kodéry bez kompenzace pohybu). Zdá se, že zájem o fraktální kompresi klesá kvůli nedávné teoretické analýze, která ukazuje srovnávací nedostatečnou účinnost těchto metod.,
Inter-frame codingEdit
Inter-frame kódování funguje na základě porovnání jednotlivých snímků ve videu s předchozí. Jednotlivé snímky video sekvence jsou porovnávány z jednoho snímku do druhého a kodek komprese videa odesílá pouze rozdíly do referenčního rámce. Pokud snímek obsahuje oblastech, kde se nic nepohnulo, systém může jednoduše vydat krátký příkaz, který kopíruje část předchozího snímku na další., Pokud části rámu pohybovat v jednoduchým způsobem, kompresor může vydávat (mírně delší) příkaz, který říká, dekompresor, posunout, otočit, zesvětlit, nebo ztmavit kopie. Tento delší příkaz stále zůstává mnohem kratší než komprese intraframe. Obvykle bude kodér také přenášet signál zbytku, který popisuje zbývající jemnější rozdíly s referenčními snímky. Pomocí kódování entropie mají tyto signály reziduí kompaktnější reprezentaci než plný signál., V oblastech videa s větším pohybem musí komprese kódovat více dat, aby udržovala krok s větším počtem pixelů, které se mění. Běžně během exploze, plameny, stáda zvířat, a v některých panoramatických záběrů, vysokofrekvenční detail vede ke kvalitě se snižuje nebo zvyšuje v proměnný datový tok.,
Hybridní blok na bázi transformovat formatsEdit
fázích Zpracování typické video encoder
Dnes, téměř všechny běžně používané video kompresní metody (např. ty v normy schválené ITU-T nebo ISO) sdílet stejnou základní architekturu, která sahá až H. 261, který byl standardizován v roce 1988 podle ITU-T., Většinou se spoléhají na DCT, aplikované na obdélníkové bloky sousedních pixelů, a časová předpověď pomocí pohybových vektorů, stejně jako v dnešní době také krok filtrování ve smyčce.
ve fázi predikce se používají různé techniky deduplikace a kódování rozdílů, které pomáhají dekorovat data a popsat nová data na základě již přenášených dat.
pak jsou obdélníkové bloky (reziduí) pixelových dat transformovány do frekvenční domény, aby se usnadnilo cílení irelevantních informací v kvantizaci a pro určité snížení prostorové redundance., Diskrétní kosinová transformace (DCT), která je v tomto ohledu široce používána, byla zavedena N.Ahmed, T. Natarajan a K. R. Rao v roce 1974.
v hlavní fázi ztrátového zpracování se data kvantizují, aby se snížily informace, které jsou pro lidské vizuální vnímání irelevantní.
v poslední fázi je statistická redundance do značné míry eliminována entropickým kodérem, který často používá nějakou formu aritmetického kódování.
v další fázi filtrování ve smyčce lze na rekonstruovaný obrazový signál aplikovat různé filtry., Výpočtem těchto filtrů také uvnitř kódování smyčky mohou pomoci kompresi, protože mohou být použity na referenční materiál před tím, než se používá v procesu predikce a mohou být vedeny pomocí původního signálu. Nejpopulárnější příkladem jsou deblokovací filtr, který rozostřit blokování artefakty z kvantování nespojitosti na transformaci bloku hranice.
HistoryEdit
v roce 1967, a. H. Robinson a C., Cherry navrhl schéma komprese šířky pásma kódování po celé délce pro přenos analogových televizních signálů. Diskrétní kosinová transformace (DCT), která je zásadní pro moderní kompresi videa, byla představena Nasirem Ahmedem, T. Natarajanem a K. R. Rao v roce 1974.
H. 261, který debutoval v roce 1988, komerčně představil převládající základní architekturu technologie komprese videa. Byl to první formát kódování videa založený na kompresi DCT, který by se následně stal standardem pro všechny hlavní formáty kódování videa, které následovaly. H.,261 byl vyvinut řadou společností, včetně Hitachi, PictureTel, NTT, BT a Toshiba.
nejoblíbenější standardy kódování videa používané pro kodeky byly standardy MPEG. MPEG – 1 byl vyvinut skupinou Motion Picture Experts Group (MPEG) v roce 1991 a byl navržen tak, aby komprimoval video v kvalitě VHS. Bylo to podařilo v roce 1994 MPEG-2/H. 262, který byl vyvinut počet společností, a to především Sony, Thomson a Mitsubishi Electric. MPEG – 2 se stal standardním video formátem pro digitální televizi DVD a SD. V roce 1999 následovala MPEG-4 / H.,263, což byl velký skok vpřed pro technologii komprese videa. Byla vyvinuta řadou společností, především Mitsubishi Electric, Hitachi a Panasonic.
nejrozšířenější formát kódování videa je h. 264 / MPEG-4 AVC. Byl vyvinut v roce 2003 řadou organizací, především Panasonic, Godo Kaisha IP Bridge a LG Electronics. AVC komerčně představila moderní kontextové adaptivní binární aritmetické kódování (CABAC) a algoritmy kódování s adaptivní proměnnou délkou (CAVLC)., AVC je hlavní video kódování standard pro Blu-ray Disky, a je široce používán streamování, internetové služby jako YouTube, Netflix, Vimeo, iTunes Store, web software, jako je Adobe Flash Player a Microsoft Silverlight, a různé HDTV vysílání přes pozemní a satelitní televize.,
GeneticsEdit
Genetika kompresní algoritmy jsou nejnovější generace bezeztrátové algoritmy, které komprimují data (typicky sekvence nukleotidů) pomocí konvenční kompresní algoritmy a genetické algoritmy přizpůsobené na konkrétní datový typ. V roce 2012 publikoval tým vědců z Johns Hopkins University algoritmus genetické komprese, který nepoužívá referenční genom pro kompresi., HAPZIPPER byl přizpůsoben pro HapMap dat a dosahuje více než 20-krát komprese (95% snížení velikosti souboru), poskytující 2 – až 4-násobně lepší komprese a v mnohem rychlejší čas než vedoucí všeobecné účely komprese utilit. Pro to, Chanda, Elhaik, a Bader představil MAF na základě kódování (MAFE), což snižuje heterogenitu datového souboru třídění Snp jejich menší frekvenci alel, tedy homogenizaci dataset. Ostatní algoritmy v roce 2009 a 2013 (DNAZip a GenomeZip) kompresní poměr až 1200-fold—umožňuje 6 miliard basepair diploidní lidské genomy být uloženy v 2.,5 megabajtů (vzhledem k referenčnímu genomu nebo průměrně nad mnoha genomy). Pro benchmark v genetice / Genomics datové kompresory, viz
Napsat komentář