Data compressie

geplaatst in: Articles | 0

Imagedit

Main article: Image compressie

Entropiecodering ontstond in de jaren 1940 met de introductie van Shannon–Fano-codering, de basis voor Huffman-codering die werd ontwikkeld in 1950. Transformation coding dateert uit de late jaren 1960, met de introductie van fast Fourier transformation (FFT) codering in 1968 en de Hadamard transformation in 1969.

een belangrijke beeldcompressietechniek is de discrete cosinustransformatie (DCT), een techniek die in het begin van de jaren zeventig werd ontwikkeld., DCT is de basis voor JPEG, een compressieformaat met verlies dat in 1992 werd geïntroduceerd door de Joint Photographic Experts Group (JPEG). JPEG vermindert sterk de hoeveelheid gegevens die nodig zijn om een afbeelding te vertegenwoordigen ten koste van een relatief kleine vermindering van de beeldkwaliteit en is uitgegroeid tot de meest gebruikte beeldbestandsformaat. Zijn zeer efficiënte DCT-gebaseerde compressie algoritme was grotendeels verantwoordelijk voor de brede verspreiding van digitale beelden en digitale foto ‘ s.

Lempel-Ziv-Welch (LZW) is een compressiealgoritme zonder verlies, ontwikkeld in 1984. Het wordt gebruikt in het GIF-formaat, geïntroduceerd in 1987., DEFLATE, een verliesloos compressiealgoritme gespecificeerd in 1996, wordt gebruikt in het Portable Network Graphics (PNG) formaat.

Wavelet compressie, het gebruik van wavelets in beeldcompressie, begon na de ontwikkeling van DCT-codering. De jpeg 2000-standaard werd in 2000 geïntroduceerd. In tegenstelling tot het DCT-algoritme van het originele JPEG-formaat, gebruikt JPEG 2000 in plaats daarvan discrete wavelet transform (DWT) – algoritmen. JPEG 2000-technologie, inclusief de Motion Jpeg 2000-extensie, werd geselecteerd als de standaard voor videocodering voor digitale cinema in 2004.,

AudioEdit

zie ook: audiocoderingsformaat en audiocodec

audiogegevenscompressie, niet te verwarren met compressie van dynamisch bereik, kan de transmissiebandbreedte en opslagvereisten van audiogegevens verminderen. Audio compressie algoritmen worden geà mplementeerd in software als audio codecs. In zowel lossy als lossless compressie, informatie redundantie wordt verminderd, met behulp van methoden zoals codering, kwantisatie discrete cosinus transformeren en lineaire voorspelling om de hoeveelheid informatie die wordt gebruikt om de niet-gecomprimeerde gegevens te vertegenwoordigen verminderen.,

algoritmen voor geluidscompressie met verlies bieden hogere compressie en worden gebruikt in tal van audiotoepassingen, waaronder Vorbis en MP3. Deze algoritmen vertrouwen bijna allemaal op psychoakoestiek om de betrouwbaarheid van minder hoorbare geluiden te elimineren of te verminderen, waardoor de ruimte die nodig is om ze op te slaan of te verzenden wordt verminderd.

de aanvaardbare afweging tussen verlies van audiokwaliteit en transmissie-of opslaggrootte hangt af van de toepassing., Bijvoorbeeld, een 640 MB compact disc (CD) bevat ongeveer een uur ongecomprimeerde high fidelity muziek, minder dan 2 uur muziek gecomprimeerd verliesloos, of 7 uur muziek gecomprimeerd in de MP3-formaat met een gemiddelde bitsnelheid. Een digitale geluidsrecorder kan over het algemeen ongeveer 200 uur duidelijk verstaanbare spraak opslaan in 640 MB.

Geluidscompressie zonder kwaliteitsverlies produceert een weergave van digitale gegevens die kunnen worden gedecodeerd tot een exact digitaal duplicaat van het origineel. Compressieratio ‘ s zijn ongeveer 50-60% van de oorspronkelijke grootte, die vergelijkbaar is met die voor generieke verliesloze datacompressie., Lossless codecs gebruiken curve fitting of lineaire voorspelling als basis voor het schatten van het signaal. Parameters die de schatting en het verschil tussen de schatting en het werkelijke signaal beschrijven, worden afzonderlijk gecodeerd.

Er bestaan een aantal geluidscompressieformaten zonder kwaliteitsverlies. Zie Lijst met lossless codecs voor een vermelding. Sommige formaten worden geassocieerd met een apart systeem, zoals directe Stream Transfer, gebruikt in Super Audio CD en Meridian Lossless verpakking, gebruikt in DVD-Audio, Dolby TrueHD, Blu-ray en HD DVD.,

sommige audiobestandsindelingen hebben een combinatie van een formaat met verlies en een correctie zonder verlies; hierdoor kan de correctie worden verwijderd om gemakkelijk een bestand met verlies te verkrijgen. Dergelijke formaten omvatten MPEG-4 SLS (schaalbaar tot Lossless), WavPack, en OptimFROG DualStream.

wanneer audiobestanden moeten worden verwerkt, hetzij door verdere compressie of om te bewerken, is het wenselijk om te werken vanuit een ongewijzigd origineel (ongecomprimeerd of verliesloos gecomprimeerd)., Het verwerken van een met verlies gecomprimeerd bestand voor een bepaald doel levert meestal een eindresultaat op dat inferieur is aan het maken van hetzelfde gecomprimeerde bestand uit een ongecomprimeerd origineel. Naast het bewerken of mixen van geluid, wordt verliesloze audiocompressie vaak gebruikt voor archiefopslag of als masterkopieën.

audio – compressie met Verliesdit

vergelijking van spectrograms van audio in een niet-gecomprimeerd formaat en verschillende formaten met verlies., De lossy spectrograms tonen bandlimiting van hogere frequenties, een veel voorkomende techniek geassocieerd met lossy audio compressie.

Geluidscompressie met kwaliteitsverlies wordt in een groot aantal toepassingen gebruikt. Naast standalone audio-only toepassingen van het afspelen van bestanden in MP3-spelers of computers, worden digitaal gecomprimeerde audiostreams gebruikt in de meeste video-DVD ‘ s, digitale televisie, streaming media op het Internet, satelliet-en kabelradio, en in toenemende mate in terrestrische radio-uitzendingen., Lossy compressie bereikt doorgaans een veel grotere compressie dan lossless compressie, door minder kritische gegevens te verwijderen op basis van psychoakoestische optimalisaties.

psychoakoestiek herkent dat niet alle gegevens in een audiostream kunnen worden waargenomen door het menselijke auditieve systeem. De meeste verlieslatende compressie vermindert redundantie door eerst perceptueel irrelevante geluiden te identificeren, dat wil zeggen geluiden die erg moeilijk te horen zijn. Typische voorbeelden zijn hoge frequenties of geluiden die tegelijkertijd optreden als luidere geluiden. Die irrelevante geluiden zijn gecodeerd met verminderde nauwkeurigheid of helemaal niet.,

vanwege de aard van algoritmen met verlies lijdt audiokwaliteit een digitaal generatieverlies wanneer een bestand wordt gedecomprimeerd en opnieuw gecomprimeerd. Dit maakt lossy compressie ongeschikt voor het opslaan van de tussenresultaten in professionele audio engineering toepassingen, zoals geluidsbewerking en multitrack opname. Echter, lossy formaten zoals MP3 zijn erg populair bij eindgebruikers als de bestandsgrootte is gereduceerd tot 5-20% van de oorspronkelijke grootte en een megabyte kan opslaan over een minuut waarde van muziek op adequate kwaliteit.,

Coderingsmethodenedit

om te bepalen welke informatie in een audiosignaal perceptueel irrelevant is, gebruiken de meeste compressiealgoritmen met verlies transformaties zoals de modified discrete cosinustransform (MDCT) om tijddomein gesamplede golfvormen om te zetten in een transformatiedomein, meestal het frequentiedomein. Eenmaal getransformeerd, kunnen componentfrequenties worden geprioriteerd op basis van hoe hoorbaar ze zijn., De hoorbaarheid van spectrale componenten wordt beoordeeld aan de hand van de absolute drempel van het gehoor en de principes van gelijktijdige maskering—het fenomeen waarbij een signaal wordt gemaskeerd door een ander signaal gescheiden door frequentie—en, in sommige gevallen, tijdelijke maskering—waarbij een signaal wordt gemaskeerd door een ander signaal gescheiden door de tijd. De contouren van gelijke luidheid kunnen ook worden gebruikt om het perceptuele belang van componenten te wegen. Modellen van de menselijke oor-hersenen combinatie die dergelijke effecten bevatten worden vaak psychoakoestische modellen genoemd.,

andere typen compressoren met verlies, zoals de lineaire voorspellende codering (LPC) die wordt gebruikt bij spraak, zijn op broncode gebaseerde programmeurs. LPC gebruikt een model van het menselijke stemkanaal om spraakgeluiden te analyseren en de parameters af te leiden die door het model worden gebruikt om ze van moment tot moment te produceren. Deze veranderende parameters worden verzonden of opgeslagen en gebruikt om een ander model in de decoder te sturen die het geluid weergeeft.

verliesgevende formaten worden vaak gebruikt voor de distributie van streaming audio of interactieve communicatie (zoals in mobiele telefoonnetwerken)., In dergelijke toepassingen moeten de gegevens worden gedecomprimeerd als de gegevensstromen, in plaats van Nadat de volledige gegevensstroom is verzonden. Niet alle audio codecs kunnen worden gebruikt voor streaming toepassingen.

latentie wordt geïntroduceerd door de methoden die worden gebruikt om de gegevens te coderen en te decoderen. Sommige codecs analyseren een langer segment, genaamd een frame, van de gegevens om de efficiëntie te optimaliseren, en dan coderen op een manier die een groter segment van gegevens in een keer vereist om te decoderen., De inherente latentie van het coderingsalgoritme kan van cruciaal belang zijn; bijvoorbeeld, wanneer er een tweerichtingsoverdracht van gegevens is, zoals bij een telefoongesprek, kunnen aanzienlijke vertragingen de waargenomen kwaliteit ernstig aantasten.

in tegenstelling tot de compressiesnelheid, die evenredig is met het aantal bewerkingen dat door het algoritme wordt vereist, verwijst latency hier naar het aantal samples dat moet worden geanalyseerd voordat een audioblok wordt verwerkt. In het minimale geval, latency is nul monsters (bijvoorbeeld, als de coder/decoder gewoon vermindert het aantal bits gebruikt om het signaal te kwantiseren)., Tijddomeinalgoritmen zoals LPC hebben ook vaak lage latencies, vandaar hun populariteit in spraakcodering voor telefonie. In algoritmen zoals MP3 moet echter een groot aantal monsters worden geanalyseerd om een psychoakoestisch model in het frequentiedomein te implementeren, en de latentie ligt in de Orde van 23 ms (46 ms voor tweewegcommunicatie).

Spraakcodedit

spraakcodering is een belangrijke categorie van audiogegevenscompressie. De perceptuele modellen die gebruikt worden om in te schatten wat een menselijk oor kan horen zijn over het algemeen iets anders dan die gebruikt worden voor muziek., Het bereik van de frequenties die nodig zijn om de geluiden van een menselijke stem over te brengen zijn normaal gesproken veel smaller dan dat nodig is voor muziek, en het geluid is normaal gesproken minder complex. Als gevolg hiervan kan spraak worden gecodeerd op hoge kwaliteit met behulp van een relatief lage bitsnelheid.

als de te comprimeren gegevens analoog zijn (zoals een spanning die varieert met de tijd), wordt kwantisatie gebruikt om het te digitaliseren in getallen (normaal gehele getallen). Dit wordt aangeduid als analoog-naar-digitaal (A / D) conversie., Als de gehele getallen gegenereerd door kwantisatie elk 8 bits zijn, dan is het gehele bereik van het analoge signaal verdeeld in 256 intervallen en worden alle signaalwaarden binnen een interval gekwantiseerd tot hetzelfde getal. Als 16-bit gehele getallen worden gegenereerd, dan is het bereik van het analoge signaal verdeeld in 65.536 intervallen.

deze relatie illustreert het compromis tussen hoge resolutie (een groot aantal analoge intervallen) en hoge compressie (kleine gehele getallen gegenereerd). Deze toepassing van kwantisatie wordt gebruikt door verschillende spraakcompressiemethoden., Dit wordt in het algemeen bereikt door een combinatie van twee benaderingen:

  • alleen coderen van geluiden die kunnen worden gemaakt door een enkele menselijke stem.
  • het weggooien van meer gegevens in het signaal—houden net genoeg om een “verstaanbare” stem te reconstrueren in plaats van het volledige frequentiebereik van het menselijk gehoor.

misschien waren de vroegste algoritmen die gebruikt werden bij het coderen van spraak (en bij het comprimeren van audiogegevens in het algemeen) het A-law-algoritme en het μ-law-algoritme.,

HistoryEdit

Solidyne 922: ’s werelds eerste commerciële audio bit compressie geluidskaart voor PC, 1990

perceptuele codering werd voor het eerst gebruikt voor spraakcodering compressie, met linear predictive coding (LPC). De eerste concepten voor LPC dateren uit het werk van Fumitada Itakura (Nagoya University) en Shuzo Saito (Nippon Telegraph and Telephone) in 1966. Tijdens de jaren 1970, Bishnu S. Atal en Manfred R., Schroeder van Bell Labs ontwikkelde een vorm van LPC genaamd adaptive predictive coding (APC), een perceptueel coderingsalgoritme dat de maskerende eigenschappen van het menselijk oor exploiteerde, gevolgd in de vroege jaren 1980 met het code-excited linear prediction (CELP) algoritme dat voor zijn tijd een significante compressieverhouding bereikte. Perceptuele codering wordt gebruikt door moderne audio compressie formaten zoals MP3 en AAC.’s werelds eerste commerciële broadcast automation audio compressie systeem werd ontwikkeld door Oscar Bonello, een ingenieur professor aan de Universiteit van Buenos Aires., In 1983, met behulp van het psychoakoestische principe van het maskeren van kritische banden voor het eerst gepubliceerd in 1967, begon hij met het ontwikkelen van een praktische toepassing op basis van de onlangs ontwikkelde IBM PC-computer, en de uitzending automatiseringssysteem werd gelanceerd in 1987 onder de naam Audicom. Twintig jaar later, bijna alle radiostations in de wereld werden met behulp van soortgelijke technologie vervaardigd door een aantal bedrijven.een literatuurcompendium voor een grote verscheidenheid aan audiocoderingssystemen werd in februari 1988 gepubliceerd in het Journal on Selected Areas in Communications (JSAC) van de IEEE., Hoewel er een aantal papers van voor die tijd, deze collectie documenteerde een hele verscheidenheid van afgewerkte, werkende audio coders, bijna allemaal met behulp van perceptuele (dwz masking) technieken en een soort van frequentie-analyse en back-end geruisloze codering. Een aantal van deze papers merkte op de moeilijkheid van het verkrijgen van goede, schone digitale audio voor onderzoeksdoeleinden. De meeste, zo niet alle, van de auteurs in de jsac editie waren ook actief in de MPEG-1 Audio Comité, die het MP3-formaat gemaakt.,

VideoEdit

zie ook: videocoderingsformaat en videocodec

videocompressie is een praktische implementatie van broncodering in de informatietheorie. In de praktijk worden de meeste videocodecs naast audiocompressietechnieken gebruikt om de afzonderlijke maar complementaire datastromen op te slaan als één gecombineerd pakket met zogenaamde containerformaten.

ongecomprimeerde video vereist een zeer hoge datasnelheid. Hoewel videocompressiecodecs zonder kwaliteitsverlies presteren met een compressiefactor van 5 tot 12, heeft een typische H. 264-compressievideo met kwaliteitsverlies een compressiefactor tussen 20 en 200.,

de twee belangrijkste videocompressietechnieken die in videocoderingsnormen worden gebruikt, zijn de discrete cosinustransformatie (DCT) en motion compensation (Mc). De meeste videocoderingsstandaarden, zoals de H. 26x-en MPEG-formaten, maken meestal gebruik van DCT-videocodering met bewegingscompensatie (block motion compensation).

encoding theoryEdit

videogegevens kunnen worden weergegeven als een reeks fotoframes. Dergelijke gegevens bevatten meestal overvloedige hoeveelheden ruimtelijke en temporele redundantie. Videocompressiealgoritmen proberen redundantie te verminderen en informatie compacter op te slaan.,

De meeste Videocompressieformaten en codecs maken gebruik van zowel ruimtelijke als temporele redundantie (bijvoorbeeld door differentiecodering met bewegingscompensatie). Overeenkomsten kunnen worden gecodeerd door alleen verschillen op te slaan tussen bijvoorbeeld temporaal aangrenzende frames (interframe codering) of ruimtelijk aangrenzende pixels (intra-frame codering).Interframe compressie (temporal delta codering) is een van de krachtigste compressietechnieken. Het (her)gebruikt gegevens van een of meer eerdere of latere frames in een reeks om het huidige frame te beschrijven., Intra-frame codering, aan de andere kant, maakt gebruik van alleen gegevens van binnen het huidige frame, effectief stilstaande beeldcompressie.

een klasse van gespecialiseerde formaten gebruikt in camcorders en videobewerking maken gebruik van minder complexe compressie schema ‘ s die hun voorspellingstechnieken beperken tot intra-frame voorspelling.

gewoonlijk maakt videocompressie bovendien gebruik van verlieslatende compressietechnieken zoals kwantisatie die aspecten van de brongegevens verminderen die (min of meer) niet relevant zijn voor de menselijke visuele perceptie door gebruik te maken van perceptuele kenmerken van het menselijk gezichtsvermogen., Kleine verschillen in kleur zijn bijvoorbeeld moeilijker waar te nemen dan veranderingen in helderheid. Compressiealgoritmen kunnen een kleur gemiddelde over deze vergelijkbare gebieden om ruimte te verminderen, op een manier vergelijkbaar met die gebruikt in JPEG-beeldcompressie. Zoals in alle compressie met verlies, is er een trade-off tussen videokwaliteit en bitsnelheid, kosten van het verwerken van de compressie en decompressie, en systeemvereisten. Sterk gecomprimeerde video kan zichtbare of afleidende artefacten presenteren.,

andere methoden dan de gangbare DCT-gebaseerde transformatieformaten, zoals fractale compressie, matching pursuit en het gebruik van een discrete wavelet-transformatie (DWT), zijn het onderwerp geweest van enig onderzoek, maar worden meestal niet gebruikt in praktische producten (behalve voor het gebruik van wavelet-codering als stilstaande beeldcodeerprogramma ‘ s zonder bewegingscompensatie). De interesse in fractale compressie lijkt af te nemen, als gevolg van recente theoretische analyse die een comparatief gebrek aan effectiviteit van dergelijke methoden toont.,

Inter-frame codingEdit
hoofdartikel: Inter frame
verdere informatie: Bewegingscompensatie

Inter-frame codering werkt door elk frame in de video te vergelijken met het vorige frame. Individuele frames van een videoreeks worden vergeleken van het ene frame naar het andere, en de videocompressiecodec stuurt alleen de verschillen naar het referentieframe. Als het frame gebieden bevat waar niets is verplaatst, kan het systeem eenvoudig een kort commando geven dat dat deel van het vorige frame kopieert naar het volgende frame., Als secties van het frame op een eenvoudige manier bewegen, kan de compressor een (iets langer) Commando uitzenden dat de decompressor vertelt om de kopie te verschuiven, roteren, lichter of donkerder te maken. Dit langere Commando blijft nog steeds veel korter dan intraframe compressie. Meestal zal de encoder ook een residu signaal doorgeven dat de resterende subtielere verschillen beschrijft naar de referentiebeelden. Met behulp van entropie codering, deze residu signalen hebben een compactere weergave dan het volledige signaal., In gebieden van video met meer beweging, moet de compressie coderen meer gegevens om gelijke tred te houden met het grotere aantal pixels dat verandert. Vaak tijdens explosies, vlammen, zwermen dieren, en in sommige panning shots, de hoogfrequente detail leidt tot kwaliteit afneemt of tot verhogingen van de variabele bitrate.,

Hybrid block-based transform formatsEdit

verdere informatie: Discrete cosinustransform

verwerkingsfasen van een typische video-encoder

vandaag de dag worden bijna alle gangbare videocompressiemethoden gebruikt (bijvoorbeeld die in door de ITU-T of ISO goedgekeurde standaarden)) delen dezelfde basisarchitectuur die dateert uit H. 261 die in 1988 werd gestandaardiseerd door de ITU-T., Ze zijn meestal afhankelijk van de DCT, toegepast op rechthoekige blokken van naburige pixels, en temporele voorspelling met behulp van bewegingsvectoren, evenals tegenwoordig ook een in-loop filtering stap.

in de voorspellingsfase worden verschillende deduplicatie-en verschilcodeertechnieken toegepast die helpen gegevens te decoreren en nieuwe gegevens te beschrijven op basis van reeds verzonden gegevens.

dan worden rechthoekige blokken van (residu) pixelgegevens getransformeerd naar het frequentiedomein om irrelevante informatie bij kwantisatie te vergemakkelijken en voor een zekere ruimtelijke redundantievermindering., De discrete cosinustransformatie (DCT) die in dit verband op grote schaal wordt gebruikt, werd geïntroduceerd door N. Ahmed, T. Natarajan en K. R. Rao in 1974.

in de belangrijkste verwerkingsfase met verlies worden gegevens gekwantiseerd om informatie te verminderen die niet relevant is voor de visuele waarneming van de mens.

in de laatste fase wordt statistische redundantie grotendeels geëlimineerd door een entropiecoder die vaak een of andere vorm van rekenkundige codering toepast.

in een extra in-loop filterfase kunnen verschillende filters worden toegepast op het gereconstrueerde beeldsignaal., Door het berekenen van deze filters ook binnen de codering lus kunnen ze compressie helpen, omdat ze kunnen worden toegepast op referentiemateriaal voordat het wordt gebruikt in het voorspellingsproces en ze kunnen worden geleid met behulp van het originele signaal. Het meest populaire voorbeeld zijn deblocking filters die vervagen blokkeren artefacten van kwantisatie discontinuïteiten bij transformeren blok grenzen.

HistoryEdit

hoofdartikel: Video coding format § History

in 1967, A. H. Robinson en C., Cherry stelde een run-length Codering bandbreedte compressie regeling voor de transmissie van analoge televisiesignalen. Discrete cosine transform (DCT), die fundamenteel is voor moderne videocompressie, werd geïntroduceerd door Nasir Ahmed, T. Natarajan en K. R. Rao in 1974.

H. 261, dat in 1988 debuteerde, introduceerde Commercieel de gangbare basisarchitectuur van videocompressietechnologie. Het was het eerste videocoderingsformaat gebaseerd op DCT-compressie, dat vervolgens de standaard zou worden voor alle belangrijke videocoderingsformaten die volgden. H.,261 werd ontwikkeld door een aantal bedrijven, waaronder Hitachi, PictureTel, NTT, BT en Toshiba.

de meest populaire videocoderingsstandaarden voor codecs zijn de MPEG-standaarden. MPEG-1 werd ontwikkeld door de Motion Picture Experts Group (MPEG) in 1991, en het is ontworpen om VHS-kwaliteit video te comprimeren. Het werd in 1994 opgevolgd door MPEG-2 / H. 262, dat werd ontwikkeld door een aantal bedrijven, voornamelijk Sony, Thomson en Mitsubishi Electric. MPEG-2 werd het standaard videoformaat voor DVD en SD digitale televisie. In 1999 werd het gevolgd door MPEG-4 / H.,263, wat een grote sprong voorwaarts was voor videocompressietechnologie. Het werd ontwikkeld door een aantal bedrijven, voornamelijk Mitsubishi Electric, Hitachi en Panasonic.

het meest gebruikte videocoderingsformaat is H. 264 / MPEG-4 AVC. Het werd ontwikkeld in 2003 door een aantal organisaties, voornamelijk Panasonic, Godo Kaisha IP Bridge en LG Electronics. AVC introduceerde Commercieel de moderne context-adaptieve binaire rekenkundige codering (CABAC) en context-adaptieve variabele lengte codering (CAVLC) algoritmen., AVC is de belangrijkste video-encoding standaard voor Blu-ray Discs, en wordt veel gebruikt door streaming internet diensten zoals YouTube, Netflix, Vimeo, en iTunes Store, web software zoals Adobe Flash Player en Microsoft Silverlight, en verschillende HDTV-uitzendingen via terrestrische en satelliet televisie.,

GeneticsEdit

zie ook: compressie van genomische Re-Sequencing Data

Genetic compressie-algoritmen zijn de nieuwste generatie verliesloze algoritmen die gegevens comprimeren (typisch sequenties van nucleotiden) met behulp van zowel conventionele compressie-algoritmen als genetische algoritmen aangepast aan het specifieke datatype. In 2012, publiceerde een team van wetenschappers van Johns Hopkins University een genetisch compressiealgoritme dat geen referentiegenoom voor compressie gebruikt., HAPZIPPER is op maat gemaakt voor HapMap-gegevens en bereikt meer dan 20 – voudige compressie (95% vermindering van de bestandsgrootte), biedt 2-tot 4-voudige betere compressie en in veel snellere tijd dan de toonaangevende algemene compressie-hulpprogramma ‘ s. Hiervoor introduceerden Chanda, Elhaik en Bader MAF gebaseerde codering (MAFE), die de heterogeniteit van de dataset vermindert door SNP ‘ s te sorteren op hun kleine allelfrequentie, waardoor de dataset homogeniseerd wordt. Andere algoritmen in 2009 en 2013 (DNAZip en GenomeZip) hebben compressieratio ‘ s van maximaal 1200-voudig—waardoor 6 miljard basepair diploïde menselijke genomen worden opgeslagen in 2.,5 megabytes (met betrekking tot een verwijzingsgenoom of gemiddeld over vele genomen). Zie

voor een benchmark voor gegevenscompressoren voor genetica/genomica

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *