ImageEdit
Entropy coding originated in the 1940s with the introduction of Shannon–Fano coding, the basis for Huffman coding which was developed in 1950. A codificação da transformada remonta ao final da década de 1960, com a introdução da codificação da Transformada de Fourier rápida (FFT) em 1968 e da Transformada de Hadamard em 1969.
uma importante técnica de compressão de imagem é a Transformada discreta de cosseno (DCT), uma técnica desenvolvida no início da década de 1970., DCT é a base para JPEG, um formato de compressão com perdas que foi introduzido pelo Joint Photographic Experts Group (JPEG) em 1992. JPEG reduz grandemente a quantidade de dados necessários para representar uma imagem ao custo de uma redução relativamente pequena na qualidade da imagem e tornou-se o formato de arquivo de imagem mais amplamente utilizado. Seu algoritmo de compressão baseado em DCT altamente eficiente foi em grande parte responsável pela ampla proliferação de imagens digitais e fotos digitais.Lempel-Ziv-Welch (LZW) é um algoritmo de compressão sem perdas desenvolvido em 1984. É usado no formato GIF, introduzido em 1987., DEFLATE, um algoritmo de compressão sem perdas especificado em 1996, é usado no formato Portable Network Graphics (PNG).
compressão Wavelet, o uso de wavelets na compressão de imagem, começou após o desenvolvimento da codificação DCT. O padrão JPEG 2000 foi introduzido em 2000. Em contraste com o algoritmo DCT usado pelo formato JPEG original, O JPEG 2000 usa algoritmos discretos de transformada de onda (DWT). A tecnologia JPEG 2000, que inclui a extensão Motion JPEG 2000, foi selecionada como o padrão de codificação de vídeo para cinema digital em 2004.,
AudioEdit
compressão de dados de áudio, não confundir com compressão de gama dinâmica, tem o potencial de reduzir a largura de banda de transmissão e os requisitos de armazenamento de dados de áudio. Algoritmos de compressão de áudio são implementados em software como codecs de áudio. Em compressão sem perdas e sem perdas, a redundância de informação é reduzida, usando métodos como codificação, quantização de transformação cossina discreta e previsão linear para reduzir a quantidade de informação usada para representar os dados não comprimidos.,
algoritmos de compressão de áudio com perdas fornecem maior compressão e são usados em inúmeras aplicações de áudio, incluindo Vorbis e MP3. Estes algoritmos quase todos dependem de psicoacústica para eliminar ou reduzir a fidelidade de sons menos audíveis, reduzindo assim o espaço necessário para armazená-los ou transmiti-los.
o compromisso aceitável entre a perda de qualidade de áudio e a transmissão ou tamanho de armazenamento depende da aplicação., Por exemplo, um disco compacto de 640 MB (CD) contém aproximadamente uma hora de música de alta fidelidade não comprimida, menos de 2 horas de música comprimida sem perdas, ou 7 horas de música comprimida no formato MP3 a uma taxa média de bits. Um gravador de som digital pode normalmente armazenar cerca de 200 horas de fala claramente inteligível em 640 MB.
compressão áudio sem perdas produz uma representação de dados digitais que podem ser decodificados para um exato duplicado digital do original. As razões de compressão são de cerca de 50-60% do tamanho original, que é semelhante às para a compressão de dados sem perdas genéricas., Codecs sem perdas usam ajuste de curva ou previsão linear como base para estimar o sinal. Os parâmetros que descrevem a estimativa e a diferença entre a estimativa e o sinal real são codificados separadamente.
existem vários formatos de compressão de áudio sem perdas. Veja a lista de codecs sem perdas para uma lista. Alguns formatos estão associados a um sistema distinto, como transferência direta de fluxo, usado em Super CD Áudio e embalagem sem perdas Meridiana, usado em DVD-Audio, Dolby TrueHD, Blu-ray e HD DVD.,
alguns formatos de ficheiros de áudio apresentam uma combinação de um formato com perdas e uma correcção sem perdas; isto permite retirar a correcção para obter facilmente um ficheiro com perdas. Tais formatos incluem MPEG – 4 SLS (escalável para Lossless), WavPack e OptimFROG DualStream.
Quando os arquivos de áudio devem ser processados, seja por compressão adicional ou para edição, é desejável trabalhar a partir de um original inalterado (não comprimido ou comprimido sem perda)., O processamento de um arquivo lossily comprimido para alguma finalidade geralmente produz um resultado final inferior à criação do mesmo arquivo comprimido a partir de um original não comprimido. Além de edição de som ou mixagem, compressão de áudio sem perdas é muitas vezes usado para armazenamento de arquivos, ou como cópias mestre.
Lossy audio compressionEdit
comparação de espectrogramas de áudio num formato não comprimido e vários formatos com perdas., Os espectrogramas lossos mostram ligaduras de frequências mais altas, uma técnica comum associada à compressão de áudio com perdas.
compressão de áudio com perdas é usada em uma ampla gama de aplicações. Além de aplicações autônomas de áudio apenas de reprodução de arquivos em leitores ou computadores MP3, fluxos de áudio comprimido digitalmente são usados na maioria dos DVDs de Vídeo, Televisão digital, Mídia de streaming na Internet, rádio por satélite e cabo, e cada vez mais em transmissões de rádio terrestre., A compressão com perdas tipicamente atinge uma compressão muito maior do que a compressão sem perdas, descartando dados menos críticos baseados em otimizações psicoacústicas.psicoacústica reconhece que nem todos os dados em um fluxo de áudio podem ser percebidos pelo sistema auditivo humano. A maior parte da compressão com perdas reduz a redundância pela primeira identificação de sons perceptualmente irrelevantes, ou seja, sons que são muito difíceis de ouvir. Exemplos típicos incluem altas frequências ou sons que ocorrem ao mesmo tempo que sons mais altos. Esses sons irrelevantes são codificados com precisão reduzida ou não.,devido à natureza dos algoritmos com Perdas, a qualidade do áudio sofre uma perda de geração digital quando um arquivo é descomprimido e recomprimido. Isto torna a compressão lossy inadequada para armazenar os resultados intermediários em aplicações profissionais de engenharia de áudio, tais como edição de som e gravação multitrack. No entanto, formatos loss como MP3 são muito populares entre os usuários finais como o tamanho do arquivo é reduzido para 5-20% do tamanho original e um megabyte pode armazenar cerca de um minuto de música em qualidade adequada.,
Coding methodsEdit
To determine what information in an audio signal is perceptually irrelevant, most lossy compression algorithms use transforms such as the modified discrete cossine transform (MDCT) to convert time domain sampled waveforms into a transform domain, typically the frequency domain. Uma vez transformadas, as frequências dos componentes podem ser priorizadas de acordo com o quão audíveis são., Audibilidade de componentes espectrais é avaliado utilizando-se o limiar absoluto de audiência e a princípios de mascaramento simultâneo—o fenômeno em que um sinal é mascarado por outro sinal separados por frequência—e, em alguns casos, temporal, mascaramento, onde o sinal é mascarado por outro sinal separados por hora. A Equal-loudness contours também pode ser usada para pesar a importância perceptual dos componentes. Modelos da combinação orelha-cérebro humano incorporando tais efeitos são muitas vezes chamados modelos psicoacústicos.,
outros tipos de compressores com perdas, tais como a codificação preditiva linear (LPC) usada com a fala, são codificadores baseados na fonte. LPC usa um modelo do trato vocal humano para analisar sons de fala e inferir os parâmetros usados pelo modelo para produzi-los de momento a momento. Estes parâmetros de mudança são transmitidos ou armazenados e usados para conduzir outro modelo no decodificador que reproduz o som.
formatos Lossy são frequentemente usados para a distribuição de streaming de áudio ou comunicação interativa (como em redes de telefones celulares)., Em tais aplicações, os dados devem ser descomprimidos à medida que os dados fluem, e não depois de todo o fluxo de dados ter sido transmitido. Nem todos os codecs de áudio podem ser usados para aplicações de streaming.
latência é introduzida pelos métodos usados para codificar e descodificar os dados. Alguns codecs analisarão um segmento mais longo, chamado frame, dos dados para otimizar a eficiência, e então codificá-lo de uma maneira que requer um segmento maior de dados de uma só vez para decodificar., A latência inerente do algoritmo de codificação pode ser crítica; por exemplo, quando há uma transmissão de dados de duas vias, como por exemplo com uma conversa telefónica, atrasos significativos podem degradar seriamente a qualidade percebida.
em contraste com a velocidade de compressão, que é proporcional ao número de operações exigidas pelo algoritmo, aqui latência refere-se ao número de amostras que devem ser analisadas antes de um bloco de áudio ser processado. No caso mínimo, latência é zero amostras (por exemplo, se o codificador/decodificador simplesmente reduz o número de bits usados para quantizar o sinal)., Algoritmos do domínio do tempo, como LPC também muitas vezes têm baixas latências, daí sua popularidade na codificação de voz para telefonia. Em algoritmos como MP3, no entanto, um grande número de amostras tem que ser analisado para implementar um modelo psicoacústico no domínio da frequência, e latência está na ordem de 23 ms (46 ms para comunicação bidirecional).
Speech encodingEdit
Speech encoding is an important category of audio data compression. Os modelos perceptuais usados para estimar o que um ouvido humano pode ouvir são geralmente um pouco diferentes daqueles usados para a música., A gama de frequências necessárias para transmitir os sons de uma voz humana é normalmente muito mais estreita do que a necessária para a música, e o som é normalmente menos complexo. Como resultado, a fala pode ser codificada em alta qualidade usando uma taxa de bits relativamente baixa.
Se os dados a serem comprimidos são analógicos (como uma tensão que varia com o tempo), quantização é empregada para digitalizá-lo em números (normalmente inteiros). Isto é referido como conversão analógica-para-digital (A/D)., Se os inteiros gerados pela quantização são 8 bits cada, então todo o intervalo do sinal analógico é dividido em 256 intervalos e todos os valores do sinal dentro de um intervalo são quantizados para o mesmo número. Se os inteiros de 16 bits são gerados, então o intervalo do sinal analógico é dividido em 65.536 intervalos.
esta relação ilustra o compromisso entre alta resolução (um grande número de intervalos analógicos) e alta compressão (pequenos inteiros gerados). Esta aplicação de quantização é usada por vários métodos de compressão de fala., Isto é conseguido, em geral, por alguma combinação de duas abordagens:
- apenas codificando sons que poderiam ser feitos por uma única voz humana.jogando fora mais dos dados na manutenção de sinais APENAS o suficiente para reconstruir uma voz “inteligível” ao invés de toda a faixa de frequência da audição humana.
talvez os primeiros algoritmos usados na codificação de fala (e compressão de dados de áudio em geral) foram o algoritmo de lei-A e o algoritmo de lei-μ.,
HistoryEdit
Solidyne 922: O primeiro comercial de bits de áudio compactação de placa de som para PC, 1990
codificação Perceptual foi usado pela primeira vez para codificação de voz de compressão, com linear predictive coding (LPC). Os conceitos iniciais para LPC remontam ao trabalho de Fumitada Itakura (Universidade Nagoya) e Shuzo Saito (Telégrafo Nippon e telefone) em 1966. Durante a década de 1970, Bishnu S. Atal e Manfred R., Schroeder em Bell Labs desenvolveu uma forma de LPC chamada codificação preditiva adaptativa (APC), um algoritmo de codificação perceptual que explorou as propriedades de mascaramento da orelha humana, seguido no início de 1980 com o algoritmo de predição linear excitada por código (CELP) que alcançou uma proporção de compressão significativa para seu tempo. A codificação Perceptual é usada por formatos modernos de compressão de áudio, como MP3 e AAC.o primeiro sistema de compressão de áudio de automação de transmissão comercial do mundo foi desenvolvido por Oscar Bonello, um professor de engenharia da Universidade de Buenos Aires., Em 1983, usando o princípio psicoacústico do mascaramento de bandas críticas publicado pela primeira vez em 1967, ele começou a desenvolver uma aplicação prática baseada no computador IBM PC recentemente desenvolvido, e o sistema de automação de transmissão foi lançado em 1987 sob o nome Audicom. Vinte anos depois, quase todas as estações de rádio do mundo estavam usando tecnologia similar fabricada por uma série de empresas.
um compêndio de literatura para uma grande variedade de sistemas de codificação de áudio foi publicado no Jornal do IEEE sobre áreas selecionadas nas comunicações (JSAC), em fevereiro de 1988., Embora houvesse alguns trabalhos anteriores a essa época, esta coleção documentava toda uma variedade de codificadores de áudio acabados, trabalhando quase todos eles usando técnicas de percepção (ou seja, mascaramento) e algum tipo de análise de frequência e codificação sem ruído de back-end. Vários desses trabalhos ressaltaram sobre a dificuldade de obter áudio digital bom e limpo para fins de pesquisa. A maioria, se não todos, dos autores na edição JSAC também estavam ativos no comitê de áudio MPEG-1, que criou o formato MP3.,
VideoEdit
Video compression is a practical implementation of source coding in information theory. Na prática, a maioria dos codecs de vídeo são usados ao lado de técnicas de compressão de áudio para armazenar os fluxos de dados separados mas complementares como um pacote combinado usando os chamados formatos de recipiente.o vídeo não comprimido requer uma taxa de dados muito elevada. Embora codecs de compressão de vídeo sem perdas se apresentem com um fator de compressão de 5 a 12, um típico vídeo de compressão com Perdas de H. 264 tem um fator de compressão entre 20 e 200.,
As duas principais técnicas de compressão de vídeo utilizadas nos padrões de codificação de vídeo são a Transformada discreta de cosseno (DCT) e a compensação de movimento (MC). A maioria dos padrões de codificação de vídeo, como os formatos H. 26x e MPEG, normalmente usam codificação de vídeo DCT compensada por movimento (compensação de movimento em bloco).dados de vídeo podem ser representados como uma série de imagens fixas. Tais dados geralmente contêm quantidades abundantes de redundância espacial e temporal. Algoritmos de compressão de vídeo tentam reduzir a redundância e armazenar informações mais compactamente.,
A maioria dos formatos de compressão de vídeo e codecs exploram redundância espacial e temporal (por exemplo, através da codificação da diferença com compensação de movimento). As semelhanças podem ser codificadas apenas armazenando diferenças entre, por exemplo, molduras temporalmente adjacentes (codificação inter-frames) ou pixels espacialmente adjacentes (codificação intra-frame).A compressão inter-frames (uma codificação delta temporal) é uma das mais poderosas técnicas de compressão. Ele (re)usa dados de um ou mais frames anteriores ou posteriores em uma seqüência para descrever o frame atual., A codificação Intra-frame, por outro lado, usa apenas dados de dentro da moldura atual, efetivamente sendo a compressão de imagem imóvel.
uma classe de formatos especializados utilizados em câmaras de vídeo e edição de vídeo usam esquemas de compressão menos complexos que restringem as suas técnicas de Previsão à previsão intraframedral.
Normalmente de compressão de vídeo além disso, emprega técnicas de compressão com perdas, como quantização, que reduzem a aspectos dos dados de origem que são (mais ou menos) irrelevantes para a percepção visual humana através da exploração perceptiva características da visão humana., Por exemplo, pequenas diferenças de cor são mais difíceis de perceber do que as mudanças de brilho. Algoritmos de compressão podem mediar uma cor através destas áreas semelhantes para reduzir o espaço, de uma forma semelhante às usadas na compressão de imagens JPEG. Como em toda a compressão lossy, há um trade-off entre a qualidade do vídeo e a taxa de bits, o custo de processar a compressão e descompressão, e os requisitos do sistema. Vídeo altamente comprimido pode apresentar artefatos visíveis ou distraídos.,
outros métodos que não os formatos de transformada baseados em DCT prevalentes, tais como compressão fractal, busca de correspondência e o uso de uma transformada discreta de wavelet (DWT), têm sido objeto de alguma pesquisa, mas geralmente não são usados em produtos práticos (exceto para o uso de codificação de wavelet como codificadores de imagem-estática sem compensação de movimento). O interesse na compressão fractal parece estar diminuindo, devido à análise teórica recente mostrando uma comparativa falta de eficácia de tais métodos.,
codingEdit
inter-frame coding works by comparing each frame in the video with the previous one. Os quadros individuais de uma sequência de vídeo são comparados de um quadro para o outro, e o codec de compressão de vídeo envia apenas as diferenças para o referencial. Se o frame contém áreas onde nada se moveu, o sistema pode simplesmente emitir um pequeno comando que copia essa parte do frame anterior para o próximo., Se seções do quadro se movem de uma maneira simples, o compressor pode emitir um comando (um pouco mais longo) que diz ao descompressor para mudar, rodar, iluminar ou escurecer a cópia. Este comando mais longo ainda permanece muito mais curto do que a compressão intraframe. Normalmente, o codificador também irá transmitir um sinal de resíduo que descreve as diferenças mais sutis restantes para as imagens de referência. Usando codificação de entropia, estes sinais de resíduos têm uma representação mais compacta do que o sinal completo., Em áreas de vídeo com mais movimento, a compressão deve codificar mais dados para acompanhar o maior número de pixels que estão mudando. Geralmente durante explosões, chamas, bandos de animais, e em algumas tomadas de paneamento, o detalhe de alta frequência leva a diminuições de qualidade ou a aumentos na taxa variável de dados.,
Híbrido com o bloco de transformação formatsEdit
fases de Processamento de um típico codificador de vídeo
Hoje em dia, quase todos os comumente utilizados métodos de compressão de vídeo (por exemplo, os padrões aprovados pela ITU-T ou ISO) compartilham a mesma arquitetura básica, que remonta ao H. 261, que foi padronizado em 1988 pela ITU-T., Eles dependem principalmente do DCT, aplicado a blocos retangulares de pixels vizinhos, e previsão temporal usando vetores de movimento, bem como hoje em dia também um passo de filtragem in-loop.na fase de previsão, são aplicadas várias técnicas de de deduplicação e de codificação de diferenças que ajudam a decorar os dados e a descrever novos dados com base em dados já transmitidos.
em seguida, blocos retangulares de (resíduos) de dados de pixels são transformados para o domínio de frequência para facilitar o direcionamento de informações irrelevantes na quantização e para alguma redução de redundância espacial., A Transformada discreta de cosseno (DCT) que é amplamente utilizada neste sentido foi introduzida por N. Ahmed, T. Natarajan e K. R. Rao em 1974.
na fase principal de processamento com Perdas, os dados são quantizados a fim de reduzir a informação que é irrelevante para a percepção visual humana.
na última etapa a redundância estatística é eliminada em grande parte por um codificador de entropia que muitas vezes aplica alguma forma de codificação aritmética.
em uma fase adicional de filtragem em laço vários filtros podem ser aplicados ao sinal de imagem reconstruída., Ao computar esses filtros também dentro do loop de codificação eles podem ajudar a compressão porque eles podem ser aplicados ao material de referência antes de ser usado no processo de Previsão e eles podem ser guiados usando o sinal original. O exemplo mais popular são filtros de desbloqueio que apagam artefatos de bloqueio de descontinuidades de quantização em limites de blocos de transformação.
HistoryEdit
In 1967, A. H. Robinson and C., Cherry propôs um esquema de compressão de largura de banda para a transmissão de sinais de televisão analógicos. A Transformada discreta de cosseno (DCT), que é fundamental para a compressão de vídeo moderna, foi introduzida por Nasir Ahmed, T. Natarajan e K. R. Rao em 1974.
H. 261, que estreou em 1988, introduziu comercialmente a arquitetura básica prevalente da tecnologia de compressão de vídeo. Foi o primeiro formato de codificação de vídeo baseado na compressão DCT, que posteriormente se tornaria o padrão para todos os principais formatos de codificação de vídeo que se seguiram. H.,261 foi desenvolvido por uma série de empresas, incluindo Hitachi, Pitturetel, NTT, BT e Toshiba.
os padrões de codificação de vídeo mais populares usados para codecs foram os padrões MPEG. MPEG-1 foi desenvolvido pelo Motion Picture Experts Group (MPEG) em 1991, e foi projetado para comprimir vídeo de qualidade VHS. Foi sucedido em 1994 pelo MPEG-2 / H. 262, que foi desenvolvido por uma série de empresas, principalmente Sony, Thomson e Mitsubishi Electric. MPEG-2 tornou-se o formato de vídeo padrão para DVD e televisão digital SD. Em 1999, foi seguido por MPEG-4 / H.,263, que foi um grande salto em frente para a tecnologia de compressão de vídeo. Foi desenvolvido por uma série de empresas, principalmente Mitsubishi Electric, Hitachi e Panasonic.
o formato de codificação de vídeo mais utilizado é o H. 264 / MPEG-4 AVC. Foi desenvolvido em 2003 por várias organizações, principalmente Panasonic, Godo Kaisha IP Bridge e LG Electronics. AVC comercialmente introduziu os modernos algoritmos de codificação aritmética binária adaptativa ao contexto (CABAC) e codificação variável-adaptativa ao contexto (CAVLC)., AVC é o principal padrão de codificação de vídeo para discos Blu-ray, e é amplamente utilizado por streaming de serviços de internet, como YouTube, Netflix, Vimeo, e iTunes Store, software web, como Adobe Flash Player e Microsoft Silverlight, e várias transmissões de HDTV através de televisão terrestre e satélite.,
GeneticsEdit
Genética algoritmos de compressão são a mais recente geração de lossless, os algoritmos de compress de dados (tipicamente sequências de nucleótidos), utilizando tanto os algoritmos de compressão e algoritmos genéticos adaptados para o específico tipo de dados. Em 2012, uma equipe de cientistas da Universidade Johns Hopkins publicou um algoritmo de compressão genética que não usa um genoma de referência para compressão., HAPZIPPER foi adaptado para os dados HapMap e atinge mais de 20 vezes a compressão (95% de redução no tamanho do arquivo), proporcionando 2 a 4 vezes melhor compressão e em muito mais tempo do que os principais utilitários de compressão de propósito geral. Para isso, Chanda, Elhaik e Bader introduziram codificação baseada em MAF (MAFE), o que reduz a heterogeneidade do conjunto de dados ordenando SNPs por sua frequência alélica menor, homogeneizando assim o conjunto de dados. Outros algoritmos em 2009 e 2013 (DNAZip e GenomeZip) têm taxas de compressão de até 1200 vezes-permitindo 6 bilhões de genomas humanos diplóides basepair a serem armazenados em 2.,5 megabytes (em relação a um genoma de referência ou em média sobre muitos genomas). Para um parâmetro de referência em compressores de dados genéticos/genómicos, ver
Deixe uma resposta