ImageEdit
la codificación de entropía se originó en la década de 1940 con la introducción de la codificación Shannon–Fano, la base para la codificación Huffman que se desarrolló en 1950. La codificación por transformada se remonta a finales de la década de 1960, con la introducción de la codificación por transformada rápida de Fourier (FFT) en 1968 y la Transformada de Hadamard en 1969.
una técnica importante de compresión de imágenes es la Transformada de coseno discreto (DCT), una técnica desarrollada a principios de la década de 1970., DCT es la base para JPEG, un formato de compresión con pérdida que fue introducido por el Joint Photographic Experts Group (JPEG) en 1992. JPEG reduce en gran medida la cantidad de datos necesarios para representar una imagen a costa de una reducción relativamente pequeña en la calidad de imagen y se ha convertido en el formato de archivo de imagen más utilizado. Su algoritmo de compresión altamente eficiente basado en DCT fue en gran parte responsable de la amplia proliferación de imágenes digitales y fotos digitales.
Lempel–Ziv–Welch (LZW) es un algoritmo de compresión sin pérdidas desarrollado en 1984. Se utiliza en el formato GIF, introducido en 1987., DEFLATE, un algoritmo de compresión sin pérdidas especificado en 1996, se utiliza en el formato Portable Network Graphics (PNG).
la compresión de wavelets, el uso de wavelets en la compresión de imágenes, comenzó después del desarrollo de la codificación DCT. El estándar JPEG 2000 fue introducido en 2000. En contraste con el algoritmo DCT utilizado por el formato JPEG original, JPEG 2000 utiliza algoritmos de transformada de wavelet discreta (DWT). La tecnología JPEG 2000, que incluye la extensión Motion JPEG 2000, fue seleccionada como el estándar de codificación de vídeo para cine digital en 2004.,
AudioEdit
la compresión de datos de Audio, que no debe confundirse con la compresión de rango dinámico, tiene el potencial de reducir el ancho de banda de transmisión y los requisitos de almacenamiento de datos de audio. Los Algoritmos de compresión de Audio se implementan en el software como códecs de audio. Tanto en la compresión con y sin pérdida, la redundancia de información se reduce, utilizando métodos como la codificación, la cuantificación de la Transformada de coseno discreto y la predicción lineal para reducir la cantidad de información utilizada para representar los datos sin comprimir.,
los Algoritmos de compresión de audio con pérdida proporcionan una mayor compresión y se utilizan en numerosas aplicaciones de audio, incluyendo Vorbis y MP3. Estos algoritmos casi todos dependen de la psicoacústica para eliminar o reducir la fidelidad de los sonidos Menos audibles, reduciendo así el espacio requerido para almacenarlos o transmitirlos.
la compensación aceptable entre la pérdida de calidad de audio y el tamaño de transmisión o almacenamiento depende de la aplicación., Por ejemplo, un disco compacto (CD) de 640 MB contiene aproximadamente una hora de música de alta fidelidad sin comprimir, menos de 2 horas de música comprimida sin pérdidas o 7 horas de música comprimida en formato MP3 a una velocidad de bits media. Una grabadora de sonido digital puede almacenar alrededor de 200 horas de voz claramente inteligible en 640 MB.
la compresión de audio sin pérdida produce una representación de datos digitales que se pueden decodificar en un duplicado digital exacto del original. Las relaciones de compresión son de alrededor del 50-60% del tamaño original, que es similar a los de la compresión de datos sin pérdida genérica., Los códecs sin pérdida utilizan el ajuste de curva o la predicción lineal como base para estimar la señal. Los parámetros que describen la estimación y la diferencia entre la estimación y la señal real se codifican por separado.
Existen varios formatos de compresión de audio sin pérdida. Consulte Lista de códecs sin pérdida para obtener una lista. Algunos formatos están asociados con un sistema distinto, como Direct Stream Transfer, utilizado en Super Audio CD y Meridian Lossless Packing, utilizado en DVD-Audio, Dolby TrueHD, Blu-ray y HD DVD.,
algunos formatos de archivo de audio cuentan con una combinación de un formato con pérdida y una corrección sin pérdida; esto permite eliminar la corrección para obtener fácilmente un archivo con pérdida. Estos formatos incluyen MPEG-4 SLS (escalable a sin pérdida), WavPack y OptimFROG DualStream.
cuando los archivos de audio se van a procesar, ya sea por compresión adicional o para edición, es deseable trabajar desde un original sin cambios (sin comprimir o comprimidos sin pérdida)., El procesamiento de un archivo comprimido con pérdida para algún propósito generalmente produce un resultado final inferior a la creación del mismo archivo comprimido a partir de un original sin comprimir. Además de la edición o mezcla de sonido, la compresión de audio sin pérdida se utiliza a menudo para el almacenamiento de archivos, o como copias maestras.
compresión de audio con pérdida
comparación de espectrogramas de audio en un formato sin comprimir y varios formatos con pérdida., Los espectrogramas con pérdida muestran el límite de banda de frecuencias más altas, una técnica común asociada con la compresión de audio con pérdida.
la compresión de audio con pérdida se utiliza en una amplia gama de aplicaciones. Además de las aplicaciones independientes de reproducción de archivos de solo audio en reproductores MP3 o computadoras, las transmisiones de audio comprimidas digitalmente se utilizan en la mayoría de los DVD de video, la televisión digital, los medios de transmisión en Internet, la radio por satélite y por cable, y cada vez más en las emisiones de radio terrestres., La compresión con pérdida típicamente logra una compresión mucho mayor que la compresión sin pérdida, descartando datos menos críticos basados en optimizaciones psicoacústicas.
la psicoacústica reconoce que no todos los datos en un flujo de audio pueden ser percibidos por el sistema auditivo humano. La mayoría de la compresión con pérdida reduce la redundancia al identificar primero los sonidos perceptualmente irrelevantes, es decir, los sonidos que son muy difíciles de escuchar. Los ejemplos típicos incluyen frecuencias altas o sonidos que ocurren al mismo tiempo que sonidos más fuertes. Esos sonidos irrelevantes se codifican con una precisión disminuida o no se codifican en absoluto.,
debido a la naturaleza de los algoritmos con pérdida, la calidad de audio sufre una pérdida de generación digital cuando un archivo se descomprime y recomprime. Esto hace que la compresión con pérdida no sea adecuada para almacenar los resultados intermedios en aplicaciones profesionales de ingeniería de audio, como la edición de sonido y la grabación multipista. Sin embargo, los formatos con pérdida como MP3 son muy populares entre los usuarios finales, ya que el tamaño del archivo se reduce al 5-20% del tamaño original y un megabyte puede almacenar aproximadamente un minuto de música con una calidad adecuada.,
Métodos de Codificacióneditar
para determinar qué información en una señal de audio es perceptualmente irrelevante, la mayoría de los Algoritmos de compresión con pérdida utilizan transformaciones como la Transformada de coseno discreto modificado (MDCT) para convertir formas de onda muestreadas en un dominio de transformación, típicamente el dominio de frecuencia. Una vez transformadas, las frecuencias de los componentes se pueden priorizar de acuerdo a lo audibles que sean., La audibilidad de los componentes espectrales se evalúa utilizando el umbral absoluto de audición y los principios del enmascaramiento simultáneo—el fenómeno en el que una señal es enmascarada por otra señal separada por frecuencia—y, en algunos casos, el enmascaramiento temporal—donde una señal es enmascarada por otra señal separada por el tiempo. Los contornos de igual volumen también se pueden usar para ponderar la importancia perceptiva de los componentes. Los modelos de la combinación oído-cerebro humano que incorporan tales efectos a menudo se llaman modelos psicoacústicos.,
otros tipos de compresores con pérdida, como la codificación predictiva lineal (LPC) utilizada con voz, son codificadores basados en fuentes. LPC utiliza un modelo del tracto vocal humano para analizar los sonidos del habla e inferir los parámetros utilizados por el modelo para producirlos momento a momento. Estos parámetros cambiantes se transmiten o almacenan y se utilizan para conducir otro modelo en el decodificador que reproduce el sonido.
los formatos con pérdida se utilizan a menudo para la distribución de transmisión de audio o comunicación interactiva (como en redes de teléfonos celulares)., En tales aplicaciones, los datos deben descomprimirse a medida que los datos fluyen, en lugar de después de que se haya transmitido todo el flujo de datos. No todos los códecs de audio se pueden utilizar para aplicaciones de streaming.
La latencia es introducida por los métodos utilizados para codificar y decodificar los datos. Algunos códecs analizarán un segmento más largo, llamado marco, de los datos para optimizar la eficiencia, y luego lo codificarán de una manera que requiera un segmento más grande de datos a la vez para decodificarlos., La latencia inherente del algoritmo de codificación puede ser crítica; por ejemplo, cuando hay una transmisión bidireccional de datos, como con una conversación telefónica, los retrasos significativos pueden degradar seriamente la calidad percibida.
en contraste con la velocidad de compresión, que es proporcional al número de operaciones requeridas por el algoritmo, aquí la latencia se refiere al número de muestras que deben analizarse antes de que se procese un bloque de audio. En el caso mínimo, la latencia es cero muestras (por ejemplo, si el codificador/decodificador simplemente reduce el número de bits utilizados para cuantificar la señal)., Los Algoritmos de dominio de tiempo como LPC también suelen tener latencias bajas, de ahí su popularidad en la codificación de voz para Telefonía. En algoritmos como MP3, sin embargo, un gran número de muestras tienen que ser analizadas para implementar un modelo psicoacústico en el dominio de la frecuencia, y la latencia es del orden de 23 ms (46 ms para la comunicación bidireccional).
Codificacióneditar
la codificación de voz es una categoría importante de compresión de datos de audio. Los modelos perceptivos utilizados para estimar lo que un oído humano puede oír son generalmente algo diferentes de los utilizados para la música., El rango de frecuencias necesarias para transmitir los sonidos de una voz humana son normalmente mucho más estrecho que el necesario para la música, y el sonido es normalmente menos complejo. Como resultado, el habla se puede codificar en alta calidad utilizando una velocidad de bits relativamente baja.
si los datos a comprimir son analógicos (como un voltaje que varía con el tiempo), se emplea cuantización para digitalizarlos en números (normalmente enteros). Esto se conoce como conversión analógica a digital (a/d)., Si los enteros generados por cuantización son 8 bits cada uno, entonces todo el rango de la señal analógica se divide en 256 intervalos y todos los valores de la señal dentro de un intervalo se cuantifican al mismo número. Si se generan enteros de 16 bits, el rango de la señal analógica se divide en 65.536 intervalos.
esta relación ilustra el compromiso entre alta resolución (un gran número de intervalos analógicos) y alta compresión (pequeños enteros generados). Esta aplicación de cuantización es utilizada por varios métodos de compresión de voz., Esto se logra, en general, por alguna combinación de dos enfoques:
- sólo codificar sonidos que podrían ser hechos por una sola voz humana.
- tirar más de los datos en la señal—mantener lo suficiente para reconstruir una voz «inteligible» en lugar de la gama de frecuencia completa de la audición humana.
quizás los primeros algoritmos utilizados en la codificación de voz (y la compresión de datos de audio en general) fueron el algoritmo A-law y el algoritmo μ-law.,
HistoryEdit
Solidyne 922: la primera tarjeta de sonido de compresión de bits de audio comercial del mundo para PC, 1990
la codificación Perceptual se utilizó por primera vez para la compresión de codificación de voz, Con codificación predictiva lineal (LPC). Los conceptos iniciales de LPC se remontan al trabajo de Fumitada Itakura (Universidad de Nagoya) y Shuzo Saito (Nippon Telegraph and Telephone) en 1966. Durante la década de 1970, Bishnu S. Atal y Manfred R., Schroeder en Bell Labs desarrolló una forma de LPC llamada codificación predictiva adaptativa (APC), un algoritmo de codificación perceptual que explotaba las propiedades de enmascaramiento del oído humano, seguido a principios de la década de 1980 con el algoritmo de predicción lineal excitada por código (CELP) que logró una relación de compresión significativa para su tiempo. La codificación Perceptual es utilizada por los formatos modernos de compresión de audio como MP3 y AAC.
el primer sistema de compresión de audio de automatización de transmisión comercial del mundo fue desarrollado por Oscar Bonello, profesor de ingeniería de la Universidad de Buenos Aires., En 1983, utilizando el principio psicoacústico del enmascaramiento de bandas críticas publicado por primera vez en 1967, comenzó a desarrollar una aplicación práctica basada en el recientemente desarrollado IBM PC computer, y el sistema de automatización de transmisión se lanzó en 1987 bajo el nombre de Audicom. Veinte años más tarde, casi todas las estaciones de radio del mundo utilizaban tecnología similar fabricada por varias empresas.
un compendio de literatura para una gran variedad de sistemas de codificación de audio fue publicado en el IEEE Journal on Selected Areas in Communications (Jsac), en febrero de 1988., Si bien había algunos documentos de antes de ese tiempo, esta colección documentó una variedad completa de codificadores de audio terminados y en funcionamiento, casi todos ellos utilizando técnicas perceptuales (es decir, enmascaramiento) y algún tipo de análisis de frecuencia y codificación silenciosa de back-end. Varios de estos artículos remarcaron la dificultad de obtener un audio digital bueno y limpio para fines de investigación. La mayoría, si no todos, de los autores en la edición JSAC también estaban activos en el Comité de audio MPEG-1, que creó el formato MP3.,
VideoEdit
la compresión de vídeo es una aplicación práctica de la codificación de fuentes en la teoría de la información. En la práctica, la mayoría de los códecs de vídeo se utilizan junto con técnicas de compresión de audio para almacenar los flujos de datos separados pero complementarios como un paquete combinado utilizando los llamados formatos contenedores.
El vídeo sin comprimir requiere una velocidad de transmisión de datos muy alta. Aunque los códecs de compresión de vídeo sin pérdida funcionan con un factor de compresión de 5 a 12, un vídeo de compresión con pérdida típico H. 264 tiene un factor de compresión entre 20 y 200.,
las dos técnicas clave de compresión de vídeo utilizadas en los estándares de codificación de vídeo son la Transformada de coseno discreto (DCT) y la compensación de movimiento (MC). La mayoría de los estándares de codificación de vídeo, como los formatos H. 26X y MPEG, suelen utilizar la codificación de vídeo DCT con compensación de movimiento (block motion compensation).
teoría de la Codificacióneditar
Los datos de vídeo pueden representarse como una serie de fotogramas de imagen fija. Tales datos generalmente contienen abundantes cantidades de redundancia espacial y temporal. Los Algoritmos de compresión de vídeo intentan reducir la redundancia y almacenar la información de forma más compacta.,
La mayoría de los formatos y códecs de compresión de vídeo explotan la redundancia espacial y temporal (por ejemplo, a través de la codificación de diferencias con compensación de movimiento). Las similitudes Pueden codificarse almacenando únicamente diferencias entre, por ejemplo, fotogramas temporalmente adyacentes (codificación entre fotogramas) o píxeles espacialmente adyacentes (codificación dentro de fotogramas).La compresión entre fotogramas (una codificación delta temporal) es una de las técnicas de compresión más potentes. Utiliza (re)datos de uno o más fotogramas anteriores o posteriores en una secuencia para describir el fotograma actual., La codificación Intra-frame, por otro lado, utiliza solo datos dentro del marco actual, siendo efectivamente la compresión de imágenes fijas.
una clase de formatos especializados utilizados en videocámaras y edición de video utilizan esquemas de compresión menos complejos que restringen sus técnicas de Predicción a la predicción intra-frame.
por lo general, la compresión de video emplea además técnicas de compresión con pérdida como la cuantización que reducen los aspectos de los datos de origen que son (más o menos) irrelevantes para la percepción visual humana mediante la explotación de las características perceptivas de la visión humana., Por ejemplo, las pequeñas diferencias de color son más difíciles de percibir que los cambios en el brillo. Los Algoritmos de compresión pueden promediar un color en estas áreas similares para reducir el espacio, de manera similar a los utilizados en la compresión de imágenes JPEG. Como en toda compresión con pérdida, hay un equilibrio entre la calidad de video y la velocidad de bits, el costo de procesamiento de la compresión y descompresión, y los requisitos del sistema. El video altamente comprimido puede presentar artefactos visibles o que distraen.,
otros métodos que los formatos de transformación basados en DCT prevalentes, como la compresión fractal, la búsqueda de coincidencia y el uso de una transformada de wavelet discreta (DWT), han sido objeto de algunas investigaciones, pero generalmente no se utilizan en productos prácticos (excepto por el uso de codificación de wavelet como codificadores de imágenes fijas sin compensación de movimiento). El interés en la compresión fractal parece estar disminuyendo, debido a los recientes análisis teóricos que muestran una falta comparativa de efectividad de tales métodos.,
codificación entre fotogramas
la codificación entre fotogramas funciona comparando cada fotograma del video con el anterior. Los fotogramas individuales de una secuencia de video se comparan de un fotograma a otro, y el códec de compresión de video envía solo las diferencias al fotograma de referencia. Si el marco contiene áreas donde nada se ha movido, el sistema puede simplemente emitir un comando corto que copia esa parte del marco anterior en el siguiente., Si las secciones del fotograma se mueven de una manera simple, el compresor puede emitir un comando (un poco más largo) que le dice al descompresor que cambie, gire, aclare u oscurezca la copia. Este comando más largo sigue siendo mucho más corto que la compresión intraframe. Por lo general, el codificador también transmitirá una señal de residuo que describe las diferencias restantes más sutiles a las imágenes de referencia. Usando codificación de entropía, estas señales de residuo tienen una representación más compacta que la señal completa., En áreas de video con más movimiento, la compresión debe codificar más datos para mantenerse al día con el mayor número de píxeles que están cambiando. Comúnmente durante explosiones, llamas, bandadas de animales y en algunas tomas panorámicas, el detalle de alta frecuencia conduce a disminuciones de calidad o aumentos en la tasa de bits variable.,
formatos de transformación basados en bloques híbridos edit
etapas de procesamiento de un codificador de video típico
hoy en día, casi todos los métodos de compresión de video comúnmente utilizados (por ejemplo, los T o ISO) comparten la misma arquitectura básica que se remonta a H. 261 que fue estandarizada en 1988 por el ITU-T., Se basan principalmente en el DCT, aplicado a bloques rectangulares de píxeles vecinos, y la predicción temporal utilizando vectores de movimiento, así como hoy en día también un paso de filtrado en bucle.
en la etapa de predicción, se aplican varias técnicas de deduplicación y codificación de diferencias que ayudan a descorrelar datos y describir nuevos datos basados en datos ya transmitidos.
luego, los bloques rectangulares de datos de píxeles (residuos) se transforman en el dominio de frecuencia para facilitar la orientación de información irrelevante en la cuantización y para una cierta reducción de redundancia espacial., La Transformada de coseno discreto (DCT) que se usa ampliamente en este sentido fue introducida por N. Ahmed, T. Natarajan y K. R. Rao en 1974.
en la etapa principal de procesamiento con pérdida, los datos se cuantizan para reducir la información que es irrelevante para la percepción visual humana.
en la última etapa la redundancia estadística se elimina en gran medida por un codificador de entropía que a menudo aplica alguna forma de codificación aritmética.
en una etapa adicional de filtrado en bucle se pueden aplicar varios filtros a la señal de imagen reconstruida., Al computar estos filtros también dentro del bucle de codificación, pueden ayudar a la compresión porque se pueden aplicar al material de referencia antes de que se use en el proceso de predicción y se pueden guiar utilizando la señal original. El ejemplo más popular son los filtros de desbloqueo que desenfocan los artefactos de bloqueo de las discontinuidades de cuantización en los límites de bloques de transformación.
Historiaeditar
en 1967, A. H. Robinson y C., Cherry propuso un esquema de compresión de ancho de banda de codificación de longitud de ejecución para la transmisión de señales de televisión analógicas. La Transformada de coseno discreto (DCT), que es fundamental para la compresión de vídeo moderna, fue introducida por Nasir Ahmed, T. Natarajan y K. R. Rao en 1974.
H. 261, que debutó en 1988, introdujo comercialmente la arquitectura básica prevalente de la tecnología de compresión de video. Fue el primer formato de codificación de vídeo basado en la compresión DCT, que posteriormente se convertiría en el estándar para todos los principales formatos de codificación de vídeo que siguieron. H.,261 fue desarrollado por varias compañías, incluyendo Hitachi, PictureTel, NTT, BT y Toshiba.
los estándares de codificación de vídeo más populares utilizados para los códecs han sido los estándares MPEG. MPEG-1 fue desarrollado por el Motion Picture Experts Group (MPEG) en 1991, y fue diseñado para comprimir video de calidad VHS. Fue sucedido en 1994 por MPEG-2/H. 262, que fue desarrollado por varias compañías, principalmente Sony, Thomson y Mitsubishi Electric. MPEG-2 se convirtió en el formato de vídeo estándar para DVD y televisión digital SD. En 1999, fue seguido por MPEG-4 / H.,263, que fue un gran paso adelante para la tecnología de compresión de vídeo. Fue desarrollado por varias compañías, principalmente Mitsubishi Electric, Hitachi y Panasonic.
el formato de codificación de vídeo más utilizado es H. 264 / MPEG-4 AVC. Fue desarrollado en 2003 por varias organizaciones, principalmente Panasonic, Godo Kaisha IP Bridge y LG Electronics. AVC introdujo comercialmente los algoritmos modernos de codificación aritmética binaria adaptativa al contexto (CABAC) y codificación de longitud variable adaptativa al contexto (CAVLC)., AVC es el principal estándar de codificación de video para discos Blu-ray, y es ampliamente utilizado por servicios de transmisión de internet como YouTube, Netflix, Vimeo y iTunes Store, software web como Adobe Flash Player y Microsoft Silverlight, y varias transmisiones de HDTV a través de televisión terrestre y satelital.,
Genéticoseditar
los Algoritmos de compresión genética son la última generación de Algoritmos sin pérdida que comprimen datos (típicamente secuencias de nucleótidos) utilizando algoritmos de compresión convencionales y algoritmos genéticos adaptados al tipo de datos específico. En 2012, un equipo de científicos de la Universidad Johns Hopkins publicó un algoritmo de compresión genética que no utiliza un genoma de referencia para la compresión., HAPZIPPER se adaptó a los datos de HapMap y logra una compresión de más de 20 veces (reducción del 95% en el tamaño del archivo), proporcionando una compresión de 2 a 4 veces mejor y en un tiempo mucho más rápido que las principales utilidades de compresión de propósito general. Para esto, Chanda, Elhaik y Bader introdujeron la codificación basada en MAF (MAFE), que reduce la heterogeneidad del conjunto de datos al ordenar SNPs por su frecuencia alélica menor, homogeneizando así el conjunto de datos. Otros algoritmos en 2009 y 2013 (DNAZip y GenomeZip) tienen relaciones de compresión de hasta 1200 veces, lo que permite almacenar 6 mil millones de genomas humanos diploides basepair en 2.,5 megabytes (relativos a un genoma de referencia o promediados sobre muchos genomas). Para obtener una referencia en compresores de datos genéticos/genómicos, consulte
Deja una respuesta