Vamos a hacer un breve repaso a los formatos de audio más populares. En el audio digital, dependiendo del propósito, puede ser conveniente un determinado formato de audio. No siempre es fácil tener en mente todos los formatos de audio disponibles. Por eso. hoy vamos a ver una relación completa de formatos de audio que han estado presentes en la industria a lo largo del tiempo. Repasaremos su historia, pero también sus principales características y utilidades.

Dentro de los formatos de audio podemos distinguir dos tipos:

Formatos de audio Lossless: Son un tipo de formatos de audio sin pérdidas. Es decir, que ya sea comprimido o sin comprimir, conserva la mayoría de frecuencias, con lo que también conservará sus armónicos y en general, será una buena experiencia de escucha.
Formatos de audio Lossy: Sin un tipo de formatos de audio que al comprimirse pierden algunas de sus frecuencias. En teoría, las frecuencias que pierden son inaudibles para el ser humano. Pero el conjunto de esas frecuencias crean una serie de armónicos que sí contribuyen de manera muy clara a la experiencia de escucha. Es por eso que en los últimos años están en auge los formatos de audio Lossless.

Formatos de audio lossless, sin compresión y sin pérdidas

Los formatos de audio lossless se caracterizan por conservar todas las frecuencias del sonido original, pero también son conocidos por ocupar una gran cantidad de espacio. Estos formatos de audio pueden ser interesantes para almacenar audio del que queremos conservar toda su riqueza. Los formatos de audio lossless nos ayudan a conservar el audio con toda fidelidad. Aquí están los formatos más conocidos.

WAV

WAV (o WAVE), es el apócope de Waveform audio file format. Es uno de los formatos de audio digital que puede usarse con o sin compresión de datos. Fue el resultado de un esfuerzo conjunto entre Microsoft e IBM y se utiliza para almacenar flujos digitales de audio en el PC, ya sea en mono o estéreo a diversas resoluciones y velocidades de muestreo. Las extensiones de este tipo de formato de audio son .wav y .wave. Fue uno de los primeros formatos de audio en aparecer.

Historia

La primera versión fue el formato PCM, que en windows se codificó como WAV. Es un formato flexible, creado para almacenar varias combinaciones de frecuencia de muestreo o tasa de bits. Estas características lo hace adecuado para archivar grabaciones originales. Los archivos WAV sin comprimir son grandes, por lo que siempre ha sido poco común compartir archivos WAV a través de Internet. Sin embargo, es un tipo de archivo de uso común, adecuado para conservar archivos de audio de primera generación, de alta calidad, para usar en un sistema donde el espacio en disco no es un problema. También es habitual usar archivos WAC en aplicaciones como la edición de audio, donde se necesita mucha flexibilidad sin renunciar a la calidad original.

Características

Lo más interesante del formato WAV es su familiaridad y estructura simple. Debido a que es un estándar fácil de procesar a día de hoy continúa siendo de uso generalizado en la industria del audio. Es compatible con una gran variedad de aplicaciones de software, que a menudo funciona como una base estándar para todos cuando se trata de intercambiar archivos de audio entre diferentes programas.

El formato WAV, por su estructura primitiva, está limitado a archivos de menos de 4 294 967 295 bytes (4 gigabytes). Esto se debe a que en la cabecera del archivo, independientemente del sistema operativo que se utilice, se indica su longitud con un número entero sin signo de 32 bits. Un tamaño de archivo WAV de 4 Gb equivale a aproximadamente 6,8 horas de audio con calidad de CD, es decir, con frecuencia de muestreo de 44,1 kHz, estéreo a 16 bits. Esta capacidad ya es más que suficiente para la mayoría de aplicaciones. Sin embargo, a veces, es necesario superar este límite, especialmente cuando se requieren archivos de audio mayores velocidades de muestreo, mayores resoluciones de bits o más canales.

W64, la evolución

Por eso, al cabo de unos años se creó el formato de audio W64, específico para el software Sound Forge. Su encabezado de 64 bits permite tiempos de grabación mucho más largos, pero estaba indicado para un sofware específico, lo que podía incurrir en otro tipo de limitaciones debido a sus licencias.

Por ello, la European Broadcasting Union (EBU) creó el formato de audio RF64, lo que resolvía definitivamente el problema con los formatos de audio WAV.

El formato de audio RF64 es un formato de archivo de audio multicanal compatible con los formatos de audio BWF. El formato de archivo está diseñado para cumplir con los requisitos de sonido multicanal en radiodifusión y archivo de audio. También se basa en el formato Microsoft RIFF / WAVE y Wave Format Extensible para parámetros multicanal. El nuevo máximo para estos formatos de audio ahora es de aproximadamente 16 exabytes. El formato es transparente para BWF y todos sus suplementos y fragmentos.

Los archivos RF64 WAV suelen utilizar la extensión de archivo .wav. Otra característica destacable del formato de audio RF64 es que puede contener un máximo de 18 canales de sonido envolvente, canal de mezcla descendente estéreo y señales de flujo de bits con datos no codificados PCM. RF64 se puede utilizar en toda la cadena de producción de audio, desde la grabación hasta la edición y reproducción, incluyendo el almacenamiento de archivos multicanal a corto o largo plazo. Según sus creadores, el formato de archivo RF64 debería satisfacer la necesidad a largo plazo de sonido multicanal en la radiodifusión y el archivo. El esfuerzo requerido para los implementadores de software es muy pequeño. Los cambios que serán necesarios para actualizar los sistemas existentes tendrán un costo razonable.

AIFF

AIFF es el acrónimo de Audio Interchange File Format (formato de archivo de intercambio de audio). Es un un formato de audio estándar que se utiliza para almacenar audio compatible con computadoras personales y otros dispositivos de audio electrónicos.

Historia

En 1988 Apple buscaba desarrollar su propia alternativa al formato WAV, por lo que creó este nuevo formato basándose en el formato de audio IFF de Electronic Arts, que se utilizaba ampliamente en sistema Amiga. Así, el formato de audio AIFF comenzó a formar parte del ecosistema Apple Macintosh.

Características

Los datos de audio en la mayoría de los archivos AIFF son una modulación por impulsos codificados, (PCM). Este tipo de archivo AIFF utiliza mucho más espacio en disco que los formatos con pérdida como MP3. Ocupa alrededor de 10 MB por un minuto de audio estéreo a una frecuencia de muestreo de 44,1 kHz y una profundidad de bits de 16 bits. También existe una variante comprimida de AIFF conocida como AIFF-C o AIFC , con varios códecs de compresión definidos. La extensión de archivo para el formato AIFF estándar es .aiff o .aif . Para las variantes comprimidas, se supone que es .aifc , pero las aplicaciones de audio que soportan el formato también aceptan .aiff o .aif.

DSD

Hace un tiempo Sony y Philips comenzaron a experimentar con códecs audio de muy alta calidad: el resultado de sus investigaciones fue el formato de audio DSD. Muchos expertos consideran el DSD como uno de los mejores formatos de audio del mundo. Y ello se debe a su arquitectura y tecnología, que funciona de una forma completamente distinta a un archivo PCM.

Características

Los formatos de audio tradicionales cuenta con una determinada profundidad de bits y un ratio de samples, por ejemplo, 44.1kHZ a 16 bits. En cambio los formatos de audio DSD proporcionan 1bit/2.8224MHz. En otras palabras: un archivo DSD samplea la friolera de 2.822,400 veces por segundo. Cada vez que obtienes esta inmensa cantidad de muestras se produce 1bit de información. Tener 16 bits de información no provocaría ninguna diferencia en este audio códec. Cuando el ratio de muestreo es tan extremadamente alto no hay ningún beneficio apreciable en tener una mayor profundida de bits. Solo el hecho de tener un muestro de más de 2 millones de veces por segundo o incluso de 5 millones de veces por segundo, (en el caso del DSD a 5Mhz) podemos registrar el sonido con un nivel de detalles increíble.

Pero las bondades del formato de audio DSD no acaban ahí. Por si fuera poco 2,8225 MHz no es el límite en los archivos DSD. También podemos encontrar archivos DSD64 y DSD128, que se refieren a archivos DSD con una cantidad de frecuencia de muestro incluso mayor.

DSD256+

Por el momento, la frecuencia de muestreo más alta que conocemos en los formatos de audio DSD nos la da el DSD256+, que cuenta con una frecuencia de muestreo de 12,288 MHZ. Para entender la diferencia, un CD tiene una frecuencia de muestreo de unas 44.000 veces por segundo. El DSD256+ tiene una frecuencia de muestreo 278 veces más precisa. Sin duda una calidad de audio exagerada, pero también un tamaño de archivo extremadamente grande. Es por eso que las grabaciones en estos formatos de audio son poco comunes. Esto nos lleva a pensar que los archivos de audio DSD tienen una calidad excelente. La experiencia de escucha es realmente diferente, pudiendo apreciar frecuencias y matices con un nivel de detalle incomparable.

Debido a su tamaño y arquitectura, se hace necesario un hardware específico para poder escuchar estos archivos de audio. Si los escuchamos en nuestra computadora, necesitaremos un DAC, es decir, una interfaz de audio con especificaciones para poder reproducir tal cantidad de información en tiempo real. Si quieres reproducirlo de fuera de casa, necesitarás un reproductor digital especializado para DSD, unos dispositivos especialmente nítidos y potentes que puedan descodificar estos datos.

Consideraciones

El formato de archivo DSD ha solucionado todos los problemas de calidad de audio, con una arquitectura sólida, pero el problema es que no hay demasiada oferta disponible en el mercado. Si eres fan de músicos con audiencia algo más sibarita, como Norah Jones o Carlos Santana o artistas de música clásica, probablemente encuentres alguna joya en DSD. Pero si estás buscando el último disco de Justin Bieber o artistas más comerciales en DSD será más difícil encontrarlos. Esto sucede porque básicamente ni siquiera la música original de los masters de estos artistas están grabados con tal nivel de detalles. Por otra parte, la poca oferta disponible también es algo más cara.

Un álbum DSD tiene un precio aproximado de 20 €. También pesan bastante: cada álbum puede ocupar hasta 12 GB de tu disco duro. Y el equipo para reproducirlo tampoco es nada económico. Si inviertes tanto en archivos de audio querrás evitar reproducirlos con el DAC integrado de tu ordenador o con los amplificadores de poca calidad de los smartphones. Para saborear el DSD en toda su dimensión es necesario invertir en un DAC de extrema calidad, que puede costar miles de euros. Como ves, son archivos hechos para audiófilos o profesionales puristas del sector.

BWF

También conocido como Broadcast Format es el formato de audio sin comprimir creado por la Unión Europea de Radiodifusión (EBU), como sucesor al formato de audio WAV.

Características

En realidad se basa en la misma tecnología el que WAV, solo que permite el almacenamiento de metadatos en el mismo archivo, algo extremadamente útil cuando trabajamos en entornos de broadcasting, streaming, y otras aplicaciones profesionales. Este es un formato de audio específico para el entorno profesional, con lo que podrías esperar verlo en estudios de radio, televisión y lugares similares. Otra característica interesante es que los archivos BWF contienen una referencia de timestamp estandarizado lo que permite sincronizar fácilmente el archivo con un elemento de imagen separado. Algunas grabadoras multi-pista de marcas como Zaxcom, HHB, Fostex y Aaton utilizan BWF como uno de sus formatos de audio preferidos.

Poly WAV

Poly WAV es una variante del formato WAV que puede contener más de una pista en un mismo archivo contenedor. También conocido como “Poly WAV “, Poly.Wav, “.WAV Poly” y otros términos similares. Es un formato de archivo que se utiliza a menudo en las grabaciones de campo y en trabajos de postproducción donde intervienen muchos canales. Los archivos Poly WAV son archivos BWF multicanal que contienen metadatos adicionales, lo que permite identificar los canales embebidos dentro de un mismo archivo.

Características

Un archivo Poly WAV es solo un archivo wav que contiene múltiples pistas de audio. Al igual que un archivo wav estéreo contiene dos pistas, un poly wav contiene muchas pistas y metadatos para cada una.

Muchas grabadoras portátiles multicanal generan archivos Poly WAV. Varios DAW y programas de edición de audio pueden importar archivos Poly WAV de forma nativa, directamente, o incluso dividirlos en canales individuales para su posterior manipulación. La mayoría de los DAW´s y editores preparados para editar diálogos serán compatibles con archivos Poly WAV.

Digamos que grabas una toma que tiene 8 pistas. Un archivo BWF.P toma todas esas pistas y las multiplexa en un solo archivo.

Teniendo el formato WAV mono (monofónico) como tipo de archivo base, la grabadora o consola de audio compatible con Poly WAV puede generar archivos de datos separados para cada pista individual. Es uno de los formatos de audio que más relevancia ha tenido en el podcasting durante los últimos años. Esto se debe a que algunas plataformas y consolas, como la Rode Rodecaster Pro y la Sound Devices Series 7 o la Zoom F8n pueden generar estos archivos para exportar el contenido en formato multipista.

Sin duda es una buena solución para exportar e importar producciones de audio en RAW que necesitan de varios canales al mismo tiempo, como canciones o producciones de podcasting con varios invitados.

La ventaja del formato de audio Poly WAV es que tienes menos archivos con los que lidiar y los tramos individuales de cada pista no se perderán. Los podcasters y productores eligen a menudo el formato Poly WAV sencillamente porque es un solo archivo que contiene todo.

De todos modos, el formato de audio Poly WAV se puede convertir fácilmente a pistas individuales en formato WAV, AIFF o cualquier otro.

Formatos de audio lossless, con compresión y sin pérdidas

Cuando se trata de audio en streaming está claro que todavía no podemos usar un formato sin pérdidas, pero con la explosión del 5G y otras tecnologías tampoco tiene sentido usar un formato con pérdidas tan ineficiente como el MP3. Tal vez haya un punto intermedio. El formato con compresión sin pérdidas.

Los formatos de audio con compresión y sin pérdidas requiere más tiempo de procesamiento que los formatos sin comprimir. Sin embargo, es más eficiente en cuanto el espacio que ocupa y al ancho de banda que necesita.

Una de las características destacables es que los formatos de audio sin comprimir codifican tanto audio como silencio con el mismo número de bits por unidad de tiempo. Codificar un minuto de silencio en un formato sin comprimir produce un archivo del mismo tamaño que codificar un archivo sin comprimir de un minuto de música de orquesta. Estos formatos de audio proporcionan un ratio de compresión de más o menos 2:1.

El gran reto en torno a estos formatos de audio es reducir el tiempo de procesamiento manteniendo un buen ratio de compresión.

Veamos los principales formatos de audio con compresión sin pérdidas.

FLAC

FLAC es el acrónimo de Free Lossless Audio Codec, en inglés, es decir, códec de audio Libre de pérdidas. Se trata de un formato de audio que permite comprimir el audio digital sin pérdidas de manera que el tamaño del archivo de audio se reduce sin que se pierda ningún tipo de información. FLAC es un formato de audio abierto con licencia libre.

El programador Josh Colson inició el proyecto y después de años de investigación, el 20 de julio de 2001 se lanzó la versión 1.0. El 29 de enero de 2003, la Fundación Xiph.Org y el proyecto FLAC anunciaron la incorporación de este códec bajo la bandera de Xiph.org. La Versión 1.3.0 de FLAC se lanzó el 26 de mayo de 2013 y el desarrollo fue trasladado al repositorio de Xiph.org

Características

El algoritmo FLAC puede reducir entre un 50 y 60% el tamaño original del archivo y la información de audio se mantiene intacta.

FLAC cuenta con soporte para metadatos, inclusión de la portada del álbum, y la búsqueda rápida.

Una de las razones por las que FLAC no es un formato de uso extendido a nivel profesional, es porque no puede almacenar sus datos digitales en un formato denominado coma flotante, que permite ahorrar CPU del dispositivo para hacer procesamiento de muchas señales simultáneamente y de alta calidad en los estudios de sonido, donde la CPU es un recurso a valorar. Por ello, el soporte de reproducción en dispositivos portátiles de audio y sistemas de audio de alta calidad es limitado en comparación con formatos con pérdida como MP3 o PCM sin comprimir

Muchos auguran que el formato de audio FLAC podría ser el soporte para el futuro podcast HQ. Sin duda, es una buena opción si buscamos almacenar nuestra música sin perder calidad. A diferencia de WAV y AIFF, usa compresión, ocupando menos espacio. Sin embargo, sigue siendo un formato sin pérdidas, lo que significa que la calidad de sonido es la misma que la fuente original.

Apple Lossless

También conocido como ALAC, es un formato de audio similar a FLAC. Usa una compresión parecida, aunque desarrollada por Apple. Parece ser que su compresión no es tan eficiente como la de FLAC, por lo que los archivos suelen resultar un poco más grandes.

Apple Lossless se introdujo como componente de QuickTime 6.5.1 y por lo tanto como característica de iTunes 4.5 en 2004. Esto significa que se puede utilizar con el iPod.

Características

Como aclaración, ALAC no es una mejora del AAC, sino un creado desde cero que almacena los datos en un contenedor MP4 (con extensión .m4a) o MOV (con extensión .mov).

El codificador y decodificador del formato ALAC fueron liberados como software libre bajo la licencia Apache License versión 2.0 el 27 de octubre de 2011.

El formato de audio ALAC tiene una descodificación bastante rápida y hace un uso eficiente de la energía en dispositivos móviles, como el iPod. Tiene soporte para streaming y además permite la inclusión de metadatos. Como es lógico, el formato de audio ALAC soporta audio multicanal y altas resoluciones.

La única limitación es que ALAC parece bastante circunscrito al entorno de Apple. De hecho, el formato FLAC no es compatible con dispositivos Apple, de ahí la necesidad del formato ALAC. Por lo tanto, si usas MacOs o iOS como software principal para trabajar con audio, deberías elegir este formato.

APE

APE es la representación de Monkey’s Audio, un formato de audio comprimido sin pérdida.

Características

La principal ventaja de usar Monkey’s Audio está en la reducción de los requerimientos de ancho de banda y almacenamiento. En el caso de Monkey’s Audio, no hay que sacrificar la integridad de la fuente de sonido (como ocurre con el MP3). Por ejemplo, una grabación digital (como un CD) codificada a Monkey’s Audio se puede descomprimir en una señal idéntica a la original. Su ratio de compresión en cuanto al tamaño, puede rondar el 2:1. Es decir, que un archivo APE podría ocupar la mitad de su original con la misma calidad de audio.

Monkey’s Audio es adecuado para propósitos de distribución, reproducción y archivado de audio. No es ideal para reproducciones portátiles o streaming, porque suele ser muy lento para descomprimir en dispositivos de audio. Ademas, tiene una compatibilidad limitada en plataformas que no sean Windows. Hay otras alternativas que ofrecen al usuario más libertad y soporte oficial para más plataformas como el formato FLAC.

Los archivos de Monkey’s Audio usan la extensión *.ape para el audio, y *.apl para los metadatos de la pista.

MP3HD

MPEG-1 Audio Layer III HD más comúnmente conocido y anunciado por su abreviatura mp3HD es un formato de audio desarrollado por Technicolor. Se caracteriza por ser un formato de audio con compresión sin pérdidas que es totalmente compatible con el formato MP3.

Historia

MP3HD fue lanzado en marzo de 2009 como un competidor sin pérdidas del ya popular formato FLAC. El formato proporciona un contenedor en forma de un solo archivo. Este archivo único incluye el flujo con pérdida estándar (que se puede reproducir en cualquier dispositivo compatible con mp3) y los datos sin pérdida, (que se almacenan en la etiqueta ID3v2). Para reproducir los datos sin pérdida, necesitas un reproductor mp3HD compatible; de lo contrario, solo se reproducirán los datos con pérdida, el equivalente al MP3 tradicional. Además, al ser un método de compresión, los archivos producidos por el algoritmo son sustancialmente más pequeños que los archivos fuente sin comprimir. No obstante, son más o menos comparables a otros formatos similares sin pérdida.

Características

Admite la codificación de audio para canales de audio, objetos de audio, o ambisonics de orden superior (HOA). MPEG-H 3D Audio puede admitir hasta 64 canales independientes y 128 canales principales de códec. Los objetos se pueden usar solos o en combinación con canales o componentes HOA.

El formato ha estado bajo desarrollo muchos años y parece que con el tiempo ha perdido oportunidades de convertirse en un estándar. El fabricante quería apostar por un formato de audio con compresión y sin pérdidas aprovechando la hegemonía indiscutible del formato MP3. Este antecedente, podria llevar al MP3HD a un consumo generalizado. Desde 2009, Technicolor ha actualizado el formato y las herramientas de codificación para hacerlo más eficiente. ha ido lanzando diferentes herramientas con el tiempo:

Plugin para Winamp (solo Windows)
Filtro DirectShow para Windows Media Player
Convertidor nativo para MP3HD.

También se han realizado diferentes campañas y colaboraciones para favorecer la adopción generalizada del formato. No obstante, parece que no ha tenido todo el éxito que se esperaba.

MQA

MQA es el acrónimo de Master Quality Authenticated, un códec de audio que utiliza compresión con pérdida ^[1] y una forma de toma de huellas dactilares de archivos , diseñado para la transmisión y descarga de archivos por Internet de audio digital de alta fidelidad. Lanzado en 2014 por Meridian Audio. Ahora, el formato de audio MQA es es propiedad de MQA Ltd, fundada por Bob Stuart, cofundador de Meridian Audio.

Introducción

Muchos afirman que el formato de audio MQA es la versión comercial del DSD. Uno de los principales problemas de las plataformas de streaming, como Tidal o Spotify es que, por la limitación de la tecnología del streaming y las tarifas de datos, no pueden ofrecer música en archivos que sean demasiado pesados. Es por eso que hasta hace poco resultaba complicado encontrar un servicio de streaming con una verdadera calidad de audio en alta definición real.

Es lo que se conoce ahora como HiRes. Este es un término algo ambiguo y que se relaciona con muchas cosas, pero significa básicamente audio con la más alta calidad. El verdadero HiRes debería ser el DSD, pero actualmente, debido a su tamaño, es impracticable para los servicios de streaming. Así que la respuesta a este problema fue el MQA (Master Quality Authenticated), lanzado en 2014 por Meridian Audio. MQA es un formato de audio de muy alta calidad, parecido al DSD, pero con un códec extremadamente eficiente. Su tecnología permite una calidad de audio muy alta pero con unos archivos aún bastante ligeros. Usan una tecnología digital sofisticada que les permite adjuntarlos a un contenedor FLAC o WAV para poder transmitirlos a través de una señal en streaming.

Características

La codificación MQA tiene pérdidas. Este formato de archivo comprime jerárquicamente la energía en las bandas de frecuencias más altas en flujos de datos que están incrustados en las bandas de frecuencias más bajas utilizando técnicas de difuminado patentadas. Después de una serie de tales manipulaciones se proporciona al dispositivo los datos de 44,1 kHz resultantes, los flujos de datos en capas y un flujo de «retoque» final (diferencia comprimida entre la señal con pérdida de desempaquetar todas las capas y el original) para que pueda procesarlas.

El MQA está disponible en el mercado, pero aún no cuenta con la popularidad de otros formatos de audio. Aún le queda mucho recorrido para situarse entre los formatos de audio dominantes de la actualidad. Puedes escuchar audio MQA en Tidal, pero necesitarás un hardware especial para poder reproducirlos. Al igual que los DSD, los archivos MQA requieren algunos componentes internos especiales para poder sonar como se debe.

Los dispositivos de reproducción comerciales compatibles con MQA requieren el pago de una regalía a MQA Ltd por unidad vendida. Por ejemplo, según Auralic, un fabricante de transmisores, Meridian Audio prohíbe la salida digital de MQA sin empaquetar en cualquier formato digital, solo permitiendo que los datos sin empaquetar se envíen a un DAC integrado compatible con MQA y se emitan en forma analógica. Algunos dicen que se trata de una especie de proceso DRM , ^[14] que permite autenticar un archivo MQA adecuado y decodificar la calidad total de la señal sólo en equipos con licencia comercial.

Formatos de audio lossy, con compresión y con pérdidas

MP3

MP3 es la abreviatura de MPEG-1 Audio Layer III o MPEG-2 Audio Layer III. Es un formato de compresión de audio digital que usa un algoritmo con pérdida (de freuencias) para conseguir un menor tamaño de archivo. Durante años ha sido un formato de audio común utilizado para música, podcasts y consumo de audio en general, tanto en computadoras como en reproductores de audio portátil.

Historia

La idea inicial era que un archivo MP3 usando una compresión de 128 kbit/s tendría un tamaño de aproximadamente unas 11 veces menor que su homónimo en CD. Lo interesante de este formato de audio es que también podía comprimirse usando una mayor o menor tasa de bits por segundo, resultando directamente en menor calidad de audio final, así como en el tamaño del archivo resultante.

Karlheinz Brandenburg, fue el principal desarrollador del formato MP3. Brandenburg era el director de tecnologías de medios electrónicos del Instituto Fraunhofer IIS, (perteneciente al Fraunhofer-Gesellschaft —red de centros de investigación alemanes— que junto con Thomson Multimedia (renombrada como Technicolor) controlaba el grueso de las patentes relacionadas con el formato MP3.

Se considera a Karlheinz Brandenburg como «el padre del MP3» y formó parte del equipo que le dio nombre al formato MPEG: «Grupo de Expertos de Imágenes en Movimiento» («Moving Pictures Experts Group»). El grupo cedió el nombre al método digital para comprimir señales de audio y video para facilitar su emisión y almacenamiento. Aunque era un buen proyecto, lo cierto es que su implementación no fue sencilla, porque otros soportes de audio ya usaban técnicas de compresión como el MPEG-1 Audio Layer I. Por ejemplo, Philips lo usaba en su casete compacto digital de Philips y Sony hacía lo propio con sus Minidisc.

Después de un largo recorrido de casi diez años de investigación, en 1992 la ISO incluyó al MP3 como un estándar de compresión de audio, pero no fue hasta el año siguiente cuando fue finalmente formalizado con la llegada del MPEG-1 Capa de Audio III (MPEG-1 Audio Layer III), con velocidades de muestreo de 33, 44,1 y 48 kHz. Entonces decidieron comercializarlo a empresas para transferir la música a los estudios de radio mediante RDSI.

Registraron varias patentes más en 1991, pero fue en julio de 1995 cuando Brandenburg usó por primera vez la extensión .mp3 para los archivos relacionados con el MP3 que guardaba en su computadora. En el proceso de desarrollo del formato participó también el ingeniero Leonardo Chiariglione, quien tuvo la idea de los estándares que podrían ser útiles para este fin.

Un año después de esta brillante idea, su instituto ingresaba en concepto de patentes 1,2 millones de euros. Diez años más tarde esta cantidad ha alcanzado los 26,1 millones.

El formato MP3 se convirtió en el estándar utilizado para streaming de audio y compresión de audio con pérdida de mediana fidelidad gracias a la posibilidad de ajustar la calidad de la compresión, proporcional a la tasa de bits (bitrate) y en consecuencia, el tamaño final del archivo, permitiendo reducir hasta 12 e incluso 15 veces el del archivo original antes de su compresión.

Futuro del MP3

En 2017 expiraron todas las patentes relacionadas con el formato MP3 y desde entonces, la industria sigue en busca de nuevos formatos de audio que se conviertan en dignos sucesores del MP3. A pesar de ello, el MP3 sigue teniendo un uso muy extendido y parece que será así durante bastante tiempo.

AAC

AAC es el arcrónimo en inglés de Advanced Audio Coding. Se trata de un formato de audio basado en un algoritmo de compresión con pérdida (de frecuencias).

Es un estándar creado por MPEG (Moving Picture Experts Group).

Características

Debido a su excepcional rendimiento y la calidad, el formato de audio AAC se encuentra en el núcleo del MPEG-4, 3GPP y 3GPP2, y es el códec de audio de elección para Internet, conexiones inalámbricas y de radiodifusión digital.

Apple eligió este formato de audio como opción principal para los iPods y para su software iTunes. Otros grandes de las tenologías, como Ahead Nero, Winamp y Nintendo DSi también se decidieron a usarlo.

Lo más interesante del formato de audio ACC, aparte de su rendimiento, es que a diferencia del formato OGG, permite incluir legalmente la protección de los derechos de autor. Es decir, que aquellos archivos de audio que no tengan autorización o que tengan protección anticopia no funcionan en el reproductor de audio de destino. Por ejemplo, los archivos AAC para iPod no son compatibles con la Nintendo DSi, porque este último dispositivo no está autorizado.

Los tamaños de archivo pueden ser más pequeños que los del MP3 debido a una tecnología de codificación más eficiente. Por ejemplo, un archivo AAC de 96 kbps sonaría de calidad similar a un archivo MP3 de 128 kbps. AAC también ofrece más opciones de codificación que MP3 con posibilidades de muestreo que van desde 8 a 96 kHz y hasta 48 canales de audio.

El formato de audio ACC se postula como uno de los principales sucesores del MP3 a medio plazo.

Ogg

Ogg Vorbis es un formato de audio digital basado en un proyecto de código abierto dirigido por la Fundación Xiph.Org. Ser de código abierto significa que el formato es de uso completamente gratuito.

Características

El códec Vorbis se centra en la codificación basada en la calidad, lo que significa que la tasa de bits se ajusta automáticamente para garantizar una calidad constante. Vorbis tiene un rendimiento significativamente mejor que muchos otros formatos de audio con pérdida. Estas son algunas conclusiones extraídas en las pruebas de escucha a ciegas. Lo que significa que por lo general, producirá archivos más pequeños con una calidad equivalente o superior a archivos en otros formatos.

Opus

El formato de audio Opus es un códec con compresión con pérdida; muy versátil, abierto y libre de royalties. Utiliza el formato contenedor Ogg. La fundación Xiph.Org (los creadores del formato FLAC), en colaboración con Mozilla y Skype, crearon este formato de audio con la intención de codificar voz y audio. Fue aceptado como estándar para Internet en 2012.

Características

OGG Opus u Opus, como se le conoce comúnmente, se desarrolló inicialmente para VoIP. A pesar de su humilde misión, el formato parece mantenerse firme en las guerras de formatos. De hecho, en diversas pruebas de escucha de calidad a ciegas se ha declarado ganador sobre AAC, Ogg Vorbis y MP3.

Combina los algoritmos de SILK y CELT, y alterna entre ellos cuando es necesario para lograr la mayor eficiencia posible. Opus tiene una latencia más baja que los demás codecs de audio (22,5 ms por defecto, cuando los demás tienen más de 100 ms), lo que hace que sea ideal para la comunicación en tiempo real. El retraso se puede reducir a 5 ms, pero requiere una tasa de bits más alta para alcanzar la misma calidad que una transmisión con el retraso por defecto de 22,5 ms.

El formato de audio Opus soporta tasas de bits constantes y variables de 6 kbps a 510 kbps. También soporta cinco tasas de muestreo, desde 8 kHz (4 kHz audibles) hasta 48 kHz (20 kHz audibles, cubriendo todo el espectro audible). Además, este formato de audio soporta hasta 255 canales de audio y tiene soporte experimental para Ambisonics y permite emparejar canales en grupos de dos en joint stereo.

M4A

M4A es una extensión de archivo, variante del Advanced Audio Coding (AAC). La extensión M4A es la abreviatura de MPEG-4 parte 14 y constituye un tipo de archivo creado por Apple en 2004 a partir del formato de archivo QuickTime. El formato de audio M4A se pensó como el sucesor de MP3, que se diseñó específicamente para audio, sino que era la capa III en archivos de video MPEG 1 o 2. De hecho, M4A son las siglas de MPEG 4 Audio.

Características

Los archivo MPEG-4 parte 14 pueden guardarse con las extensiones M4A y MP4, con la diferencia de que esta última permite almacenar vídeo. Al igual que la mayoría de tipo de archivo de audio, existe una opción de compresión con pérdida, que se consigue mediante el uso de la codificación AAC. A diferencia de otros archivos de audio, este tipo de archivo también ofrece una compresión sin pérdida, gracias al formato sin pérdida de Apple.

Las extensiones de archivo M4A y MP3 se utilizan para archivos de solo audio. Los archivos contenedores MPEG 4 de solo audio suelen tener una extensión de archivo M4A. Los archivos M4A están desprotegidos. Si tienen algún tipo de protección, entonces el archivo tendría una extensión M4P.

La calidad de los archivos M4A, como herencia del AAC es mejor que la del MP3. Además, los tamaños de archivo también son más pequeños en comparación. Los archivos M4A suenan mejor que los archivos MP3 cuando se codifican con la misma velocidad de bits debido a algunas de las mejoras realizadas en el formato. Algunas de las innovaciones que trajo consigo el formato ACC y el M4a fueron:

Compresión basada en la percepción: si no está dentro de la percepción humana, los datos de audio pueden perderse sin un efecto notable en la calidad.
Tamaño de bloque de sample más pequeño para señales cambiantes: Los tamaños se reducen a 120 o 128 muestras en lugar de 192 para señales transitorias, lo que permite detalles más precisos allá donde sean necesarios.
Tamaños de bloque más grandes en señales estacionarias: En concreto de 1024 o 960 frente a los 576 bloques de muestra de MP3, lo que permite que menos datos representen una parte del audio que no tiene la misma complejidad.

Desde hace años hay una gran cantidad de software compatible con la extensión M4A. Algunos ejemlos son: iTunes, Quicktime , Windows Media Player y Roxio Popcorn, Toast and Creator. Una peculiaridad respecto a la compatibilidad del formato es que algunos reproductores multimedia solo reproducen M4A cuando se les cambia el nombre de la extensión a MP4.

Los archivos M4A constituyen una mejora de los archivos MP3, básicamente debido a su capacidad para ofrecer una compresión sin pérdida frente a la compresión con pérdida de su competencia. Los archivos pueden convertirse una y otra vez desde/hasta el audio y tamaño originales. La copia de MP4 está restringida mediante la tecnología DRM, pero el tipo de archivo M4A resulta sencillo de copiar y distribuir. Por este motivo, Apple utiliza archivos M4A para la venta de audio y la transferencia de contenido a CD y reproductores de música móviles.

M4B

El formato M4B es una variante del MPEG-4, pensado específicamente para la comercialización de audiolibros en Apple iTunes y Apple Books. Los archivos M4B son casi idénticos a los archivos .M4A , excepto que admiten funciones relacionadas con libros, como saltos de capítulo y marcadores. Contiene los datos de audio, pero también puede albergar metadatos y marcado de capítulos o episodios, lo que hace que este formato sea idóneo para audiolibros.

Características

Apple protege contra copias los archivos M4B que proporcionan mediante FairPlay DRM . Esto significa que los archivos M4B que descargue a través de iTunes o Apple Books solo se pueden reproducir en computadoras y dispositivos Apple autorizados, usando iTunes o Apple Books.

El formato M4B se implementó con especificaciones de codificación patentados para Apple. La tecnología de cifrado FairPlay, desarrollada por Apple se puede integrar en los audiolibros con formato M4B, de forma que el contenido solo se puede reproducir en computadoras y iPods autorizados. De hecho, este formato se pensó para el software iTunes de Apple y para comercializar los audiolibros presentes en la tienda online.

Por ello es fácil pensar que el formato M4B es solo compatible con Apple. Sin embargo, el software Winamp puede reproducir estos archivos, haciendo que Windows también sea compatible con el formato M4B. No obstante, en Winamp solo se podrían abrir archivos M4B que no estén cifrados con seguridad FairPlay.

M4R

El MPEG-4 Ringtone, vulgarmente conocido como M4R es una extensión propia de archivos de audio asociada principalmente con el iPhone de Apple. Es una extensión de archivo exclusiva, creada por Apple para usarse como tono de llamada en su smartphone. El formato M4R es un archivo de audio comprimido de alta calidad, que utiliza únicamente el códec Advanced Audio Coding (AAC).

Caracerísticas

Al pertenecer al grupo de los MPEG-4, este archivo de audio contiene representaciones numéricas, archivos de audio y texto en formato ASCII. Técnicamente, el M4R es exactamente lo mismo que el formato de audio M4A. La única diferencia es que la mayoría de M4Rs están protegidos por un copyright en función de la Gestión Digital de Derechos. Algunos dice que M4R es una versión renombrada de M4A, esto puede ser cierto sobre todo cuando nos fijamos en el algoritmo que utiliza.

Una de las curiosidades del M4R es que pueden tener una duración máxima de hasta 40 segundos.

OGA

OGA no es un formato de audio en sí mismo, sino un contenedor de audio desarrollado por Xiph.Org que puede usar diferentes métodos de codificación. Usualmente, estos archivos de audio usan el formato OGG.

Características

Los archivos OGA pueden usar diferentes códecs de audio, como el Ogg FLAC, Ghost, OggPCM, o incluso códecs menos recomendados como Ogg Vorbis y Speex (aunque podría experimentar ciertas incompatibilidades). En cualquier caso, Xiph.Org publicó un pack de códecs llamado DirectShow que permite el soporte de OGA para diferentes programas y aplicaciones open-source o comerciales para Windows.

Los archivos OGA son compatibles con las aplicaciones de software disponibles para dispositivos que ejecutan Android, Linux, Mac OS, Windows. De hecho, el programa más popular para manejar OGA es VLC media player.

MKA

El tipo de archivo MKA está asociado principalmente con Matroska por Matroska Association.

Características

Los formatos de contenedor multimedia de Matroska se derivaron de un proyecto llamado MCF, pero se diferencian significativamente de él porque se basa en EBML (Extensible Binary Meta Language), un derivado binario de XML. EBML permite la extensibilidad del formato en el futuro, sin interrumpir el soporte de archivos en analizadores antiguos. Por tanto, MKA es un contenedor de formatos de audio, no un formato de audio o un códec en sí mismo.

Los archivos MKA son archivos de audio que pueden contener típicamente un álbum de música completo en un solo archivo, donde los capítulos de archivo marcan cada canción. Además, el archivo MKA también puede contener metadatos, como como letras de las canciones, apuntes sobre la producción de audio, portadas en formato JPEG o incluso mostrar un flujo de subtítulos para Karaoke.

Este tipo de archivos necesita un software adecuado como Matroska.

WMA

Windows Media Audio (WMA) es una tecnología de compresión de audio desarrollada por Microsoft. El nombre puede usarse para referirse al formato de archivo de audio o al códec de audio. Es software propietario que forma parte de la suite Windows Media.

Aparte del propio formato de audio, WMA es una compilación cuatro códecs distintos, es decir cuatro versiones de WMA:

Original: WMA Original, conocido simplemente como WMA, un formato lossy concebido como competidor directo de MP3 y RealAudio.
Pro: WMA Pro, un códec más moderno y avanzado, soporta audio surround y audio de alta resolución.
Lossless: WMA Lossless, un formato de audio con compresión sin pérdida, puesto que el formato WMA original es un formato lossy, es decir, con compresión con pérdida.
Voice: WMA Voice, una variante del WMA enfocada en contenido hablado. Al ser un audio menos copmplejo aplica una compresión más agresiva, con lo que está diseñado para tasas de bits muy bajas.

Después de varios años de desarrollo, Microsoft lanzó el formato de audio WMA en 1999. Fue un claro movimiento por parte de Microsoft para plantar cara a los famosos formatos MP3 y RealAudio. El primer programa capaz de reproducir este formato fue Windows Media Player, pero la funcionalidad para crear archivos con esta extensión no se ofreció hasta el desarrollo de Windows Media Player 7.

El WMA dejó notar su éxito en pocos años. Parte de su popularidad se debía a que facilitaba la reproducción de vídeo en DVD y en dispositivos móviles y portátiles de Playstation y Nokia.

Características

En cuanto a la calidad de codificación con pérdidas, Microsoft indicaba que un archivo de audio WMA a 64 kbit/s ofrecía una calidad cercana a la propia de CD. En 1999 un estudio financiado por Microsoft, National Software Testing Laboratories (NSTL) encontró que WMA codificado a 64 kbit/s era preferible al MP3 a 128 kbit/s (codificado con Musicmatch Jukebox). Sin embargo, los audiófilos nunca han estado de acuerdo con esta afirmación ni con los resultados de este estudio. De hecho, una prueba pública realizada en septiembre de 2003 por Roberto Amorim concluyó que los participantes preferían al audio MP3 a 128 kbit/s que al WMA 64 kbit/s.

El tipo de archivo WMA soporta una frecuencia de audio de 48 kHz con un máximo de 2 canales estéreo. En la versión 9.1 de WMA, Microsoft añadió audio de baja latencia.

Real Audio

RealAudio es un formato de audio patentado desarrollado por RealNetworks y lanzado en abril de 1995. Utiliza una variedad de códecs de audio , que van desde formatos de baja tasa de bits que se pueden usar con módems de acceso telefónico a formatos de alta fidelidad para música. También se puede utilizar como formato de streaming de audio, que se reproduce al mismo tiempo que se descarga. En el pasado, muchas estaciones de radio por Internet usaban RealAudio para transmitir su programación a través de Internet en tiempo real.

Sin embargo, en los últimos años, el formato se ha vuelto menos común y ha dado paso a formatos de audio más populares.

RealAudio fue muy utilizado por la BBC hasta 2009, aunque se suspendió debido a su uso cada vez menor.

Aunque es un formato en desuso, es importante tenerlo en cuenta, porque a día de hoy todavía podemos encontrar grabaciones antiguas en este formato.

Una guía para elegir entre todos los formatos de audio

Por último, aquí tienes una infografía para tener una orientación sobre qué formato de audio elegir según el propósito

Conclusión

Los formatos de audio van evolucionando con el tiempo. Todas las iniciativas buscan conservar la calidad de audio original, pero ocupando el menor espacio posible en el ancho de banda y en el almacenamiento en disco. Las iniciativas para conservar la calidad de audio vienen desde muy lejos y la guerra de los formatos de audio parece que va a continuar por un largo tiempo.

Los 21 formatos de audio más populares y su explicación

Introducción a los formatos de audio

Formatos de audio lossless, sin compresión y sin pérdidas

WAV

Historia

Características

W64, la evolución

AIFF

Historia

Características

DSD

Características

DSD256+

Consideraciones

BWF

Características

Poly WAV

Características

Formatos de audio lossless, con compresión y sin pérdidas

FLAC

Características

Apple Lossless

Características

APE

Características

MP3HD

Historia

Características

MQA

Introducción

Características

Formatos de audio lossy, con compresión y con pérdidas

MP3

Historia

Futuro del MP3

AAC

Características

Ogg

Características

Opus

Características

M4A

Características

M4B

Características

M4R

Caracerísticas

OGA

Características

MKA

Características

WMA

Características

Real Audio

Una guía para elegir entre todos los formatos de audio

Conclusión

Related Posts

Los mejores directorios de música para podcast: Gratis y de Pago

¿Por qué deberías dejar de comprar altavoces monitores?

9 errores al grabar con tu micrófono: Megaguía

1 Comment