Committed to connecting the world

  •  
ITU GSR 2024

ITU-T Recommendations

Search by number:
Others:
Skip Navigation Links
Content search
Advanced search
Provisional name
Equivalent number
Formal description
Study Groups tree viewExpand Study Groups tree view

ITU-T G.722 (09/2012)

عربي | 中文 | English | Español | Français | Русский
Codificación de audio de 7 kHz dentro de 64 kbit/s
La Recomendación UIT-T G.722 describe las características de un sistema de codificación audio de banda ancha (50 a 7000 Hz) que puede utilizarse en diversas aplicaciones para señales vocales de alta calidad. El sistema de codificación utiliza modulación por impulsos codificados diferencial adaptativa de subbanda (MICDA-SB) a una velocidad binaria de hasta 64 kbit/s. El sistema se denominará en adelante sistema de codificación audio (7 kHz) a 64 kbit/s. En la técnica MICDA-SB utilizada, la banda de frecuencias se divide en dos subbandas (superior e inferior) y las señales de cada una se codifican utilizando MICDA. El sistema tiene tres modos básicos de funcionamiento, correspondientes a las velocidades binarias utilizadas para la codificación de audio de 7 kHz: 64, 56 y 48 kbit/s. Los dos últimos modos permiten obtener, respectivamente, un canal de datos auxiliar de 8 kbit/s o de 16 kbit/s, que se proporciona dentro de los 64 kbit/s mediante el uso de bits de la subbanda inferior. En esta nueva edición se incorpora la Errata 1 así como ciertas correcciones suplementarias identificadas en el texto principal de la Recomendación en cuestión.
El Anexo A propone tres plantillas de frecuencias que pueden utilizarse para simplificar la evaluación del equipo de producción en masa que utilice códecs conformes a la Recomendación UIT-T G.722, y hacer más fácil las comprobaciones efectuadas durante la instalación. Las máscaras propuestas no están específicamente destinadas a suplantar ninguno de los requisitos de esta Recomendación, sino más bien a sugerir las necesidades de pruebas de aceptación para la producción de cantidades de equipos que utilizan códecs conformes a la Recomendación UIT-T G.722. Se refieren a la medida de la relación señal/distorsión total en un bucle con MICDA-SB. Por consiguiente, estas especificaciones no pretenden sustituir las secuencias digitales de prueba del algoritmo UIT-T G.722, sino más bien asegurar, una vez que se han comprobado estas secuencias en el primer modelo, que se mantenga la calidad de los equipos que utilizan estos códecs.
El Anexo B describe un algoritmo de codificación de voz y audio en banda superancha (SWB, 50-14 000 Hz) gradual que funciona a 64, 80 y 96 kbit/s. El códec de extensión en banda superancha UIT-T G.722 es compatible con UIT-T G.722. La salida del codificador de SWB UIT-T G.722 tiene un ancho de banda de 50-14 000 Hz. El codificador funciona con tramas de 5 ms, tiene un retardo algorítmico de 12,3125 ms y una complejidad de 22,76 WMOPS para el caso más desfavorable. Por defecto, la entrada del codificador y la salida del decodificador se muestrean a 32 kHz. El codificador de banda superancha para el modo UIT-T G.722 mejorado a 64 kbit/s produce un tren de bits integrado que se estructura en dos capas correspondientes a las dos velocidades binarias disponibles de 80 y 96 kbit/s. El codificador de banda superancha para el modo UIT-T G.722 mejorado a 56 kbit/s produce un tren de bits integrado que se estructura en una capa correspondiente a la única velocidad binaria disponible de 64 kbit/s. Este modo a 64 kbit/s también puede ajustarse a los modos correspondientes a 80 y 96 kbit/s. Es posible truncar el tren de bits en el decodificador o en cualquier componente del sistema de comunicación con el fin de ajustar instantáneamente la velocidad binaria al valor deseado (96 kbit/s, 80 kbit/s, 64 kbit/s) sin tener que utilizar señalización fuera de banda. El algoritmo subyacente incluye tres partes principales: mejoras en la banda superior, ampliación de anchura de banda (BWE) y codificación por transformada en el dominio transformada de coseno discreta modificada (TCDM) basado en la cuantificación vectorial algebraica (AVQ). En esta versión revisada se han actualizado los vectores de texto del Anexo B, con objeto de facilitar la verificación de la conformidad de las implementaciones.
El Anexo C describe una opción para la implementación del Anexo B a UIT-T G.722 utilizando la aritmética de coma flotante. En tanto que el Anexo B facilita una especificación en coma fija exacta por bit, cuyo código fuente C en coma fija está disponible en el UIT-T, la opción de aplicación en coma flotante es útil para plataformas equipadas con procesadores en coma flotante. Se ha constatado que esta opción era totalmente compatible con el Anexo B en todas las configuraciones, incluidas las configuraciones cruzadas.
El Anexo D describe una extensión estéreo del códec de banda ancha UIT-T G.722 y su extensión a banda superancha, el Anexo B a UIT-T G.722. Esta extensión está optimizada para la transmisión de señales estéreo con una velocidad binaria adicional limitada y, al mismo tiempo, es totalmente compatible con ambos códecs. La extensión descrita en el Anexo D funciona de 64 a 128 kbit/s con cuatro velocidades binarias de 80, 96, 112 y 128 kbit/s para el modo estéreo de banda superancha y dos velocidades binarias de 64 y 80 kbit/s para el modo estéreo de banda ancha. Los modos estéreo de banda ancha son compatibles con sistemas UIT-T G.722 anteriores, mientras que los modos estéreo de banda superancha son compatibles con el modo UIT-T G.722 mono de banda ancha y el Anexo B a UIT-T G.722 de banda superancha. El códec estéreo se aplica en tramas de 5 ms con un retardo algorítmico de 13,625 ms para estéreo de banda ancha y 15,9375 ms para estéreo de banda superancha. La entrada del codificador y la salida del decodificador se muestrean a 16 y 32 kHz para los modos de funcionamiento de banda ancha y banda superancha, respectivamente. El algoritmo subyacente incluye tres partes principales: análisis de parámetros estéreo, mezclado reductor en el codificador y síntesis estéreo en el decodificador. La primera capa de extensión estéreo es una capa a 8 kbit/s que comprende los parámetros estéreo básicos, la diferencia de tiempo entre canales/la diferencia de tiempo entre canales/la coherencia entre canales para la banda ancha, y las diferencias de nivel entre canales en las subbandas. La segunda capa estéreo, que es también una capa a 8 kbit/s, mejora la imagen estéreo codificando las diferencias de fase entre canales en la subbanda inferior. Por último, la tercera capa es una capa estéreo a 16 kbit/s, en la que se transmiten las diferencias de fase entre canales para mayor anchura de banda, lo cual permite mejorar aún más la imagen estéreo. El decodificador o cualquier otro componente del sistema de comunicación pueden truncar el tren de bits para ajustar instantáneamente la velocidad binaria al valor deseado, incluidas velocidades binarias UIT-T G.722 de banda ancha y del Anexo B a UIT T G.722 de banda superancha, sin que sea necesaria una señalización fuera de banda.
Los aspectos relativos a la red y las secuencias de prueba para el algoritmo descrito en el texto principal de la Recomendación se abordan en los Apéndices I y II, respectivamente, de dicha Recomendación. En esta nueva edición, se ha actualizado el Apéndice II para dar cuenta de la reestructuración de las secuencias de prueba descrita en el texto principal de la Recomendación.
Los algoritmos de ocultación de pérdidas de paquetes (PLC), también conocidos como algoritmos de ocultación de borrado de tramas, encubren las pérdidas de transmisión en los sistemas audio vinculadas a la codificación y los paquetes de la señal de entrada, a su envío a una red, a su recepción y a su decodificación antes de la lectura correspondiente. Se pueden hallar algoritmos PLC en la mayoría de codificadores de voz normalizados recientes. El códec UIT-T G.722 fue diseñado inicialmente sin esa característica, pero los Apéndices III y IV definieron posteriormente dos mecanismos PLC para ese códec. Se verificó que los algoritmos descritos en ambos Apéndices ofrecían una calidad muy elevada con diferentes compromisos entre calidad y complejidad. Añadiendo una complejidad de 2,8 WMOPS para el caso más desfavorable y de 2 WMOPS en promedio con respecto al decodificador UIT-T G.722 sin PLC, el algoritmo PLC UIT-T G.722 descrito en el Apéndice III ofrece una mejor calidad de voz, en tanto que el algoritmo PLC UIT-T G.722 especificado en el Apéndice IV supone una menor complejidad y añade muy poca complejidad en relación con el decodificador definido en el texto principal de la Recomendación UIT-T G.722 (la complejidad suplementaria en el caso más desfavorable es de 0,07 WMOPS).
El algoritmo del Apéndice III realiza la ocultación de pérdidas de paquetes en el dominio de salida a 16 kHz del decodificador UIT-T G.722. Se realiza una extrapolación de la forma de onda periódica para completar la forma de onda de los paquetes perdidos, y una mezcla con ruido filtrado siguiendo las características que poseía la señal antes de la pérdida. La señal extrapolada a 16 kHz pasa por el banco de filtros de análisis QMF, y las señales de las subbandas son transmitidas a codificadores MICDA (modulación por impulsos codificados diferencial adaptativa) en subbandas parciales para actualizar los estados de los decodificadores MICDA en las subbandas. Se lleva a cabo un tratamiento adicional con cada pérdida de paquetes para pasar sin dificultad de la forma de onda extrapolada a la forma de onda decodificada a partir de los paquetes recibidos. Entre otras cosas, los estados de los decodificadores MICDA en las subbandas son alineados en fase con el primer paquete recibido después de una pérdida de paquetes, y la forma de onda decodificada es alineada temporalmente para que pueda alinearse con la forma de onda extrapolada, antes que ambas se añadan por solapamiento para facilitar la transición. Para una pérdida de paquetes prolongada, el algoritmo atenúa gradualmente las señales de salida. El algoritmo que funciona según un tamaño de trama intrínseco de 10 ms puede intervenir en cualquier paquete o trama cuyo tamaño sea un múltiplo de 10 ms. Para una trama de entrada importante, o supertrama, la ocultación de pérdidas de paquetes, que se aplica a un tamaño de trama intrínseco de 10 ms, funciona tantas veces como sea necesario. Por ese motivo, no hay ningún retardo suplementario con respecto al decodificador UIT-T G.722 normal que utiliza el mismo tamaño de trama.
El decodificador del Anexo IV comprende tres etapas: decodificación en la subbanda inferior, decodificación en la subbanda superior y síntesis por filtros especulares en cuadratura (QMF). En ausencia de borrado de tramas, la estructura del decodificador es idéntica a la descrita en UIT-T G.722, excepto para el almacenamiento de las dos señales decodificadas de las subbandas superior e inferior. En presencia de borrado de tramas, el decodificador es informado por la señalización de indicación de trama incorrecta (BFI). Analiza entonces la señal precedente reconstruida en la subbanda inferior y extrapola la señal que falta mediante codificación de predicción lineal (LPC), repetición en modo síncrono con la tonalidad y atenuación adaptativa. Cuando se recibe una trama correcta, la señal decodificada se funde con la señal extrapolada. En la subbanda superior, el decodificador repite la trama precedente en modo síncrono con la tonalidad, con atenuación adaptativa y posprocesamiento paso alto. Los estados MICDA se actualizan después de cada borrado de tramas.
El Apéndice V define un sistema de codificación estéreo mid-side (MS) basado en la extensión a banda superancha definida en el Anexo B a UIT-T G.722. Efectuando la codificación estéreo mid-side en los terminales estéreo, se puede obtener el interfuncionamiento con dispositivos monofónicos con muy baja complejidad. El sistema de codificación básica es el siguiente: dos canales estéreo izquierda-derecha (LR) son convertidos en canales estéreo MS y luego las señales de cada canal son codificadas independientemente aplicando el algoritmo del Anexo B a UIT-T G.722; en el decodificador, los canales MS del tren binario procedente del codificador son decodificados y a continuación las señales decodificadas de esos canales son convertidas en señales de canales LR. La conversión LR-MS y su inversa se llevan a cabo según el procedimiento clásico. El codificador necesita dos operaciones aritméticas suplementarias por muestra para la conversión LR-MS y el decodificador, un operador para la conversión de MS-LR. En una implementación del operador de base de la biblioteca STL2009 (véase la Recomendación UIT-T G.191), la complejidad de la conversión es de aproximadamente 0,2 WMOPS en total. El algoritmo de codificación para cada canal es idéntico al utilizado en el Anexo B a la Recomendación UIT-T G.722.
Los Anexos B, C y D contienen un fichero electrónico adjunto en el que figura el código fuente ANSI-C, que forma parte integral de esos Anexos. Los Apéndices III y IV contienen también el código fuente ANSI-C correspondiente.
NOTA – En el módulo UIT-T G.722 de la biblioteca de herramientas informáticas UIT-T G.191 puede hallarse una implementación de referencia del código ANSI-C para el algoritmo del texto principal de la Recomendación UIT-T G.722.
Se facilitan secuencias de prueba con objeto de verificar la conformidad del algoritmo UIT-T G.722 en el texto principal de esta Recomendación. Se proporcionan también vectores de prueba para facilitar la verificación de la aplicación correcta de los Anexos B, C y D, y de los Apéndices III y IV.
Citation: https://handle.itu.int/11.1002/1000/11673
Series title: G series: Transmission systems and media, digital systems and networks
  G.700-G.799: Digital terminal equipments
  G.710-G.729: Coding of voice and audio signals
Approval date: 2012-09-13
Provisional name:G.72x
Approval process:AAP
Status: In force
Maintenance responsibility: ITU-T Study Group 16
Further details: Patent statement(s)
Development history
Associated test signals