Committed to connecting the world

  •  
ITU GSR 2024

ITU-T Recommendations

Search by number:
Others:
Skip Navigation Links
Content search
Advanced search
Provisional name
Equivalent number
Formal description
Study Groups tree viewExpand Study Groups tree view

ITU-T G.722 (09/2012)

عربي | 中文 | English | Español | Français | Русский
Кодирование звукового сигнала с полосой 7 кГц на скорости передачи 64 кбит/с
В Рекомендации МСЭ-Т G.722 содержится описание характеристик системы широкополосного (ШП, 50–7000 Гц) кодирования звуковых сигналов, которая может использоваться для разнообразных обеспечивающих высшее качество речевых приложений. Система кодирования использует адаптивную дифференциальную импульсно-кодовую модуляцию с делением на поддиапазоны (SB-ADPCM) при битовой скорости 64 кбит/с. Далее эта система называется кодированием звуковых сигналов со скоростью 64 кбит/с (7 кГц). В рамках используемого метода SB-ADPCM полоса частоты подразделяется на два поддиапазона (верхний и нижний), и сигналы в каждом поддиапазоне кодируются с помощью ADPCM. Система имеет три базовых режима работы, соответствующие трем значениям битовой скорости для кодирования звуковых сигналов 7 кГц: 64, 56 и 48 кбит/с. Два последних режима обеспечивают возможность использования вспомогательного канала данных со скоростью 8 и 16 кбит/с, соответственно, для кодирования со скоростью 64 кбит/с путем использования битов из нижнего поддиапазона. В это новое издание был включен Список опечаток 1, а также ряд дополнительных опечаток, встретившихся в основной части Рекомендации МСЭ-T G.722.
В Приложении A представлены три частотные маски, которые могут использоваться для упрощения оценки оборудования серийного производства с использованием кодеков МСЭ-T G.722, в также для упрощения проверок, выполняемых в ходе установки. Эти маски специально не предназначены для замещения какого-либо требования данной Рекомендации, скорее они предназначены для указания на потребности приемо-сдаточных испытаний для партий оборудования, в котором используются кодеки МСЭ-Т G.722. Маски связаны с отношением сигнала к полному искажению в петле с SB-ADPCM. Таким образом, эти спецификации не предназначены для замещения цифровых последовательностей тестов алгоритма МСЭ-Т G.722, а, напротив, предназначены для обеспечения того, что прохождение последовательностями проверки на первой модели означает поддержание качества оборудования, в котором используются эти кодеки.
В Приложении B описан алгоритм масштабируемого сверхширокополосного (СШП, 50–14 000 Гц) кодирования речевых и звуковых сигналов, работающий со скоростью 64, 80 и 96 кбит/с. Сверхширокополосный кодек МСЭ-Т G.722 с расширением полосы функционально совместим с МСЭ-Т G.722. Ширина полосы выходного сигнала СШП кодера G.722 составляет 50–14 000 Гц. Кодер работает с кадрами длительностью 5 мс, имеет алгоритмическую задержку 12,3125 мс и наихудшую сложность 22,76 WMOPS (взвешенных миллионов операций в секунду). По умолчанию дискретизация входного сигнала кодера и выходного сигнала декодера осуществляется с частотой 32 кГц. Сверхширокополосный кодер для улучшенного основного элемента МСЭ-Т G.722 64 кбит/с создает встроенный битовый поток, структурно состоящий из двух слоев, соответствующих двум доступным битовым скоростям – от 80 до 96 кбит/с. Сверхширокополосный кодер для улучшенного основного элемента МСЭ-Т G.722 56 кбит/с создает встроенный битовый поток, структурно состоящий из одного слоя, соответствующего одной доступной битовой скорости – 64 кбит/с. Этот режим работы со скоростью 64 кбит/с также масштабируется на два режима – 80 кбит/с и 96 кбит/с. Битовый поток может быть усечен на стороне декодера или каким-либо компонентом системы связи для мгновенной корректировки битовой скорости до желаемого значения (96 кбит/с – 80 кбит/с – 64 кбит/с), не требуя для этого сигнализации по внешнему каналу. Базовый алгоритм состоит из трех основных частей: расширенные возможности в верхней полосе, расширение полосы (BWE) и кодирование с преобразованием в области модифицированного дискретного косинусного преобразования (MDCT) на основе алгебраического векторного квантования (AVQ). В этой пересмотренной версии были обновлены тестовые векторы Приложения B, с тем чтобы они могли в большей степени способствовать проверке реализаций на соответствие.
В Приложении C описана альтернативная реализация Приложения В МСЭ-Т G.722 на основе арифметических операций с плавающей запятой. Если Приложение B является спецификацией режима бит-в-бит с фиксированной запятой с исходным С-кодом с фиксированной запятой, доступным в МСЭ-Т, то альтернативная реализация с плавающей запятой целесообразна для платформ, оборудованных процессорами с плавающей запятой. Это альтернативное арифметическое устройство с плавающей запятой функционально полностью совместимо с Приложением B во всех конфигурациях, включая кросс-конфигурации.
В Приложении D описано расширение для стереосигналов широкополосного кодека МСЭ-Т G.722 и его сверхширокополосного расширения, Приложение В МСЭ-Т G.722. Оно оптимизировано для передачи стереосигналов с ограниченной дополнительной битовой скоростью при сохранении полной функциональной совместимости с обоими кодеками. Приложение D предусматривает работу на скорости 64–128 кбит/с с четырьмя значениями битовой скорости для сверхширокополосных стереосигналов – 80, 96, 112 и 128 кбит/с и двумя значениями битовой скорости для широкополосных стереосигналов – 64 и 80 кбит/с. Режимы широкополосных стереосигналов обеспечивают обратную совместимость с МСЭ-Т G.722, а сверхширокополосные режимы обеспечивают обратную функциональную совместимость с обеими спецификациями – широкополосных монофонических сигналов МСЭ-Т G.722 и сверхширокополосных сигналов Приложения В МСЭ-Т G.722. Стереокодек работает с кадрами длительностью 5 мс, имеет алгоритмическую задержку 13,625 мс для широкополосных стереосигналов и 15,9375 мс для сверхширокополосных стереосигналов. Дискретизация входного сигнала кодера и выходного сигнала декодера осуществляется с частотой 16 кГц и 32 кГц для широкополосных и сверхширокополосных режимов, соответственно. Базовый алгоритм состоит из трех основных частей: анализ параметров стереосигнала и микширование после записи в кодере и синтез стереосигнала в декодере. Первым слоем стереорасширения является слой со скоростью 8 кбит/с, содержащий базовые параметры стереосигнала, значения межканальной разницы во времени/межканальной фазовой разницы/межканальной когерентности и поддиапазонной межканальной разницы по уровням. Второй слой стереорасширения является также слоем со скоростью 8 кбит/с, который улучшает стереоизображение путем кодирования относящихся к нижней полосе значений поддиапазонной межканальной фазовой разницы. Наконец, третий слой стереорасширения является слоем со скоростью 16 кбит/с. В этом последнем слое передаются относящиеся к большей полосе значения межканальной фазовой разницы, которые позволяют далее улучшить стереоизображение. Битовый поток может быть усечен декодером или каким-либо компонентом системы связи для мгновенной корректировки битовой скорости до желаемого значения, включая битовые скорости широкополосного сигнала МСЭ-Т G.722 и сверхширокополосного сигнала Приложения В МСЭ-T G.722, не требуя для этого сигнализации по внешнему каналу.
Сетевые аспекты и тестовые последовательности основного алгоритма рассматриваются в Дополнениях I и II, соответственно, к настоящей Рекомендации. Дополнение II этого нового издания было обновлено для отражения изменения структуры тестовых последовательностей для основной части МСЭ-Т G.722.
Алгоритмы маскирования потери пакетов (PLC), называемые также алгоритмами маскирования стирания кадров, скрывают потери при передаче в аудиосистемах, в которых входной сигнал кодируется и пакетируется, передается по сети, принимается и декодируется до воспроизведения. Алгоритмы PLC включены в большинство стандартных современных речевых кодеров. Эта функция первоначально не входила в МСЭ-Т G.722. Таким образом, в Дополнениях III и IV представлены два механизма PLC МСЭ-Т G.722. Алгоритмы обоих дополнений были проверены в отношении сохранения показателей высокого качества с альтернативными вариантами качества/сложности. При дополнительной сложности в 2,8 WMOPS для худшего случая и в 2 WMOPS для усредненного случая по сравнению с декодером МСЭ-Т G.722, не имеющим PLC, алгоритм PLC МСЭ-Т G.722, представленный в Дополнении III, обеспечивает более высокое качество речи, в то время как PLC МСЭ-Т G.722, определенный в Дополнении IV МСЭ-Т G.722, обеспечивает меньшую сложность, практически не увеличивая сложности основного декодирования МСЭ-Т G.722 (дополнительная сложность для худшего случая составляет 0,07 WMOPS).
Алгоритм, представленный в Дополнении III, выполняет маскирование потери пакетов в выходном домене 16 кГц декодера МСЭ-Т G.722. Для заполнения сигнала потерянных пакетов используется периодическая экстраполяция сигнала при смешении с отфильтрованным шумом в соответствии с характеристиками сигнала до потери. Экстраполированный сигнал 16 кГц проходит через набор фильтров для разложения сигнала QMF, и сигналы поддиапазонов проходят в частичные поддиапазонные кодеры ADPCM для обновления состояния поддиапазонных декодеров ADPCM. Для каждой потери пакета выполняется дополнительная обработка, с тем чтобы обеспечить плавный переход от экстраполированного сигнала к сигналу, декодированному из полученных пакетов. Наряду с этим состояния поддиапазонных декодеров ADPCM синхронизованы по фазе с пакетом, полученным первым после потери пакета, и в декодированный сигнал введено предыскажение времени для согласования с экстраполированным сигналом, до того как оба сигнала будут суммированы с наложением для выравнивания перехода. При продолжительной потере пакетов алгоритм постепенно подавляет выходной сигнал. Алгоритм работает с собственным размером кадров в 10 мс. Он может работать с любым размером пакета или кадра, кратным 10 мс. Входной кадр большей продолжительности становится суперкадром, маскирование потери пакетов для которого требует соответствующего значения времени в его внутреннем размере кадра в 10 мс. Это не увеличивает задержку по сравнению с обычным декодированием МСЭ-Т G.722 с использованием того же размера кадра.
В Дополнении IV работа декодера состоит из трех этапов: декодирование в нижнем поддиапазоне, декодирование в верхнем поддиапазоне и синтезирование квадратурного зеркального фильтра (QMF). В отсутствие стирания кадров структура декодера идентична структуре МСЭ-Т G.722, за исключением хранения двух декодированных сигналов – верхнего и нижнего поддиапазонов. В случае стирания кадров сигнализация идентификации дефектного кадра (BFI) информирует об этом декодер. Далее он выполняет анализ предыдущего восстановленного сигнала нижнего поддиапазона и экстраполирует пропущенный сигнал, используя кодирование с линейным прогнозированием (LPC), повторения периода синхронизации по шагу и адаптивное подавление. Когда получен хороший кадр, выполняется перекрестное замирание декодированного сигнала и экстраполированного сигнала. В верхнем поддиапазоне декодер синхронно повторяет предыдущий шаг кадра при адаптивном подавлении и постобработке в верхних частотах. Состояние адаптивной дифференциальной импульсно-кодовой модуляции (ADPCM) обновляется после каждого стирания кадра.
В Дополнении V определяется схема кодирования средних-боковых (MS) стереосигналов с использованием сверхширокополосного расширения, определенного в Приложении B [МСЭ-Т G.722]. Благодаря введению в стереофонические терминалы кодирования средних-боковых стереосигналов функциональная совместимость с монофоническими устройствами может достигаться при весьма низкой сложности. Базовой является следующая схема кодирования: два канала левого-правого (LR) стереосигнала конвертируются в средние-боковые каналы стереосигнала и затем сигналы каждого канала кодируются независимо с использованием Приложения В МСЭ-Т G.722; далее, на стороне декодера, средний-боковой каналы битового потока от кодера декодируются соответственно и затем декодированные сигналы среднего-бокового каналов возвращаются в сигналы левого-правого каналов. Преобразование LR-MS и обратно выполняется традиционным образом. На стороне кодера для преобразования LR-MS требуются две дополнительные арифметические операции на выборку, а также требуется один оператор для преобразования MS-LR в декодере. В реализации базовых операторов библиотеки программных средств STL2009 (см. МСЭ-Т G.191) сложность преобразования составляет около 0,2 WMOPS в целом. Алгоритм кодирования для каждого канала идентичен алгоритму, описанному в Приложении В Рекомендации МСЭ-Т G.722.
В Приложениях B, C и D содержится электронное приложение, в которое включены исходные коды ANSI C, являющиеся неотъемлемой частью этих Приложений. Исходный код ANSI C также представлен как неотъемлемая часть Дополнений III и IV.
ПРИМЕЧАНИЕ. – Эталонная реализация кода ANSI-C алгоритма основной части МСЭ-Т G.722 содержится в модуле МСЭ-Т G722 Библиотеки программных средств МСЭ-Т G.191.
Тестовые последовательности представляются для проверки на соответствие алгоритма МСЭ-Т G.722 в основной части настоящей Рекомендации. Тестовые векторы представлены в помощь при проведении проверок корректного функционирования Приложений B, C и D и Дополнений III и IV.
Citation: https://handle.itu.int/11.1002/1000/11673
Series title: G series: Transmission systems and media, digital systems and networks
  G.700-G.799: Digital terminal equipments
  G.710-G.729: Coding of voice and audio signals
Approval date: 2012-09-13
Provisional name:G.72x
Approval process:AAP
Status: In force
Maintenance responsibility: ITU-T Study Group 16
Further details: Patent statement(s)
Development history
Associated test signals