Информатизации и телекоммуникационных технологий республики узбекистан


Исследование способов представления аудиоданных



страница8/12
Дата01.12.2017
Размер0.91 Mb.
ТипИсследование
1   ...   4   5   6   7   8   9   10   11   12

3. Исследование способов представления аудиоданных


Наиболее распространѐнный на данный момент формата аудиоданных - MPEG1 Layer III (чаще называемый просто MP3) (ISO 11172-3, Уровень II), Именно этот стандарт, называемый кратко ISO/MPEG (Уровень II/II A) и его расширение MUSICAM (Уровень II), разработанное специалистами Corporate Computer Systems, Inc. (США) используется сейчас для звукового сопровождения телевизионных программ MPEG-2. Кроме этого, алгоритм ISO/MPEG (Уровень II/II A) реализован в аппаратуре для цифрового спутникового радиовещания.

Общая структура процесса кодирования MPEG1 Layer I, Layer II и Layer III одинакова для всех уровней. Для каждого уровня определен свой формат записи бит-потока и свой алгоритм декодирования. Алгоритмы MPEG основаны в целом на изученных свойствах восприятия звуковых сигналов слуховым аппаратом человека (то есть кодирование производится с использованием так называемой "психоакустической модели"). То есть, человеческий слух не идеален и восприимчивость слуха на разных частотах, в разных композициях - разная. Этим и пользуются при построении "психоакустической модели", которая учитывает, какие звуки, частоты, можно вырезать не нанося ущерба слушателю композиции.

Стандарт MPEG-2 был специально разработан для кодирования ТВ сигналов вещательного телевидения. Особый интерес представляет продолжение стандарта, разработанное в апреле 1997 в виде алгоритма MPEG-2 AAC (MPEG-2 Advanced Audio Coding - продвинутое аудио кодирование). Стандарт MPEG-2 AAC стал результатом кооперации усилий института Fraunhofer, компаний Sony, NEC и Dolby. MPEG-2 AAC является технологическим приемником MPEG-1.

Формат MPEG-2 AAC изначально позиционировался разработчиками как преемник MPEG1 Layer3, так как обладал по сравнению с последним рядом несомненных достоинств.

Как и в MPEG1 Layer3 в основе алгоритма AAC лежит психоакустическая модель кодирования, то есть при сжатии какая-то часть звукового спектра удаляется. При этом алгоритм AAC содержит большое количество усовершенствований, направленных именно на улучшение качества выходного аудиосигнала. Кроме того, в MPEG-2 AAC используются другие алгоритмы преобразований, улучшенные обработчики шумов и новый банк фильтров.

Из специальных возможностей можно назвать, так называемые "водяные знаки" (watermarks) - информацию об авторских правах, которую AAC позволяет хранить в теле аудиокомпозиции, причем удалить эту информацию не разрушив целостность аудиоданных невозможно. При всем при этом MPEG-2 AAC обладает высочайшим качеством звучания и очень хорошей степенью компрессии аудиокомпозиций. Так, например, аудиокомпозиция в формате AAC с bitrate 96 kbs обеспечивает качество звучания, аналогичное потоку MPEG-1 Layer III bitrate128 kbs. При сравнении же файлов AAC с bitrate 128 kbs, качество звучания ощутимо превосходит MPEG-1 Layer III с такой же степенью сжатия.

На данный момент существуют четыре разновидности формата AAC: Homeboy AAC, AT&T a2b AAC, Liquifier PRO AAC (LQT), Astrid/Quartex AAC [12]. Все эти модификации несовместимы между собой, имеют собственные кодеры/ декодеры и неодинаковы по качеству.

Кодек MP3 Pro анонсирован в июле 2001 года компанией Coding Technologies вместе с Tomson Mulimedia и институтом Fraunhofer [30]. Формат MP3Pro является продолжением, или, точнее, развитием старого MPEG1 Layer3. MP3Pro является совместимым с MPEG1 Layer3 назад (полностью) и вперед (частично). То есть файлы, закодированные с помощью MP3Pro, можно воспроизводить в обычных проигрывателях, однако качество звучания при этом заметно хуже, чем при воспроизведении в специальном проигрывателе. Это связано с тем, что файлы MP3Pro имеют два потока аудио, в то время как обычные проигрыватели распознают в них только один поток, то есть обычный MPEG-1 Layer 3. В MP3Pro использована новая технология - SBR (Spectral Band Replication). Эта технология предназначена для передачи верхнего частотного диапазона. Идея технологии и предпосылки таковы. Дело в том, что технологии использования психоакустических моделей имеют один общий недостаток: все они работают качественно до битрейта 128 Kbps. На более низких битрейтах начинаются различные проблемы: либо для передачи аудио необходимо обрезать частотный диапазон, либо кодирование приводит к появлению различных артефактов. Этот ключевой момент показывает, что использования психоакустической модели не достаточно при работе с битрейтами ниже 128 Kbps. Новая технология SBR дополняет использование психоакустических моделей. Работает это так: в файле передается (кодируется) чуть более узкий диапазон частот чем обычно (то есть с обрезанными "верхами"), а верхние частоты воссоздаются (восстанавливаются) уже самим декодером на основе информации о более низких частотных составляющих. Таким образом, технология SBR применяется фактически не столько на стадии сжатия, сколько на стадии декодирования. "Загадочный" второй "параллельный" поток данных, о котором говорилось выше, как раз и есть та минимальная необходимая информация, которая используется при воспроизведении для восстановления верхних частот. Эта информация - есть усредненная мощность сигнала в верхнем (обрезанном) диапазоне частот.

Таким образом, использование информационного сжатия позволяет передать звук с высоким качеством, используя очень узкую полосу частот. Это, в свою очередь, делает возможной двойную экономию - меньше стоимость аренды спутникового канала, меньше диаметры передающей и приемной антенн. С точки зрения применения сжатого аудиосопровождения для ТВ программ, транслируемых в рамках высокоскоростной сети позволяет производить экономию пропускной способности каналов связи.

Все алгоритмы представления звуковых данных в цифровом виде базируются на теореме Котельникова, которая говорит о том, что чтобы восстановить без искажений аналоговый сигнал после его преобразования в цифровой, необходимо, чтобы частота выборки (дискретизации) была хотя бы вдвое выше верхней граничной частоты исходного сигнала. Для записи звука на компакт-диски используется частота выборки 44,1 кГц – это позволяет получить частотный диапазон до 20 кГц. Другим фактором, влияющим на качество воспроизводимого звука - количество двоичных разрядов квантования. Во-первых, им определяется передаваемый динамический диапазон звука. Во вторых, после цифроаналогового преобразования уровень воспроизводимого сигнала может принимать некоторое множество фиксированных значений. Исходный же аналоговый сигнал изменяется непрерывно. В результате восстановленный сигнал неизбежно отличается по форме от исходного, и отличие это тем больше, чем меньше разрядов использовалось для квантования сигнала. Искажение формы сигнала при воспроизведении эквивалентно добавлению некоего шума - шума квантования. Чтобы достичь полной неразличимости шумов квантования, в технике компакт-дисков используется 16-ти разрядное квантование, при этом уровень воспроизводимого сигнала может принимать одно из 65536 значений.

Таким образом, для передачи по каналу связи двух каналов звука с качеством CD без применения сжатия требуется передать 44,1 кГц * 16 бит* 2 канала = 1411 Кбит в секунду. Следовательно на передачу такого аудиосигнала будет требоваться около 200Кбайт/с (а в условиях плохого качества сигнала при гарантии доставки и того больше) пропускной способности канала передачи данных, что является неприемлемым в случае, если стоит задача передача большого числа каналов в разделяемом канале передачи данных. В случае же предварительного сжатия с использованием алгоритма MUSICAM, достаточно скорости 200 Кбит/сек и меньше, при согласии с некоторым снижением качества.

Формат аудиоданных


На рис. 20 приведена структура кадра ISO/MPEG (уровень II/IIA). Заголовок кадра содержит специальные данные, необходимые декодеру для корректного восстановления сигнала – масштабные коэффициенты, информация о распределении битов, признак режима обработки стереофонического сигнала (независимые или совмещенные каналы) и другие служебные данные. Поле данных звука содержит выборки звукового сигнала. Поле дополнительных данных может содержать данные, которые формируются вне кодера и передаются в едином цифровом потоке – команды системы сетевого администрирования, команды управления абонентскими приемниками и периферийной аппаратурой радиостанций-ретрансляторов, а также любые данные пользователя с низкой скоростью. Если сжимается стереофонический сигнал и скорость цифрового потока на выходе кодера 256 Кбит/с, то длина одного кадра составляет 6.144 бит, из них примерно 300 бит приходится на заголовок, остальные – на данные звука и дополнительные данные.

Рис. 20. Формат кадра аудиоданных ISO/MPEG


Кодирование


Функциональная схема кодера звука ISO/MPEG представлена на рис. 21. Цикл кодера (1 кадр) составляет 24 мс. Звуковой сигнал, поданный на вход кодера, поступает на гребенку фильтров, где разделяется на 32 частотных полосы. Аналого- цифровое преобразование (дискретное косинусное преобразование) выполняется кодером отдельно в каждой полосе. Частота выборки составляет 48 кГц.

Для каждого кадра процессор кодера рассчитывает спектр входного сигнала и границу маскирования, которая служит психоакустической моделью человеческого уха. Далее психоакустическая модель дважды используется для минимизации объема данных. Первый раз: если в одной или нескольких частотных полосах ни одна выборка не превышает минимального значения границы маскирования в этой полосе – вся информация, связанная с этой полосой (полосами), исключается из передаваемого сигнала. Второй раз: для квантования сигнала в тех полосах, где его уровень выше границы маскирования, количество разрядов динамически изменяется таким образом, чтобы шумы квантования при этом оставались ниже границы маскирования.


Рис. 21. Функциональная схема кодера ISO/MPEG (уровень II/IIa)

Из вышеизложенного видно, что для аналого-цифрового преобразования в каждой полосе от кадра к кадру используется разное количество битов. Для восстановления декодером истинной величины сигнала в кодере формируются масштабные коэффициенты. Коэффициенты вычисляются так: в каждой полосе определяется выборка с максимальным значением, затем это значение подвергается 16-разрядному квантованию. Динамический диапазон масштабных коэффициентов ≈ 120 дБ. Этого достаточно для кодирования сигнала с таким же динамическим диапазоном.

Если в результате ошибки искажается один из битов заголовка, весь кадр может быть воспринят декодером неверно, и 24 мс сигнала будут искажены. Если искажается один из битов поля данных, это приводит к искажению всего одной выборки. Заметность такого искажения зависит от того, приходился ли этот бит на старший (более значимый) или на младший (менее значимый) разряд выборки. В любом случае искажение будет занимать очень короткий отрезок времени и вряд ли будет воспринято слушателем. Исходя из этого, заголовок кадра защищается от ошибок помехозащитным кодом, а остальная часть кадра остается незащищенной. При обнаружении неисправимой ошибки в заголовке декодер вместо скомпрометированного кадра повторяет предыдущий. Если ошибки обнаруживаются в заголовках второго и последующих кадров, декодер отключает звук на своих выходах.

Описанная здесь стратегия защиты данных от ошибок обеспечивает полное отсутствие ощутимых искажений при коэффициенте ошибок на входе декодера 10-5. При увеличении коэффициента ошибок искажения увеличиваются незначительно, если же количество ошибок становится слишком большим, декодер просто отключает звук.

Алгоритм ISO/MPEG (уровень II/IIA) предполагает сжатие и передачу одного монофонического канала (режим работы кодера mono), стереофонического звука с раздельными каналами или двух разных монофонических каналов одновременно (stereo или dual mono), или стереофонического звука со совмещенными каналами (режим joint-stereo).

С точки зрения кодирования, режимы stereo и dual mono абсолютно идентичны. Каналы от начала и до конца обрабатываются кодером раздельно. Ровно половина битов каждого кадра отводится для данных "левого" канала, вторая половина – для "правого" канала.

Правый канал всегда остается правым, левый – левым, смешивания и наложения сигналов двух каналов не происходит.

В режиме joint stereo кодер динамически перераспределяет биты в кадре между левым и правым каналами, в зависимости от того, какой канал требует в данный момент большего количества битов для кодирования. В результате в режиме joint stereo удается передать более широкий диапазон частот и больший динамический диапазон, чем в режиме stereo (при одинаковой скорости цифрового потока на выходе кодера). Кроме того, в режиме joint stereo некоторые процессы обработки левый и правый каналы проходят совместно. При этом сигналы разных каналов частично смешиваются. Однако при прослушивании "настоящего" стерео в реальной аудитории тоже происходит пространственное смешение двух каналов.

Результаты тестирования показывают, что значительная часть слушателей даже предпочитает режим joint stereo режиму stereo, особенно при больших степенях сжатия.

Стандарт ISO/MPEG не содержит четких инструкций по реализации алгоритма сжатия. По сути своей он определяет не сам алгоритм, а набор инструментов и правил, используемых для сжатия данных. Основное назначение стандарта – обеспечить совместимость оборудования, использующего базовый стандарт и все его последующие модификации, по принципу "вниз". Например, оборудование, поддерживающее расширение этого стандарта MUSICAM, будет работать с оборудованием, изготовленным для работы в стандарте ISO/MPEG (уровень II/IIA), при этом вероятно, что оборудование стандарта ISO/MPEG (уровень II/IIA) не сможет реализовать все возможности расширения.

Главной находкой разработчиков стандарта является то, что часть инструкций по обработке сжатого сигнала содержится в самом сигнале. Это позволяет совершенствовать алгоритм сжатия, изменяя аппаратно только кодер. Любой декодер стандарта ISO/MPEG автоматически является совместимым не только с любым из существующих кодеров, но и с кодерами, которые будут когда-либо созданы. Собственно, апгрейд программного обеспечения приемника тоже не представляет проблемы – данные нового ПО могут быть переданы одновременно с сигналом ISO/MPEG. Не в последнюю очередь именно этими качествами объясняется то, что оборудование, использующее стандарт ISO/MPEG (уровень II/IIA), так широко применяется и постоянно совершенствуется.

Для стандарта MPEG2 был разработана обновленная структура расширенного аудио кодека (MPEG Advanced Audio Coding, MPEG AAC), представленная на рис.22.

Рис. 22. Функциональная схема кодека MPEG AAC

Отличия заключается в применении фильтров высокого разрешения, технологий предсказания и был основан на последних достижениях и разработках технологии.

Дополнительно MPEG AAC может включать предобработку сигнала, а также временное подавление шумов. Банк фильтров представляет собой 1024 точечное дискретное косинусное преобразование.

Стандарт MPEG4 разделяет весь диапазон звукового сопровождения на ряд групп: звук естественного происхождения, синтезированный звук и речь.

Таким образом в MPEG-4 заложены большие возможности по кодированию как видео-, так и звуковых данных, однако программно-аппаратные затраты на вычленение из оцифрованного мультимедиа потока данных отдельных звуковых компонент является совершенно неоправданным занятием, поскольку хоть и дает большой относительный выигрыш по сжатию, но в абсолютном выражении является достаточно малым, поскольку звуковая доля в мультимедийном контенте составляет достаточно малую часть.


Декодирование


Структурная схема декодера приведена на рис 23.

Рис. 23. Схема декодера звука

Процесс декодирования является прямым: последовательности частотных полос восстанавливаются на основе 12-ти образцов частотных полос, принимая во внимания степень сжатия и распределение битов. Если декодированная полоса частот не имеет соответствующих данных, они дополняются нулями. Таким образом каждый раз рассчитываются все 32 полосы частот, после чего используя банк фильтров синтеза получается 32 16-ти битных звуковых данных.





Поделитесь с Вашими друзьями:
1   ...   4   5   6   7   8   9   10   11   12


База данных защищена авторским правом ©vossta.ru 2019
обратиться к администрации

    Главная страница