Информатизации и телекоммуникационных технологий республики узбекистан



страница7/12
Дата01.12.2017
Размер0.91 Mb.
ТипИсследование
1   2   3   4   5   6   7   8   9   ...   12

Выводы по главе I


В главе дана классификация услуг, которые потенциально могут предоставляться в сетях передачи данных: доступ к Интернет-ресурсам, доступ к внутренним ресурсам сети, IP- телефония, IP-телевидение и IP-радио. Одним из экономически перспективных и активно развивающихся видов услуг является мультимедийное вещание (IP-телевидение + IP-радио). Возможными источниками мультимедийного контента являются файлы мультимедиа, эфирное телевидение, эфирное радио, кабельное телевидение, спутниковое цифровое телевидение и радио, а также различного рода локальные источники мультимедийных данных. Сравнительная оценка источников по различным критериям показала, что не существует какого либо приоритетного источника контента и к вопросу выбора надо подходить комплексно, учитывая и потребности потенциальных абонентов и возможности оператора сети передачи данных.

Основными технологиями доставки мультимедийной информации от сервера до абонента являются технологии unicast, multicast.

Исходя из анализа различных решений для представления и передачи мультимедийных данных (аналоговых и цифровых), определены слабые и сильные стороны этих решений. Наиболее перспективной формой представления мультимедийных данных оказался MPEG-2, на котором базируются стандарты цифрового телевидения и радио (DVB, ATSC, ISDB, DAB), однако высокие требования к пропускной способности сети передачи данных (4-10 Мегабит/с на один ТВ канал) серьезно ограничивают применение этого формата в рамках мультимедийного вещания. Решение проблем, связанных с требованиями к пропускной способности, лежит в применении MPEG-4, однако затраты на аппаратные и программные ресурсы могут вынудить отказаться от него и вернуться либо к исходному MPEG-2, либо перекодированному с увеличенной степенью сжатия MPEG-2.

Выделены противоречия между различными желаниями, возможностями и требованиями при реализации мультимедийного вещания в рамках сетей передачи данных: уменьшение каналоемкости канала и улучшения его качества; увеличение количества одновременно подключенных абонентов и не изменение структуры сети.

Решение о применении той или иной технологии должно приниматься только после анализа существующей сети, возможностей модернизации, а также на основе количества и требований потенциального круга абонентов.

Анализ ряда программных решений показал, что они являются достаточно универсальными, но может понадобиться некоторая их модификация, чтобы удовлетворить решениям задач, поставленных в данной работе.

С учетом поставленных ограничений выбран вариант реализации программного обеспечения (технология unicast), а также выбран вариант представления мультимедийного контента (MPEG-2 приемлемого качества с требованиями к пропускной способности канала 1 Мбит/с с последующим перекодированием в MPEG-4).

Глава II. Исследование способов представления мультимедийного контента в цифровом виде.


В данной главе проводится исследование математического обеспечения представления мультимедийного контента в цифровом виде.

Для удобства хранения и передачи по сети мультимедийный контент подвергают сжатию. Для получения оцифрованного потока применяются алгоритмы сжатия, основанные на дискретном косинусном преобразовании сигнала (JPEG, MJPEG, MPEG2, MPEG4, H.263), а также Wavelet и JPEG2000 [13]. Эти алгоритмы сжатия видео изображений служат для адаптации цифровых потоков к передаче по сетям передачи данных.

Существующие на сегодняшний день алгоритмы сжатия классифицируются по следующим параметрам: потоковые и статические алгоритмы сжатия. Потоковые алгоритмы сжатия работают с последовательностями кадров, кодируя разностную информацию между опорными кадрами (алгоритмы сжатия семейства MPEG, алгоритм сжатия JPEG 2000), тогда как статические алгоритмы сжатия работают с каждым изображением в отдельности (алгоритмы сжатия JPEG и MJPEG).

1. Дискретное косинусное преобразование


В основе множества алгоритмов компрессии видео- и аудио- данных положено дискретное косинусное преобразование. Дискретное косинусное преобразование для двухмерного массива определяется следующим образом [9,13]:

где


u, v, x, y = 0, 1, 2, ... N-1

x, y – координаты выборки

u, v – координаты преобразованного массива

Инверсное дискретное косинусное преобразование определено следующим образом:




Входные данные для прямого преобразование и выходные данные инверсного преобразования представляются 9-ти битными целочисленными значениями. Коэффициенты дискретного косинусного преобразования представляют собой 12-ти битные целочисленные значения. Динамический диапазон ДКП коэффициентов – [-2048; +2047].

Инверсное дискретное преобразование N x N должно удовлетворять определенному в стандарте «IEEE Standard Specification for the Implementations» инверсному дискретному косинусному преобразованию 8 х 8.


2. Исследование способов представления видеоданных


Представление видеоданных в экономичном цифровом виде рассмотрим на примере стандарта MPEG-2, являющегося сейчас де факто стандартом для всего цифрового спутникового, эфирного и кабельного телевидения. MPEG-2 является семейством алгоритмов, которые обеспечивают разное качество изображения и потому работают на разных скоростях цифровых потоков. Классификация алгоритмов внутри семейства основана на двух "измерениях" - "профилях" (которых 6 видов) и "уровнях" (4 вида) (см таблицу 4). Профили отвечают за качество, а уровни - за разрешение, с которым сжимается изображение. Используются не все возможные сочетания профилей и уровней, а только 13 из них, со скоростями примерно от 20 до 100 Мбит/с и разрешением от 325х288 до 1920х1152 пиксела.

Таблица 4

Сравнение уровней MPEG2


Название уровня

Разрешение

Максимальный битрейт

Качественное соответствие

Low

352*240*30

4 Mbps

CIF, бытовая видео кассета

Main

720*480*30

15 Mbps

CCIR 601, студийное TV

High 1440

1440*1152*30

60 Mbps

4x601, бытовое HDTV

High

1920*1080*30

80 Mbps

Hi-End видеомонтажное оборудование



Структура элементарного потока видеоданных


Поток видеоданных, определяемый спецификацией ISO IEC 13818-2, представляет собой иерархическую структуру, элементы которой строятся и объединяются друг с другом в соответствии с определенными синтаксическими и семантическими правилами. Существует 6 типов элементов этой иерархической структуры:

- видеопоследовательность;

- группа изображений;

- изображение;

- срез;

- макроблок;



- блок;

Видеопоследовательность - элемент потока видеоданных высшего уровня. Она представляет собой серию последовательных кадров телевизионного изображения. MPEG-2 допускает как построчные, так и чересстрочные последовательности. Чересстрочная последовательность - это серия телевизионных полей. В процессе компрессии поля могут кодироваться раздельно. Это дает изображения типа "поле". Два поля, кодируемые как телевизионный кадр, образуют изображение типа "кадр". В одной чересстрочной последовательности могут использоваться и изображения-поля, и изображения-кадры. В последовательностях с построчным разложением каждое изображение представляет собой кадр.

В соответствии с используемыми методами дифференциального кодирования различают три типа изображений: I, P и B.

I (Intra-coded picture) - изображение кодируется с использованием только той информации, которая содержится в нем самом. В нем устраняется только пространственная избыточность;

P (Predictive-coded picture) - изображение, при кодировании которого формируется разность между исходным изображением и предсказанием, полученным на основе предшествующего или последующего изображения типа I;

B (Bidirectionally-predicted-coded picture) - изображение, u1086 при・ кодировании которого используется предсказание, сформированное на основе предшествующего и последующего изображений типа I или P .

При кодировании P и B изображений используется межкадровое кодирование. В них устраняется и пространственная, и временная избыточность.

Рис. 9. Видеопоследовательность и группа изображений

Серия изображений, содержащих одно I-изображение, называется группой изображений. Пример видеопоследовательности с различными типами изображений показан на рис. 9 (стрелками показаны направления предсказания в пределах одной группы изображений). Чем больше группа изображений, тем большая степень компрессии может быть достигнута.

Рис. 10. Структуры отсчетов яркости и цветности формата 4:2:0

С информационной точки зрения каждое изображение представляет собой три прямоугольных матрицы отсчетов изображения: яркостную Y и две матрицы цветности Cb и Cb. Стандарт MPEG-2 допускает различные структуры матриц. Соотношение между количеством отсчетов яркости и цветности определяется форматом дискретизации. В случае формата 4:2:0 размеры матриц Cb и Cb в 2 раза меньше, чем Y, и в горизонтальном, и в вертикальном направлениях (рис. 10). Формат 4:2:2 отличается тем, что все три матрицы имеют одинаковые размеры по вертикали, но в горизонтальном направлении матрицы цветности имеют в два раза меньшее количество элементов. В формате 4:4:4 все матрицы одинаковы (рис. 11).

Каждое изображение делится на срезы, которые состоят из макроблоков (рис. 12). Макроблок складывается из блоков размером 8х8 элементов изображения (пикселов). Каждый макроблок содержит группу из 4 блоков с отсчетами яркости (из области изображения с размерами 16х16 пикселов) и группу блоков с отсчетами цветности, взятых из той же области изображения, что и отсчеты блоков яркости (рис. 13).



Рис. 11. Структуры отсчетов яркости и цветности формата 4:2:2 и 4:4:4



Рис. 12. Изображение со срезами и макроблоками


Рис. 13. Структура видеопотока MPEG-2

Число блоков с отсчетами цветности зависит от формата дискретизации: по одному блоку Cb и Cb в формате 4:2:0, по два - в формате 4:2:2, по 4 - в формате 4:4:4 (рис. 14). В изображениях типа "кадр", в которых может использоваться и кадровое, и полевое кодирование, возможны 2 варианта внутренней организации макроблока (рис. 15). В случае кадрового кодирования каждый блок яркости Y образуется из чередующихся строк двух полей (рис. 15а). При полевом кодировании каждый блок Y образован из строк только одного из двух полей (рис. 15б). Блоки цветности образуются по таким же правилам в случае форматов дискретизации 4:2:2 и 4:4:4. Однако при использовании формата 4:2:0 блоки цветности организуются для выполнения дискретного косинусного преобразования в рамках кадровой структуры (рис. 15а).

Рис. 14. Структуры макроблоков



Рис. 15. Структура макроблока Y при кадровом (а) и полевом кодировании (б)

Все структурные элементы потока видеоданных, полученного в результате внутрикадрового и межкадрового кодирования (кроме макроблока и блока), дополняются специальными и уникальными стартовыми кодами. Каждый элемент содержит заголовок, за которым следуют данные элементов более низкого уровня. В заголовке видеопоследовательности (как элемента высшего уровня) приводится разнообразная дополнительная информация, например, размеры и соотношение сторон изображения, частота кадров, скорость потока данных, матрица квантования, формат дискретизации цветности изображения, координаты основных цветов и белого цвета, параметры матрицы для формирования яркостного и цветоразностных сигналов, параметры передаточной характеристики (гамма).

Кодирование


Структурная схема кодера MPEG2 приведена на рис. 16.

Рис. 16. Блок схема видеокодера MPEG2

Кодирование исходного I-фрейма осуществляется с помощью дискретного косинусного преобразования, преобразующее пространственное распределение яркости и цвета в частотное распределение. В MPEG-2 для компрессии используются два принципа:

- подавление несущественных для визуального восприятия мелких деталей пространственного распределения отдельных кадров;

- устранение временной избыточности в последовательности кадров.

Для этого используется экспериментально установленная малая чувствительность человеческого восприятия к искажениям мелких деталей изображения. Глаз быстрее замечает неоднородность равномерного фона, чем искривление тонкой границы или изменение яркости и цвета малого участка. Поскольку передачу плавных изменений фона обеспечивают низкочастотные (центральные) значения частотного распределения, а за мелкие детали пространственного распределения отвечают высокочастотные коэффициенты, то это позволяет использовать следующий алгоритм сжатия: кадр разбивается на блоки размером 16х16 (размеру 720х576 соответствует 45х36 блоков), каждый из которых ДКП переводится в частотную область. Затем соответствующие частотные коэффициенты подвергаются квантованию (округлению значений с задаваемым интервалом). Если само по себе ДКП не приводит к потере данных, то квантование коэффициентов, очевидно, вызывает огрубление изображения. Операция квантования выполняется с переменным интервалом – наиболее точно передается низкочастотная информация, в то время как многие высокочастотные коэффициенты принимают нулевые значения. Это обеспечивает значительное сжатие потока данных, но приводит к снижению эффективного разрешения и возможному появлению незначительных ложных деталей (в частности, на границе блоков).

Очевидно, что чем более грубое квантование используется, тем больше степень сжатия, но и тем ниже качество результирующего сигнала.

Для I-фреймов стандарт MPEG-2 определяет следующую матрицу квантования по умолчанию (для яркости и для цветности):


8 16 19 22 26 27 29 34

16 16 22 24 27 29 34 37

19 22 26 27 29 34 34 38

22 22 26 27 29 34 37 40

22 26 27 29 32 35 40 48

26 27 29 32 35 40 48 58

26 27 29 34 38 46 56 69

27 29 35 38 46 56 69 83
Для P- и B-фреймов:

16 16 16 16 16 16 16 16

16 16 16 16 16 16 16 16

16 16 16 16 16 16 16 16

16 16 16 16 16 16 16 16

16 16 16 16 16 16 16 16

16 16 16 16 16 16 16 16

16 16 16 16 16 16 16 16

16 16 16 16 16 16 16 16

Также могут определенным в стандарте образом задаваться другие пользовательские матрицы квантования, обеспечивающие необходимый уровень потерь качества. Далее двумерный массив квантованных коэффициентов ДКП преобразуется в одномерный путем зиг-заг сканирования (см. рис.17).



Рис. 17. ДКП и инверсное ДКП. Зиг-заг сканирование

Само по себе ДКП, как впрочем и квантование коэффициентов ДКП не обеспечивает компрессии (преобразование обратимое), а наоборот увеличивает размер исходной матрицы из-за увеличенной размерности коэффициентов ДКП (12 бит против 9 бит на значение). Но, поскольку в результате квантования высокочастотные коэффициенты обращаются в 0 (вследствие выбранных коэффициентов квантования, см. рис. 18), то в результате зиг-заг преобразования двухмерного массива в одномерный будет получена последовательность с большим количеством нулей.

Последним шагом, на котором происходит собственно компрессия видеопотока данных, является кодирование одномерного массива кодом переменной длины (метод Хаффмана) [9,13]. Каждый код переменной длины обозначает ряд нулей, с последующим не нулевым коэффициентом соответствующего уровня. Код переменной длины предполагает, что короткие ряды нулей встречаются чаще длинных и маленькие коэффициенты встречаются чаще больших. Соответственно выделяется различные кодовые слова в соответствии с вероятностью появления того или иного значения. Для того, чтобы декодер смог распознать необходимое значение, в коде переменной длины используется свойство, что ни одно полное кодовое слово не является префиксом какого либо другого.

Для иллюстрации процесса кодирования кодом переменной длины, возьмем следующую последовательность, которая могла бы быть получено после ДКП и квантования коэффициентов ДКП:

12, 6, 6, 0, 4, 3, 0, 0, 0...0

Первым шагом является группировка значений в ряды нулей (ни одного или несколько штук) с последующим ненулевым коэффициентом. Последний заключительный ряд нулей заменяется специальным маркером конца блока EOB. Таким образом получим:

(12), (6), (6), (0, 4), (3) EOB


Рис. 18. «Типовое» распределение коэффициентов ДКП в матрице

Далее на основе полученных значений генерируется код переменной длины соответствующий каждой группе (ряд нулей и ненулевой коэффициент) с последующим EOB маркером. В таблице 5 приведена выдержка из описанной в стандарте нулевой таблицы коэффициентов ДКП (DCT coefficients Table zero) [17]:

Таблица 5

Выдержка из нулевой таблицы коэффициентов ДКП


Length of run of zeros

Value of non-zero coefficient

Variable-length codeword

0

12

0000 0000 1101 00

0

6

0010 0001 0

1

4

0000 0011 000

0

3

0010 10

EOB




10

Таким образом в рассматриваемом примере будет получена следующая последовательность:

0000 0000 1101 00, 0010 0001 0, 0010 0001 0, 0000 0011 000, 0010 10, 10

Временная MPEG-компрессия использует высокую избыточность информации в изображениях, разделенных малым интервалом. Действительно, между смежными изображениями обычно меняется только малая часть сцены – например, происходит плавное смещение небольшого объекта на фоне фиксированного заднего плана. В этом случае полную информацию о сцене нужно сохранять только выборочно - для опорныхизображений. Для остальных достаточно передавать только разностную информацию: о положении объекта, направлении и величине его смещения, о новых элементах фона (открывающихся за объектом по мере его движения). Причем эти разности можно формировать не только по сравнению с предыдущими изображениями, но и с последующими (поскольку именно в них по мере движения объекта открывается часть фона, ранее скрытая за объектом). Отметим, что математически наиболее сложным элементом является поиск смещающихся, но мало изменяющихся по структуре блоков (16х16) и определение соответствующих векторов их смещения. Однако это элемент наиболее существенен, так как позволяет существенно уменьшить объем требуемой информации. Именно эффективностью выполнения этого "интеллектуального" элемента в реальном времени и отличаютсяразличные MPEG-кодеры. Стандарт MPEG-2 определяет только формат представления векторов смещения (векторов движения) для возможности декодирования изображения, но никоим образом не определяет сам алгоритм нахождения этих векторов. Таким образом объектом исследования может стать нахождение оптимального алгоритма вычисления векторов смещения (однонаправленных и двунаправленных) для использования в системах кодирования реального масштаба времени.


Декодирование


Структурная схема декодера MPEG-2 приведена на рис. 19.

Из блок схемы можно увидеть, что процесс декодирования является инверсным по отношению к кодированию. Последовательность действий при работе декодера следующая:

а) декодирование кода переменной длины;

б) инверсное сканирование (преобразование одномерного массива в двумерный);

в) инверсное квантование;

г) инверсное ДКП;

д) компенсация движения.

Рис. 19. Блок схема видеодекодера MPEG-2

Используются все те же методы, какие были использованы при кодировании, но в обратном порядке. С точки зрения симметричности (отношение времени компрессии ко времени декомпрессии), MPEG-2 обладает практически единичной симметричностью, что заметно увеличивает его вес для кодирования/декодирования в реальном масштабе времени.




Поделитесь с Вашими друзьями:
1   2   3   4   5   6   7   8   9   ...   12


База данных защищена авторским правом ©vossta.ru 2019
обратиться к администрации

    Главная страница