Литмир - Электронная Библиотека

Человеческое ухо удивительно чувствительно к изменениям звука, длящимся всего несколько миллисекунд. Глаз, напротив, не в состоянии заметить такие кратковременные изменения. Таким образом, флуктуация (джиттер) в несколько миллисекунд при передаче мультимедиа влияет в большей степени на качество звука, чем на качество изображения.

Цифровое аудио — это цифровое представление аудиоволны, которое можно использовать для ее воссоздания. Звуковые волны можно преобразовывать в цифровую форму при помощи аналогово-цифрового преобразователя (АЦП). На вход АЦП подается электрическое напряжение, а на выходе формируется двоичное число. На рис. 7.18, а показан пример синусоидальной волны. Чтобы представить этот сигнал в цифровом виде, мы можем измерять значения сигнала (отсчеты) через равные интервалы времени ДТ, как показано на рис. 7.18, б. Если звуковая волна не является чисто синусоидальной, а представляет собой сумму нескольких синусоидальных волн и самая высокая частота ее составляющих равна f, тогда, согласно теореме Найквиста (см. главу 2), для последующего восстановления сигнала достаточно измерять значения сигнала с частотой дискретизации 2f. Производить замеры сигнала с большей частотой нет смысла, так как более высокие частоты отсутствуют в сигнале.

При обратном процессе цифровые значения переводятся в аналоговое электрическое напряжение. Это делается при помощи цифро-аналогового преобразователя (ЦАП). Потом репродуктор может перевести аналоговое напряжение в акустические волны, и люди услышат звуки. Оцифрованные отсчеты (сэмплы) никогда не бывают точными. Например, отсчеты на рис. 7.18, в могут принимать только 9 значений — от

-1,00 до +1,00 с шагом 0,25. При 8-битовом квантовании каждый отсчет может принимать одно из 256 различных значений. При 16 битах на отсчет можно кодировать сигнал с еще более высокой точностью, так как каждому значению сигнала можно сопоставить одно из 65 536 различных значений. Ошибка, возникающая в результате неточного соответствия квантованного сигнала, способного принимать конечное число значений, исходному сигналу, называют шумом квантования (quantization noise). При недостаточном количестве битов, которыми представляется каждый отсчет сигнала, этот шум может быть настолько велик, что будет различим на слух как искажение исходного сигнала или как посторонние шумы.

Компьютерные сети. 5-е издание - _415.jpg

Рис. 7.18. Волна: а — синусоидальная; б — дискретизация; в — квантование отсчетов 4 битами

Двумя хорошо известными примерами использования цифрового звука являются телефон (если применяются новые цифровые АТС) и аудио-компакт-диски. В импульсно-кодовой модуляции, применяемой в телефонной системе, используются восьмибитовые отсчеты, замеряемые 8000 раз в секунду. Шкала является нелинейной, чтобы минимизировать воспринимаемое искажение, и при 8000 замеров в секунду частоты выше 4кГц теряются. В Северной Америке и Японии при кодировании используется закон ц (ц-law). В Европе, а также во многих странах по всему миру при кодировании используется закон А (A-law). Каждая кодировка обеспечивает поток данных в 64 000 бит/с.

Аудио-компакт-диски содержат звуковой сигнал, оцифрованный с частотой дискретизации 44 100 Гц, в результате чего они могут хранить звуки с частотами до 22 кГц, что воспринимается как достаточно качественный звук людьми, но считается весьма низким качеством среди собак, ценящих хорошую музыку. Каждому отсчету выделяется 16 бит, его значение пропорционально амплитуде сигнала. Обратите внимание, что 16-битовый отсчет может принимать всего 65 536 различных значений, хотя измерения показывают, что динамический диапазон человеческого уха составляет более одного миллиона значений. Таким образом, несмотря на то что аудио в CD-качестве гораздо лучше, чем аудио, передаваемое через телефон, использование 16 бит на отсчет дает существенный шум квантования (хотя полный динамический диапазон и не охвачен, качество звучания компакт-дисков обычно не вызывает нареканий). Некоторые фанатичные аудиофилы по прежнему выбирают записи в формате долгоиграющих пластинок с 33 оборотами в минуту, а не CD-записи, так как у пластинок нет ограничения предельной частоты в 22 кГц и нет шума квантования (однако, если с ними не обращаться очень бережно, на них появляются царапины). При 44 100 отсчетах в секунду по 16 бит каждый для несжатого аудио в CD-качестве требуется пропускная способность в 705,6 Кбит/с для монофонического сигнала и 1,411 Мбит/с для стереофонического.

Сжатие звука

Аудио часто сжимается для того, чтобы сократить требуемую полосу пропускания канала и время передачи, несмотря на то что аудиоданные требуют не такой большой пропускной способности, как видео. Во всех системах сжатия должны присутствовать 2 алгоритма: один для сжатия данных в месте их размещения и второй для их распаковки. В литературе эти алгоритмы называют алгоритмами кодирования (encoding) и декодирования (decoding) соответственно. Мы также будем использовать эту терминологию.

В алгоритмах сжатия присутствует определенная асимметричность, о которой необходимо знать. Хотя сейчас мы рассматриваем аудио, этот аспект также относится и к видео. Для многих приложений мультимедиа-документ кодируется единожды (когда сохраняется на мультимедиа-сервере). Эта асимметричность означает, что алгоритм кодирования может быть медленным и требовать дорогого оборудования, при этом алгоритм декодирования должен быть быстрым и работающим на дешевом оборудовании. Оператор популярного аудио- или видеосервера может склониться к мысли о покупке нескольких компьютеров, чтобы закодировать всю свою библиотеку, но требовать того же от посетителей сайта, которые зашли, чтобы послушать музыку или посмотреть фильмы, — не лучшая мысль. Многие используемые сегодня системы сжатия являются крайне объемными, все это делается для того, чтобы сделать декодирование быстрым и простым, даже ценой медленного и сложного кодирования. С другой стороны, для живого видео и аудио, такого как звонки через Skype, медленно кодирование неприемлемо. Оно должно работать в реальном времени. Следовательно, мультимедиа в реальном времени использует алгоритмы или параметры, отличные от аудио или видео, хранящегося на диске. Часто используется гораздо меньшее сжатие. Второе нарушение симметрии состоит в том, что процесс кодирования/декодирова-ния не обязательно должен быть обратимым. То есть при сжатии файла, его передаче и последующей декомпрессии пользователь должен получать всю информацию до последнего бита. В отношении мультимедиа это требование не актуально. Обычно аудио- или видеосигнал может отличаться от оригинала после кодирования и последующего декодирования, при условии, что звучать (или выглядеть) он будет так же. Когда раскодированный файл не полностью соответствует закодированному оригиналу, передача информации идет с потерями (lossy). Если входной и выходной файлы совпадают, передача идет без потерь (lossless). Системы с потерями важны, потому что, потеряв небольшую часть информации, мы получаем гораздо лучшее сжатие.

Исторически междугородняя связь по телефонным сетям была очень дорогой, так что есть еще масса работы, которую необходимо проделать над голосовыми кодерами (voice coders — vocoders), сжимающими такое аудио, как человеческая речь. Речь занимает диапазон от от 600 до 6000 Гц и порождается благодаря механическому процессу, особенности которого зависят от голосового аппарата говорящего, языка и челюстей. Некоторые голосовые кодеры используют модели голосовой системы для сведения речи к небольшому набору параметров (например, размеры и форма резонаторов) и объема данных, равного всего лишь 2,4 Кбит/с. Однако рассмотрение устройства этих голосовых кодеров выходит за рамки данной книги.

247
{"b":"639789","o":1}