Аудиокодеки: частота дискретизации, битрейт и психоакустика

Современные аудиокодеки, такие как AAC (Advanced Audio Coding) и Opus, позволяют передавать высококачественный звук при сравнительно низких битрейтах. Это становится возможным не только благодаря сложным математическим алгоритмам, но и за счёт глубокого понимания того, как человек воспринимает звук. В этом разделе мы разберём, как устроено цифровое аудио, почему голос может звучать чётко даже при низком битрейте, и как психоакустика помогает сжимать звук без заметной потери качества.

1. Основы цифрового звука: дискретизация и квантование

Любой аналоговый звук — это непрерывный колебательный процесс в воздухе. Чтобы работать с ним на компьютере, его нужно оцифровать, то есть превратить в последовательность чисел. Этот процесс включает два ключевых этапа:

Дискретизация по времени — измерение амплитуды сигнала через равные промежутки времени.
Квантование по уровню — округление измеренной амплитуды до ближайшего значения из конечного набора.

Частота дискретизации

Количество таких измерений в секунду называется частотой дискретизации и измеряется в герцах (Гц). Чем выше частота, тем точнее передаётся исходный сигнал.

::: success Согласно теореме Котельникова (Найквеста-Шеннона), чтобы точно восстановить аналоговый сигнал, частота дискретизации должна быть не менее чем в два раза выше максимальной частоты в сигнале.

::: Например:

Максимальная слышимая частота для человека — около 20 кГц.
Следовательно, минимальная достаточная частота дискретизации — 40 кГц.
На практике используют 44.1 кГц (CD-аудио) или 48 кГц (цифровое видео, стриминг).

Стандарт	Частота дискретизации	Область применения
Телефония (G.711)	8 кГц	Голос, речь
CD-аудио	44.1 кГц	Музыка
Профессиональное аудио	48–192 кГц	Запись, мастеринг

💡 Частота 44,1 кГц была выбрана в конце 1970-х из-за ограничений и структуры аналоговых видеомагнитофонов и телевизионных стандартов PAL/NTSC, использовавшихся для записи цифрового звука через PCM-адаптеры. Она обеспечивала совместимость, технологическую реализуемость и достаточную полосу для аудио.

Когда в начале 1980-х разрабатывался стандарт Compact Disc, Sony и Philips: уже имели обширную инфраструктуру PCM-1630, использовали 44,1 кГц в студийном мастеринге, поэтому зафиксировали эту частоту в Red Book. Таким образом, CD унаследовал частоту от видеомагнитофонной эпохи, а не выбирал её «с нуля».

::: info Почему верхняя граница частоты человеческого слуха 20 кГц, а частота дискретизации звука -- выше 40? На этот вопрос отвечает теорема Котельникова, упомянутая выше.

:::

2. Битрейт и глубина квантования

Битрейт — это количество бит, используемых для передачи аудио за одну секунду. Он зависит от:

частоты дискретизации,
битовой глубины (сколько бит на отсчёт),
количества каналов (моно, стерео и т.д.).

Формула для расчёта битрейта без сжатия (PCM)

Пример: стерео-аудио (2 канала) с частотой 48 кГц и 16 бит на отсчёт:

Это много. Даже CD-аудио (1411 кбит/с) слишком объёмно для потоковой передачи. Поэтому используют сжатие — и здесь на помощь приходят аудиокодеки.

3. Как работают аудиокодеки: AAC и Opus

Аудиокодеки — это алгоритмы, которые сжимают аудиоданные, удаляя избыточную и неслышимую информацию. Два наиболее распространённых современных кодека:

AAC — стандарт для потокового видео (YouTube, Apple, DASH, HLS), эффективен, хорошо поддерживается.
Opus — открытый, низкозадержный кодек, идеален для голосовой связи (Discord, WebRTC), поддерживает широкий диапазон битрейтов (от 6 до 510 кбит/с).

Оба используют:

преобразование в частотную область (например, MDCT — Modified Discrete Cosine Transform),
квантование коэффициентов,
энтропийное кодирование (например, арифметическое или Хаффмана).

Но ключ к эффективности — психоакустика.

4. Почему голос хорошо звучит на низких битрейтах?

Голос — один из самых "сжимаемых" типов аудио. Причины:

Узкая полоса частот — достаточно 4–8 кГц для хорошей разборчивости.
Высокая предсказуемость — речь — это повторяющиеся паттерны (форманты, интонации).
Избыточность — фонемы и слоги повторяются, можно использовать модели предсказания (например, линейное предсказание LPC).

Примеры:

Кодек	Битрейт	Качество
Opus (режим речи)	12–20 кбит/с	Очень хорошая разборчивость, естественная интонация
AAC-LD (низкая задержка)	32–48 кбит/с	Хорошее качество для видеоконференций
G.711 (PCM)	64 кбит/с	"Телефонное" качество, без сжатия, но только для речи

💡 В WebRTC (технология видеосвязи в браузерах) Opus автоматически переключается между режимами речи и музыки, адаптируя битрейт и алгоритм обработки.

5. Практические рекомендации по выбору параметров

При проектировании аудиосистемы важно понимать, что именно вы передаёте — речь или музыку, и какие ограничения у канала.

Режимы использования:

Сценарий	Рекомендуемый кодек	Битрейт	Особенности
Видеоконференция	Opus	16–32 кбит/с	Низкая задержка, адаптивность
Потоковая музыка	AAC	96–128 кбит/с	Хорошее качество, совместимость
Архивное хранение	FLAC (lossless)	500–1000 кбит/с	Без потерь, но объёмно
IP-камера (речь)	G.711 или Opus	64 кбит/с или 16 кбит/с	Разборчивость при низкой нагрузке

🔁 Напомним: в блоке 08-02-01 мы уже говорили о временной и пространственной избыточности. В аудио аналогично — соседние отсчёты и частоты сильно коррелируют. Кодеки используют это для предсказания и трансформации.

Заключение

Современные аудиокодеки — это не просто сжатие, а интеллектуальное управление воспринимаемым качеством. Благодаря знанию физиологии слуха и математическим методам, они достигают высокой эффективности: голос звучит чётко даже при 16 кбит/с, а музыка — почти как оригинал при 128 кбит/с.

Ключевые выводы:

Частота дискретизации должна соответствовать теореме Котельникова.
Битрейт можно снижать за счёт психоакустической маскировки.
AAC и Opus — гибкие инструменты, адаптируемые под задачу.
Выбор кодека зависит от сценария: речь, музыка, задержка, совместимость.

В следующих разделах мы рассмотрим, как эти принципы применяются в реальных системах — от IP-камер до OBS и WebRTC.

1. Основы цифрового звука: дискретизация и квантование​

Частота дискретизации​

2. Битрейт и глубина квантования​

3. Как работают аудиокодеки: AAC и Opus​

4. Почему голос хорошо звучит на низких битрейтах?​

5. Практические рекомендации по выбору параметров​

Режимы использования:​

Заключение​