Перейти к основному содержимому

Аудиокодеки: частота дискретизации, битрейт и психоакустика

Современные аудиокодеки, такие как AAC (Advanced Audio Coding) и Opus, позволяют передавать высококачественный звук при сравнительно низких битрейтах. Это становится возможным не только благодаря сложным математическим алгоритмам, но и за счёт глубокого понимания того, как человек воспринимает звук. В этом разделе мы разберём, как устроено цифровое аудио, почему голос может звучать чётко даже при низком битрейте, и как психоакустика помогает сжимать звук без заметной потери качества.


1. Основы цифрового звука: дискретизация и квантование

Любой аналоговый звук — это непрерывный колебательный процесс в воздухе. Чтобы работать с ним на компьютере, его нужно оцифровать, то есть превратить в последовательность чисел. Этот процесс включает два ключевых этапа:

  1. Дискретизация по времени — измерение амплитуды сигнала через равные промежутки времени.
  2. Квантование по уровню — округление измеренной амплитуды до ближайшего значения из конечного набора.

Частота дискретизации

Количество таких измерений в секунду называется частотой дискретизации и измеряется в герцах (Гц). Чем выше частота, тем точнее передаётся исходный сигнал.

::: success Согласно теореме Котельникова (Найквеста-Шеннона), чтобы точно восстановить аналоговый сигнал, частота дискретизации должна быть не менее чем в два раза выше максимальной частоты в сигнале.

::: Например:

  • Максимальная слышимая частота для человека — около 20 кГц.
  • Следовательно, минимальная достаточная частота дискретизации — 40 кГц.
  • На практике используют 44.1 кГц (CD-аудио) или 48 кГц (цифровое видео, стриминг).
СтандартЧастота дискретизацииОбласть применения
Телефония (G.711)8 кГцГолос, речь
CD-аудио44.1 кГцМузыка
Профессиональное аудио48–192 кГцЗапись, мастеринг

💡 Частота 44,1 кГц была выбрана в конце 1970-х из-за ограничений и структуры аналоговых видеомагнитофонов и телевизионных стандартов PAL/NTSC, использовавшихся для записи цифрового звука через PCM-адаптеры. Она обеспечивала совместимость, технологическую реализуемость и достаточную полосу для аудио.

Когда в начале 1980-х разрабатывался стандарт Compact Disc, Sony и Philips: уже имели обширную инфраструктуру PCM-1630, использовали 44,1 кГц в студийном мастеринге, поэтому зафиксировали эту частоту в Red Book. Таким образом, CD унаследовал частоту от видеомагнитофонной эпохи, а не выбирал её «с нуля».

::: info Почему верхняя граница частоты человеческого слуха 20 кГц, а частота дискретизации звука -- выше 40? На этот вопрос отвечает теорема Котельникова, упомянутая выше.

:::


2. Битрейт и глубина квантования

Битрейт — это количество бит, используемых для передачи аудио за одну секунду. Он зависит от:

  • частоты дискретизации,
  • битовой глубины (сколько бит на отсчёт),
  • количества каналов (моно, стерео и т.д.).

Формула для расчёта битрейта без сжатия (PCM)

Пример: стерео-аудио (2 канала) с частотой 48 кГц и 16 бит на отсчёт:

Это много. Даже CD-аудио (1411 кбит/с) слишком объёмно для потоковой передачи. Поэтому используют сжатие — и здесь на помощь приходят аудиокодеки.


3. Как работают аудиокодеки: AAC и Opus

Аудиокодеки — это алгоритмы, которые сжимают аудиоданные, удаляя избыточную и неслышимую информацию. Два наиболее распространённых современных кодека:

  • AAC — стандарт для потокового видео (YouTube, Apple, DASH, HLS), эффективен, хорошо поддерживается.
  • Opus — открытый, низкозадержный кодек, идеален для голосовой связи (Discord, WebRTC), поддерживает широкий диапазон битрейтов (от 6 до 510 кбит/с).

Оба используют:

  • преобразование в частотную область (например, MDCT — Modified Discrete Cosine Transform),
  • квантование коэффициентов,
  • энтропийное кодирование (например, арифметическое или Хаффмана).

Но ключ к эффективности — психоакустика.


4. Почему голос хорошо звучит на низких битрейтах?

Голос — один из самых "сжимаемых" типов аудио. Причины:

  1. Узкая полоса частот — достаточно 4–8 кГц для хорошей разборчивости.
  2. Высокая предсказуемость — речь — это повторяющиеся паттерны (форманты, интонации).
  3. Избыточность — фонемы и слоги повторяются, можно использовать модели предсказания (например, линейное предсказание LPC).

Примеры:

КодекБитрейтКачество
Opus (режим речи)12–20 кбит/сОчень хорошая разборчивость, естественная интонация
AAC-LD (низкая задержка)32–48 кбит/сХорошее качество для видеоконференций
G.711 (PCM)64 кбит/с"Телефонное" качество, без сжатия, но только для речи

💡 В WebRTC (технология видеосвязи в браузерах) Opus автоматически переключается между режимами речи и музыки, адаптируя битрейт и алгоритм обработки.


5. Практические рекомендации по выбору параметров

При проектировании аудиосистемы важно понимать, что именно вы передаёте — речь или музыку, и какие ограничения у канала.

Режимы использования:

СценарийРекомендуемый кодекБитрейтОсобенности
ВидеоконференцияOpus16–32 кбит/сНизкая задержка, адаптивность
Потоковая музыкаAAC96–128 кбит/сХорошее качество, совместимость
Архивное хранениеFLAC (lossless)500–1000 кбит/сБез потерь, но объёмно
IP-камера (речь)G.711 или Opus64 кбит/с или 16 кбит/сРазборчивость при низкой нагрузке

🔁 Напомним: в блоке 08-02-01 мы уже говорили о временной и пространственной избыточности. В аудио аналогично — соседние отсчёты и частоты сильно коррелируют. Кодеки используют это для предсказания и трансформации.


Заключение

Современные аудиокодеки — это не просто сжатие, а интеллектуальное управление воспринимаемым качеством. Благодаря знанию физиологии слуха и математическим методам, они достигают высокой эффективности: голос звучит чётко даже при 16 кбит/с, а музыка — почти как оригинал при 128 кбит/с.

Ключевые выводы:

  • Частота дискретизации должна соответствовать теореме Котельникова.
  • Битрейт можно снижать за счёт психоакустической маскировки.
  • AAC и Opus — гибкие инструменты, адаптируемые под задачу.
  • Выбор кодека зависит от сценария: речь, музыка, задержка, совместимость.

В следующих разделах мы рассмотрим, как эти принципы применяются в реальных системах — от IP-камер до OBS и WebRTC.