Аудиокодеки: частота дискретизации, битрейт и психоакустика
Современные аудиокодеки, такие как AAC (Advanced Audio Coding) и Opus, позволяют передавать высококачественный звук при сравнительно низких битрейтах. Это становится возможным не только благодаря сложным математическим алгоритмам, но и за счёт глубокого понимания того, как человек воспринимает звук. В этом разделе мы разберём, как устроено цифровое аудио, почему голос может звучать чётко даже при низком битрейте, и как психоакустика помогает сжимать звук без заметной потери качества.
1. Основы цифрового звука: дискретизация и квантование
Любой аналоговый звук — это непрерывный колебательный процесс в воздухе. Чтобы работать с ним на компьютере, его нужно оцифровать, то есть превратить в последовательность чисел. Этот процесс включает два ключевых этапа:
- Дискретизация по времени — измерение амплитуды сигнала через равные промежутки времени.
- Квантование по уровню — округление измеренной амплитуды до ближайшего значения из конечного набора.
Частота дискретизации
Количество таких измерений в секунду называется частотой дискретизации и измеряется в герцах (Гц). Чем выше частота, тем точнее передаётся исходный сигнал.
::: success Согласно теореме Котельникова (Найквеста-Шеннона), чтобы точно восстановить аналоговый сигнал, частота дискретизации должна быть не менее чем в два раза выше максимальной частоты в сигнале.
:::
Например:
- Максимальная слышимая частота для человека — около 20 кГц.
- Следовательно, минимальная достаточная частота дискретизации — 40 кГц.
- На практике используют 44.1 кГц (CD-аудио) или 48 кГц (цифровое видео, стриминг).
| Стандарт | Частота дискретизации | Область применения |
|---|---|---|
| Телефония (G.711) | 8 кГц | Голос, речь |
| CD-аудио | 44.1 кГц | Музыка |
| Профессиональное аудио | 48–192 кГц | Запись, мастеринг |
💡 Частота 44,1 кГц была выбрана в конце 1970-х из-за ограничений и структуры аналоговых видеомагнитофонов и телевизионных стандартов PAL/NTSC, использовавшихся для записи цифрового звука через PCM-адаптеры. Она обеспечивала совместимость, технологическую реализуемость и достаточную полосу для аудио.
Когда в начале 1980-х разрабатывался стандарт Compact Disc, Sony и Philips: уже имели обширную инфраструктуру PCM-1630, использовали 44,1 кГц в студийном мастеринге, поэтому зафиксировали эту частоту в Red Book. Таким образом, CD унаследовал частоту от видеомагнитофонной эпохи, а не выбирал её «с нуля».
::: info Почему верхняя граница частоты человеческого слуха 20 кГц, а частота дискретизации звука -- выше 40? На этот вопрос отвечает теорема Котельникова, упомянутая выше.
:::
2. Битрейт и глубина квантования

Битрейт — это количество бит, используемых для передачи аудио за одну секунду. Он зависит от:
- частоты дискретизации,
- битовой глубины (сколько бит на отсчёт),
- количества каналов (моно, стерео и т.д.).
Формула для расчёта битрейта без сжатия (PCM)
Пример: стерео-аудио (2 канала) с частотой 48 кГц и 16 бит на отсчёт:
Это много. Даже CD-аудио (1411 кбит/с) слишком объёмно для потоковой передачи. Поэтому используют сжатие — и здесь на помощь приходят аудиокодеки.
3. Как работают аудиокодеки: AAC и Opus
Аудиокодеки — это алгоритмы, которые сжимают аудиоданные, удаляя избыточную и неслышимую информацию. Два наиболее распространённых современных кодека:
- AAC — стандарт для потокового видео (YouTube, Apple, DASH, HLS), эффективен, хорошо поддерживается.
- Opus — открытый, низкозадержный кодек, идеален для голосовой связи (Discord, WebRTC), поддерживает широкий диапазон битрейтов (от 6 до 510 кбит/с).
Оба используют:
- преобразование в частотную область (например, MDCT — Modified Discrete Cosine Transform),
- квантование коэффициентов,
- энтропийное кодирование (например, арифметическое или Хаффмана).
Но ключ к эффективности — психоакустика.
4. Почему голос хорошо звучит на низких битрейтах?

Голос — один из самых "сжимаемых" типов аудио. Причины:
- Узкая полоса частот — достаточно 4–8 кГц для хорошей разборчивости.
- Высокая предсказуемость — речь — это повторяющиеся паттерны (форманты, интонации).
- Избыточность — фонемы и слоги повторяются, можно использовать модели предсказания (например, линейное предсказание LPC).
Примеры:
| Кодек | Битрейт | Качество |
|---|---|---|
| Opus (режим речи) | 12–20 кбит/с | Очень хорошая разборчивость, естественная интонация |
| AAC-LD (низкая задержка) | 32–48 кбит/с | Хорошее качество для видеоконференций |
| G.711 (PCM) | 64 кбит/с | "Телефонное" качество, без сжатия, но только для речи |
💡 В WebRTC (технология видеосвязи в браузерах) Opus автоматически переключается между режимами речи и музыки, адаптируя битрейт и алгоритм обработки.
5. Практические рекомендации по выбору параметров

При проектировании аудиосистемы важно понимать, что именно вы передаёте — речь или музыку, и какие ограничения у канала.
Режимы использования:
| Сценарий | Рекомендуемый кодек | Битрейт | Особенности |
|---|---|---|---|
| Видеоконференция | Opus | 16–32 кбит/с | Низкая задержка, адаптивность |
| Потоковая музыка | AAC | 96–128 кбит/с | Хорошее качество, совместимость |
| Архивное хранение | FLAC (lossless) | 500–1000 кбит/с | Без потерь, но объёмно |
| IP-камера (речь) | G.711 или Opus | 64 кбит/с или 16 кбит/с | Разборчивость при низкой нагрузке |
🔁 Напомним: в блоке 08-02-01 мы уже говорили о временной и пространственной избыточности. В аудио аналогично — соседние отсчёты и частоты сильно коррелируют. Кодеки используют это для предсказания и трансформации.
Заключение
Современные аудиокодеки — это не просто сжатие, а интеллектуальное управление воспринимаемым качеством. Благодаря знанию физиологии слуха и математическим методам, они достигают высокой эффективности: голос звучит чётко даже при 16 кбит/с, а музыка — почти как оригинал при 128 кбит/с.
Ключевые выводы:
- Частота дискретизации должна соответствовать теореме Котельникова.
- Битрейт можно снижать за счёт психоакустической маскировки.
- AAC и Opus — гибкие инструменты, адаптируемые под задачу.
- Выбор кодека зависит от сценария: речь, музыка, задержка, совместимость.
В следующих разделах мы рассмотрим, как эти принципы применяются в реальных системах — от IP-камер до OBS и WebRTC.