Потери и искажения: что мы готовы терпеть
При работе с медиа — особенно с видео и аудио — рано или поздно возникает вопрос: насколько можно «сжать» данные, чтобы они всё ещё выглядели или звучали приемлемо? Ответ на этот вопрос лежит на пересечении техники, математики и человеческого восприятия. В этом разделе мы разберём, какие виды сжатия существуют, какие искажения оно вносит и почему некоторые из них мы даже не замечаем.
Lossless и lossy: два пути сжатия
Существует два принципиально разных подхода к сжатию данных:
- Lossless (без потерь) — данные сжимаются так, что при распаковке восстанавливаются точно в исходном виде. Никакой информации не теряется.
- Lossy (с потерями) — часть информации намеренно отбрасывается, чтобы достичь более высокой степени сжатия. Восстановление происходит с искажениями.
Где что используется?
| Тип сжатия | Примеры форматов | Типичное применение |
|---|---|---|
| Lossless | FLAC, PNG, ZIP | Архивация, аудио для мастеринга, изображения, где важна точность (например, медицинская диагностика) |
| Lossy | JPEG, MP3, H.264 | Видео, стриминг, музыка в повседневном использовании, видеонаблюдение |
Пример:
Представьте, что вы сканируете документ. Если вы сохраняете его как PNG — это lossless: текст остаётся чётким, штрихи не размываются. Но если сохранить как JPEG, особенно при низком качестве, могут появиться "подушечки" вокруг текста, цвета слегка смазываются — это потери, но для быстрого просмотра это может быть незаметно.
Артефакты сжатия: видимые последствия
Когда используется lossy-сжатие, оно оставляет следы — визуальные или слуховые искажения, называемые артефактами. Они становятся заметны при агрессивном сжатии (низкий битрейт) или при неудачных настройках кодека.
Распространённые артефакты в видео:

- Блочность (blockiness) — изображение делится на квадраты, особенно заметные в однотонных областях (небо, стены).
- Размытость деталей — мелкие текстуры (например, трава, волосы) теряются.
- Рябь (mosquito noise) — ложные движения по краям объектов, напоминающие "жужжание" вокруг контуров.
- Плавающие пятна (colour bleeding) — цвета «размазываются» за пределы объектов.
Визуализация:
Представьте, что вы смотрите на дерево в вечернем видео. При высоком качестве вы чётко видите очертания веток. При сильном сжатии края веток начинают «дрожать», вокруг них появляется шум, как будто вокруг дерева рой мелких насекомых. Это и есть mosquito noise.
Артефакты в аудио:

- Металлический или «жестяной» звук — особенно в вокале или ударных.
- Пропадание высоких частот — «глухое» звучание, будто говорят через одеяло.
- Псевдо-эхо и реверберация — короткие повторы звука, вызванные ошибками квантования.
- Обрывы при резких переходах — например, при ударе барабана звук может «запаздывать» или обрываться.
Компромисс: качество vs битрейт
Главный выбор при сжатии — это компромисс между качеством и объёмом данных (битрейтом). Чем ниже битрейт, тем больше информации приходится отбрасывать — и тем выше вероятность артефактов.
Графически это можно представить так:
На практике не всегда нужно максимальное качество. Например:
- Для видеоконференции важна чёткость лица и речи, а не детализация фона.
- Для видеонаблюдения важна распознаваемость объектов, а не цветопередача.
- Для фоновой музыки в приложении достаточно низкого битрейта AAC (64 кбит/с), чтобы не перегружать сеть.
Ключевая идея:
Мы сжимаем не изображение как объект, а сигнал, который кто-то будет воспринимать. Поэтому качество оценивается не по пикселям, а по тому, что видит зритель.
Психофизические особенности восприятия
Здесь на помощь приходит психофизика — наука о том, как человек воспринимает физические стимулы. Современные кодеки (H.264, AV1, Opus и др.) активно используют эти знания, чтобы удалять то, что мы вряд ли заметим.
Визуальное восприятие: что мы не замечаем?

- Низкая чувствительность к цвету по сравнению с яркостью
Человеческий глаз лучше различает перепады яркости (чёрное/белое), чем оттенки цвета. Поэтому в видео цветовую информацию часто сжимают сильнее (например, через субдискретизацию 4:2:0 — цветовые каналы передаются в 4 раза реже, чем яркостной). - Маскировка деталей движением
Когда кадр динамичный (быстрое движение камеры), мелкие артефакты менее заметны, потому что внимание зрителя сосредоточено на движении. Кодеки могут в таких сценах агрессивнее сжимать, не теряя субъективного качества. - Неспособность одновременно фокусироваться на всём
Глаз фокусируется на центральной части изображения. Поэтому в кодеках можно снижать качество по краям кадра (например, в 360°-видео или при кодировании с переменной сложностью — VMAF).
Слуховое восприятие: что мы не слышим?

- Маскировка звука более громким
Если звучит сильный низкочастотный удар (например, бас), то тихие высокие частоты рядом по времени становятся неслышны. Аудиокодеки (AAC, Opus) не кодируют эти "замаскированные" частоты, экономя биты. - Ограниченный диапазон восприятия
Человек слышит от ~20 Гц до ~20 кГц, но с возрастом верхняя граница снижается. Поэтому при битрейте 96 кбит/с можно смело обрезать всё выше 16 кГц — большинство не заметит. - Чувствительность к речи выше, чем к музыке
На низких битрейтах (8–16 кбит/с) кодеки вроде Opus или AMR оптимизированы под речь: они сохраняют чёткость формант (характерных частот голоса), но жертвуют тембром и фоновыми шумами.
Итог: сжатие — это инженерный компромисс
Современное сжатие медиа — это не просто математика, а инженерное решение, основанное на том, как мы видим и слышим. Мы готовы терпеть определённые искажения, потому что:
- Они незаметны при нормальном просмотре.
- Они позволяют экономить полосу пропускания, хранилище и энергию.
- Они делают возможным вещание, стриминг и видеосвязь в реальном времени.
Главный урок:
Хорошее сжатие — это когда зритель или слушатель не замечает, что что-то убрали.
Идеальное сжатие — когда даже эксперт не может отличить оригинал от сжатой версии при одинаковом битрейте.
В следующих разделах мы посмотрим, как именно кодеки (H.264, Opus и др.) реализуют эти идеи на практике.