Потери и искажения: что мы готовы терпеть

При работе с медиа — особенно с видео и аудио — рано или поздно возникает вопрос: насколько можно «сжать» данные, чтобы они всё ещё выглядели или звучали приемлемо? Ответ на этот вопрос лежит на пересечении техники, математики и человеческого восприятия. В этом разделе мы разберём, какие виды сжатия существуют, какие искажения оно вносит и почему некоторые из них мы даже не замечаем.

Lossless и lossy: два пути сжатия

Существует два принципиально разных подхода к сжатию данных:

Lossless (без потерь) — данные сжимаются так, что при распаковке восстанавливаются точно в исходном виде. Никакой информации не теряется.
Lossy (с потерями) — часть информации намеренно отбрасывается, чтобы достичь более высокой степени сжатия. Восстановление происходит с искажениями.

Где что используется?

Тип сжатия	Примеры форматов	Типичное применение
Lossless	FLAC, PNG, ZIP	Архивация, аудио для мастеринга, изображения, где важна точность (например, медицинская диагностика)
Lossy	JPEG, MP3, H.264	Видео, стриминг, музыка в повседневном использовании, видеонаблюдение

Пример:
Представьте, что вы сканируете документ. Если вы сохраняете его как PNG — это lossless: текст остаётся чётким, штрихи не размываются. Но если сохранить как JPEG, особенно при низком качестве, могут появиться "подушечки" вокруг текста, цвета слегка смазываются — это потери, но для быстрого просмотра это может быть незаметно.

Артефакты сжатия: видимые последствия

Когда используется lossy-сжатие, оно оставляет следы — визуальные или слуховые искажения, называемые артефактами. Они становятся заметны при агрессивном сжатии (низкий битрейт) или при неудачных настройках кодека.

Распространённые артефакты в видео:

Блочность (blockiness) — изображение делится на квадраты, особенно заметные в однотонных областях (небо, стены).
Размытость деталей — мелкие текстуры (например, трава, волосы) теряются.
Рябь (mosquito noise) — ложные движения по краям объектов, напоминающие "жужжание" вокруг контуров.
Плавающие пятна (colour bleeding) — цвета «размазываются» за пределы объектов.

Визуализация:
Представьте, что вы смотрите на дерево в вечернем видео. При высоком качестве вы чётко видите очертания веток. При сильном сжатии края веток начинают «дрожать», вокруг них появляется шум, как будто вокруг дерева рой мелких насекомых. Это и есть mosquito noise.

Артефакты в аудио:

Металлический или «жестяной» звук — особенно в вокале или ударных.
Пропадание высоких частот — «глухое» звучание, будто говорят через одеяло.
Псевдо-эхо и реверберация — короткие повторы звука, вызванные ошибками квантования.
Обрывы при резких переходах — например, при ударе барабана звук может «запаздывать» или обрываться.

Компромисс: качество vs битрейт

Главный выбор при сжатии — это компромисс между качеством и объёмом данных (битрейтом). Чем ниже битрейт, тем больше информации приходится отбрасывать — и тем выше вероятность артефактов.

Графически это можно представить так:

На практике не всегда нужно максимальное качество. Например:

Для видеоконференции важна чёткость лица и речи, а не детализация фона.
Для видеонаблюдения важна распознаваемость объектов, а не цветопередача.
Для фоновой музыки в приложении достаточно низкого битрейта AAC (64 кбит/с), чтобы не перегружать сеть.

Ключевая идея:

Мы сжимаем не изображение как объект, а сигнал, который кто-то будет воспринимать. Поэтому качество оценивается не по пикселям, а по тому, что видит зритель.

Психофизические особенности восприятия

Здесь на помощь приходит психофизика — наука о том, как человек воспринимает физические стимулы. Современные кодеки (H.264, AV1, Opus и др.) активно используют эти знания, чтобы удалять то, что мы вряд ли заметим.

Визуальное восприятие: что мы не замечаем?

Низкая чувствительность к цвету по сравнению с яркостью
Человеческий глаз лучше различает перепады яркости (чёрное/белое), чем оттенки цвета. Поэтому в видео цветовую информацию часто сжимают сильнее (например, через субдискретизацию 4:2:0 — цветовые каналы передаются в 4 раза реже, чем яркостной).
Маскировка деталей движением
Когда кадр динамичный (быстрое движение камеры), мелкие артефакты менее заметны, потому что внимание зрителя сосредоточено на движении. Кодеки могут в таких сценах агрессивнее сжимать, не теряя субъективного качества.
Неспособность одновременно фокусироваться на всём
Глаз фокусируется на центральной части изображения. Поэтому в кодеках можно снижать качество по краям кадра (например, в 360°-видео или при кодировании с переменной сложностью — VMAF).

Слуховое восприятие: что мы не слышим?

Маскировка звука более громким
Если звучит сильный низкочастотный удар (например, бас), то тихие высокие частоты рядом по времени становятся неслышны. Аудиокодеки (AAC, Opus) не кодируют эти "замаскированные" частоты, экономя биты.
Ограниченный диапазон восприятия
Человек слышит от ~20 Гц до ~20 кГц, но с возрастом верхняя граница снижается. Поэтому при битрейте 96 кбит/с можно смело обрезать всё выше 16 кГц — большинство не заметит.
Чувствительность к речи выше, чем к музыке
На низких битрейтах (8–16 кбит/с) кодеки вроде Opus или AMR оптимизированы под речь: они сохраняют чёткость формант (характерных частот голоса), но жертвуют тембром и фоновыми шумами.

Итог: сжатие — это инженерный компромисс

Современное сжатие медиа — это не просто математика, а инженерное решение, основанное на том, как мы видим и слышим. Мы готовы терпеть определённые искажения, потому что:

Они незаметны при нормальном просмотре.
Они позволяют экономить полосу пропускания, хранилище и энергию.
Они делают возможным вещание, стриминг и видеосвязь в реальном времени.

Главный урок:
Хорошее сжатие — это когда зритель или слушатель не замечает, что что-то убрали.
Идеальное сжатие — когда даже эксперт не может отличить оригинал от сжатой версии при одинаковом битрейте.

В следующих разделах мы посмотрим, как именно кодеки (H.264, Opus и др.) реализуют эти идеи на практике.

Lossless и lossy: два пути сжатия​

Где что используется?​

Артефакты сжатия: видимые последствия​

Распространённые артефакты в видео:​

Артефакты в аудио:​

Компромисс: качество vs битрейт​

Психофизические особенности восприятия​

Визуальное восприятие: что мы не замечаем?​

Слуховое восприятие: что мы не слышим?​

Итог: сжатие — это инженерный компромисс​