Перейти к основному содержимому

Потери и искажения: что мы готовы терпеть

При работе с медиа — особенно с видео и аудио — рано или поздно возникает вопрос: насколько можно «сжать» данные, чтобы они всё ещё выглядели или звучали приемлемо? Ответ на этот вопрос лежит на пересечении техники, математики и человеческого восприятия. В этом разделе мы разберём, какие виды сжатия существуют, какие искажения оно вносит и почему некоторые из них мы даже не замечаем.


Lossless и lossy: два пути сжатия

Существует два принципиально разных подхода к сжатию данных:

  • Lossless (без потерь) — данные сжимаются так, что при распаковке восстанавливаются точно в исходном виде. Никакой информации не теряется.
  • Lossy (с потерями) — часть информации намеренно отбрасывается, чтобы достичь более высокой степени сжатия. Восстановление происходит с искажениями.

Где что используется?

Тип сжатияПримеры форматовТипичное применение
LosslessFLAC, PNG, ZIPАрхивация, аудио для мастеринга, изображения, где важна точность (например, медицинская диагностика)
LossyJPEG, MP3, H.264Видео, стриминг, музыка в повседневном использовании, видеонаблюдение

Пример:
Представьте, что вы сканируете документ. Если вы сохраняете его как PNG — это lossless: текст остаётся чётким, штрихи не размываются. Но если сохранить как JPEG, особенно при низком качестве, могут появиться "подушечки" вокруг текста, цвета слегка смазываются — это потери, но для быстрого просмотра это может быть незаметно.


Артефакты сжатия: видимые последствия

Когда используется lossy-сжатие, оно оставляет следы — визуальные или слуховые искажения, называемые артефактами. Они становятся заметны при агрессивном сжатии (низкий битрейт) или при неудачных настройках кодека.

Распространённые артефакты в видео:

  • Блочность (blockiness) — изображение делится на квадраты, особенно заметные в однотонных областях (небо, стены).
  • Размытость деталей — мелкие текстуры (например, трава, волосы) теряются.
  • Рябь (mosquito noise) — ложные движения по краям объектов, напоминающие "жужжание" вокруг контуров.
  • Плавающие пятна (colour bleeding) — цвета «размазываются» за пределы объектов.

Визуализация:
Представьте, что вы смотрите на дерево в вечернем видео. При высоком качестве вы чётко видите очертания веток. При сильном сжатии края веток начинают «дрожать», вокруг них появляется шум, как будто вокруг дерева рой мелких насекомых. Это и есть mosquito noise.

Артефакты в аудио:

  • Металлический или «жестяной» звук — особенно в вокале или ударных.
  • Пропадание высоких частот — «глухое» звучание, будто говорят через одеяло.
  • Псевдо-эхо и реверберация — короткие повторы звука, вызванные ошибками квантования.
  • Обрывы при резких переходах — например, при ударе барабана звук может «запаздывать» или обрываться.

Компромисс: качество vs битрейт

Главный выбор при сжатии — это компромисс между качеством и объёмом данных (битрейтом). Чем ниже битрейт, тем больше информации приходится отбрасывать — и тем выше вероятность артефактов.

Графически это можно представить так:

На практике не всегда нужно максимальное качество. Например:

  • Для видеоконференции важна чёткость лица и речи, а не детализация фона.
  • Для видеонаблюдения важна распознаваемость объектов, а не цветопередача.
  • Для фоновой музыки в приложении достаточно низкого битрейта AAC (64 кбит/с), чтобы не перегружать сеть.

Ключевая идея:

Мы сжимаем не изображение как объект, а сигнал, который кто-то будет воспринимать. Поэтому качество оценивается не по пикселям, а по тому, что видит зритель.


Психофизические особенности восприятия

Здесь на помощь приходит психофизика — наука о том, как человек воспринимает физические стимулы. Современные кодеки (H.264, AV1, Opus и др.) активно используют эти знания, чтобы удалять то, что мы вряд ли заметим.

Визуальное восприятие: что мы не замечаем?

  • Низкая чувствительность к цвету по сравнению с яркостью
    Человеческий глаз лучше различает перепады яркости (чёрное/белое), чем оттенки цвета. Поэтому в видео цветовую информацию часто сжимают сильнее (например, через субдискретизацию 4:2:0 — цветовые каналы передаются в 4 раза реже, чем яркостной).
  • Маскировка деталей движением
    Когда кадр динамичный (быстрое движение камеры), мелкие артефакты менее заметны, потому что внимание зрителя сосредоточено на движении. Кодеки могут в таких сценах агрессивнее сжимать, не теряя субъективного качества.
  • Неспособность одновременно фокусироваться на всём
    Глаз фокусируется на центральной части изображения. Поэтому в кодеках можно снижать качество по краям кадра (например, в 360°-видео или при кодировании с переменной сложностью — VMAF).

Слуховое восприятие: что мы не слышим?

  • Маскировка звука более громким
    Если звучит сильный низкочастотный удар (например, бас), то тихие высокие частоты рядом по времени становятся неслышны. Аудиокодеки (AAC, Opus) не кодируют эти "замаскированные" частоты, экономя биты.
  • Ограниченный диапазон восприятия
    Человек слышит от ~20 Гц до ~20 кГц, но с возрастом верхняя граница снижается. Поэтому при битрейте 96 кбит/с можно смело обрезать всё выше 16 кГц — большинство не заметит.
  • Чувствительность к речи выше, чем к музыке
    На низких битрейтах (8–16 кбит/с) кодеки вроде Opus или AMR оптимизированы под речь: они сохраняют чёткость формант (характерных частот голоса), но жертвуют тембром и фоновыми шумами.

Итог: сжатие — это инженерный компромисс

Современное сжатие медиа — это не просто математика, а инженерное решение, основанное на том, как мы видим и слышим. Мы готовы терпеть определённые искажения, потому что:

  • Они незаметны при нормальном просмотре.
  • Они позволяют экономить полосу пропускания, хранилище и энергию.
  • Они делают возможным вещание, стриминг и видеосвязь в реальном времени.

Главный урок:
Хорошее сжатие — это когда зритель или слушатель не замечает, что что-то убрали.
Идеальное сжатие — когда даже эксперт не может отличить оригинал от сжатой версии при одинаковом битрейте.

В следующих разделах мы посмотрим, как именно кодеки (H.264, Opus и др.) реализуют эти идеи на практике.