Новый формат работает с данными без распаковки - и это меняет логику нагрузки на дата-центры
Яндекс перевёл в открытый доступ YaFF - собственный формат передачи и чтения данных, который позволяет серверам не тратить ресурсы на обязательную десериализацию. Экономия вычислительных мощностей - до 20%. Для высоконагруженных платформ это не косметика, а реальный сдвиг в архитектуре расходов.
Почему десериализация - это боль на масштабе
В любом крупном сервисе данные постоянно курсируют между компонентами: из хранилища в приложение, из очереди в обработчик, из кеша в ответ пользователю. Каждый раз перед использованием их нужно «распаковать» - привести из компактного бинарного вида в структуру, понятную коду. Операция простая, но повторяется миллиарды раз в сутки.
По расчётам команды Яндекса, именно на такие преобразования уходит до 10% вычислительных мощностей дата-центра. Звучит скромно - пока не переводишь в деньги и железо. Для компании с тысячами серверов это целые стойки, которые работают только ради «распаковки».
Как устроен YaFF и почему миграция не страшна
Ключевая идея формата - прямое чтение данных без предварительной десериализации. Приложение обращается к нужному полю напрямую, минуя этап полного разбора структуры. Это особенно выгодно там, где из большого объекта реально нужна лишь часть данных.
- YaFF работает поверх Protobuf - одного из самых распространённых форматов в индустрии. Переход не требует переписывать сервисы с нуля.
- В рекламной рекомендательной системе Яндекса каждый запрос обрабатывает десятки тысяч объектов. После внедрения нового формата потребление ресурсов упало на 10-20%.
- Код и документация опубликованы на GitHub, технический разбор - на Хабре.
Совместимость с Protobuf - принципиальный момент. Некоторые альтернативные форматы (тот же FlatBuffers или Cap'n Proto) требуют полной переработки схем и логики сериализации. YaFF встраивается в существующую инфраструктуру, что снижает порог входа до минимума.
Кому это нужно - и что будет дальше
В Яндексе видят потенциальную аудиторию среди банков, маркетплейсов, телекомов и облачных провайдеров - то есть всюду, где трафик данных измеряется миллиардами операций и где каждый процент вычислительной эффективности имеет цену.
Открытая публикация YaFF - это не просто жест доброй воли. Яндекс давно практикует выпуск внутренних инструментов в open source: ClickHouse, CatBoost, YDB прошли тот же путь и стали самостоятельными продуктами с внешними сообществами. Чехия - Мексика смотреть онлайн - не единственное, за чем следят сегодня в сети: технологические релизы такого масштаба тоже собирают серьёзную аудиторию среди инженеров и архитекторов высоконагруженных систем. YaFF имеет шансы занять нишу именно там, где Protobuf стал стандартом, но его накладные расходы начали ощутимо давить на инфраструктуру.