Машинное обучение

YTsaurus покрывает все этапы ML-пайплайна: подготовку данных, обучение моделей, валидацию и inference. Данные не перемещаются между системами — всё происходит в одном месте с прозрачным управлением ресурсами.

Цикл работы ML-инженера

Иллюстрация

Обрабатывайте миллиарды записей из логов, событий и телеметрии с помощью SPYT, MapReduce или YQL. Выполняйте сложные JOIN’ы, агрегации и трансформации данных прямо в хранилище — без выгрузки во внешние системы.

Статические таблицы хранят исторические датасеты с поколоночным сжатием и схематизацией

Динамические таблицы позволяют инкрементально обновлять признаки в реальном времени.

Встроенные очереди с поддержкой Kafka-интерфейса позволяют направить поток данных прямо в систему без дополнительных интеграций.

Преимущества YTsaurus для ML

Единая платформа для всех этапов машинного обучения
Гибкость распределения ресурсов GPU между командами
Самостоятельное перераспределние ресурсов между инференс и обучением
Возможность обучать большие модели
Streaming и быстрый цикл обновлений

Кейсы

Рекомендательные системы

Обучение на терабайтах логов пользовательских действий, обновление рекомендаций через динамические таблицы

Прогнозирование и детекция аномалий

Обработка телеметрии, обучение на исторических трендах, batch inference для анализа отклонений

Computer Vision и NLP

Хранение больших датасетов (изображения, тексты), распределённое обучение на GPU-кластерах даже самых больших LLM