
YTsaurus
Платформа распределённого хранения и обработки больших данных с открытым исходным кодом.
Преимущества платформы
Многопользовательская экосистема
- Набор связных подсистем: MapReduce, движок SQL-запросов, планировщик, KV-хранилище данных для OLTP.
- Поддержка большого количества пользователей позволяет отказаться от лишних инсталляций и эффективно утилизировать железо.
Надёжность и стабильность
- Отсутствие единой точки отказа.
- Автоматическая репликация между серверами.
- Обновление кластера без потери прогресса вычислений.
Масштабируемость платформы
- До миллиона CPU и тысяч GPU.
- Эксабайты данных на разных носителях: HDD, SSD, NVME, RAM.
- 10 000+ узлов.
- Автоматический ввод и вывод серверов.
Обширная функциональность
- Расширенная модель MapReduce.
- Богатая транзакционная модель.
- Разнообразие SDK и API.
- Надёжная изоляция по вычислительным ресурсам и хранению.
- Удобный и красивый UI.
CHYT powered by ClickHouse®
- Привычный диалект SQL и знакомые функции.
- Быстрые аналитические запросы.
- Интеграция с популярными BI-решениями через JDBC и ODBC.
SPYT powered by Apache Spark
- Набор популярных инструментов для написания ETL-процессов.
- Запуск и поддержка нескольких кластеров SPYT.
- Простая миграция готовых решений.
Сценарии использования

Batch-обработка
MapReduce и SPYT для обработки структурированных и полуструктурированных данных: логов или финансовых транзакций.

Ad hoc аналитика
Быстрые запросы через CHYT без копирования данных в отдельную аналитическую систему. ODBC и JDBC с возможностью подключить BI для визуализации.

OLTP-задачи
Транзакционная работа с KV-хранилищем в реальном времени: например, для хранения профилей пользователей, показа рекламы или построения пайплайнов потоковой обработки.

Машинное обучение
Управление кластерами GPU для обучения моделей с миллиардами параметров.

Хранилище метаинформации
Транзакционное хранение метаинформации и надёжный сервис распределённых блокировок.

Построение хранилищ данных и ETL
Построение многоуровневых регулярных процессов обработки данных при помощи любимых инструментов: Apache Spark, SQL, MapReduce.
Истории успеха

Показ рекламы
Рекламный движок поддерживает информацию о пользователях в виде профилей в KV-хранилище. С использованием YTsaurus обновлять информацию о пользователях можно в режиме реального времени с задержками в 10 мс.
KV-хранилище можно использовать для показа данных внешним пользователям.
Попробовать YTsaurus
