YTsaurus

Платформа распределённого хранения и обработки больших данных с открытым исходным кодом.

Преимущества платформы

иконка - цикл с 4-мя узлами

Многопользовательская экосистема

  • Набор связных подсистем: MapReduce, движок SQL-запросов, планировщик, KV-хранилище данных для OLTP.
  • Поддержка большого количества пользователей позволяет отказаться от лишних инсталляций и эффективно утилизировать железо.
иконка - щит с галочкой

Надёжность и стабильность

  • Отсутствие единой точки отказа.
  • Автоматическая репликация между серверами.
  • Обновление кластера без потери прогресса вычислений.
иконка - слои

Масштабируемость платформы

  • До миллиона CPU и тысяч GPU.
  • Эксабайты данных на разных носителях: HDD, SSD, NVME, RAM.
  • 10 000+ узлов.
  • Автоматический ввод и вывод серверов.
иконка - список

Обширная функциональность

  • Расширенная модель MapReduce.
  • Богатая транзакционная модель.
  • Разнообразие SDK и API.
  • Надёжная изоляция по вычислительным ресурсам и хранению.
  • Удобный и красивый UI.
иконка - база данных

CHYT powered by ClickHouse®

  • Привычный диалект SQL и знакомые функции.
  • Быстрые аналитические запросы.
  • Интеграция с популярными BI-решениями через JDBC и ODBC.
иконка - молния

SPYT powered by Apache Spark

  • Набор популярных инструментов для написания ETL-процессов.
  • Запуск и поддержка нескольких кластеров SPYT.
  • Простая миграция готовых решений.

Сценарии использования

Batch-обработка

MapReduce и SPYT для обработки структурированных и полуструктурированных данных: логов или финансовых транзакций.

Ad hoc аналитика

Быстрые запросы через CHYT без копирования данных в отдельную аналитическую систему. ODBC и JDBC с возможностью подключить BI для визуализации.

OLTP-задачи

Транзакционная работа с KV-хранилищем в реальном времени: например, для хранения профилей пользователей, показа рекламы или построения пайплайнов потоковой обработки.

Машинное обучение

Управление кластерами GPU для обучения моделей с миллиардами параметров.

Хранилище метаинформации

Транзакционное хранение метаинформации и надёжный сервис распределённых блокировок.

Построение хранилищ данных и ETL

Построение многоуровневых регулярных процессов обработки данных при помощи любимых инструментов: Apache Spark, SQL, MapReduce.

Истории успеха

иллюстрация

Показ рекламы

Рекламный движок поддерживает информацию о пользователях в виде профилей в KV-хранилище. С использованием YTsaurus обновлять информацию о пользователях можно в режиме реального времени с задержками в 10 мс.

KV-хранилище можно использовать для показа данных внешним пользователям.