Если вам не хватает какого‑либо функционала, пожалуйста, пишите в чат сообщества или создавайте issues/PR в репозиторий.

Odin — активный мониторинг для YTsaurus
В экосистеме YTsaurus появилось новое имя — Odin.
Это компонент, который позволяет всеобъемлюще мониторить платформу и встроен в UI. Инструкция по установке доступна в документации.
До сих пор пользователи YTsaurus полагались в основном на сбор метрик через Prometheus и собственные дашборды. Это полезно для анализа ресурсов, но не всегда помогает понять, действительно ли система работает.
Odin решает именно эту задачу: данный инструмент многие годы активно используется командой для мониторинга живости production кластеров. Он запускает регулярные проверки и даёт простой ответ: всё хорошо, есть на что обратить внимание или возникла проблема. Вот как это выглядит:

Как работает Odin
-
Проверки (checks) запускаются каждую минуту и проверяют базовые сценарии работы системы.
-
Каждая проверка возвращает статус: OK, WARNING или CRITICAL.
-
Результаты складываются в таблицу, доступную для анализа или визуализации.
-
В интерфейсе можно посмотреть результат проверки для каждого запуска и лог.
Дополнительно можно посмотреть на статус выбранных проверок за последние полчаса, чтобы оценить общее состояние кластера.

Доступные проверки
Odin поставляется с набором готовых проверок, которые охватывают разные уровни работы кластера — от базовых операций до состояния системных компонентов. Полный список доступных проверок можно посмотреть в документации, а их реализация доступна на GitHub.