Odin — активный мониторинг для YTsaurus

Рассказываем про новый компонент в экосистеме YTsaurus

В экосистеме YTsaurus появилось новое имя — Odin.

Это компонент, который позволяет всеобъемлюще мониторить платформу и встроен в UI. Инструкция по установке доступна в документации.

До сих пор пользователи YTsaurus полагались в основном на сбор метрик через Prometheus и собственные дашборды. Это полезно для анализа ресурсов, но не всегда помогает понять, действительно ли система работает.

Odin решает именно эту задачу: данный инструмент многие годы активно используется командой для мониторинга живости production кластеров. Он запускает регулярные проверки и даёт простой ответ: всё хорошо, есть на что обратить внимание или возникла проблема. Вот как это выглядит:

Полноэкранное изображение

Как работает Odin

  • Проверки (checks) запускаются каждую минуту и проверяют базовые сценарии работы системы.

  • Каждая проверка возвращает статус: OK, WARNING или CRITICAL.

  • Результаты складываются в таблицу, доступную для анализа или визуализации.

  • В интерфейсе можно посмотреть результат проверки для каждого запуска и лог.

Дополнительно можно посмотреть на статус выбранных проверок за последние полчаса, чтобы оценить общее состояние кластера.

Полноэкранное изображение

Доступные проверки

Odin поставляется с набором готовых проверок, которые охватывают разные уровни работы кластера — от базовых операций до состояния системных компонентов. Полный список доступных проверок можно посмотреть в документации, а их реализация доступна на GitHub.

Если вам не хватает какого‑либо функционала, пожалуйста, пишите в чат сообщества или создавайте issues/PR в репозиторий.

Odin — активный мониторинг для YTsaurus
Войдите, чтобы сохранить пост