YTsaurus SPYT: помогаем планировщику Apache Spark™ быть ещё эффективнее
Как мы сделали и оптимизировали модуль для Apache Spark™ внутри платформы YTsaurus
19 октября 2023 г.
В больших распределённых системах многое зависит от эффективности запросов: если на гигабайте данных неоптимальный запрос может выполняться за миллисекунды, то при увеличении массива в тысячи раз, сервер начнёт кряхтеть, пыхтеть и жаловаться. Чтобы избежать этого, помогут знания о работе распределённых систем и их частей, а именно — планировщиков.
Меня зовут Алексей Шишкин. Ещё с университетских времён исследую распределённые системы, а последние два года в Яндексе адаптирую Apache Spark™ к внутренней инфраструктуре. Эта статья посвящена Apache Spark™, а именно: как мы в рамках YTsaurus делали его ещё эффективнее.
Поговорим про:
- Apache Spark™ и YTsaurus
- Обзор планирования запросов
- Выявление просторов для оптимизации
- Внедрение знаний о сортировке в план исполнения
- Тесты производительности
Читайте далее на Хабре.
Войдите, чтобы сохранить пост