YTsaurus SPYT: помогаем планировщику Apache Spark™ быть ещё эффективнее

Как мы сделали и оптимизировали модуль для Apache Spark™ внутри платформы YTsaurus

В больших распределённых системах многое зависит от эффективности запросов: если на гигабайте данных неоптимальный запрос может выполняться за миллисекунды, то при увеличении массива в тысячи раз, сервер начнёт кряхтеть, пыхтеть и жаловаться. Чтобы избежать этого, помогут знания о работе распределённых систем и их частей, а именно — планировщиков.

Меня зовут Алексей Шишкин. Ещё с университетских времён исследую распределённые системы, а последние два года в Яндексе адаптирую Apache Spark™ к внутренней инфраструктуре. Эта статья посвящена Apache Spark™, а именно: как мы в рамках YTsaurus делали его ещё эффективнее.

Поговорим про:

  • Apache Spark™ и YTsaurus
  • Обзор планирования запросов
  • Выявление просторов для оптимизации
  • Внедрение знаний о сортировке в план исполнения
  • Тесты производительности

Читайте далее на Хабре.

Войдите, чтобы сохранить пост