Обзор

Что такое Spark?

Apache Spark — это фреймворк для расчетов на больших данных (джойнов, группировок, фильтраций и т. д.).

Spark обрабатывает данные в оперативной памяти. Ключевое отличие процессинга в памяти от "классического" MapReduce образца 2005 года в том, что данные минимально затрагивают диск при работе, а значит, минимизируются расходы на IO — самую медленную часть процессинга. Для одиночной Map операции эффект от использования Spark не будет заметен. Но уже для одного каскада Map и Reduce удается избежать записи промежуточных результатов на диск при условии, что памяти будет достаточно.

Для каждого последующего каскада MapReduce экономия нарастает, появляется возможность кешировать результаты. Для больших и сложных аналитических пайплайнов рост производительности будет многократным.

Также Spark вооружен полноценным оптимизатором запросов Catalyst, который планирует выполнение и учитывает:

расположение и объёмы входных данных;
протягивание предикатов до файловой системы;
целесообразность и порядок шагов при исполнении запроса;
набор атрибутов в конечной таблице;
локальность данных при обработке;
возможную конвейеризацию вычислений.

Как Spark интегрирован с YTsaurus

Подробности интеграции Spark c YTsaurus можно узнать в вебинаре.

Что такое SPYT?

SPYT powered by Apache Spark позволяет запускать Spark-кластер на вычислительных мощностях YTsaurus. Кластер запускается в Vanilla-операции YTsaurus, затем забирает некоторое количество ресурсов из квоты и занимает их постоянно. Spark может читать как статические, так и динамические таблицы YTsaurus, делать на них расчеты и писать результат в статическую таблицу.

Совместимость версий SPYT с версиями Apache Spark, Java, Scala, Python

Версия SPYT	Версия Spark	Java	Scala	Python
1.x.x, 2.0.x	3.2.2	11	2.12	3.8, 3.9, 3.11, 3.12
2.1.x, 2.2.x	3.2.2 - 3.2.4	11	2.12	3.8, 3.9, 3.11, 3.12
2.3.x, 2.4.x	3.2.2 - 3.3.4	11	2.12	3.8, 3.9, 3.11, 3.12
2.5.0	3.2.2 - 3.5.3	11	2.12	3.8, 3.9, 3.11, 3.12
2.6.x, 2.7.x	3.2.2 - 3.5.6	11, 17	2.12	3.8, 3.9, 3.11, 3.12

Когда использовать SPYT

SPYT оптимален в следующих случаев:

разработка на Java с использованием MapReduce в YTsaurus;
оптимизация производительности пайплайна на YTsaurus с двумя и более джойнами или группировками;
написание интеграционных ETL пайплайнов из других систем хранения;
ad-hoc аналитика в интерактивном режиме с использованием Jupyter, pyspark, spark-shell или встроенного в UI компонента Query Tracker.

SPYT не стоит выбирать, если:

существует необходимость в обработке более 10 ТБ данных в одной транзакции;
процессинг сводится к единичным Map или MapReduce.

Способы запуска расчетов на Spark в YTsaurus

Отдельные запуски расчётов напрямую в YTsaurus, используя команду spark-submit Подробнее.
Создание Standalone Spark кластера как постоянного ресурса внутри YTsaurus при помощи Vanilla операции Подробнее.

На каких языках можно писать

Spark поддерживает следующие языки и среды разработки:

FAQ

Запуск Spark задач на выполнение