Быстрый старт
Установка клиента
Установите пакет ytsaurus-spyt
:
pip install ytsaurus-spyt
Запуск кластера
-
Выберите пользователя от имени которого необходимо запустить кластер. Код, который регулярно запускается на Spark, нужно загрузить в систему YTsaurus. У пользователя, от имени которого запущен кластер, должны быть права на чтение кода.
-
Создайте директорию для служебных данных Spark, например
my_discovery_path
. Пользователь, от имени которого запущен кластер, должен иметь права на запись в директорию. Пользователи, которые будут запускать джобы на Spark, должны иметь права на чтение директории. -
Запустите кластер:
spark-launch-yt \ --proxy <cluster-name> \ --pool my_pool \ --discovery-path my_discovery_path \ --worker-cores 16 \ --worker-num 5 \ --worker-memory 64G
Опции:
spark-launch-yt
– запуск в Vanilla-операции YTsaurus с клиентского хоста;--proxy
– имя кластера;--pool
– вычислительный пул YTsaurus;--spyt-version
– директория для служебных данных Spark;--worker-cores
– количество ядер у воркера;--worker-num
– количество воркеров;--worker-memory
– количество памяти у каждого воркера;--spark-cluster-version
– версия кластера (опционально).
-
Запустите тестовый джоб на кластере:
spark-submit-yt \ --proxy <cluster-name> \ --discovery-path my_discovery_path \ --deploy-mode cluster \ yt:///sys/spark/examples/smoke_test.py
Опции:
spark-submit-yt
– обертка над spark-submit, позволяет определить адрес мастера Spark из Vanilla-операции. Поиск производится по аргументам:proxy
,id
,discovery-path
.--proxy
– имя кластера;--discovery-path
– директория для служебных данных Spark;--deploy-mode
(cluster
илиclient
) – режим запуска кластера;--spyt-version
– версия SPYT (опционально);- адрес файла с кодом в YTsaurus.
Использование
-
spark-launch-yt
spark-launch-yt \ --proxy <cluster-name> \ --pool my_pool \ --discovery-path my_discovery_path \ --worker-cores 16 \ --worker-num 5 \ --worker-memory 64G \ --spark-cluster-version 1.72.0
-
spark-discovery-yt
Получить ссылки на UI мастера, операцию, Spark History Server:
spark-discovery-yt \ --proxy <cluster-name> \ --discovery-path my_discovery_path
-
spark-submit-yt
spark-submit-yt \ --proxy <cluster-name> \ --discovery-path my_discovery_path \ --deploy-mode cluster \ --spyt-version 1.72.0 \ yt:///sys/spark/examples/smoke_test.py
Примечание
Вместо некоторых аргументов команд можно установить переменные окружения, например:
YT_PROXY
— вместо--proxy
.
Дополнительные параметры
О дополнительных параметрах при запуске кластера можно узнать в разделе Запуск кластера Spark.