Быстрый старт

Установка клиента

Установите пакет ytsaurus-spyt:

pip install ytsaurus-spyt

Запуск кластера

  1. Выберите пользователя от имени которого необходимо запустить кластер. Код, который регулярно запускается на Spark, нужно загрузить в систему YTsaurus. У пользователя, от имени которого запущен кластер, должны быть права на чтение кода.

  2. Создайте директорию для служебных данных Spark, например my_discovery_path. Пользователь, от имени которого запущен кластер, должен иметь права на запись в директорию. Пользователи, которые будут запускать джобы на Spark, должны иметь права на чтение директории.

  3. Запустите кластер:

    spark-launch-yt \
    --proxy <cluster-name> \
    --pool  my_pool \
    --discovery-path my_discovery_path \
    --worker-cores 16 \
    --worker-num 5 \
    --worker-memory 64G
    

    Опции:

    • spark-launch-yt – запуск в Vanilla-операции YTsaurus с клиентского хоста;
    • --proxy – имя кластера;
    • --pool – вычислительный пул YTsaurus;
    • --spyt-version – директория для служебных данных Spark;
    • --worker-cores – количество ядер у воркера;
    • --worker-num – количество воркеров;
    • --worker-memory – количество памяти у каждого воркера;
    • --spark-cluster-versionверсия кластера (опционально).
  4. Запустите тестовый джоб на кластере:

    spark-submit-yt \
    --proxy <cluster-name> \
    --discovery-path my_discovery_path \
    --deploy-mode cluster \
    yt:///sys/spark/examples/smoke_test.py
    

    Опции:

    • spark-submit-yt – обертка над spark-submit, позволяет определить адрес мастера Spark из Vanilla-операции. Поиск производится по аргументам: proxy, id, discovery-path.
    • --proxy – имя кластера;
    • --discovery-path – директория для служебных данных Spark;
    • --deploy-mode (cluster или client) – режим запуска кластера;
    • --spyt-version – версия SPYT (опционально);
    • адрес файла с кодом в YTsaurus.

Использование

  • spark-launch-yt

    spark-launch-yt \
    --proxy <cluster-name> \
    --pool my_pool \
    --discovery-path my_discovery_path \
    --worker-cores 16 \
    --worker-num 5 \
    --worker-memory 64G \
    --spark-cluster-version 1.72.0
    
  • spark-discovery-yt

    Получить ссылки на UI мастера, операцию, Spark History Server:

    spark-discovery-yt \
    --proxy <cluster-name> \
    --discovery-path my_discovery_path
    
  • spark-submit-yt

    spark-submit-yt \
    --proxy <cluster-name> \
    --discovery-path my_discovery_path \
    --deploy-mode cluster \
    --spyt-version 1.72.0 \
    yt:///sys/spark/examples/smoke_test.py
    

    Примечание

    Вместо некоторых аргументов команд можно установить переменные окружения, например: YT_PROXY — вместо --proxy.

Дополнительные параметры

О дополнительных параметрах при запуске кластера можно узнать в разделе Запуск кластера Spark.