SPYT в Jupyter

Подготовка

Перед тем как использовать Spark в Jupyter, необходимо создать кластер. Работа со Spark из Jupyter ноутбуков в настоящий момент возможна только с использованием standalone кластера.

При наличии готового кластера для работы с ним необходимо узнать значение proxy и discovery_path.

Настройка Jupyter

  1. Получите сетевые доступы с машины с Jupyter до SPYT кластера, порты 27000-27200.

  2. Получите сетевые доступы из SPYT кластера до машины с Jupyter, порты 27000-27200.

  3. Поставьте deb-пакет с java:

    sudo apt-get update
    sudo apt-get install openjdk-11-jdk
    
    
  4. Поставьте pip-пакет:

    pip install ytsaurus-spyt
    
    
  5. Положите токен для YTsaurus в ~/.yt/token:

    mkdir ~/.yt
    cat <<EOT > ~/.yt/token
    $YOUR_YT_TOKEN
    EOT
    
  6. Положите в домашнюю директорию файл ~/spyt.yaml с координатами кластера Spark:

    cat <<EOT > ~/spyt.yaml
    yt_proxy: "cluster_name"
    discovery_path: "$YOUR_DISCOVERY_DIR"
    EOT
    

Обновление клиента в Jupyter

Обновите ytsaurus-spyt в Jupyter:

pip install ytsaurus-spyt

Если вторая компонента в версии ytsaurus-spyt больше, чем в версии вашего кластера, новая функциональность может не работать. Обновите кластер согласно инструкции.

Предыдущая
Следующая