SPYT в Jupyter
Подготовка
Перед тем как использовать Spark в Jupyter, необходимо создать кластер. Работа со Spark из Jupyter ноутбуков в настоящий момент возможна только с использованием standalone кластера.
При наличии готового кластера для работы с ним необходимо узнать значение proxy и discovery_path.
Настройка Jupyter
-
Получите сетевые доступы с машины с Jupyter до SPYT кластера, порты
27000-27200. -
Получите сетевые доступы из SPYT кластера до машины с Jupyter, порты
27000-27200. -
Поставьте deb-пакет с java:
sudo apt-get update sudo apt-get install openjdk-11-jdkПримечание: начиная с версии 2.6.0 вместо openjdk-11-jdk можно устанавливать openjdk-17-jdk
-
Поставьте pip-пакет:
pip install ytsaurus-spyt -
Положите токен для YTsaurus в
~/.yt/token:mkdir ~/.yt cat <<EOT > ~/.yt/token $YOUR_YT_TOKEN EOT -
Положите в домашнюю директорию файл
~/spyt.yamlс координатами кластера Spark:cat <<EOT > ~/spyt.yaml yt_proxy: "cluster_name" discovery_path: "$YOUR_DISCOVERY_DIR" EOT
Обновление клиента в Jupyter
Обновите ytsaurus-spyt в Jupyter:
pip install ytsaurus-spyt
Если вторая компонента в версии ytsaurus-spyt больше, чем в версии вашего кластера, новая функциональность может не работать. Обновите кластер согласно инструкции.