SPYT в Jupyter
Подготовка
Перед тем как использовать Spark в Jupyter, необходимо создать кластер. Работа со Spark из Jupyter ноутбуков в настоящий момент возможна только с использованием standalone кластера.
При наличии готового кластера для работы с ним необходимо узнать значение proxy
и discovery_path
.
Настройка Jupyter
-
Получите сетевые доступы с машины с Jupyter до SPYT кластера, порты
27000-27200
. -
Получите сетевые доступы из SPYT кластера до машины с Jupyter, порты
27000-27200
. -
Поставьте deb-пакет с java:
sudo apt-get update sudo apt-get install openjdk-11-jdk
-
Поставьте pip-пакет:
pip install ytsaurus-spyt
-
Положите токен для YTsaurus в
~/.yt/token
:mkdir ~/.yt cat <<EOT > ~/.yt/token $YOUR_YT_TOKEN EOT
-
Положите в домашнюю директорию файл
~/spyt.yaml
с координатами кластера Spark:cat <<EOT > ~/spyt.yaml yt_proxy: "cluster_name" discovery_path: "$YOUR_DISCOVERY_DIR" EOT
Обновление клиента в Jupyter
Обновите ytsaurus-spyt
в Jupyter:
pip install ytsaurus-spyt
Если вторая компонента в версии ytsaurus-spyt
больше, чем в версии вашего кластера, новая функциональность может не работать. Обновите кластер согласно инструкции.