SPYT в Jupyter

Подготовка

Перед тем как использовать Spark в Jupyter, необходимо создать кластер. Работа со Spark из Jupyter ноутбуков в настоящий момент возможна только с использованием standalone кластера.

При наличии готового кластера для работы с ним необходимо узнать значение proxy и discovery_path.

Настройка Jupyter

Получите сетевые доступы с машины с Jupyter до SPYT кластера, порты 27000-27200.
Получите сетевые доступы из SPYT кластера до машины с Jupyter, порты 27000-27200.
Поставьте deb-пакет с java:
```
sudo apt-get update
sudo apt-get install openjdk-11-jdk
```
Примечание: начиная с версии 2.6.0 вместо openjdk-11-jdk можно устанавливать openjdk-17-jdk
Поставьте pip-пакет:
```
pip install ytsaurus-spyt
```

Положите токен для YTsaurus в ~/.yt/token:

mkdir ~/.yt
cat <<EOT > ~/.yt/token
$YOUR_YT_TOKEN
EOT

Положите в домашнюю директорию файл ~/spyt.yaml с координатами кластера Spark:
```
cat <<EOT > ~/spyt.yaml
yt_proxy: "cluster_name"
discovery_path: "$YOUR_DISCOVERY_DIR"
EOT
```

Обновление клиента в Jupyter

Обновите ytsaurus-spyt в Jupyter:

pip install ytsaurus-spyt

Если вторая компонента в версии ytsaurus-spyt больше, чем в версии вашего кластера, новая функциональность может не работать. Обновите кластер согласно инструкции.

SPYT в Python

SPYT в Scala