Опции стриминга
В разделе перечислены опции SPYT для Structured Streaming, служебные колонки и матрица совместимости версий. Параметры Spark-сессии (включая spark.yt.streaming.transactional) — на странице Конфигурационные параметры.
Опции источника и приёмника yt
Передаются через .option(...) при чтении или записи стримингового датафрейма. Для входной очереди параметр path обычно передаётся через .load(...).
| Опция | Описание | Обязательный | Значение по умолчанию | С какой версии |
|---|---|---|---|---|
consumer_path |
Путь к таблице-консьюмеру для чтения из очереди | да, при чтении | — | 1.77.0 |
path |
Путь к входной очереди при чтении или к выходной таблице при записи | да | — | 1.77.0 |
include_service_columns |
Добавить служебные колонки __spyt_streaming_src_tablet_index и __spyt_streaming_src_row_index в датафрейм (соответствуют $tablet_index и $row_index строки в исходной очереди) |
нет | false |
2.6.0 |
max_rows_per_partition |
Максимальное количество строк, читаемых из одной партиции очереди в рамках одного батча | нет | ∞ |
2.6.0 |
parsing_type_v3 |
Читать композитные типы с сохранением типа. Если опция не указана, используется spark.yt.read.typeV3.enabled |
нет | spark.yt.read.typeV3.enabled |
2.6.0 |
write_type_v3 |
Писать композитные типы с сохранением типа. Если опция не указана, используется spark.yt.write.typeV3.enabled |
нет | spark.yt.write.typeV3.enabled |
2.6.0 |
Параметры Spark Structured Streaming
checkpointLocation — это параметр Spark Structured Streaming, а не специфичная опция источника или приёмника yt.
| Параметр | Описание | Когда указывать | С какой версии |
|---|---|---|---|
checkpointLocation |
Путь к директории с чекпоинт-файлами streaming query. Spark хранит здесь промежуточное состояние stateful-операций: например, groupBy, windowing или join. |
Для хранения в YTsaurus укажите путь вида yt:///... | Всегда — это обязательное требование Spark Structured Streaming | 1.77.0 |
Служебные колонки
При include_service_columns = true в стриминговый датафрейм добавляются колонки:
| Колонка | Описание |
|---|---|
__spyt_streaming_src_tablet_index |
Значение $tablet_index строки в исходной очереди |
__spyt_streaming_src_row_index |
Значение $row_index строки в исходной очереди |
Матрица совместимости
| Функциональность | Минимальная версия SPYT |
|---|---|
| Хранение чекпоинтов на YTsaurus | 1.77.0 |
| Structured Streaming поверх YTsaurus Queue API | 1.77.0 |
| Поддержка композитных типов данных | 2.6.0 |
Опция max_rows_per_partition |
2.6.0 |
Опция include_service_columns |
2.6.0 |
Параметр spark.yt.write.dynBatchSize |
с 2.6.5 стал конфигурируем для стриминга (ранее был жёстко задан и равен 50000) |
| Транзакционный режим (exactly-once) | 2.10 |
См. также
- Structured Streaming — обзор и основные сценарии
- Гарантия exactly-once — выбор подхода к гарантиям
- Транзакционный режим — инструкция по включению exactly-once
- Конфигурационные параметры — параметры Spark-сессии, включая
spark.yt.streaming.transactionalиspark.yt.write.dynBatchSize
Предыдущая
Следующая