Опции записи

sorted_by

Указание сортировки по некоторому префиксу колонок:

df.write.sorted_by("uuid").yt("//sys/spark/examples/test_data")

unique_keys

Уникальность ключа в таблице:

df.write.sorted_by("uuid").unique_keys.yt("//sys/spark/examples/test_data")

optimize_for

Таблица может храниться в построчном (lookup) и поколоночном (scan) формате. Предпочитаемый выбирается в зависимости от задачи:

spark.write.optimize_for("scan").yt("//sys/spark/examples/test_data")
spark.write.optimize_for("lookup").yt("//sys/spark/examples/test_data")

Schema v3

Запись таблиц со схемой в формате type_v3 вместо type_v1. Настраивается в Spark конфигурации или опции записи.

Python example:

df.write.option("write_type_v3", "true")

Динамические таблицы

Для динамических таблиц необходимо явно указать дополнительную опцию inconsistent_dynamic_write со значением true, чтобы подтвердить, что вы согласны с отсутствием поддержки транзакционной записи в динамические таблицы.

Python example:

df.write.option("inconsistent_dynamic_write", "true")