Опции записи
sorted_by
Указание сортировки по некоторому префиксу колонок:
df.write.sorted_by("uuid").yt("//sys/spark/examples/test_data")
unique_keys
Уникальность ключа в таблице:
df.write.sorted_by("uuid").unique_keys.yt("//sys/spark/examples/test_data")
optimize_for
Таблица может храниться в построчном (lookup) и поколоночном (scan) формате. Предпочитаемый выбирается в зависимости от задачи:
spark.write.optimize_for("scan").yt("//sys/spark/examples/test_data")
spark.write.optimize_for("lookup").yt("//sys/spark/examples/test_data")
Schema v3
Запись таблиц со схемой в формате type_v3 вместо type_v1
. Настраивается в Spark конфигурации или опции записи.
Python example:
df.write.option("write_type_v3", "true")
Динамические таблицы
Для динамических таблиц необходимо явно указать дополнительную опцию inconsistent_dynamic_write
со значением true
, чтобы подтвердить, что вы согласны с отсутствием поддержки транзакционной записи в динамические таблицы.
Python example:
df.write.option("inconsistent_dynamic_write", "true")