Опции записи

sorted_by

Указание сортировки по некоторому префиксу колонок:

df.write.sorted_by("uuid").yt("//sys/spark/examples/test_data")

unique_keys

Уникальность ключа в таблице:

df.write.sorted_by("uuid").unique_keys.yt("//sys/spark/examples/test_data")

optimize_for

Таблица может храниться в построчном (lookup) и поколоночном (scan) формате. Предпочитаемый выбирается в зависимости от задачи:

spark.write.optimize_for("scan").yt("//sys/spark/examples/test_data")
spark.write.optimize_for("lookup").yt("//sys/spark/examples/test_data")
В этой статье: