Databricks - wandent/mutual-wiki GitHub Wiki

Databricks

[[TOC]]

Patrones de Uso

Practicas Probadas

Delta Lake

path = "..."
 numFiles = 16

 (spark.read
   .format("delta")
   .load(path)
   .repartition(numFiles)
   .write
   .option("dataChange", "false")
   .format("delta")
   .mode("overwrite")
   .save(path))
  • Reparticionar tablas
path = "..."
 partition = "year = '2019'"
 numFilesPerPartition = 16

 (spark.read
   .format("delta")
   .load(path)
   .where(partition)
   .repartition(numFilesPerPartition)
   .write
   .option("dataChange", "false")
   .format("delta")
   .mode("overwrite")
   .option("replaceWhere", partition)
   .save(path))

Anti-patterns

No usar como practicas:

  • Usar datos de producción en los folders default de DBFS
  • Inferred schema
  • No mantener consistencia en los formatos de archivos
⚠️ **GitHub.com Fallback** ⚠️