Apache Parquet ist ein spaltenorientiertes Speicherformat, das für die Verwendung mit Big-Data-Verarbeitungs-Frameworks optimiert wurde. Im Gegensatz zu zeilenorientierten Formaten speichert Parquet Daten spaltenweise, was eine effiziente Datenkomprimierung und -kodierung ermöglicht. Diese spaltenbasierte Speicherung erlaubt es Abfrage-Engines, für eine bestimmte Abfrage nur die notwendigen Spalten abzurufen, wodurch E/A-Operationen erheblich reduziert und die Abfrageleistung verbessert werden. Parquet ist als selbstbeschreibendes Format konzipiert, was bedeutet, dass das Schema direkt in der Datendatei eingebettet ist. Dies macht externe Metadaten-Speicher überflüssig und vereinfacht die Datenverwaltung. Es unterstützt eine breite Palette von Datentypen sowie komplexe, verschachtelte Strukturen. Parquet wird häufig in Data Warehousing, Data Lakes und anderen Big-Data-Anwendungen eingesetzt, bei denen eine effiziente Datenspeicherung und -abfrage entscheidend sind. Die Integration mit gängigen Frameworks wie Apache Spark, Hadoop und Presto macht es zu einer vielseitigen Wahl für Datenverarbeitungspipelines. Das Format ist sowohl für Lese- als auch für Schreibvorgänge ausgelegt, wird jedoch häufig in Szenarien verwendet, in denen Daten einmal geschrieben und mehrfach gelesen werden (Write-Once, Read-Many).