ORC (Optimized Row Columnar) ist ein selbstbeschreibendes, typbewusstes spaltenorientiertes Dateiformat, das speziell für Hadoop-Workloads entwickelt wurde. Es ist für die groß angelegte Datenverarbeitung und -speicherung optimiert und bietet im Vergleich zu herkömmlichen zeilenbasierten Formaten wie CSV oder Textdateien erhebliche Verbesserungen bei der Leistung und Speichereffizienz. ORC-Dateien speichern Daten in einem spaltenorientierten Format, was den effizienten Abruf spezifischer Spalten ermöglicht, ohne die gesamte Zeile lesen zu müssen. Dies ist besonders vorteilhaft für analytische Abfragen, die nur eine Teilmenge der Daten benötigen. Das Format unterstützt zudem verschiedene Komprimierungstechniken (z. B. Zlib, Snappy, LZO), um den Speicherplatzbedarf und den I/O-Overhead zu reduzieren. Darüber hinaus enthalten ORC-Dateien Metadaten, wie etwa Statistiken zu den Daten innerhalb jeder Spalte, wodurch Abfrageoptimierer irrelevante Datenblöcke überspringen und die Abfrageleistung weiter steigern können. ORC ist in Big-Data-Ökosystemen wie Apache Hive, Apache Spark und Presto weit verbreitet, um große Datensätze effizient zu speichern und zu verarbeiten.