ORC (Optimized Row Columnar) — это самоописываемый, типизированный колоночный формат файлов, разработанный специально для рабочих нагрузок Hadoop. Он оптимизирован для крупномасштабной обработки и хранения данных, обеспечивая значительные улучшения производительности и эффективности хранения по сравнению с традиционными построчными форматами, такими как CSV или текстовые файлы. Файлы ORC хранят данные в колоночном формате, что позволяет эффективно извлекать конкретные столбцы без необходимости считывания всей строки целиком. Это особенно полезно для аналитических запросов, требующих лишь подмножества данных. Формат также поддерживает различные методы сжатия (например, Zlib, Snappy, LZO) для уменьшения занимаемого места и снижения нагрузки на операции ввода-вывода (I/O). Кроме того, файлы ORC включают метаданные, такие как статистические показатели по каждому столбцу, что позволяет оптимизаторам запросов пропускать нерелевантные блоки данных и дополнительно повышать скорость выполнения запросов. ORC широко используется в экосистемах больших данных, таких как Apache Hive, Apache Spark и Presto, для хранения и обработки огромных массивов информации.