Apache Parquet 是一种列式存储格式,专为与大数据处理框架配合使用而优化。与行式存储格式不同,Parquet 按列存储数据,这使得数据压缩和编码效率更高。这种列式存储方式使查询引擎能够仅检索给定查询所需的列,从而显著减少 I/O 操作并提高查询性能。Parquet 被设计为自描述的,这意味着其数据模式(schema)嵌入在数据文件本身中。这消除了对外部元数据存储的需求,并简化了数据管理。它支持广泛的数据类型和复杂的嵌套结构。Parquet 广泛应用于数据仓库、数据湖以及其他对数据存储和检索效率要求很高的大数据应用中。它与 Apache Spark、Hadoop 和 Presto 等流行框架的集成,使其成为数据处理管道的多功能选择。该格式设计用于读写操作,尽管它通常用于数据一次写入、多次读取(write-once, read-many)的场景。