Apache Arrow IPC 流格式(.arrow)是一种专为高效数据传输和存储而设计的二进制文件格式,特别是在 Apache Arrow 生态系统中应用广泛。它采用列式内存格式(Columnar memory format),这意味着数据是按列而非按行组织的,这种结构对于现代分析型工作负载和大规模数据查询极其有利。该格式的核心优势在于它支持进程和系统之间的零拷贝(Zero-copy)数据共享,通过消除内存复制的开销,显著提升了数据交换的性能。Arrow IPC 流通常用于在支持 Arrow 协议的应用程序之间传输大型数据集,例如高性能数据处理引擎、分布式数据库和机器学习框架。该格式内置了描述数据模式(Schema)的元数据,实现了自描述的数据交换特性。它针对极速的序列化和反序列化进行了深度优化,使其成为实时数据处理和高性能计算(HPC)场景的理想选择。此外,该格式具有语言无关性,在 Python、Java、C++ 和 R 等主流编程语言中均有成熟的库实现。.arrow 扩展名通常代表一个 Arrow 数据流,它可以包含单个记录批次或一系列代表完整数据集的连续批次。该格式设计灵活且具有高度可扩展性,能够支持多种复杂的数据类型和高效的压缩编码方案。