Le format de fichier Apache Arrow IPC Stream (.arrow) est un format de fichier binaire conçu pour un transfert et un stockage de données efficaces, particulièrement au sein de l'écosystème Apache Arrow. Il s'agit d'un format de mémoire colonnaire, ce qui signifie que les données sont organisées par colonnes plutôt que par lignes, ce qui est très bénéfique pour les charges de travail analytiques. Ce format facilite le partage de données sans copie (zero-copy data sharing) entre processus et systèmes, réduisant considérablement la surcharge et améliorant les performances. Les flux IPC Arrow sont généralement utilisés pour transférer de grands ensembles de données entre des applications qui prennent en charge le format Arrow, telles que les moteurs de traitement de données, les bases de données et les frameworks d'apprentissage automatique. Le format inclut des métadonnées décrivant le schéma des données, permettant un échange de données auto-descriptif. Il est optimisé pour une sérialisation et une désérialisation rapides, ce qui le rend idéal pour le traitement de données en temps réel et le calcul haute performance. Le format est indépendant du langage, avec des implémentations disponibles dans divers langages de programmation, notamment Python, Java, C++ et R. L'extension de fichier .arrow représente typiquement un flux de données Arrow, qui peut être un seul lot (batch) ou une séquence de lots représentant un ensemble de données plus vaste. Le format est conçu pour être extensible et prend en charge divers types de données et encodages.