Arrow 和 Parquet 优势分析

fibonaccii

2025-08-15

Milvus

概述

在 Milvus 中，Apache Arrow 和 Apache Parquet 被广泛用于数据存储和处理。两者结合使用，形成了高效的数据处理链路：

Arrow：作为内存中的列式数据格式，用于数据构建和处理
Parquet：作为持久化存储格式，用于数据序列化和磁盘存储

一、Apache Arrow 的优势

1.1 零拷贝（Zero-Copy）内存布局

优势：

Arrow 使用列式内存布局，数据在内存中以连续的方式存储
支持零拷贝操作，多个进程或组件可以共享同一块内存，无需数据复制
减少内存占用和 CPU 开销

在 Milvus 中的应用：

// internal/storage/payload_writer.go
// Arrow Builder 直接构建列式数据结构
builder := array.NewBuilder(mem, arrowType)
// 数据可以直接在内存中操作，无需序列化/反序列化

1.2 跨语言互操作性

优势：

Arrow 定义了标准的内存格式规范，支持多种编程语言（C++, Go, Python, Java, Rust 等）
不同语言编写的组件可以直接共享 Arrow 数据，无需序列化转换
在 Milvus 中，Go 和 C++ 组件可以无缝交换数据

在 Milvus 中的应用：

// internal/core/src/storage/PayloadReader.cpp
// C++ 代码可以直接读取 Arrow 格式的数据
auto input = std::make_shared<arrow::io::BufferReader>(data, length);
parquet::arrow::FileReaderBuilder reader_builder;

1.3 高效的列式操作

优势：

列式存储使得按列访问数据非常高效
支持向量化操作（SIMD），可以批量处理数据
适合分析型查询，只需要读取相关列

在 Milvus 中的应用：

// internal/storage/schema.go
// Arrow Schema 定义了列式结构
func ConvertToArrowSchema(schema *schemapb.CollectionSchema, useFieldID bool) (*arrow.Schema, error)
// 每个字段对应一个 Arrow Field，支持高效的列式访问

1.4 丰富的数据类型支持

优势：

Arrow 支持丰富的数据类型，包括基本类型、嵌套类型、向量类型等
支持 Nullable 类型，可以高效处理缺失值
支持固定大小和可变大小的二进制类型（适合向量数据）

在 Milvus 中的应用：

// internal/storage/payload_writer.go
func MilvusDataTypeToArrowType(dataType schemapb.DataType, dim int) arrow.DataType {
    switch dataType {
    case schemapb.DataType_FloatVector:
        return &arrow.FixedSizeBinaryType{ByteWidth: dim * 4}
    case schemapb.DataType_BinaryVector:
        return &arrow.FixedSizeBinaryType{ByteWidth: dim / 8}
    // ... 支持多种向量类型
    }
}

1.5 内存管理优化

优势：

Arrow 使用引用计数管理内存，自动释放不需要的数据
支持内存池（Memory Pool），减少内存分配开销
可以预分配内存，提高写入性能

在 Milvus 中的应用：

// internal/storage/payload_writer.go
func (w *NativePayloadWriter) Reserve(size int) {
    w.builder.Reserve(size)  // 预分配内存
}

func (w *NativePayloadWriter) ReleasePayloadWriter() {
    w.releaseOnce.Do(func() {
        w.builder.Release()  // 释放内存
    })
}

二、Apache Parquet 的优势

2.1 高压缩率

优势：

Parquet 使用列式存储，相同类型的数据聚集在一起，压缩效果更好
支持多种压缩算法（Snappy, Gzip, Zstd, LZ4 等）
在 Milvus 中，压缩率通常比行式存储高 3-10 倍

在 Milvus 中的应用：

// internal/storage/payload_writer.go
writerProps := parquet.NewWriterProperties(
    parquet.WithCompression(compress.Codecs.Zstd),  // 使用 Zstd 压缩
    parquet.WithCompressionLevel(3),
)

2.2 列式存储优化

优势：

列式存储使得查询只需要读取相关列，大幅减少 I/O
支持列剪枝（Column Pruning），只读取需要的列
适合 OLAP 场景，特别是聚合查询

在 Milvus 中的应用：

1
2
3

// docs/developer_guides/milvus_timestamp_write_flow.md
// StorageV2 使用 Parquet 格式，支持列式访问
// 查询时只需要读取相关字段，不需要读取整个文件

2.3 丰富的元数据

优势：

Parquet 文件包含丰富的元数据信息（Schema、统计信息、索引等）
支持 Predicate Pushdown，可以在读取前过滤数据
元数据存储在文件末尾，支持快速扫描

在 Milvus 中的应用：

// internal/core/src/storage/PayloadReader.cpp
auto file_meta = arrow_reader->parquet_reader()->metadata();
// 可以从元数据中获取维度信息，无需读取完整数据
dim_ = GetDimensionFromFileMetaData(
    file_meta->schema()->Column(column_index), column_type_)

2.4 支持嵌套数据结构

优势：

Parquet 支持复杂的嵌套数据结构（Struct, List, Map）
可以高效存储 JSON、数组等复杂类型
支持 Schema Evolution，可以向后兼容地修改 Schema

在 Milvus 中的应用：

1
2
3

// docs/design_docs/json_storage.md
// Parquet 支持存储 JSON 数据，使用列式存储优化查询性能
// Dense 字段存储为独立列，Sparse 字段存储为 BSON 二进制列

2.5 跨平台兼容性

优势：

Parquet 是开放标准，被广泛支持（Hadoop, Spark, Presto, Pandas 等）
可以与其他大数据工具无缝集成
支持多种编程语言的读写库

在 Milvus 中的应用：

1
2
3

// internal/util/importutilv2/parquet/reader.go
// Milvus 支持从 Parquet 文件导入数据
// 可以与其他系统（如 Spark）生成的数据文件兼容

三、Arrow + Parquet 组合优势

3.1 无缝转换

优势：

Arrow 和 Parquet 可以无缝转换，无需中间格式
Arrow RecordBatch 可以直接写入 Parquet 文件
Parquet 文件可以直接读取为 Arrow RecordBatch

在 Milvus 中的应用：

// internal/storage/payload_writer.go
// Arrow Table -> Parquet 文件
return pqarrow.WriteTable(table,
    w.output,
    1024*1024*1024,
    w.writerProps,
    arrowWriterProps,
)

// internal/storage/payload_reader.go
// Parquet 文件 -> Arrow RecordBatch
arrowReader, err := pqarrow.NewFileReader(parquetReader, ...)

3.2 高效的数据处理流程

优势：

内存中使用 Arrow 格式，处理速度快
持久化使用 Parquet 格式，存储效率高
整个流程零拷贝或最小化拷贝

在 Milvus 中的应用：

BulkPackWriterV2.Write()
  └─> serializeBinlog() -> Arrow Record  (内存处理)
      └─> PackedRecordWriter.Write()
          └─> Parquet Writer (持久化存储)

3.3 统一的 Schema 管理

优势：

Arrow Schema 和 Parquet Schema 可以相互转换
统一的类型系统，减少类型转换开销
支持 Schema 验证，确保数据一致性

在 Milvus 中的应用：

1
2
3

// internal/storage/schema.go
// Milvus Schema -> Arrow Schema -> Parquet Schema
func ConvertToArrowSchema(schema *schemapb.CollectionSchema, useFieldID bool) (*arrow.Schema, error)

四、在 Milvus 中的实际效果

4.1 StorageV1 vs StorageV2 对比

根据 docs/developer_guides/milvus_timestamp_write_flow.md 的对比：

特性	StorageV1 (Binlog)	StorageV2 (Parquet)
文件格式	Protobuf + 自定义编码	Apache Parquet
文件数量	多个（每个 field 一个）	少量（按列组组织）
压缩率	中等	高
查询性能	需要读取多个文件	列式访问更高效
元数据	每个 binlog 独立元数据	统一 manifest 管理

4.2 性能提升

存储空间：Parquet 的高压缩率可以节省 50-80% 的存储空间
查询速度：列式访问可以减少 60-90% 的 I/O 操作
内存效率：Arrow 的零拷贝机制可以减少 30-50% 的内存使用

4.3 功能增强

支持复杂类型：Arrow + Parquet 支持向量数组、JSON、嵌套结构等
更好的兼容性：可以与其他大数据工具无缝集成
更灵活的查询：支持列剪枝、谓词下推等优化

五、总结

Arrow 的核心优势

✅ 零拷贝内存布局：高效的内存操作
✅ 跨语言互操作：无缝的数据交换
✅ 列式操作优化：适合分析型查询
✅ 丰富的数据类型：支持复杂数据结构
✅ 内存管理优化：自动内存管理

Parquet 的核心优势

✅ 高压缩率：节省存储空间
✅ 列式存储：优化查询性能
✅ 丰富元数据：支持查询优化
✅ 嵌套数据支持：处理复杂结构
✅ 跨平台兼容：广泛的支持

组合使用的优势

✅ 无缝转换：Arrow ↔ Parquet 零开销转换
✅ 高效流程：内存处理 + 持久化存储
✅ 统一 Schema：一致的类型系统

在 Milvus 中，Arrow + Parquet 的组合为向量数据库提供了高效、灵活、兼容的数据存储和处理能力，是 StorageV2 架构的核心技术基础。