什么是parquet文件
Apache Parquet是一个开源的,列存储的数据文件格式。
https://parquet.apache.org/
在R里面,我们可以通过arrow包来读写它。
我们先安装一下arrow包,并加载它。
install.packages("arrow")
library(arrow)
读写parquet文件
我们目前没有parquet的文件在本地,先用arrow包里面的write_parquet写一个。
write_parquet(
x,
sink,
chunk_size = NULL,
version = "2.4",
compression = default_parquet_compression(),
compression_level = NULL,
use_dictionary = NULL,
write_statistics = NULL,
data_page_size = NULL,
use_deprecated_int96_timestamps = FALSE,
coerce_timestamps = NULL,
allow_truncated_timestamps = FALSE
)
我们写一下cars,然后读取它。
write_parquet(cars, "cars.parquet")
df_from_parquet <- read_parquet("cars.parquet")