R读写parquet文件
什么是parquet文件
Apache Parquet是一个开源的,列存储的数据文件格式。
https://parquet.apache.org/
在R里面,我们可以通过arrow包来读写它。
我们先安装一下arrow包,并加载它。
install.packages("arrow")
library(arrow)
读写parquet文件
我们目前没有parquet的文件在本地,先用arrow包里面的write_parquet写一个。
write_parquet(x,sink,chunk_size = NULL,version = "2.4",compression = default_parquet_compression(),compression_level = NULL,use_dictionary = NULL,write_statistics = NULL,data_page_size = NULL,use_deprecated_int96_timestamps = FALSE,coerce_timestamps = NULL,allow_truncated_timestamps = FALSE
)
我们写一下cars,然后读取它。
write_parquet(cars, "cars.parquet")
df_from_parquet <- read_parquet("cars.parquet")