189 8069 5689

对pandas写入读取h5文件的方法详解-创新互联

1、引言

创新互联公司是一家专业提供宝清企业网站建设,专注与网站设计、成都做网站、H5开发、小程序制作等业务。10年已为宝清众多企业、政府机构等服务。创新互联专业的建站公司优惠进行中。

通过参考相关博客对hdf5格式简要介绍。

hdf5在存储的是支持压缩,使用的方式是blosc,这个是速度最快的也是pandas默认支持的。 使用压缩可以提磁盘利用率,节省空间。 开启压缩也没有什么劣势,只会慢一点点。 压缩在小数据量的时候优势不明显,数据量大了才有优势。 同时发现hdf读取文件的时候只能是一次写,写的时候可以append,可以put,但是写完成了之后关闭文件,就不能再写了, 会覆盖。

另外,为什么单独说pandas,主要因为本人目前对于h6py这个包的理解不是很深入,不知道如果使用该包存pd.DataFrame格式的文件,不像numpy格式文件可以直接存储,因此本人只能依赖pandas自带一些函数进行处理。

2、写入文件

使用函数:pd.HDFStore

import numpy as np
import pandas as pd
####生成9000,0000条数据,9千万条
a = np.random.standard_normal((90000000,4))
b = pd.DataFrame(a)
####普通格式存储:
h6 = pd.HDFStore('/data/stock/test_s.h6','w')
h6['data'] = b
h6.close()

####压缩格式存储
h6 = pd.HDFStore('/data/stock/test_c4.h6','w', complevel=4, complib='blosc')
h6['data'] = b
h6.close()

另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。


新闻名称:对pandas写入读取h5文件的方法详解-创新互联
文章分享:http://jkwzsj.com/article/dogcpo.html

其他资讯