1 常见存储格式说明
1.1 表格形式
得益于强大的pandas模块,与数据框的结构更贴近的表格文件是Python中最流行的数据文件存储格式之一。对应的存储文件一般后缀为.CSV或.XLSX
- CSV(Comma Separated Values)是一种以逗号作为分隔的纯文本格式文件
- CSV格式的好处在于易读性,但在处理大规模数据时会比较慢,压缩效率也会差一些
- XLSX或XLS的文件相比于CSV格式更
分类目录归档:Python 性能优化
得益于强大的pandas模块,与数据框的结构更贴近的表格文件是Python中最流行的数据文件存储格式之一。对应的存储文件一般后缀为.CSV或.XLSX
本文内容主要摘自:
《Is something better than pandas when the dataset fits the memory?》
代码地址
性能对比主要围绕5个操作展开: