对于我这个经常用python倒腾数据的人来说,下面这个库是真·相见恨晚 记得有一次我在服务器上处理数据时,为了解决Pandas读取超过2000W条数据就内存爆炸的问题,整整用了两天时间来优化.最后通过数据转换,数据类型,迭代读取和GC机制解决了(具体方法在我的博客:Python优化之使用pandas读取和训练千万级数据) 我一直觉得python处理大规模数据是真的不行,除非上Hadoop.直到我看到了一个叫Modin的库,才知道什么叫一行代码,解决所有问题. 先说说为啥pandas这么不好用 P