工作中,总是要使用各种中文数据集,每次使用数据集都要花费不少的时间进行寻找,写预处理代码,结合不同的模型和框架做出相应的处理.有的时候好不容易找到合适的数据集,但是却因为网络问题,无法下载,下载了很长一段时间,突然弹出 timeout. 既浪费时间,也浪费精力. 所以,就决定自己造个轮子,搞定这个问题. 考虑到这个包要能有很好的多框架兼容性,并且还要有很好的性能和源码的架构.找来找去,最终找到了 Huggingface 的 Datasets 库,这个包有着非常好的框架兼容性,性能和源码架构,是一…