前言 为什么要写这篇文章呢...主要还是业务中有个需求,遍历一个将近200w数据的文件夹,大部分还都是视频文件那种,但是这玩意用的次数还不多,做文件夹index也不是很ok,所以写了一个脚本来处理这个问题,从而发现了自己的一些薄弱点,将其记录下来,方便自己,也方便未来其他的兄弟使用 基本需求 把文件夹中的重复文件找出来 找出来之后用csv输出,左边是源文件,右边是重复文件 效率不能差,不能直接撑爆内存,不能占用过多资源 检测的文件夹和存放csv的地方可以自己定义,加上终端交互 重复文件筛选支持m