[原创]使用python对视频/音频文件进行详细信息采集,并进行去重操作

转载请注明出处

一.关于为什么用pymediainfo以及pymediainfo的安装

　　使用python对视频/音频文件进行详细信息采集,并进行去重操作的核心是使用pymediainfo这个库

　　之前本人一直在试着用moviepy库中的VideoFileClip来获取视频/音频文件的详细信息,但效果不理想,一直报错根本无法解决.

　　直到本人发现了pymediainfo这个库,问题才得到解决(pymediainfo可以获取极其详细的音频/视频文件的具体信息).

　　pymediainfo的安装:(参考https://www.jianshu.com/p/4c115bd82774)

　　　　1.pip install pymediainfo 或者 python -m pip install pymediainfo

　　　　2.然后到官网下载该程序,(官网地址: https://pypi.org/project/pymediainfo/),安装到指定文件夹

　　　　3.特别重要的一步:到你安装pymediainfo的文件夹中找到MediaInfo.dll这个文件,把它复制到你Python的根目录下(不复制程序会报无法打开xx程序的错!)

二.视频/音频去重的简单逻辑:

　　如果两个视频/音频文件的大小完全一致,而且时长也完全一致,则该两个文件极有可能是重复的.

三.代码实现:

　　下面代码你只需要把

　　　　file_dir = r"D:\Movie\180919"  
　　　　dire_dir = r'D:\Movie\BBB'

　　更改成你自己的绝对路径就可以了(file_dir是你视频/音频文件的目录, dire_dir是将重复视频文件移动至的目录,程序结束后file_dir目录中的重复文件会被移动到dire_dir)

　　注意:file_dir路径里只能放音频,视频文件,放入其他文件可能会报错(本人只考虑了file_dir中只有视频/音频文件的情况)

　　程序功能:8G内存IE7处理器能处理11000个,大约2000G的视频/音频文件去重工作,花费时间30~40分钟(程序执行with open操作后会巨卡5-10分钟)

 import os

 import shutil

 from pymediainfo import MediaInfo

 file_dir = r"D:\Movie\180919"               　# 定义文件目录(需要自己添加文件的绝对路径)

 dire_dir = r'D:\Movie\BBB'                    # 目标路径,将可能重复的文件移动至此(需要自己添加文件的绝对路径)

 video_sumlist = []                            # 全音/视频文件列表(绝对路径)

 video_detail_list = []                        # 全音/视频文件详细信息列表

 video_info_list = []                          # 只记录需要的关键信息

 count = 0                                     # 用于记录已处理的文件数量

 def get_all_file(f_dir): # 获取文件名称与文件大小,以方便使用MediaInfo库遍历获取视频/音频文件的超详细信息

     for root, dirs, files in os.walk(f_dir, topdown=True): # root就是"D:\Movie\180919", dirs 为[], files为全部文件列表

         for name in files:

             video_sumlist.append(os.path.join(root, name))

 get_all_file(file_dir)

 # print(video_sumlist)

 for i in video_sumlist: # 获取视频/音频文件的详细信息并存储到video_detail_list中

     media_info = MediaInfo.parse(i)

     data = media_info.to_data()

     video_detail_list.append(data)

     count+=1

     print("执行完第%d条数据...,视频名称为:%s"%(count, data["tracks"][0]["other_file_name"]))

 with open(r"./video_detail.py", "w", encoding='utf-8') as f: # 因为遍历上万文件太费时,需要将视频/音频信息存储在文件中,以减少程序执行时间

     print("开始执行写入操作...")

     f.write(str(video_detail_list))

 with open(r"./video_detail.py", "r", encoding='utf-8') as f: # 将存储在file文件中的信息读取到vfile中

     print("开始执行读取操作...")

     vfile = eval(f.read())

 print(type(vfile))

 for elem in vfile: # 简化文件信息的列表格式: [{文件名: {"t_size": t_size, "v_duration": v_duration}}, {{文件名: {"t_size": t_size, "v_duration": v_duration}}]

     # print('v_size: ', elem["tracks"][0]["file_size"])

     # print('v_duration: ', elem["tracks"][0]["duration"])

     try:

         if elem["tracks"][0]["file_name"] != 'desktop.ini':

             video_info_list.append({(elem["tracks"][0]["other_file_name"][0]+"."+elem["tracks"][0]["file_extension"]):\

              {"v_size": elem["tracks"][0]["file_size"], "v_duration": elem["tracks"][0]["duration"]}})

         else:

             print("找到了隐藏文件desktop.ini, 它没有'duration'这个键值对,需要跳过...")

     except KeyError:

         print("找到一个隐藏文件,该文件名为: ", elem["tracks"][0]["file_name"])

 print(video_info_list)

 print(video_info_list[0].keys())       # dict_keys(['海阔天空.mp4'])

 print(type(video_info_list[0].keys())) # <class 'dict_keys'>

 start_index = 0

 tomove_list = []

 while start_index < (len(video_info_list)-1):

     find_index = start_index + 1

     # print("start_index = ", start_index, "find_index = ", find_index)

     # print(list(video_info_list[start_index].values()))

     # print(list(video_info_list[start_index].values())[0]["v_size"])

     # print(list(video_info_list[start_index].values())[0]["v_duration"])

     sample0 = [list(video_info_list[start_index].values())[0]["v_size"], list(video_info_list[start_index].values())[0]["v_duration"]]

     while find_index < len(video_info_list):

         if sample0[0] == list(video_info_list[find_index].values())[0]["v_size"] and \

         sample0[1] == list(video_info_list[find_index].values())[0]["v_duration"]:

             tomove_list.append(find_index)

             find_index += 1

         else:

             find_index += 1

     # 外层循环开始:

     if tomove_list != []:

         tomove_list.reverse()

         print("to move list after reverse: ", tomove_list)

         for tomove_item in tomove_list:

             shutil.move(os.path.join(file_dir ,list(video_info_list[tomove_item].keys())[0]), dire_dir)

             video_info_list.pop(tomove_item) # 非常重要,保证video_info_list与实际音频/视频数据一致

             print("已经移除文件的编号为: ", tomove_item)

     start_index += 1

     tomove_list = []

完~

[原创]使用python对视频/音频文件进行详细信息采集,并进行去重操作的更多相关文章

php-ffmpeg 操作视频/音频文件
php-ffmpeg 是一个php操作视频/音频文件的类库. GitHub地址:https://github.com/PHP-FFMpeg/PHP-FFMpeg/ 使用composer快速安装:com ...
(原创)speex与wav格式音频文件的互相转换
我们的司信项目又有了新的需求,就是要做会议室.然而需求却很纠结,要继续按照原来发语音消息那样的形式来实现这个会议的功能,还要实现语音播放的计时,暂停,语音的拼接,还要绘制频谱图等等. 如果是wav,m ...
(原创)speex与wav格式音频文件的互相转换(二)
之前写过了如何将speex与wav格式的音频互相转换,如果没有看过的请看一下连接 http://www.cnblogs.com/dongweiq/p/4515186.html 虽然自己实现了相关的压缩 ...
【原创】python实现视频内的face swap(换脸)
1.准备工作,按博主的环境为准 Python 3.5 Opencv 3 Tensorflow 1.3.1 Keras 2 cudnn和CUDA,如果你的GPU足够厉害并且支持的话,可以选择安装那就先 ...
python 读取wav 音频文件的两种方式
python 中,常用的有两种可以读取wav音频格式的方法,如下所示: import scipy from scipy.io import wavfile import soundfile as sf ...
【部分原创】python实现视频内的face swap(换脸)
1.准备工作,按博主的环境为准 Python 3.5 Opencv 3 Tensorflow 1.3.1 Keras 2 cudnn和CUDA,如果你的GPU足够厉害并且支持的话,可以选择安装那就先 ...
【Python】[IO编程]文件读写，StringIO和BytesIO，操作文件和目录，序列化
IO在计算机中指Input/Output,也就是输入和输出. 1.文件读写,1,读文件[使用Python内置函数,open,传入文件名标示符] >>> f = open('/User ...
[Python]获取win平台文件的详细信息
import win32api def getFileProperties(fname): """ 读取给定文件的所有属性, 返回一个字典. ""&q ...
python脚本实现音频m4a格式转成MP3格式
群里看到有人询问:谁会用python将微信音频文件后缀m4a格式转成mp3格式,毫不犹豫回了句:我会.然后就私下聊起来了解决方法介绍如下: 工具:windows系统,python2.7,转换库ffm ...

随机推荐

行高：line-height图文解析
行高——line-height 初入前端的时候觉得CSS知道display.position.float就可以在布局上游刃有余了,随着以后工作问题层出不穷,才逐渐了解到CSS并不是几个style属性那 ...
vim制表符占位个数修改
进入配置文件:$ sudo vi /etc/vim/vimrc 在文件末尾添加:set ts=4
SpringBoot | 第九章：Mybatis-plus的集成和使用
前言本章节开始介绍数据访问方面的相关知识点.对于后端开发者而言,和数据库打交道是每天都在进行的,所以一个好用的ORM框架是很有必要的.目前,绝大部分公司都选择MyBatis框架作为底层数据库持久化框 ...
P1736 创意吃鱼法80
题目描述回到家中的猫猫把三桶鱼全部转移到了她那长方形大池子中,然后开始思考:到底要以何种方法吃鱼呢(猫猫就是这么可爱,吃鱼也要想好吃法 ^_*).她发现,把大池子视为01矩阵(0表示对应位置无鱼,1 ...
Soft skill
不要害怕让别人看到自己的无知作为高级程序员的一个好处是,当别人问一些我不懂的问题时,我可以很淡然地告诉他们: 这个东西我也不懂,因为以前没有遇到过,不过我可以看一下,然后再告诉你. 当我还是一个初级 ...
在Ubuntu中安装MySQL
在Ubuntu中安装MySQL Ubuntu实用工具系列文章,将介绍基于Linux ubuntu的各种工具软件的配置和使用.有些工具大家早已耳熟能详,有些工具经常用到但确依然陌生.我将记录我在使用操作 ...
ngnix反向代理
https://blog.csdn.net/sherry_chan/article/details/79055211
Android 浮动按钮的伸缩效果
在做项目时想增加点动感,于是就有如下效果: 实现起来也很简单,通过属性动画和recyclerview 滑动结合就很好实现了. 通过给recycleview添加一个滑动监听:通过滚动的差值来处理动画 m ...
LeetCode Missing Number （简单题）
题意: 给一个含有n个整数的数组,数组中的元素应该是0-n.现在缺了其中某1个,找出缺少的那个整数? 思路: 0-n的总和是可以直接计算的,而缺少的那个就是sum减去数组的和. int missing ...
windows下php7.1.5、mysql环境搭建
php http://windows.php.net/download/ 如果是使用ISAPI的方式来运行PHP就必须用Thread Safe(线程安全)的版本:而用FastCGI模式运行PHP的话就 ...

[原创]使用python对视频/音频文件进行详细信息采集,并进行去重操作

[原创]使用python对视频/音频文件进行详细信息采集,并进行去重操作的更多相关文章

随机推荐

热门专题