基于语音识别、音文同步、图像OCR的字幕解决方案HtwMedia介绍
背景介绍
俗话说,“好记性不如乱笔头”,这充分说明了文字归档的重要性。如今随着微信、抖音等移动端app的使用越来越广,人们生产音、视频内容也越来越便捷。而相比语音和视频而言,文字具有易存档、易检索、易传播等优点。提取音、视频中的有效信息形成文字并持久化对很多行业都有很现实的意义。
设想一下,一部有知识含量的课件或科普视频往往需要播放多遍才能吃透,如果把它其中的知识提取出来是不是容易检索、理解方便的多?参加讲座或访谈等用录音笔或者手机就可以录下来,而把它整理出来是不是更容易形成知识?影视剧的生产者按照行业规定通常需要加字幕,而一部优秀的国外影视剧如果把它本地化形成双语字幕对于不掌握国外语言的观众会更有用,等等。这些都是HtwMedia的使用场景。
HtwMedia是一款windows系统下的专业字幕及音视频应用解决方案。运用最新的自动语音识别、语音合成及机器翻译、图像OCR等技术可实现视频字幕的提取,时间轴的自动生成,字幕文本的自动生成以及字幕文本和语音的自动对齐等功能。另外软件还实现了基于精准音频波形图的时间码及文本的生成及编辑校对功能,提供视频字幕压制、导出到Premiere、Edius、Final cut pro等非编软件等实用功能。
为什么说HtwMedia是一套解决方案而不仅仅是处理字幕的软件产品呢?因为我们所有的功能都是建立在长时间积累用户需求及使用习惯的基础上,涵盖了在字幕及音视频处理的方方面面。
比如:
- 在用户导入媒体文件时,我们会对媒体做音量调整及降噪处理,对时间过长的媒体文件做切割分段。这些预处理会很大程度上提高自动识别及音文同步的性能。让识别及同步准确率提高哪怕一个百分点,让用户节省每一分钟都是我们的追求。
- 我们会对用户的操作自动保存成工程文件,防止因为操作中断而导致之前的处理结果丢掉。用户再次打开工程的时候可以继续处理。
- 我们不仅提供基于语言识别的字幕生成,而且提供视频中的字幕提取。经常有用户提到:“如何把DVD的vob和sub文件转成srt压制到视频里?如何把蓝光sup文件转成srt文件?如何提取avi/divx文件中的字幕?如何提取硬压制的视频文件中的字幕”等。我们对此运用了最新的图像OCR技术,对视频做解析后,生成关键帧的图像,从图像中提取特定位置的字幕。在提取过程中可以全自动,当自动识别的文本有稍许错误用户可以随时停止修正。提取视频中的文本后可以继续用我们的音文同步技术生成时间码,可以导入Premire、Edius等非编软件的样式、颜色等模板。最后把生成的ass、srt等文件压制到视频里。
- 我们提供批量识别媒体、批量音文同步、批量压制字幕等功能,减少用户多次操作,节省用户时间。
- 我们提供方便的字幕编辑功能。自动语音识别及音文同步目前不可能做到100%准确,尤其是语音环境不好的情况下,所以人工校对不可避免。我们提供了准确的基于音频波形的时间码调整及拍打时间轴功能。另外还有方便的文本编辑器,可以断句,检查字数、分句、合并等。并且播放器、时间轴及文本区互相同步定位。
- 我们提供基于文本的配音功能。用户只需导入要配音的文本,选择喜欢的人声,软件就可以生成断句好的mp3声音文件。
- 我们提供自动翻译功能,可以有效的制作双语字幕。
- 我们提供字幕压制及添加水印功能,可以保护用户的视频不被轻易盗用。
- 提供视频分离音频功能,这样可以有效的减少媒体文件体积,方便利用语言分析。
主要技术参数:
支持的视频格式:
.avi;.mkv;.wmv;.mpg;.mpeg;.divx;.mp4;.asf;.flv;.mov;.m4v;.vob;.ogv;.webm;.ts;.m2ts;.avs;.mxf
支持的音频格式:
*.mp3;*.wav;*.wma;*.ogg;*.mpa;*.m4a;*.ape;*.aiff;*.flac;*.aac;*.ac3;*.mka
媒体播放器:
VLC播放器,可叠加字幕文本
时间轴:
基于ffmpeg解码的音频pcm数据,采样率为16000,单声道;时间上大格间隔1秒,小格0.1秒。纵向缩放每次调整单位为0.1 scale.
自动切轴:
基于webrtc技术的vad模块。除了依据能量阈值还加入了降噪、声音特征分析模块。
自动语音识别:
可识别中、英文及四川、粤语等方言。配合自动切轴、声音预处理后准确率很高。
音文同步:
用户导入音视频文件及文本文件后可在客户端离线同步。同步的原理是把文本合成语音后提取声音特征,然后与原音频匹配以确定文本在媒体中的位置。支持的语言有中、英文等20多种。
文本翻译:
支持的语言有中、英文等20多种语言。
导入文本文件:
支持TXT,Word,SRT,Ass等文件的导入,编码格式为UTF-8.
导出文件:
可以导出TXT,Word,SRT,Ass等文件格式,另外支持导出Premiere的.prtl字幕模板工程、Eduis的.etl模板工程、Avid的STL格式字幕文件、傻丫头字幕模板、Final cut pro的fcpxml格式及fcpxml+image格式的工程。
配音:
目前支持中英混合的字幕文本,以中文为主。声音类型支持自然男声、自然女声、情感男声、情感女声。
使用流程
视频字幕提取:
新建工程或打开自动保存的工程根据文件格式在“字幕提取”子菜单下选择导入相应格式的视频文件选择文本语言及识别方法开始识别校正识别结果。
语音识别生成字幕:
新建工程或打开自动保存的工程导入媒体文件 选择文本语言及识别引擎切轴、调整时间轴语音自动识别人工调整时间码及文本导出。
人工拍时间轴:
新建工程或打开自动保存的工程导入媒体文件 播放媒体文件并以Enter或空格键作为时间码的结束时间 调整时间码。
音文同步:
新建工程或打开自动保存的工程导入媒体文件、导入文本文件 点击音文同步开始自动生成时间码 在“音文同步”菜单下选择推前\退后同步或取点同步人工细调时间码。
使用方式及费用
用户下载软件后有一天的试用期,试用结束后可选择付费注册使用。注册的方法是在“设置”菜单下验证序列号。序列号的获取方式为加入官方QQ群:
414750884,并将机器码及使用时期告知管理员,付费后获得序列号。拿管理员给的序列号在“设置”下注册。
软件的计费以使用期限衡量,包括软件的所有功能,具体请联系官方群管理员。客户一旦购买,我们提供持续的售后支持服务。
另外接受客户的定制开发,具体费用商议后确定。
联系方式
下载地址
加官方群提供下载。
基于语音识别、音文同步、图像OCR的字幕解决方案HtwMedia介绍的更多相关文章
- 在FPS游戏中,玩家对音画同步感知的量化与评估
前言 在游戏测试中,音画同步测试是个难点(所谓游戏音画同步:游戏中,音效与画面的同步程度),现在一般采用人工主观判断的方式测试,但这会带来2个问题: 无法准确量化,针对同一场景的多次测试结果可能会相反 ...
- FFmpeg简易播放器的实现-音视频同步
本文为作者原创,转载请注明出处:https://www.cnblogs.com/leisure_chn/p/10284653.html 基于FFmpeg和SDL实现的简易视频播放器,主要分为读取视频文 ...
- Android 音视频同步(A/V Sync)
1. 音视频同步原理 1)时间戳 音视频同步主要用于在音视频流的播放过程中,让同一时刻录制的声音和图像在播放的时候尽可能的在同一个时间输出. 解决音视频同步问题的最佳方案就是时间戳:首先选择一个参考 ...
- vlc源码分析(五) 流媒体的音视频同步
vlc播放流媒体时实现音视频同步,简单来说就是发送方发送的RTP包带有时间戳,接收方根据此时间戳不断校正本地时钟,播放音视频时根据本地时钟进行同步播放.首先了解两个概念:stream clock和sy ...
- 个人永久性免费-Excel催化剂功能第86波-人工智能之图像OCR文本识别全覆盖
在上一年中,Excel催化剂已经送上一波人工智能系列功能,鉴于部分高端用户的需求,再次给予实现了复杂的图像OCR识别,包含几乎所有日常场景,让公司个人手头的图像非结构化数据瞬间变为可进行结构化处理分析 ...
- 直播APP源码是如何实现音视频同步的
1. 音视频同步原理 1)时间戳 直播APP源码音视频同步主要用于在音视频流的播放过程中,让同一时刻录制的声音和图像在播放的时候尽可能的在同一个时间输出. 解决直播APP源码音视频同步问题的最佳方案 ...
- 从单一图像中提取文档图像:ICCV2019论文解读
从单一图像中提取文档图像:ICCV2019论文解读 DewarpNet: Single-Image Document Unwarping With Stacked 3D and 2D Regressi ...
- ffmpeg 2.3版本号, 关于ffplay音视频同步的分析
近期学习播放器的一些东西.所以接触了ffmpeg,看源代码的过程中.就想了解一下ffplay是怎么处理音视频同步的,之前仅仅大概知道通过pts来进行同步,但对于怎样实现却不甚了解,所以想借助这个机会, ...
- ffplay的音视频同步分析
以前工作中参与了一些音视频程序的开发,不过使用的都是芯片公司的SDK,没有研究到更深入一层,比如说音视频同步是怎么回事.只好自己抽点时间出来分析开源代码了,做音视频编解码的人都知道ffmpeg,他在各 ...
随机推荐
- Django内置的中间件
内置中间件 1. django.middleware.gzip.GZipMiddleware:相应数据进行压缩.如果内容长度少于200个长度,那么就不会压缩. 在settings.py文件中配置MID ...
- Python入门11 —— 基本数据类型的操作
一:数字类型:int.float字类型 1.操作: 比较运算:int与float之间是可以比较大小 数学运算:+-*/,int与float之间也可以进行数学运算 print(10 > 3.1) ...
- Windows中配置MySQL环境变量
安装好MySQL后,在Windows环境下配置环境变量 1)新建MYSQL_HOME系统变量 配置MySQL的安装路径:C:\Program Files\MySQL\MySQL Server 5.7 ...
- 5G将至,4G降速:是谣言还是真相?
畅用移动智能终端设备,早已成为大众日常生活中的一部分.卫报专栏作家伯克曼提到,"据估计,70%的人会抱着手机或iPad刷资讯入睡."当移动智能终端变得如此重要时,与之息息相关的网络 ...
- [转]memory analyzer 使用方法
[转]http://wensong.iteye.com/blog/1986449 最近一段时间一直在研究热部署,热部署中涉及到一个比较头痛的问题就是查内存泄露(Memory Leak),于是乎在研究热 ...
- (转) maven snapshot和release版本的区别
在使用maven过程中,我们在开发阶段经常性的会有很多公共库处于不稳定状态,随时需要修改并发布,可能一天就要发布一次,遇到bug时,甚至一 天要发布N次.我们知道,maven的依赖管理是基于版本管理的 ...
- EF模型+MySql问题
1.添加ADO.NET模型不出现MYSQL连接时: a.确认mysql-for-visualstudio-1.2.7.msi是否安装 b.确认.net版本是否为4.6 2.已经选定了连接,但是在下一步 ...
- tensorflow——乘法
线性代数中,乘法是很重要的运算,具体的矩阵乘法原理可以翻教材,或看一下阮大神的这篇文章:http://www.ruanyifeng.com/blog/2015/09/matrix-multiplica ...
- AcWing 12. 背包问题求具体方案
//f[i][j]=max(f[i-1][j],f[i-1][j-v[i]]+w[i]) #include <iostream> using namespace std; ; int n, ...
- Shashlik Cooking
Long story short, shashlik is Miroslav's favorite food. Shashlik is prepared on several skewers simu ...