基于语音识别、音文同步、图像OCR的字幕解决方案HtwMedia介绍
背景介绍
俗话说,“好记性不如乱笔头”,这充分说明了文字归档的重要性。如今随着微信、抖音等移动端app的使用越来越广,人们生产音、视频内容也越来越便捷。而相比语音和视频而言,文字具有易存档、易检索、易传播等优点。提取音、视频中的有效信息形成文字并持久化对很多行业都有很现实的意义。
设想一下,一部有知识含量的课件或科普视频往往需要播放多遍才能吃透,如果把它其中的知识提取出来是不是容易检索、理解方便的多?参加讲座或访谈等用录音笔或者手机就可以录下来,而把它整理出来是不是更容易形成知识?影视剧的生产者按照行业规定通常需要加字幕,而一部优秀的国外影视剧如果把它本地化形成双语字幕对于不掌握国外语言的观众会更有用,等等。这些都是HtwMedia的使用场景。
HtwMedia是一款windows系统下的专业字幕及音视频应用解决方案。运用最新的自动语音识别、语音合成及机器翻译、图像OCR等技术可实现视频字幕的提取,时间轴的自动生成,字幕文本的自动生成以及字幕文本和语音的自动对齐等功能。另外软件还实现了基于精准音频波形图的时间码及文本的生成及编辑校对功能,提供视频字幕压制、导出到Premiere、Edius、Final cut pro等非编软件等实用功能。
为什么说HtwMedia是一套解决方案而不仅仅是处理字幕的软件产品呢?因为我们所有的功能都是建立在长时间积累用户需求及使用习惯的基础上,涵盖了在字幕及音视频处理的方方面面。
比如:
- 在用户导入媒体文件时,我们会对媒体做音量调整及降噪处理,对时间过长的媒体文件做切割分段。这些预处理会很大程度上提高自动识别及音文同步的性能。让识别及同步准确率提高哪怕一个百分点,让用户节省每一分钟都是我们的追求。
- 我们会对用户的操作自动保存成工程文件,防止因为操作中断而导致之前的处理结果丢掉。用户再次打开工程的时候可以继续处理。
- 我们不仅提供基于语言识别的字幕生成,而且提供视频中的字幕提取。经常有用户提到:“如何把DVD的vob和sub文件转成srt压制到视频里?如何把蓝光sup文件转成srt文件?如何提取avi/divx文件中的字幕?如何提取硬压制的视频文件中的字幕”等。我们对此运用了最新的图像OCR技术,对视频做解析后,生成关键帧的图像,从图像中提取特定位置的字幕。在提取过程中可以全自动,当自动识别的文本有稍许错误用户可以随时停止修正。提取视频中的文本后可以继续用我们的音文同步技术生成时间码,可以导入Premire、Edius等非编软件的样式、颜色等模板。最后把生成的ass、srt等文件压制到视频里。
- 我们提供批量识别媒体、批量音文同步、批量压制字幕等功能,减少用户多次操作,节省用户时间。
- 我们提供方便的字幕编辑功能。自动语音识别及音文同步目前不可能做到100%准确,尤其是语音环境不好的情况下,所以人工校对不可避免。我们提供了准确的基于音频波形的时间码调整及拍打时间轴功能。另外还有方便的文本编辑器,可以断句,检查字数、分句、合并等。并且播放器、时间轴及文本区互相同步定位。
- 我们提供基于文本的配音功能。用户只需导入要配音的文本,选择喜欢的人声,软件就可以生成断句好的mp3声音文件。
- 我们提供自动翻译功能,可以有效的制作双语字幕。
- 我们提供字幕压制及添加水印功能,可以保护用户的视频不被轻易盗用。
- 提供视频分离音频功能,这样可以有效的减少媒体文件体积,方便利用语言分析。
主要技术参数:
支持的视频格式:
.avi;.mkv;.wmv;.mpg;.mpeg;.divx;.mp4;.asf;.flv;.mov;.m4v;.vob;.ogv;.webm;.ts;.m2ts;.avs;.mxf
支持的音频格式:
*.mp3;*.wav;*.wma;*.ogg;*.mpa;*.m4a;*.ape;*.aiff;*.flac;*.aac;*.ac3;*.mka
媒体播放器:
VLC播放器,可叠加字幕文本
时间轴:
基于ffmpeg解码的音频pcm数据,采样率为16000,单声道;时间上大格间隔1秒,小格0.1秒。纵向缩放每次调整单位为0.1 scale.
自动切轴:
基于webrtc技术的vad模块。除了依据能量阈值还加入了降噪、声音特征分析模块。
自动语音识别:
可识别中、英文及四川、粤语等方言。配合自动切轴、声音预处理后准确率很高。
音文同步:
用户导入音视频文件及文本文件后可在客户端离线同步。同步的原理是把文本合成语音后提取声音特征,然后与原音频匹配以确定文本在媒体中的位置。支持的语言有中、英文等20多种。
文本翻译:
支持的语言有中、英文等20多种语言。
导入文本文件:
支持TXT,Word,SRT,Ass等文件的导入,编码格式为UTF-8.
导出文件:
可以导出TXT,Word,SRT,Ass等文件格式,另外支持导出Premiere的.prtl字幕模板工程、Eduis的.etl模板工程、Avid的STL格式字幕文件、傻丫头字幕模板、Final cut pro的fcpxml格式及fcpxml+image格式的工程。
配音:
目前支持中英混合的字幕文本,以中文为主。声音类型支持自然男声、自然女声、情感男声、情感女声。
使用流程
视频字幕提取:
新建工程或打开自动保存的工程根据文件格式在“字幕提取”子菜单下选择导入相应格式的视频文件选择文本语言及识别方法开始识别校正识别结果。
语音识别生成字幕:
新建工程或打开自动保存的工程导入媒体文件 选择文本语言及识别引擎切轴、调整时间轴语音自动识别人工调整时间码及文本导出。
人工拍时间轴:
新建工程或打开自动保存的工程导入媒体文件 播放媒体文件并以Enter或空格键作为时间码的结束时间 调整时间码。
音文同步:
新建工程或打开自动保存的工程导入媒体文件、导入文本文件 点击音文同步开始自动生成时间码 在“音文同步”菜单下选择推前\退后同步或取点同步人工细调时间码。
使用方式及费用
用户下载软件后有一天的试用期,试用结束后可选择付费注册使用。注册的方法是在“设置”菜单下验证序列号。序列号的获取方式为加入官方QQ群:
414750884,并将机器码及使用时期告知管理员,付费后获得序列号。拿管理员给的序列号在“设置”下注册。
软件的计费以使用期限衡量,包括软件的所有功能,具体请联系官方群管理员。客户一旦购买,我们提供持续的售后支持服务。
另外接受客户的定制开发,具体费用商议后确定。
联系方式
下载地址
加官方群提供下载。
基于语音识别、音文同步、图像OCR的字幕解决方案HtwMedia介绍的更多相关文章
- 在FPS游戏中,玩家对音画同步感知的量化与评估
前言 在游戏测试中,音画同步测试是个难点(所谓游戏音画同步:游戏中,音效与画面的同步程度),现在一般采用人工主观判断的方式测试,但这会带来2个问题: 无法准确量化,针对同一场景的多次测试结果可能会相反 ...
- FFmpeg简易播放器的实现-音视频同步
本文为作者原创,转载请注明出处:https://www.cnblogs.com/leisure_chn/p/10284653.html 基于FFmpeg和SDL实现的简易视频播放器,主要分为读取视频文 ...
- Android 音视频同步(A/V Sync)
1. 音视频同步原理 1)时间戳 音视频同步主要用于在音视频流的播放过程中,让同一时刻录制的声音和图像在播放的时候尽可能的在同一个时间输出. 解决音视频同步问题的最佳方案就是时间戳:首先选择一个参考 ...
- vlc源码分析(五) 流媒体的音视频同步
vlc播放流媒体时实现音视频同步,简单来说就是发送方发送的RTP包带有时间戳,接收方根据此时间戳不断校正本地时钟,播放音视频时根据本地时钟进行同步播放.首先了解两个概念:stream clock和sy ...
- 个人永久性免费-Excel催化剂功能第86波-人工智能之图像OCR文本识别全覆盖
在上一年中,Excel催化剂已经送上一波人工智能系列功能,鉴于部分高端用户的需求,再次给予实现了复杂的图像OCR识别,包含几乎所有日常场景,让公司个人手头的图像非结构化数据瞬间变为可进行结构化处理分析 ...
- 直播APP源码是如何实现音视频同步的
1. 音视频同步原理 1)时间戳 直播APP源码音视频同步主要用于在音视频流的播放过程中,让同一时刻录制的声音和图像在播放的时候尽可能的在同一个时间输出. 解决直播APP源码音视频同步问题的最佳方案 ...
- 从单一图像中提取文档图像:ICCV2019论文解读
从单一图像中提取文档图像:ICCV2019论文解读 DewarpNet: Single-Image Document Unwarping With Stacked 3D and 2D Regressi ...
- ffmpeg 2.3版本号, 关于ffplay音视频同步的分析
近期学习播放器的一些东西.所以接触了ffmpeg,看源代码的过程中.就想了解一下ffplay是怎么处理音视频同步的,之前仅仅大概知道通过pts来进行同步,但对于怎样实现却不甚了解,所以想借助这个机会, ...
- ffplay的音视频同步分析
以前工作中参与了一些音视频程序的开发,不过使用的都是芯片公司的SDK,没有研究到更深入一层,比如说音视频同步是怎么回事.只好自己抽点时间出来分析开源代码了,做音视频编解码的人都知道ffmpeg,他在各 ...
随机推荐
- mysql错误:Column count doesn't match value count at row 1解决办法
这个错误的意思是存储的数据与数据库表的字段类型定义不匹配,解决办法如下: 1.查看插入数据的类型与表中字段的类型是否匹配2.插入数据的顺序与字段顺序是否匹配3.检查SQL是否拼写错误4.在insert ...
- kubernetes nodePort、targetPort、port、containerPort图解
1. nodePort 外部机器可访问的端口. 比如一个Web应用需要被其他用户访问,那么需要配置type=NodePort,而且配置nodePort=,那么其他机器就可以通过浏览器访问scheme: ...
- ASP.NET MVC 简介(附VS2019和VSCode版示例)
MVC可以理解为一种思想,应用在web应用程序的架构上. ASP.NET MVC的核心类是实现了IHttpHandler接口的MVCHandler,它的底层仍然是HttpHandler.HttpReq ...
- C++——继承与派生
1.类的继承与派生 保持已有类的特性而构造新类的过程成为继承: 在已有类的基础上新增自己的特性而产生新类的过程称为派生: 被继承的已有类为基类:派生出的新类成为派生类.继承和派生其实是一回事. 继承 ...
- linux - 查看 python 版本
命令 python -V 结果
- (转)R语言 SVM支持向量机在 R 语言中的实现和使用
支持向量机是一个相对较新和较先进的机器学习技术,最初提出是为了解决二类分类问题,现在被广泛用于解决多类非线性分类问题和回归问题.继续阅读本文,你将学习到支持向量机如何工作,以及如何利用R语言实现支持向 ...
- createElement(九)
Vue.js 利用 createElement 方法创建 VNode,它定义在 src/core/vdom/create-elemenet.js 中: // wrapper function for ...
- C语言 删除排序链表中的重复元素
给定一个排序链表,删除所有重复的元素,使得每个元素只出现一次. 示例 1: 输入: 1->1->2输出: 1->2示例 2: 输入: 1->1->2->3-> ...
- flask入门(三)
表单 request.form 能获取POST 请求中提交的表单数据.但是这样不太安全,容易受到恶意攻击.对此,flask有一个flask-wtf扩展,用于避免这一情况 在虚拟环境下用pip inst ...
- python常用的正则表达式,持续更新<<
# -*- coding: utf-8 -*- import re str_0 = 'Aqin1012Heheheaaaaaaahehe如何da' def re_str(re_str_0,str_0) ...