背景介绍

  俗话说,“好记性不如乱笔头”,这充分说明了文字归档的重要性。如今随着微信、抖音等移动端app的使用越来越广,人们生产音、视频内容也越来越便捷。而相比语音和视频而言,文字具有易存档、易检索、易传播等优点。提取音、视频中的有效信息形成文字并持久化对很多行业都有很现实的意义。

设想一下,一部有知识含量的课件或科普视频往往需要播放多遍才能吃透,如果把它其中的知识提取出来是不是容易检索、理解方便的多?参加讲座或访谈等用录音笔或者手机就可以录下来,而把它整理出来是不是更容易形成知识?影视剧的生产者按照行业规定通常需要加字幕,而一部优秀的国外影视剧如果把它本地化形成双语字幕对于不掌握国外语言的观众会更有用,等等。这些都是HtwMedia的使用场景。

HtwMedia是一款windows系统下的专业字幕及音视频应用解决方案。运用最新的自动语音识别、语音合成及机器翻译、图像OCR等技术可实现视频字幕的提取,时间轴的自动生成,字幕文本的自动生成以及字幕文本和语音的自动对齐等功能。另外软件还实现了基于精准音频波形图的时间码及文本的生成及编辑校对功能,提供视频字幕压制、导出到Premiere、Edius、Final cut pro等非编软件等实用功能。

为什么说HtwMedia是一套解决方案而不仅仅是处理字幕的软件产品呢?因为我们所有的功能都是建立在长时间积累用户需求及使用习惯的基础上,涵盖了在字幕及音视频处理的方方面面。

比如:

  • 在用户导入媒体文件时,我们会对媒体做音量调整及降噪处理,对时间过长的媒体文件做切割分段。这些预处理会很大程度上提高自动识别及音文同步的性能。让识别及同步准确率提高哪怕一个百分点,让用户节省每一分钟都是我们的追求。
  • 我们会对用户的操作自动保存成工程文件,防止因为操作中断而导致之前的处理结果丢掉。用户再次打开工程的时候可以继续处理。
  • 我们不仅提供基于语言识别的字幕生成,而且提供视频中的字幕提取。经常有用户提到:“如何把DVD的vob和sub文件转成srt压制到视频里?如何把蓝光sup文件转成srt文件?如何提取avi/divx文件中的字幕?如何提取硬压制的视频文件中的字幕”等。我们对此运用了最新的图像OCR技术,对视频做解析后,生成关键帧的图像,从图像中提取特定位置的字幕。在提取过程中可以全自动,当自动识别的文本有稍许错误用户可以随时停止修正。提取视频中的文本后可以继续用我们的音文同步技术生成时间码,可以导入Premire、Edius等非编软件的样式、颜色等模板。最后把生成的ass、srt等文件压制到视频里。
  • 我们提供批量识别媒体、批量音文同步、批量压制字幕等功能,减少用户多次操作,节省用户时间。
  • 我们提供方便的字幕编辑功能。自动语音识别及音文同步目前不可能做到100%准确,尤其是语音环境不好的情况下,所以人工校对不可避免。我们提供了准确的基于音频波形的时间码调整及拍打时间轴功能。另外还有方便的文本编辑器,可以断句,检查字数、分句、合并等。并且播放器、时间轴及文本区互相同步定位。
  • 我们提供基于文本的配音功能。用户只需导入要配音的文本,选择喜欢的人声,软件就可以生成断句好的mp3声音文件。
  • 我们提供自动翻译功能,可以有效的制作双语字幕。
  • 我们提供字幕压制及添加水印功能,可以保护用户的视频不被轻易盗用。
  • 提供视频分离音频功能,这样可以有效的减少媒体文件体积,方便利用语言分析。

  主要技术参数:

  支持的视频格式:

  .avi;.mkv;.wmv;.mpg;.mpeg;.divx;.mp4;.asf;.flv;.mov;.m4v;.vob;.ogv;.webm;.ts;.m2ts;.avs;.mxf

  支持的音频格式:

  *.mp3;*.wav;*.wma;*.ogg;*.mpa;*.m4a;*.ape;*.aiff;*.flac;*.aac;*.ac3;*.mka

 媒体播放器:

  VLC播放器,可叠加字幕文本

 时间轴:

  基于ffmpeg解码的音频pcm数据,采样率为16000,单声道;时间上大格间隔1秒,小格0.1秒。纵向缩放每次调整单位为0.1 scale.

 自动切轴:

  基于webrtc技术的vad模块。除了依据能量阈值还加入了降噪、声音特征分析模块。

  自动语音识别:

  可识别中、英文及四川、粤语等方言。配合自动切轴、声音预处理后准确率很高。

 音文同步:

  用户导入音视频文件及文本文件后可在客户端离线同步。同步的原理是把文本合成语音后提取声音特征,然后与原音频匹配以确定文本在媒体中的位置。支持的语言有中、英文等20多种。

  文本翻译:

  支持的语言有中、英文等20多种语言。

 导入文本文件:

  支持TXT,Word,SRT,Ass等文件的导入,编码格式为UTF-8.

  导出文件:

  可以导出TXT,Word,SRT,Ass等文件格式,另外支持导出Premiere的.prtl字幕模板工程、Eduis的.etl模板工程、Avid的STL格式字幕文件、傻丫头字幕模板、Final cut pro的fcpxml格式及fcpxml+image格式的工程。

  配音:

  目前支持中英混合的字幕文本,以中文为主。声音类型支持自然男声、自然女声、情感男声、情感女声。

使用流程

  视频字幕提取:

  新建工程或打开自动保存的工程根据文件格式在“字幕提取”子菜单下选择导入相应格式的视频文件选择文本语言及识别方法开始识别校正识别结果。

 语音识别生成字幕:

  新建工程或打开自动保存的工程导入媒体文件 选择文本语言及识别引擎切轴、调整时间轴语音自动识别人工调整时间码及文本导出。

 人工拍时间轴:

  新建工程或打开自动保存的工程导入媒体文件 播放媒体文件并以Enter或空格键作为时间码的结束时间 调整时间码。

 音文同步:

  新建工程或打开自动保存的工程导入媒体文件、导入文本文件 点击音文同步开始自动生成时间码 在“音文同步”菜单下选择推前\退后同步或取点同步人工细调时间码。

  使用方式及费用

  用户下载软件后有一天的试用期,试用结束后可选择付费注册使用。注册的方法是在“设置”菜单下验证序列号。序列号的获取方式为加入官方QQ群:

  414750884,并将机器码及使用时期告知管理员,付费后获得序列号。拿管理员给的序列号在“设置”下注册。

  软件的计费以使用期限衡量,包括软件的所有功能,具体请联系官方群管理员。客户一旦购买,我们提供持续的售后支持服务。

  另外接受客户的定制开发,具体费用商议后确定。

  联系方式

  下载地址

  加官方群提供下载。

基于语音识别、音文同步、图像OCR的字幕解决方案HtwMedia介绍的更多相关文章

  1. 在FPS游戏中,玩家对音画同步感知的量化与评估

    前言 在游戏测试中,音画同步测试是个难点(所谓游戏音画同步:游戏中,音效与画面的同步程度),现在一般采用人工主观判断的方式测试,但这会带来2个问题: 无法准确量化,针对同一场景的多次测试结果可能会相反 ...

  2. FFmpeg简易播放器的实现-音视频同步

    本文为作者原创,转载请注明出处:https://www.cnblogs.com/leisure_chn/p/10284653.html 基于FFmpeg和SDL实现的简易视频播放器,主要分为读取视频文 ...

  3. Android 音视频同步(A/V Sync)

    1.  音视频同步原理 1)时间戳 音视频同步主要用于在音视频流的播放过程中,让同一时刻录制的声音和图像在播放的时候尽可能的在同一个时间输出. 解决音视频同步问题的最佳方案就是时间戳:首先选择一个参考 ...

  4. vlc源码分析(五) 流媒体的音视频同步

    vlc播放流媒体时实现音视频同步,简单来说就是发送方发送的RTP包带有时间戳,接收方根据此时间戳不断校正本地时钟,播放音视频时根据本地时钟进行同步播放.首先了解两个概念:stream clock和sy ...

  5. 个人永久性免费-Excel催化剂功能第86波-人工智能之图像OCR文本识别全覆盖

    在上一年中,Excel催化剂已经送上一波人工智能系列功能,鉴于部分高端用户的需求,再次给予实现了复杂的图像OCR识别,包含几乎所有日常场景,让公司个人手头的图像非结构化数据瞬间变为可进行结构化处理分析 ...

  6. 直播APP源码是如何实现音视频同步的

    1.  音视频同步原理 1)时间戳 直播APP源码音视频同步主要用于在音视频流的播放过程中,让同一时刻录制的声音和图像在播放的时候尽可能的在同一个时间输出. 解决直播APP源码音视频同步问题的最佳方案 ...

  7. 从单一图像中提取文档图像:ICCV2019论文解读

    从单一图像中提取文档图像:ICCV2019论文解读 DewarpNet: Single-Image Document Unwarping With Stacked 3D and 2D Regressi ...

  8. ffmpeg 2.3版本号, 关于ffplay音视频同步的分析

    近期学习播放器的一些东西.所以接触了ffmpeg,看源代码的过程中.就想了解一下ffplay是怎么处理音视频同步的,之前仅仅大概知道通过pts来进行同步,但对于怎样实现却不甚了解,所以想借助这个机会, ...

  9. ffplay的音视频同步分析

    以前工作中参与了一些音视频程序的开发,不过使用的都是芯片公司的SDK,没有研究到更深入一层,比如说音视频同步是怎么回事.只好自己抽点时间出来分析开源代码了,做音视频编解码的人都知道ffmpeg,他在各 ...

随机推荐

  1. Java知识点题集

    一.红黑树的特性 (1)每个节点或者是黑色,或者是红色. (2)根节点是黑色. (3)每个叶子节点(NIL)是黑色. [注意:这里叶子节点,是指为空(NIL或NULL)的叶子节点!] (4)如果一个节 ...

  2. H5_0016:js获取网络中配置文件中的参数

         //获取网络配置文件中的参数      $.get("https://cdn.com/share.json", function(e) {       //console ...

  3. WPF-命令-基础知识

    命令模型的主要元素: 1.命令 2.命令绑定:命令连接到相关的应用程序逻辑 3.命令源:命令源触发命令, 4.命令目标:应用程序逻辑. -------------------------------- ...

  4. .Net Core的总结

    一.什么是.NET Core .NET Core是一个开源通用的开发框架,支持跨平台,即支持在Window,macOS,Linux等系统上的开发和部署,并且可以在硬件设备,云服务,和嵌入式/物联网方案 ...

  5. 假期学习【八】首都之窗百姓信件爬虫(完整版)2020.2.6 Python

    时间:2020.2.6 今天把昨天做到一半的首都之窗百姓信件爬取完成了. 源码如下: import requests import io from bs4 import BeautifulSoup # ...

  6. 解决Oracle ORA-01033: ORACLE initialization or shutdown in progress错误 和 ORA-01589错误 要打开数据库则必须使用 RESETLOGS 或 NORESETLOGS 选项

    要打开数据库则必须使用 RESETLOGS 或 NORESETLOGS 选项 SQL> startupORACLE 例程已经启动. Total System Global Area  13533 ...

  7. BindingException: Invalid bound statement (not found)问题

  8. js中事件代理(委托)

    var oul = document.getElementById(‘uli’); oul.onclick = function(e) { e = e || window.event; var tar ...

  9. java锁(转)

    Java中锁分类 锁的分类 公平锁/非公平锁 可重入锁 独享锁/共享锁 互斥锁/读写锁 乐观锁/悲观锁 分段锁 偏向锁/轻量级锁/重量级锁 自旋锁(java.util.concurrent包下的几乎都 ...

  10. AtCoder arc078_d Mole and Abandoned Mine

    洛谷题目页面传送门 & AtCoder题目页面传送门 给定一个无向连通带权图\(G=(V,E),|V|=n,|E|=m\)(节点从\(0\)开始编号),要删掉一些边使得节点\(0\)到\(n- ...