OpenAI的离线音频转文本模型 Whisper 的.NET封装项目

whisper介绍

Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的Whisper神经网络，且它亦支持其它98种语言的自动语音辨识。 Whisper系统所提供的自动语音辨识（Automatic Speech Recognition，ASR）模型是被训练来运行语音辨识与翻译任务的，它们能将各种语言的语音变成文本，也能将这些文本翻译成英文。

whisper的核心功能语音识别，对于大部分人来说，可以帮助我们更快捷的将会议、讲座、课堂录音整理成文字稿；对于影视爱好者，可以将无字幕的资源自动生成字幕，不用再苦苦等待各大字幕组的字幕资源；对于外语口语学习者，使用whisper翻译你的发音练习录音，可以很好的检验你的口语发音水平。

当然，各大云平台都提供语音识别服务，但是基本都是联网运行，个人隐私安全总是有隐患，而whisper完全不同，whisper完全在本地运行，无需联网，充分保障了个人隐私，且whisper识别准确率相当高。

语言模型文件：https://huggingface.co/ggerganov/whisper.cpp 或者 https://github.com/ggerganov/whisper.cpp

ggml-*.bin则中英文都可以翻译，根据自己对文字的精确要求选择模型，small、medium基本够用。高要求可以使用large，但耗时会多一点。

这么好的一个模型在.NET 社区有很多封装的项目:

跨平台 Whisper.net: https://github.com/sandrohanea/whisper.net
Windows 平台的Whisper：https://github.com/Const-me/Whisper

下面我们体验一下这个开箱即用的工具Whisper，从https://github.com/Const-me/Whisper 下周最新的版本：

运行起来，从Hugging Face 下载模型，

选择转化的语言、音频路径、文本类型、文本保存位置，运行一段时间后，打开后就可以看到文本内容了

实测medium模型：20min音频，大致耗时20~30min，这个效果是很不错了。

可以很容易将这个模型集成到自己开发的系统里。

OpenAI的离线音频转文本模型 Whisper 的.NET封装项目的更多相关文章

css3 文本模型
我前期是一名前端开发者,经常会遇到关于文本模型的问题,很多地方我们会经常遇到这种问题.例如栏目的标题,在设计师给我们图的时候并不会考虑到标题的长度,所以我们自己开发的过程中自己注意这一点. 首先和大家 ...
视音频编解码学习工程：TS封装格式分析器
=====================================================视音频编解码学习工程系列文章列表: 视音频编解码学习工程:H.264分析器视音频编解码学习工 ...
视音频编解码学习工程：FLV封装格式分析器
===================================================== 视音频编解码学习工程系列文章列表: 视音频编解码学习工程:H.264分析器视音频编解码学习 ...
关于Python2和Python3之间的文本模型改变
原文地址:http://python-notes.curiousefficiency.org/en/latest/python3/questions_and_answers.html#what-act ...
PowerDesigner(九)-模型文档编辑器(生成项目文档)（转）
模型文档编辑器 PowerDesigner的模型文档(Model Report)是基于模型的,面向项目的概览文档,提供了灵活,丰富的模型文档编辑界面,实现了设计,修改和输出模型文档的全过程. 模型文 ...
HandyEditor 富文本编辑器整合到python flask项目中
1.下载HandyEditor,地址http://he.catfish-cms.com/ 2.解压后的文件名HandyEditor-master改为HandyEditor,文件夹里的文件如下 3.将H ...
EasyDarwin开源音频解码项目EasyAudioDecoder：EasyPlayer Android音频解码库（第二部分，封装解码器接口）
上一节我们讲了如何基于ffmpeg-Android工程编译安卓上的支持音频的ffmpeg静态库:http://blog.csdn.net/xiejiashu/article/details/52524 ...
muduo定时器、多线程模型及epoll的封装
timerfd是Linux为用户程序提供的一个定时器接口,这个接口基于文件描述符. clock_gettime函数可以获取系统时钟,精确到纳秒.需要在编译时指定库:-lrt.可以获取两种类型时间: C ...
selenium3 web自动化测试框架三：项目实战中PO模型的设计与封装
po模型设计思想 Page Object 模式主要是将每个页面设计为一个class,其中包含页面中的需要测试的元素(按钮,输入框,标题等),这样在Selenium测试页面中可以通过调取页面类来获取页面 ...
Linux ALSA音频库(二) 环境测试+音频合成+语音切换项目代码分享
1. 环境测试 alsa_test.c #include <alsa/asoundlib.h> #include <stdio.h> // 官方测试代码, 运行后只要有一堆信息 ...

随机推荐

AD使用积累 - AD原理图界面选中所有器件但不选中电气连接线
1.在随意一个器件上右键,选择查找相似对象. 2.在弹出的界面选择如下两项: 3.点击确定,会高亮所有元器件,这时再进行框选就可以只选中器件.
(五).JavaScript的数组
1. 数组 1.1 数组的基础数组:同种或不同数据类型数据的有序集合功能:同时存储多个数据数据:常量变量表达式数组函数对象定义方式:字面量定义或者构造函数定义字面量定义数组(本质上 ...
Charles笔记
Charles 预览模式 Structure 以域名对请求进行分组,可以很方便地预览同一域名下的请求数据,也方便于日常开发中对某一服务接口的分析和处理 Sequence Sequence以时间顺序显示 ...
LeetCode 94. 二叉树的中序遍历（）
原题解题目约束题解方法一 class Solution { public: void inorder(TreeNode* root, vector<int>& res) { ...
tuxedo 12c 安装
tuxedo12c 安装命令静默安装控制台安装 tuxedo版本介绍 Tuxedo Release Name Tuxedo Release Number Note which contains L ...
关于Unity 图片队列存储以及出列导致内存溢出的解决方案
图片虽然出列但是并没有销毁,所以..destroy !
PHP精度计算函数
bcadd - 将两个高精度数字相加 bccomp - 比较两个高精度数字,返回-1, 0, 1 bcdiv - 将两个高精度数字相除 bcmod - 求高精度数字余数 bcmul - 将两个高精度数 ...
微信小程序-顶部下拉菜单实现
最近写的小程序里面需要实现顶部下拉菜单的效果,做一个过滤操作,但是没有找到相关组件,所以动手写了一个. 先看一下这拙劣的效果叭~ 下面就直接看具体实现了嗷! index.wxml <view c ...
laravel groupBy 分页
$model=DB::table('tablebname') ->where(function($query) use ($res){ $query->where('xx','xx'); ...
gitee使用
1.github的国内跳转 github国内无法直接访问,所以直接使用gitee导入github工程 https://gitee.com/ 2.虚拟机配置ssh公钥 https://gitee ...

OpenAI的离线音频转文本模型 Whisper 的.NET封装项目

whisper介绍

OpenAI的离线音频转文本模型 Whisper 的.NET封装项目的更多相关文章

随机推荐

热门专题