对于语音识别,一般有实时语音识别和语音文件的识别处理等方式,如在会议、培训等场景中,可以对录制的文件进行文字的转录,对于转录文字的成功率来说,如果能够转换90%以上的正确语音内容,肯定能减轻很多相关语音文本编辑的繁琐工作,而目前大多数语音转录的接口基本都能够保证在这个成功率上,有些甚至超过98%以上,非常不错,因为他们对于各种场景的滤波,可以更加提供文字的准确性。本篇随笔对各种语音开发平台做一个介绍,并针对依图语音API的C#封装以及调用进行语音转写进行介绍。

1、语音识别的接口提供商及API情况

语音识别有很多提供商,如常见的百度、阿里云、依图语音等,他们都提供了不同的API接口来实现外部的调用处理,本篇随笔主要针对依图语音(号称能够识别99%以上的智能转录)进行测试,对于其他类型的语音API,由于接口处理方式大同小异,并没有一一测试。

1)百度语音转录

2)阿里云语音转录

3)依云语音开发平台

对于短语音的测试,依图语音的转录基本上在98%以上,偶尔有一两个词语文字因为不常见而出错而已,非常不错。

由于依图语音平台虽然提供了Java的案例代码,但是没有对应C #API调用案例,因此需要根据接口的说明进行转换。

对于依图语音的API说明,还是介绍的比较详细的,如下所示。

一般根据这些很容易编写对应的接口API封装函数,我这里主要用来封装对应的C#调用API。

2、基于依图语音API的C#封装

我们针对API进行了封装,然后在界面上进行测试对应的功能,如下Winform界面测试所示。

一个短句,发现一个错误的字,不过整体效果还是比较好,断句以及内容都算很好的。

这个项目分为三部分,第一是对请求接口数据和返回数据的对象封装(简称DTO对象),第二是对依图长语音和短语音接口的API接口封装,包括授权信息的处理;长语音转写的任务创建、任务查询、任务停止几个部分;以及短语音的转写处理。第三是Winform界面的功能测试和日志处理操作,方便了解功能的实际处理情况。

【创建长语音转录任务】主要用于演示如何生成签名并调用接口创建转写任务的操作,操作后提示是否成功,并记录下任务ID,供查询任务或停止任务使用。同时在日志和文本框里面生成相关的JSON数据信息,日志在运行目录的log/log.txt中记录。

对于依图语音转换来说,我们一般使用异步的处理方式,所以更好的是等待任务处理完后回调告诉我们处理结果更好,因此适合于部署Web API的应用,用于让依图语音平台的服务器进行回调处理结果。

首先第一步我们需要处理API的授权签名,用于后续接口的调用,我们可以根据签名的规则进行编写代码即可。

    /// <summary>
/// 签名处理
/// </summary>
public class SignatureHelper
{
/// <summary>
/// 生成授权签名信息
/// </summary>
/// <param name="data"></param>
/// <param name="key"></param>
/// <returns></returns>
public static string CalculateRFC2104HMAC(string data, string key)
{
key = key ?? "";
var encoding = new System.Text.UTF8Encoding();
byte[] keyByte = encoding.GetBytes(key);
byte[] messageBytes = encoding.GetBytes(data);
using (var hmacsha256 = new HMACSHA256(keyByte))
{
byte[] hashmessage = hmacsha256.ComputeHash(messageBytes);
StringBuilder builder = new StringBuilder();
for (int i = 0; i < hashmessage.Length; i++)
{
builder.Append(hashmessage[i].ToString("x2"));
}
return builder.ToString();
}
} /// <summary>
/// 生成请求授权信息
/// </summary>
/// <returns></returns>
public static AuthRequestDto GetAuthDto()
{
var builder = new ConfigurationBuilder()
.SetBasePath(Directory.GetCurrentDirectory())
.AddJsonFile("appsettings.json", true, reloadOnChange: true);
var config = builder.Build(); //读取配置
var DevId = config["YITU:DevId"];
var DevKey = config["YITU:DevKey"]; var dto = new AuthRequestDto();
dto.DevId = DevId;
dto.Timestamp = DateTime.Now.DateTimeToInt(); var accessKey = DevKey;
var signKey = dto.DevId + dto.Timestamp; //签名加密键
dto.Signature = SignatureHelper.CalculateRFC2104HMAC(signKey, accessKey); return dto;
} /// <summary>
/// 对请求的HttpClient设置相关的授权请求Header信息
/// </summary>
/// <param name="client"></param>
/// <param name="dto"></param>
public static void SetSigature(HttpClient client, AuthRequestDto dto)
{
client.DefaultRequestHeaders.Add("x-dev-id", dto.DevId);
client.DefaultRequestHeaders.Add("x-request-send-timestamp", dto.Timestamp.ToString());
client.DefaultRequestHeaders.Add("x-signature", dto.Signature); client.DefaultRequestHeaders.Add("Date", DateTime.Now.AddHours(-8).ToString("R"));
}
}

这个按钮功能,主要测试一下使用辅助类生成的授权认证信息,授权认证信息是根据加密规则构建的签名信息和账号信息。

这个主要是演示辅助类生成签名,并获得的数据信息:

然后我们定义一个控制器,用于接收依图语音的服务器API回调处理,用于记录转换的结果内容。

namespace CallBackApi.Controllers
{
/// <summary>
/// 用于接收长语音信息回调的处理
/// </summary>
[ApiController]
[Route("[controller]")]
public class LongVoiceController : ControllerBase

在控制器中编写存储的逻辑,写入数据库。

        /// <summary>
/// 回调写入结果, 路由:post /longvoice
/// </summary>
/// <param name="input"></param>
/// <returns></returns>
[HttpPost]
public async Task<CommonResultDto> CallBack(LongVoiceResultDto input)
{
CommonResultDto result = null;
var json = JsonConvert.SerializeObject(input, Formatting.Indented);
_logger.LogInformation(json); try
{
var helper = new LongVoiceDbHelper();
var bResult = await helper.SaveData(input);
result = new CommonResultDto(0, bResult ? "操作成功" : "操作失败");
}
catch(Exception ex)
{
result = new CommonResultDto(1, ex.Message);
_logger.LogError(ex, ex.Message);
} return result;
}

我们根据依图语音的对象模型,构建对应的对象信息属性,然后保存起来即可。

        /// <summary>
/// 保存数据到数据库
/// </summary>
/// <param name="dto"></param>
/// <returns></returns>
public async Task<bool> SaveData(LongVoiceResultDto dto)
{
bool result = false;
if(dto != null)
{
using(var db = CreateDb())
{
var info = new ConsultationInfo();
info.DiscernStatus = dto.taskId;
info.OperateStatus = "未识别";
if (dto.data != null && dto.data.speechResult != null)
{
if (dto.data.statusCode == 3)
{
info.OperateStatus = "已识别";
}
var speechResult = dto.data.speechResult;
info.DiscernText = speechResult.resultText;
} result = await db.Insertable(info).ExecuteCommandAsync() > 0;
}
}
return result;
}

回调接口主要用于长语音任务执行完成后,服务器的回调处理,我这里使用.net core5的Web API项目来处理,通过使用Restful规则的API控制处理,接收服务器的回调数据请求,并把请求数据记录数据库或者在log/log.txt文件中。

我们先发起语音转录请求,如下代码所示。

       private LongVoiceRequestDto GetVoice1()
{
var input = new LongVoiceRequestDto()
{
audioUrl = "https://www.***.com/downloads/iqidi.mp3", //语音文件
callback = "http://www.***.com:8080/longvoice", //回调地址
fileData = new FileData
{
aue = "mpeg2",
audioName = "iqidi.mp3",
sampleRateHertz = 16000,
lang = "MANDARIN"
},
speechConfig = new SpeechConfig
{
scene = "GENERAL",
byWords = true,
customWords = new List<string>()
{
//"开发框架提供商",
//"广州爱奇迪软件科技有限公司"
},
useCustomWordsIds = new List<int>()
{
},
addPunctuation = true,
wordsReplace = true,
numOfSpeakers = 1,
convertNumber = true,
//disfluency = true
},
wordsReplace = new List<WordsReplace>()
{
new WordsReplace()
{
keywords = "他妈的",
replace = "*"
},
new WordsReplace()
{
keywords = "破坏",
replace = "##"
}
}
};
return input;
}

对于长语音的转换,我们只是发起请求,有时候需要等待一点时间,服务器才会根据请求的回调地址进行会写操作的。发起长语音的请求如下代码所示。

        private async void btnTransfer_Click(object sender, EventArgs e)
{
try
{
var input = this.radSmall.Checked ? GetVoice1() : GetVoice2();
var result = await longApi.Transfer(input);
if (result != null)
{
this.txtTaskId.Text = result.taskId;//任务ID,可供查询,停止
MessageUtil.ShowTips($"任务创建{(result.rtn == 0 ? "成功" : "异常:" + result.message)},任务ID:{result.taskId}");
} var json = JsonConvert.SerializeObject(result, Formatting.Indented);
this.richLog.AppendText(json);
this.richLog.AppendText(Environment.NewLine);
Serilog.Log.Information(json);
}
catch(Exception ex)
{
MessageUtil.ShowError(ex.Message);
}
}

回调接口主要用于长语音任务执行完成后,服务器的回调处理。

而如果是短语音转写,就和我们前面说到的一样,马上就可以出结果了。

        private async void btnShort_Click(object sender, EventArgs e)
{
try
{
var input = GetShortVoice();
var result = await shortApi.Transfer(input);
if (result != null)
{
MessageUtil.ShowTips($"短语音听写, 操作{(result.rtn == 0 ? "成功" : "异常:" + result.message)}");
} var json = JsonConvert.SerializeObject(result, Formatting.Indented);
this.richLog.AppendText(json);
this.richLog.AppendText(Environment.NewLine);
Serilog.Log.Information(json);
}
catch (Exception ex)
{
MessageUtil.ShowError(ex.Message);
}
}

我们只需要把返回的结果信息,转换为相关的模型对象,然后进行显示或者存储即可完成。

项目可以通过VS发布方式发布一个文件包,部署到服务器上即可。

配置项目后台一直运行。

以上就是关于依图语音的测试处理,对应后端的回调处理,我们可以转录长语音文件,不过依图语音平台对于身份的审核比较严格,也是收费的API(其他阿里、百度也都是),因此在商用的时候,需要考虑好即可。

依图语音API的C#封装以及调用进行语音转写的处理的更多相关文章

  1. VC6.0 C++ 如何调用微软windows系统SDK 语音API

    下载3个语音API安装包 http://www.microsoft.com/en-us/download/details.aspx?id=10121 需要安装微软语音API安装包:SpeechSDK5 ...

  2. 利用百度语音API进行语音识别。

    由于项目需要,这几天都在试图利用百度语音API进行语音识别.但是识别到的都是“啊,哦”什么的,我就哭了. 这里我只是分享一下这个过程,错误感觉出现在Post语音数据那一块,可能是转换问题吧. API请 ...

  3. 转:基于科大讯飞语音API语音识别开发详解

    原文来自于: http://www.52wulian.org/android_voice/ 最近项目需要用到android语音识别,立马就想到科大讯飞,结合官方实例及阅读API文档,初步的完成了And ...

  4. QT调用百度语音REST API实现语音合成

    QT调用百度语音REST API实现语音合成 1.首先点击点击链接http://yuyin.baidu.com/docs/tts 点击access_token,获取access_token,里面有详细 ...

  5. 在eclipse中API的封装和调用

    自己写的API的封装和调用:1.写好api的方法的实现类.2.抽取一个javadoc文档.file->Export->java->javadoc->finish->Yes ...

  6. <交流贴>android语音识别之科大讯飞语音API的使用

      因为最近在研究语音识别,所以借鉴了一下CreAmazing网友的帖子 Android系统本身其实提供有语音识别模块,在它的APIDemo里也有关于语音识别的sample,不过经过大多开发者的真机测 ...

  7. Atitit. C# java 的api 文件夹封装结构映射总结

    Atitit. C#  java 的api 文件夹封装结构映射总结 C# java ref System.Reflection System.Type. java.lang.ref concurren ...

  8. 循序渐进VUE+Element 前端应用开发(13)--- 前端API接口的封装处理

    在前面随笔<循序渐进VUE+Element 前端应用开发(12)--- 整合ABP框架的前端登录处理>介绍了一个系统最初接触到的前端登录处理的实现,但往往对整个系统来说,一般会有很多业务对 ...

  9. 【python】调用sm.ms图床api接口,实现上传图片并返回url

    图床简介 sm.ms网站提供免费的图床服务.单图上传大小限制5MB,每次最多上传10张,支持多种图片链接格式和api接口调用. 获取令牌 注册账号并登录,点击User-Dashboard 点击API ...

随机推荐

  1. LVS负载均衡群集部署——DR模式

    LVS负载均衡群集部署--DR模式 1.LVS-DR概述 2.部署实验 1.LVS-DR概述: LVS-DR(Linux Virtual Server Director Server)工作模式,是生产 ...

  2. 还在做廉价的劳动力?部署PXE实现Kickstart无人值守安装

    搭建PXE实现Kickstart无人值守安装 1.搭建PXE远程安装服务器 2.实现kicstart无人值守安装 1.PXE介绍及搭载: PXE是有Intel公司开发的网络引导技术,工作在Client ...

  3. 网络层主要协议与arp欺骗

    网络层主要协议与arp欺骗 目录 网络层主要协议与arp欺骗 一.网络层(Network Layer) 1.网络层的功能 2.IP数据报(IP Datagram) 二.网络层的主要协议 1.ICMP协 ...

  4. 如何快速为团队打造自己的组件库(下)—— 基于 element-ui 为团队打造自己的组件库

    文章已收录到 github,欢迎 Watch 和 Star. 简介 在了解 Element 源码架构 的基础上,接下来我们基于 element-ui 为团队打造自己的组件库. 主题配置 基础组件库在 ...

  5. Java两个整数相除保留n位小数

    方式1:被除数转double后,除以除数,结果是一个double类型的数,将double结果按要求保留n位小数即可. 保留n位小数的写法 int a = 10; int b = 3; double r ...

  6. NOIP2021T1报数——黄蓝紫黑的神奇梯度

    7A3T 点击查看代码 #include<iostream> #include<cstdio> #include<cmath> #include<algori ...

  7. 私有化轻量级持续集成部署方案--07-私有NPM仓库-Verdaccio

    提示:本系列笔记全部存在于 Github, 可以直接在 Github 查看全部笔记 对于个人来说,私有NPM仓库 作用性基本很小,但是对于企业,私有NPM仓库 可以保护代码暴露,具有很大的意义. 也是 ...

  8. hbuilderx快捷键、回到上一步、回到上次编辑处

    快捷键:Alt + 左/右箭头  其他快捷键:

  9. 调用WCF服务的几种方式

    首先发布了一个名为PersonService的WCF服务.服务契约如下: [ServiceContract]     public interface IPersonService     {     ...

  10. ubuntu 18.04安装hadoop 2.9.2

    先试用命令su,进入root用户权限 下载jdk及hadoop 分别解压,/java,/hadoop tar xvf xxx.tar(在所在目录下进行,或者) tar xvf /x/x/xxx.tar ...