论文地址:基于码本映射的窄带语音宽带重建算法 博客作者:凌逆战 博客地址:https://www.cnblogs.com/LXP-Never/p/12144324.html 摘要 本文提出了一种从窄带语音中重构宽带语音的新算法,该算法有两个新的特点.第一是基于码本映射的频谱包络重构.第二是利用重构的频谱包络进行语音信号重构.由于该算法无需使用任何附加的发送信息就能生成高质量的语音(盲源),所以它适用于任何网络,如现有的电话网络.支持模拟和ISDN服务的网络等.该算法应用于20个说话人.通过aco…
论文地址:基于DNN的语音带宽扩展及其在窄带语音自动识别中加入高频缺失特征的应用 论文代码:github 博客作者:凌逆战 博客地址:https://www.cnblogs.com/LXP-Never/p/12361112.html 摘要 我们提出了一些增强技术来提高从窄带到宽带扩频(BWE)中的语音质量,解决了三个在实际应用中可能非常关键的问题,即:(1)窄带频谱和估计的高频频谱之间的不连续性,(2) 测试和训练话语之间的能量不匹配,(3)扩大了域外语音信号的带宽.通过带宽扩展语音中高频特征缺…
基于多重虚拟扩展阵列的宽带信号DOA估计[1]. 宽带DOA估计是阵列信号处理领域的一个重要研究方向.在DOAs估计的实际应用中,信号总是会被噪声破坏,在某些情况下,源信号的数量大于传感器的数量,因此不能通过一些传统的算法正确地解决源问题.文中提出了一种将空间重采样和四阶累积量相结合的宽带DOAs方法——多重虚拟扩展阵列(MVEA).在信源个数大于传感器个数的情况下,MVEA能够正确地找到宽带源的方向,通过空间重采样和四阶累积量的虚拟扩展,MVEA获得了比仅采用空间重采样虚拟扩展(SRVE)的方…
很久很久以前, 网上流传着一个免费的,识别率暴高的,稳定的 Speech To Text API, 那就是Google Speech API. 但是最近再使用的时候,总是返回500 Error. 后来通过查看源码知道需要增加一个参数:key=.... 可能是为了防止滥用吧. 并且, 最近Chrome另外发布了一个长连接实时的识别接口, 这对开发者来说真是巨大的福音啊. 在这里主要对这两个接口的用法进行介绍. 博客: http://www.cnblogs.com/jhzhu 邮箱: jhzhuus…
论文地址:基于GMM的语音窄带到宽带转换 博客作者:凌逆战 博客地址:https://www.cnblogs.com/LXP-Never/p/12151027.html 摘要 在不改变现有通信网络的情况下,利用窄带语音重建宽带语音是一个很有吸引力的问题.本文提出了一种从窄带语音中恢复宽带语音的新方法.该方法基于高斯混合模型(GMM)将输入语音的窄带频谱包络变换为宽带频谱包络,并采用联合密度估计技术对其参数进行计算.然后利用重构后的谱包络,利用LPC合成器对低频和高频语音信号进行重构.本文还提出了…
题名:一种用于语音带宽扩展的深度神经网络方法 作者:Kehuang Li:Chin-Hui Lee 2015年出来的 摘要 本文提出了一种基于深度神经网络(DNN)的语音带宽扩展(BWE)方法.利用对数谱功率作为输入输出特征进行所需的非线性变换,训练神经网络来实现这种高维映射函数.在10小时的大型测试集上对该方法进行评估时,我们发现与传统的基于高斯混合模型(GMMs)的BWE相比,DNN扩展语音信号在信噪比和对数谱失真方面具有很好的客观质量度量.在假定相位信息已知的情况下,主观听力测试对DNN扩…
论文地址:使用半监督堆栈式自动编码器实现包含记忆的人工带宽扩展 作者:Pramod Bachhav, Massimiliano Todisco and Nicholas Evans 博客作者:凌逆战 博客地址:https://www.cnblogs.com/LXP-Never/p/10889975.html 摘要 为了提高宽带设备从窄带设备或基础设施接收语音信号的质量,开发了人工带宽扩展(ABE)算法.以动态特征或从邻近帧捕获的explicit memory(显式内存)的形式利用上下文信息,在A…
论文题目:2018_用于音频超分辨率的时频网络 博客作者:凌逆战 博客地址:https://www.cnblogs.com/LXP-Never/p/12345950.html 摘要 音频超分辨率(即带宽扩展)是提高音频信号时域分辨率的一项具有挑战性的任务.最近的一些深度学习方法通过将任务建模为时域或频域的回归问题,取得了令人满意的结果.在本文中,我们提出了一种新的模型体系结构——时频网络(TFNet,Time-Frequency Network),这是一种在时域和频域同时进行监控的深度神经网络.…
论文地址:基于隐马尔科夫模型的电话语音频带扩展 博客作者:凌逆战 博客地址:https://www.cnblogs.com/LXP-Never/p/12151866.html 摘要 本文提出了一种从lowpass-bandlimited(低通带限)语音中恢复宽带语音的算法.窄带输入信号被分类为有限数量的语音,关于宽带频谱包络的信息取自预先训练的码本.在码本搜索算法中,采用了一种基于隐马尔可夫模型的统计方法,该方法考虑了带限语音的不同特征,使均方误差准则最小化.新算法只需要一个宽带码本,本质上保证…
论文地址:一种低复杂度实时增强全频带语音的感知激励方法 论文代码 引用格式:A Perceptually Motivated Approach for Low-complexity, Real-time Enhancement of Fullband Speech 摘要 近几年来,基于深度学习的语音增强方法大大超过了传统的基于谱减法和谱估计的语音增强方法.许多新技术直接在短时傅立叶变换(STFT)域中操作,导致了很高的计算复杂度.在这项工作中,我们提出了PercepNet,这是一种高效的方法,它…
论文地址:单耳语音增强的时频注意 引用格式:Zhang Q, Song Q, Ni Z, et al. Time-Frequency Attention for Monaural Speech Enhancement[C]//ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022: 7852-7856. 摘要 大多数语音增强研究通常…
论文地址:MetricGAN+:用于语音增强的 MetricGAN 的改进版本 论文代码:https://github.com/JasonSWFu/MetricGAN 引用格式:Fu S W, Yu C, Hsieh T A, et al. MetricGAN+: An Improved Version of MetricGAN for Speech Enhancement[J]. arXiv preprint arXiv:2104.03538, 2021. 摘要 用于训练语音增强模型的代价函数…
论文地址:DeepFilterNet:基于深度滤波的全频带音频低复杂度语音增强框架 论文代码:https://github.com/ Rikorose/DeepFilterNet 引用:Schröter H, Rosenkranz T, Maier A. DeepFilterNet: A Low Complexity Speech Enhancement Framework for Full-Band Audio based on Deep Filtering[J]. arXiv preprin…
论文地址:面向基于深度学习的语音增强模型压缩 论文代码:没开源,鼓励大家去向作者要呀,作者是中国人,在语音增强领域 深耕多年 引用格式:Tan K, Wang D L. Towards model compression for deep learning based speech enhancem…
本程序是口算两位数乘法,随机生成两个两位数,用语音读出来.然后开启语音识别,接受用户输入,知道答案正确关闭语音识别.用户说答案时,可以说“再说一遍”重复题目. 关键是GrammarBuilder和Choices的用法. 首先来看看如何获得已安装的语音识别引擎 void showInstalled() { Console.WriteLine("installed recognizers"); foreach (var i in SpeechRecognitionEngine.Instal…
Bing Speech Services Bing   Bing Speech Services provide speech capabilities for Windows and Windows Phone https://msdn.microsoft.com/en-us/library/dn303461.aspx 已失效.…
为了方便调用暂停.继续的方法.要将speech的功能写成一个类.直接附上代码: using System; using System.Collections.Generic; using System.Linq; using System.Speech.Synthesis; using System.Text; using System.Speech; namespace WindowsFormsApplication1 { public class TextToSpeak { //想要实现暂停…
C# 使用System.Speech 进行语音播报和识别 using System.Speech.Synthesis; using System.Speech.Recognition; //语音识别 SpeechRecognitionEngine recEngine = new SpeechRecognitionEngine(); SpeechSynthesizer speech = new SpeechSynthesizer(); //**************************使用S…
前言 Link : Microsoft Speech API overview 通过这个链接,大致了解Bing speech API的语音识别和语音合成两部分, 这次是需要用到TTS,所以就直接看TTS相关的文档. Link : Bing text to speech API   简介 使用Bing语音合成API,需要应用程序通过发送HTTP请求到云端,云端合成为人声后返回音频文件.   语音合成请求 JSON Web Token(JWT) access token 每一个的语音合成请求都需要一…
using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Windows; using System.Windows.Controls; using System.Windows.Data; using System.Windows.Documents; using System.Windows.Input; using System.Windows.Med…
using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text; using System.Windows.Forms; using System.Threading; using SpeechLib;//NET2.0 引用 Speech sdk 5.1…
原文:http://blog.csdn.net/dlangu0393/article/details/7214728#comments 近期重写本文,暂时禁止评论. 最近在使用Qt编写一个客户端程序的时候需要增加语音识别输入的功能.起初尝试使用SAPI来完成这个任务,但是发现SAPI不仅使用起来超级复杂,而且识别效果也很惨烈.于是就需要寻找一个更加便捷优秀的方案. 自从Chrome 11开始,Chrome开始支持HTML5的语音输入API,QQ紧接着也推出了语音识别输入(可以看做跟风么:D).显…
错误Max retries exceeded with url: requests.exceptions.ConnectionError: HTTPSConnectionPool(host='%20eastasia.stt.speech.microsoft.com', port=443): Max retries exceeded with url: /speech/recognition/conversation/cognitiveservices/v1?language=zh-CN (Cau…
论文地址:PACDNN:一种用于语音增强的相位感知复合深度神经网络 引用格式:Hasannezhad M,Yu H,Zhu W P,et al. PACDNN: A phase-aware composite deep neural network for speech enhancement[J]. Speech Communication,2022,136:1-13. 摘要 目前,利用深度神经网络(DNN)进行语音增强的大多数方法都面临着一些限制:它们没有利用相位谱中的信息,同时它们的高计算…
论文地址:DCCRN:用于相位感知语音增强的深度复杂卷积循环网络 论文代码:https://paperswithcode.com/paper/dccrn-deep-complex-convolution-recurrent-1 引用:Hu Y,Liu Y,Lv S,et al. DCCRN: Deep complex convolution recurrent network for phase-aware speech enhancement[J]. arXiv preprint arXiv:…
最近发现有声读物能极大促进我的睡眠,但每个前面都有一段开场语,想把它剪掉,但是有多个开场语,所以就要用到语音识别判断一下再剪. 前两年在本地搭建过识别的环境,奈何识别准确率不行,只能找找API了,后面有时间再弄本地的吧.下面是几个大厂提供的服务,就我个人使用来看,讯飞 > Google > IBM, 但在中文识别准确度上,讯飞是最强的. Oracle: 被它的Always Free计划吸了一波粉,但是提供的转写服务不支持中文,pass IBM 优点:有一定的持续免费额度 缺点:准确度不够,官网…
博客作者:凌逆战 论文地址:https://ieeexplore.ieee.xilesou.top/abstract/document/8683611/ 地址:https://www.cnblogs.com/LXP-Never/p/10714401.html 利用条件变分自动编码器进行人工带宽扩展的潜在表示学习 作者:Pramod Bachhav, Massimiliano Todisco and Nicholas Evans 摘要 当宽带设备与窄带设备或基础设施一起使用时,人工带宽扩展(ABE…
ICLR 2014 International Conference on Learning Representations Apr 14 - 16, 2014, Banff, Canada Workshop Track Submitted Papers Stochastic Gradient Estimate Variance in Contrastive Divergence and Persistent Contrastive Divergence Mathias Berglund, Ta…
@http://www-cs-faculty.stanford.edu/people/karpathy/cvpr2015papers/ CVPR 2015 papers (in nicer format than this) maintained by @karpathy NEW: This year I also embedded the (1,2-gram) tfidf vectors of all papers with t-sne and placed them in an interf…
近些年,随着实时通信技术的发展,在线会议逐渐成为人们工作中不可或缺的重要办公工具,据不完全统计,线上会议中约有 75% 为纯语音会议,即无需开启摄像头和屏幕共享功能,此时会议中的语音质量和清晰度对线上会议的体验便至关重要. 作者|七琦 审校|泰一 前言 在现实生活中,会议所处的环境是极具多样性的,包括开阔的嘈杂环境.瞬时非平稳的键盘敲击声音等,这些对传统的基于信号处理的语音前端增强算法提出了很大的挑战.与此同时伴随着数据驱动类算法的快速发展,学界 [1] 和工业界 [2,3,4] 逐渐涌现出了深…