Python 百度语音识别与合成REST API及ffmpeg使用

操作系统：Windows
Python：3.5
欢迎加入学习交流QQ群：657341423

注意事项：接口支持 POST 和 GET两种方式，个人支持用post模式，因为get的话，如果get数据太长，会出现缺失的。
语音识别要求支持的语音格式
原始 PCM 的录音参数必须符合 8k/16k 采样率、16bit 位深、单声道，支持的压缩格式有：pcm（不压缩）、wav、opus、amr、x-flac。
简单说，语音参数必需要 8k/16k 采样率、16bit 位深、单声道，不然会出现内容和文字不相符的情况。

网上这类教程基本上都是Python urllib2实现的，这里我使用requests实现。

import requests

import json

import base64

import wave

from pydub import AudioSegment ###需要安装pydub、ffmpeg

import io

class BaiduRest:

    def __init__(self, cu_id, api_key, api_secert):

        # token认证的url

        self.token_url = "https://openapi.baidu.com/oauth/2.0/token"

        # 语音合成的resturl

        self.getvoice_url = "http://tsn.baidu.com/text2audio"

        # 语音识别的resturl

        self.upvoice_url = 'http://vop.baidu.com/server_api'

        self.cu_id = cu_id

        self.getToken(api_key, api_secert)

        return

    def getToken(self, api_key, api_secert):

        # 1.获取token

        data={'grant_type':'client_credentials','client_id':api_key,'client_secret':api_secert}

        r=requests.post(self.token_url,data=data)

        Token=json.loads(r.text)

        self.token_str = Token['access_token']

    def getVoice(self, text, filename):

        # 2. 向Rest接口提交数据

        data={'tex':text,'lan':'zh','cuid':self.cu_id,'ctp':1,'tok':self.token_str}

        r=requests.post(self.getvoice_url,data=data,stream=True)

        voice_fp = open(filename,'wb')

        voice_fp.write(r.raw.read())

        # for chunk in r.iter_content(chunk_size=1024):

            # voice_fp.write(chunk)

        voice_fp.close()

    def getText(self, filename):

        # 2. 向Rest接口提交数据

        data = {"format":"wav","rate":16000, "channel":1,"token":self.token_str,"cuid":self.cu_id,"lan":"zh"}

        # 语音的一些参数

        wav_fp = open(filename,'rb')

        voice_data = wav_fp.read()

        data['len'] = len(voice_data)

        data['speech'] = base64.b64encode(voice_data).decode('utf-8')

        post_data = json.dumps(data)

        r=requests.post(self.upvoice_url,data=bytes(post_data,encoding="utf-8"))

        # 3.处理返回数据

        return r.text

    def ConvertToWav(self,filename,wavfilename):

        #先从本地获取mp3的bytestring作为数据样本

        fp=open("out.mp3",'rb')

        data=fp.read()

        fp.close()

        #主要部分

        aud=io.BytesIO(data)

        sound=AudioSegment.from_file(aud,format='mp3')

        raw_data = sound._data

        #写入到文件，验证结果是否正确。

        l=len(raw_data)

        f=wave.open(wavfilename,'wb')

        f.setnchannels(1)

        f.setsampwidth(2)

        f.setframerate(16000)

        f.setnframes(l)

        f.writeframes(raw_data)

        f.close()

        return wavfilename

if __name__ == "__main__":

    #api_key和api_secert 自行编写

    api_key = ""

    api_secert = ""

    # 初始化

    bdr = BaiduRest("test_python", api_key, api_secert)

    # 将字符串语音合成并保存为out.mp3

    bdr.getVoice("问题,作为开发人员,你的职责是什么,答按照工作进度和编程工作规范编写系统中的关键模块,设计编写详细设计,配合测试员修改相应的程序,提供软件的后期技术支持,进行编码实现,代码走查,单元测试,产品交付,", "out.mp3")

    # 识别test.wav语音内容并显示

    print(bdr.getText(bdr.ConvertToWav("out.mp3","test.wav")))

运行结果：

设计思想：这里先将语音合成，生成MP3格式，然后将这段语音转换wav格式。然后再去语音识别。
在实际开发中，可以通过录音，得到一段音频文件，然后再转换wav格式。再去识别即可。
这里涉及到pydub 的安装。直接pip install pydub安装即可。
ffmpeg安装可以参考：ffmpeg安装
ffmpeg下载一定是static

总结：基本上都是调用百度的api接口就完成语音的识别和合成，但是值得注意的语音识别的要求和条件，就算得到wav格式，建议都转换一下格式。不然识别上会与内容不同。

原文地址：http://blog.csdn.net/HuangZhang_123/article/details/72819145

Python 百度语音识别与合成REST API及ffmpeg使用的更多相关文章

python +百度语音识别+图灵对话
https://github.com/Dongvdong/python_Smartvoice 上电后,只要周围声音超过 2000,开始录音5S 录音上传百度识别,并返回结果文字输出继续等待,周围声音 ...
基于百度语音识别API的Python语音识别小程序
一.功能概述实现语音为文字,可以扩展到多种场景进行工作,这里只实现其基本的语言接收及转换功能. 在语言录入时,根据语言内容的多少与停顿时间,自动截取音频进行转换. 工作示例: 二.软件环境操作系统 ...
python录音并调用百度语音识别接口
#!/usr/bin/env python import requests import json import base64 import pyaudio import wave import os ...
[python]百度语音rest api
百度语音识别提供的api范例只有java, c, php. 如果使用Python, 需要注意: 语音文件长度是指bytes大小可以通过len(file.read())获得使用requests.po ...
C# 10分钟完成百度语音技术（语音识别与合成）——入门篇
我们已经讲了人脸识别(入门+进阶).图片识别(入门).下面是链接: C# 10分钟完成百度人脸识别——入门篇 C# 30分钟完成百度人脸识别——进阶篇(文末附源码) C# 10分钟完成百度图片提取文字 ...
百度语音识别REST API——通过使用Http网络请求方式获得语音识别功能
百度语音识别通过REST API的方式给开发人员提供一个通用的HTTP接口,基于该接口,开发人员能够轻松的获取语音识别能力,本文档描写叙述了使用语音识别服务REST API的方法. 长处: 较之开发人 ...
python调用百度语音识别接口实时识别
1.本文直接上干货奉献代码:https://github.com/wuzaipei/audio_discern/tree/master/%E8%AF%AD%E9%9F%B3%E8%AF%86%E5% ...
百度语音识别API初探
近期想做个东西把大段对话转成文字.用语音输入法太慢,所以想到看有没有现成的API,网上一搜,基本就是百度和讯飞. 这里先看百度的笔者使用的是Java版本号的下载地址:http://bos.nj.b ...
百度语音识别REST API用法（含JAVA代码）——不须要集成SDK的方法
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/zpf8861/article/details/32329457 上一篇文章http://blog.c ...

随机推荐

标准的 C++ 由三个重要部分组成
标准的 C++ 由三个重要部分组成: 核心语言,提供了所有构件块,包括变量.数据类型和常量,等等.C++ 标准库,提供了大量的函数,用于操作文件.字符串等.标准模板库(STL),提供了大量的方法,用于 ...
REFLECTOR和FILEDISASSEMBLER的下载与使用
.NET Reflector 下载地址 http://www.aisto.com/roeder/dotnet FileDisassembler 下载地址 http://www.denisbauer.c ...
smb使用 ------转载自http://blog.csdn.net/tlaff/article/details/5463068
一.在Linux系统中查看网络中Windows共享文件及Linux中的Samba共享文件: 常用到smbclient:用法如下 [root@localhost ~]# smbclient -L / ...
CleanMyMac 3.7.5最强中文版_激活码_破解版_下载_注册码
版权归作者所有,任何形式转载请联系作者.作者:缘来远去(来自豆瓣)来源:https://www.douban.com/note/612586476/ 最新版CleanMyMac 3中文版本已经发布快要 ...
js中的var
vars变量预解析 JavaScript中,你可以在函数的任何位置声明多个var语句,并且它们就好像是在函数顶部声明一样发挥作用,这种行为称为 hoisting(悬置/置顶解析/预解析).当你使用了一 ...
阮一峰---javascript系列
2013.05.11:如何做到 jQuery-free?(29条评论) 2013.01.23:JavaScript Source Map 详解(14条评论) 2013.01.14:Javascript ...
Phpcms v9专题分类增加模板设置的方法
Phpcms v9专题设置里面,默认专题子分类是无模板设置的,本文教你通过官方论坛给出的教程实现专题分类增加模板设置.先来看看默认专题子分类设置界面: 修改后的的专题子分类设置界面多了模板设置: 修改 ...
CSS3 经典教程系列：CSS3 圆角（border-radius）详解
http://www.cnblogs.com/lhb25/archive/2013/01/30/css3-border-radius.html 特别好的一篇文章
C#字符串二进制互换
static void Main(string[] args) { string str = "宋军辉"; Cons ...
Android程序增加代码混淆器
增加代码混淆器.主要是增加proguard-project.txt文件的规则进行混淆,之前新建Android程序是proguard.cfg文件能够看一下我採用的通用规则(proguard-proje ...

Python 百度语音识别与合成REST API及ffmpeg使用

Python 百度语音识别与合成REST API及ffmpeg使用的更多相关文章

随机推荐

热门专题