各大厂的语音识别Speech To Text API使用体验

最近发现有声读物能极大促进我的睡眠，但每个前面都有一段开场语，想把它剪掉，但是有多个开场语，所以就要用到语音识别判断一下再剪。

前两年在本地搭建过识别的环境，奈何识别准确率不行，只能找找API了，后面有时间再弄本地的吧。下面是几个大厂提供的服务，就我个人使用来看，讯飞 > Google > IBM，

但在中文识别准确度上，讯飞是最强的。

Oracle：

被它的Always Free计划吸了一波粉，但是提供的转写服务不支持中文，pass

IBM

优点：有一定的持续免费额度

缺点：准确度不够，官网访问有点慢

乱写的示例：

#coding:utf-8

'''

@version: python3.8

@author: ‘eric‘

@license: Apache Licence

@contact: steinven@qq.com

@software: PyCharm

@file: ibm.py

@time: 2021/6/16 23:05

'''

from __future__ import print_function

import traceback

apikey = ''

url = ''

from watson_developer_cloud import SpeechToTextV1

service = SpeechToTextV1(

    iam_apikey=apikey,

    url=url)

import os, re

#总资源文件目录

base_dir = r'36041981'

#子目录，存放已被裁剪好的长度为5s的x2m后缀文件（安卓端，喜马拉雅缓存文件），我估计其实就是常用的音频格式，就改了个后缀名

cliped_dir =os.listdir(os.path.join(base_dir,'clip'))

for each in cliped_dir:

    try:

        filename = re.findall(r"(.*?)\.x2m", each)  # 取出.mp3后缀的文件名

        if filename:

            filename[0] += '.x2m'

            with open(os.path.join(base_dir, 'clip', filename[0]),

                      'rb') as audio_file:

                recognize_result = service.recognize(

                    audio=audio_file,

                    content_type='audio/mp3',

                    timestamps=False,

                    #中文模型，CN_BroadbandModel更准确一点

                    model='zh-CN_NarrowbandModel',

                    # model='zh-CN_BroadbandModel',

                    #这两个参数应该是让识别出来的文字更接近于提供的，但实际测试，并没什么用，不知道什么原因

                    # keywords=list(set([x for x in '曲曲于山川历史为解之谜拓展人生的长度广度人生的长度广度和深度由喜马拉雅联合大理石独家推出探秘类大家好欢迎大家订阅历史未解之谜全记录'])),

                    #keywords_threshold=0.1,

                    word_confidence=True).get_result()

                if len(recognize_result['results'])==0:

                    with open('result-1.txt', 'a', encoding='utf-8') as f:

                        f.write('%s-%s\n' % (filename[0], '-'))

                        continue

                final_result = recognize_result['results'][0]['alternatives'][0]['transcript'].replace(' ', '')

                with open('result-1.txt', 'a',encoding='utf-8') as f:

                    f.write('%s-%s\n' % (filename[0], final_result))

    except:

        traceback.print_exc()

        print(each)

Google

优点：识别速度快

缺点：要挂代__理访问,需付费

文档：快速入门：使用客户端库,本地音频文件的话，不要用文档中的代码，可参考我下面的

乱写的示例：

# coding:utf-8

from os import path

AUDIO_FILE = path.join(path.dirname(path.realpath(__file__)), "268675557.mp3")

def transcribe_file(speech_file):

    """Transcribe the given audio file."""

    from google.cloud import speech

    import io

    client = speech.SpeechClient()

    with io.open(speech_file, "rb") as audio_file:

        content = audio_file.read()

    audio = speech.RecognitionAudio(content=content)

    config = speech.RecognitionConfig(

        encoding=speech.RecognitionConfig.AudioEncoding.ENCODING_UNSPECIFIED,

        sample_rate_hertz=16000,

        language_code="zh-CN",

    )

    response = client.recognize(config=config, audio=audio)

    # Each result is for a consecutive portion of the audio. Iterate through

    # them to get the transcripts for the entire audio file.

    for result in response.results:

        # The first alternative is the most likely one for this portion.

        print(u"Transcript: {}".format(result.alternatives[0].transcript))

if __name__ == '__main__':

    transcribe_file(AUDIO_FILE)

讯飞

优点：有限期的免费额度，识别速度快，中文识别最为准确，国内厂商，开发者上手很容易

缺点：识别速度慢，收费，还挺贵

代码就不贴了，官网很容易找到demo

各大厂的语音识别Speech To Text API使用体验的更多相关文章

利用Google Speech API实现Speech To Text
很久很久以前, 网上流传着一个免费的,识别率暴高的,稳定的 Speech To Text API, 那就是Google Speech API. 但是最近再使用的时候,总是返回500 Error. 后来 ...
Speech to Text for iOS
找了一下 speech to text 可以用的 SDK for iOS 以下幾種方案: NDEV Mobile (有免費方案,不過似乎不支援離線,客戶清單中有 wallmart,支援不少語言) iS ...
Csharp: speech to text, text to speech in win
using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; usin ...
mysql connector c++ 1.1 API初步体验
mysql connector c++ 1.1 API初步体验 1,常用的头文件 #include <mysql_connection.h> #include <mysql_driv ...
一次神奇的Azure speech to text rest api之旅
错误Max retries exceeded with url: requests.exceptions.ConnectionError: HTTPSConnectionPool(host='%20e ...
Python 百度语音识别与合成REST API及ffmpeg使用
操作系统:Windows Python:3.5 欢迎加入学习交流QQ群:657341423 百度语音识别官方文档百度语音合成官方文档注意事项:接口支持 POST 和 GET两种方式,个人支持用po ...
<交流贴>android语音识别之科大讯飞语音API的使用
因为最近在研究语音识别,所以借鉴了一下CreAmazing网友的帖子 Android系统本身其实提供有语音识别模块,在它的APIDemo里也有关于语音识别的sample,不过经过大多开发者的真机测 ...
iOS 10 语音识别Speech Framework详解
最近做了一个项目,涉及到语音识别,使用的是iOS的speech Framework框架,在网上搜了很多资料,也看了很多博客,但介绍的不是很详细,正好项目做完,在这里给大家详解一下speech Fram ...
Understand User's Intent from Speech and Text
http://research.microsoft.com/en-us/projects/IntentUnderstanding/ Understanding what users like to d ...

随机推荐

论文解读（IGSD）《Iterative Graph Self-Distillation》
论文信息论文标题:Iterative Graph Self-Distillation论文作者:Hanlin Zhang, Shuai Lin, Weiyang Liu, Pan Zhou, Jian ...
如何对用户的绑定的身份证真实性进行实名认证（java）
现在随着对用户实名制的要求,因此用户提交的身份证信息经查需要检查是否为真实信息,我们需要对用户提交的身份证信息进行核验,具体操作步骤如下: 第一步到认证平台注册账号:云亿互通--实名认证服务 (yu ...
宝藏发现之API接口高效协作神器Apifox
概述背景 Apifox官方地址 https://www.apifox.cn/ 前面文章我们已经围绕微服务展开,缺少一个关键前置流程,那就是API接口设计,而在API接口设计开始前本篇先推荐一个非常好 ...
MySQL 高频面试题，都在这了
点击上方"开源Linux",选择"设为星标"回复"学习"获取独家整理的学习资料! 前言本文主要受众为开发人员,所以不涉及到MySQL的服务 ...
victoriaMetrics无法获取抓取target的问题
victoriaMetrics无法获取抓取target的问题问题描述最近在新环境中部署了一个服务,其暴露的指标路径为:10299/metrics,配置文件如下(名称字段有修改): apiVersi ...
Python图像处理：如何获取图像属性、兴趣ROI区域及通道处理
摘要:本篇文章主要讲解Python调用OpenCV获取图像属性,截取感兴趣ROI区域,处理图像通道. 本文分享自华为云社区<[Python图像处理] 三.获取图像属性.兴趣ROI区域及通道处理 ...
Hapoop安装学习（第一天）
学习任务: 1.安装虚拟机 Linux使用版本为Centos7,共安装3台虚拟机,一台主机和两台从机.主机命名为master,两台从机分别命名为s1和s2. master分配磁盘空间30G,s1和s2 ...
Fail2ban 配置详解配置目录结构说明
/etc/fail2ban/ ├── action.d │ ├── ... ├── fail2ban.conf ├── fail2ban.d ├── filter.d │ ├── ... ├── ja ...
双webview模式，子窗口打不开或者无法切换
iOS 真机调试时,发现window.open 无效.可以结合plusReady里面不执行一起参考,博主在当时遇到这个问题只查询了资料,而后并没有来得及自己亲自验证以下方法的可行性.来日再遇上mui的 ...
Spring Boot整合Swagger报错："this.condition" is null
前段时间看到群里有吐槽swagger整合问题,当时没仔细看,总以为是姿势不对. 这两天正好自己升级Spring Boot版本,然后突然出现了这样的一个错误: Caused by: java.lang. ...

各大厂的语音识别Speech To Text API使用体验

Oracle：

IBM

Google

讯飞

各大厂的语音识别Speech To Text API使用体验的更多相关文章

随机推荐

热门专题