Unicode浅析——调用科大讯飞语音合成接口（日语）所遇到的天坑

　　如题，最近做的项目需要调用科大讯飞的语音合成接口，将日文合成日语。然后坑爹的是跟我对接的那一方直接扔过来一份接口文档，里面并未提及日语合成所需要的参数。中文、英文合成倒是没问题，就这个日语合成的音频始终听起来不对。后来对接方说文本需要unicode编码，但具体如何编码他们也不清楚。这回至少有了思路，就拿文本做各种unicode编码。随后试来试去，好歹给试出来了是哪种unicode编码。这次天坑也算是知道了些unicode的皮毛。

　　Unicode，全称Universal Multiple-Octet Coded Character Set，通用多八位编码字符集，它是一套字符集，也是一套编码方案。字符我们知道，比如“中”就是一个字符，那啥是字符编码？字符编码是给计算机识别字符用的。计算机只知道0和1，比如“中”要让计算机表示出来，就必须将它转换为0和1，怎么转的就是字符编码搞定的。既然提到字符编码，离不开字符集，因为字符编码又是通过字符集来实现的。

　　字符集就是字符的集合，比如美国人制定的ASCII字符集包含了256个字符，用来表示英文字母、数字、标点符号、控制符等，而国人则制定了中文字符集GB2312，以及它的进化版GBK、GB18030。那么问题来，ASCII是单字节（8位），撑死了表示256个字符；GB2312、GBK是双字节，虽说能耐大些，也就撑死了表示65536个字符；GB18030已经增加到四字节了，但其他国家怎么办呢？它们不见得乐意用咱们的GB系列，都自立为王搞一套，那就都乱套了。为了能一劳永逸的解决字符集的问题，国际标准组织出手了，它搞出了一套四字节编码的字符集，包罗万象，管你英文还是中文，日文还是韩文，世界上所有语言的字符它大小通吃。

　　Unicode如此霸气侧漏，但我们需要注意一下，它不是一个具体的字符集，而是一套字符集，包括UTF-8、UTF-16、UTF-32等，这些字符集合起来就是一套编码方案。UTF，全称Unicode Transformation Format，如果是以8位（单字节）进行编码，就是UTF-8，同理，以双字节（16位）编码就是UTF-16，四字节就是UTF-32。Unicode的“字符”就是编码点（code point），通常写成 16 进制的形式再加前缀“U+”，例如“中”的编码点是U+4e2d。UTF-32空间开销太多，用的并不多。其实Unicode默认用的是UTF-16。最常用的是 UTF-8 ，它根据不同的字符进行不同的编码，可变的存储为 1 到 4 个字节，空间开销最小。

　　UTF-8单字节不存在字节序列问题，UTF-16、UTF-32就需要注意大小端点问题了。具体用个例子来说明比说一堆废话好理解，比如现在我用UTF-16表示“中”这个字符，因为有两个字节，那么这两个字节哪个先出现呢？大端点的编码点表示是U+4e2d，小端点的编码点则为：U+2d4e。Unicode默认使用一个BOM（Byte Order Mark，字节序列标记）来让计算机识别是大端还是小端，如果是大端则BOM字节码为：U+FEFF，反之小端使用U+FFFE。注意这个BOM是多出来标记，不表示有效字符。综合起来，存在3种表示方法，UTF-16BE（BE，Big Endian，大端点）、UTF-16LE（LE，Little Endian，小端点）和UTF-16（通过BOM识别大小端）。

　　说了这么多，不再废话，直接上代码吧：

import java.io.*;

import java.util.Arrays;

public class UnicodeTest {

    /**

     * 将字节转16进制数组

     *

     * @param bytes

     * @return

     */

    public static String[] toHexArr(byte[] bytes) {

        String[] hexArr = new String[bytes.length];

        for (int i = 0; i < bytes.length; i++) {

            String s = Integer.toHexString(bytes[i]);

            if (s.length() == 1) {

                s = "0" + s;

            }

            s = "0x" + s;

            hexArr[i] = s;

        }

        return hexArr;

    }

    /**

     * 将字节转字码点

     *

     * @param bytes

     * @return

     */

    public static String byteToUnicode(byte[] bytes) {

        StringBuffer out = new StringBuffer();

        //将其byte转换成对应的16进制表示

        for (int i = 0; i < bytes.length - 1; i += 2) {

            out.append("\\u");

            String str = Integer.toHexString(bytes[i + 1] & 0xff);

            for (int j = str.length(); j < 2; j++) {

                out.append("0");

            }

            String str1 = Integer.toHexString(bytes[i] & 0xff);

            out.append(str1);

            out.append(str);

        }

        return out.toString();

    }

    public static void printCode(String s) {

        try {

            System.out.println("字符串编码：");

            byte[] bytes1 = s.getBytes("UNICODE");

            byte[] bytes2 = s.getBytes("UTF-16");

            byte[] bytes3 = s.getBytes("UTF-16BE");

            byte[] bytes4 = s.getBytes("UTF-16LE");

            byte[] bytes5 = s.getBytes("utf-8");

            System.out.println("16进制：");

            System.out.println("unicode : " + Arrays.toString(toHexArr(bytes1)));

            System.out.println("utf-16  : " + Arrays.toString(toHexArr(bytes2)));

            System.out.println("utf-16be: " + Arrays.toString(toHexArr(bytes3)));

            System.out.println("utf-16le：" + Arrays.toString(toHexArr(bytes4)));

            System.out.println("utf-8   ：" + Arrays.toString(toHexArr(bytes5)));

            System.out.println("unicode编码点：");

            System.out.println("unicode : " + byteToUnicode(bytes1));

            System.out.println("utf-16  : " + byteToUnicode(bytes2));

            System.out.println("utf-16be: " + byteToUnicode(bytes3));

            System.out.println("utf-16le：" + byteToUnicode(bytes4));

            System.out.println("utf-8   ：" + byteToUnicode(bytes5));

            System.out.println("字节数组：");

            System.out.println("unicode : " + Arrays.toString(bytes1));

            System.out.println("utf-16  : " + Arrays.toString(bytes2));

            System.out.println("utf-16be: " + Arrays.toString(bytes3));

            System.out.println("utf-16le：" + Arrays.toString(bytes4));

            System.out.println("utf-8   ：" + Arrays.toString(bytes5));

            System.out.println("字符串解码: ");

            System.out.println("unicode : " + new String(bytes1, "unicode"));

            System.out.println("utf-16  : " + new String(bytes2, "utf-16"));

            System.out.println("utf-16be: " + new String(bytes3, "utf-16be"));

            System.out.println("utf-16le：" + new String(bytes4, "utf-16le"));

            System.out.println("utf-8   ：" + new String(bytes5, "utf-8"));

        } catch (UnsupportedEncodingException e) {

            e.printStackTrace();

        }

    }

    public static void main(String[] args) {

        String s = "中华人民共和国";

        String s1 = "おはよう";

        System.out.println("字符串内容：" + s);

        printCode(s);

        System.out.println("字符串内容：" + s1);

        printCode(s1);

    }

}

　　输出：

字符串内容：中华人民共和国

字符串编码：

16进制：

unicode : [0xfffffffe, 0xffffffff, 0x4e, 0x2d, 0x53, 0x4e, 0x4e, 0xffffffba, 0x6c, 0x11, 0x51, 0x71, 0x54, 0xffffff8c, 0x56, 0xfffffffd]

utf-16  : [0xfffffffe, 0xffffffff, 0x4e, 0x2d, 0x53, 0x4e, 0x4e, 0xffffffba, 0x6c, 0x11, 0x51, 0x71, 0x54, 0xffffff8c, 0x56, 0xfffffffd]

utf-16be: [0x4e, 0x2d, 0x53, 0x4e, 0x4e, 0xffffffba, 0x6c, 0x11, 0x51, 0x71, 0x54, 0xffffff8c, 0x56, 0xfffffffd]

utf-16le：[0x2d, 0x4e, 0x4e, 0x53, 0xffffffba, 0x4e, 0x11, 0x6c, 0x71, 0x51, 0xffffff8c, 0x54, 0xfffffffd, 0x56]

utf-8   ：[0xffffffe4, 0xffffffb8, 0xffffffad, 0xffffffe5, 0xffffff8d, 0xffffff8e, 0xffffffe4, 0xffffffba, 0xffffffba, 0xffffffe6, 0xffffffb0, 0xffffff91, 0xffffffe5, 0xffffff85, 0xffffffb1, 0xffffffe5, 0xffffff92, 0xffffff8c, 0xffffffe5, 0xffffff9b, 0xffffffbd]

unicode编码点：

unicode : \ufeff\u4e2d\u534e\u4eba\u6c11\u5171\u548c\u56fd

utf-16  : \ufeff\u4e2d\u534e\u4eba\u6c11\u5171\u548c\u56fd

utf-16be: \u4e2d\u534e\u4eba\u6c11\u5171\u548c\u56fd

utf-16le：\u2d4e\u4e53\uba4e\u116c\u7151\u8c54\ufd56

utf-8   ：\ue4b8\uade5\u8d8e\ue4ba\ubae6\ub091\ue585\ub1e5\u928c\ue59b

字节数组：

unicode : [-2, -1, 78, 45, 83, 78, 78, -70, 108, 17, 81, 113, 84, -116, 86, -3]

utf-16  : [-2, -1, 78, 45, 83, 78, 78, -70, 108, 17, 81, 113, 84, -116, 86, -3]

utf-16be: [78, 45, 83, 78, 78, -70, 108, 17, 81, 113, 84, -116, 86, -3]

utf-16le：[45, 78, 78, 83, -70, 78, 17, 108, 113, 81, -116, 84, -3, 86]

utf-8   ：[-28, -72, -83, -27, -115, -114, -28, -70, -70, -26, -80, -111, -27, -123, -79, -27, -110, -116, -27, -101, -67]

字符串解码:

unicode : 中华人民共和国

utf-16  : 中华人民共和国

utf-16be: 中华人民共和国

utf-16le：中华人民共和国

utf-8   ：中华人民共和国

字符串内容：おはよう

字符串编码：

16进制：

unicode : [0xfffffffe, 0xffffffff, 0x30, 0x4a, 0x30, 0x6f, 0x30, 0xffffff88, 0x30, 0x46]

utf-16  : [0xfffffffe, 0xffffffff, 0x30, 0x4a, 0x30, 0x6f, 0x30, 0xffffff88, 0x30, 0x46]

utf-16be: [0x30, 0x4a, 0x30, 0x6f, 0x30, 0xffffff88, 0x30, 0x46]

utf-16le：[0x4a, 0x30, 0x6f, 0x30, 0xffffff88, 0x30, 0x46, 0x30]

utf-8   ：[0xffffffe3, 0xffffff81, 0xffffff8a, 0xffffffe3, 0xffffff81, 0xffffffaf, 0xffffffe3, 0xffffff82, 0xffffff88, 0xffffffe3, 0xffffff81, 0xffffff86]

unicode编码点：

unicode : \ufeff\u304a\u306f\u3088\u3046

utf-16  : \ufeff\u304a\u306f\u3088\u3046

utf-16be: \u304a\u306f\u3088\u3046

utf-16le：\u4a30\u6f30\u8830\u4630

utf-8   ：\ue381\u8ae3\u81af\ue382\u88e3\u8186

字节数组：

unicode : [-2, -1, 48, 74, 48, 111, 48, -120, 48, 70]

utf-16  : [-2, -1, 48, 74, 48, 111, 48, -120, 48, 70]

utf-16be: [48, 74, 48, 111, 48, -120, 48, 70]

utf-16le：[74, 48, 111, 48, -120, 48, 70, 48]

utf-8   ：[-29, -127, -118, -29, -127, -81, -29, -126, -120, -29, -127, -122]

字符串解码:

unicode : おはよう

utf-16  : おはよう

utf-16be: おはよう

utf-16le：おはよう

utf-8   ：おはよう

Unicode浅析——调用科大讯飞语音合成接口（日语）所遇到的天坑的更多相关文章

Python实战---制作专属有声小说（调用百度语音合成接口）
这一次的目标是使用百度云的人工智能接口,实现文字转语音的实时转换,将小说文字转换成语音朗读出来. 百度云接口调用百度的这个接口对于我们普通用户非常友好,他的很多功能都是免费的,而且我们每天可以免费调 ...
科大讯飞语音合成系统 V5.0绿色便携版
中文名: 中科大讯飞Interphonic 5.0语音合成系统英文名: Interphonic 5.0版本: 5.0发行时间: 2006年制作发行: 中科大讯飞语言: 简体中文系统简介InterPho ...
C#将科大讯飞语音合成文件转换为MULAW音频格式
任务描述:通过科大讯飞语音合成组件在线完成文本转语音的合成,然后再转换为电话系统IVR要求的音频格式: wave mu-law 16位 8kHZ 64kbps. 完成步骤: 首先,我们要先通过科大讯飞 ...
python调用支付宝支付接口
python调用支付宝支付接口详细示例—附带Django demo代码项目演示: 一.输入金额二.跳转到支付宝付款三.支付成功四.跳转回自己网站在使用支付宝接口的前期准备: 1.支付宝公 ...
java调用CXF WebService接口的两种方式
通过http://localhost:7002/card/services/HelloWorld?wsdl访问到xml如下,说明接口写对了. 2.静态调用 // 创建WebService客户端代理工厂 ...
java获取https网站证书，附带调用https:webservice接口
一.java 获取https网站证书: 1.创建一个java工程,新建InstallCert类,将以下代码复制进去 package com; import java.io.BufferedReader ...
asp.net mvc 如何调用微信jssdk接口：分享到微信朋友（圈）| 分享到qq空间
如何在asp.net mvc 项目里, 调用微信jssdk接口,现实功能: 分享到微信朋友(圈)| 分享到qq空间 1 创建一个Action,准备一些数据,初始化数据(签名): /// <sum ...
关于微信网页调用js-sdk相关接口注意事项目（一级域名与二级域名互相干扰！！！）
不知道有没有网友遇到过同一个web应用用不同的域名(一级或二级域名)在两个公众号中调用JSSDK相关接口实现功能, 这种做法本来没有问题,问题在于用二级域名(同属一级域名下的二级域名)绑定另一个web ...
JS调用腾讯接口获取天气
想做个直接通过JS获取某个城市的天气.本来想通过直接调用中国气象网的接口: http://www.weather.com.cn/weather/101070201.shtml,但是跨域问题一直无法解决 ...

随机推荐

python_面向对象——多继承
1.多继承 class Shenxian: def fly(self): print('神仙会飞~') class Monkey: def eat_peach(self): print('猴子喜欢吃桃 ...
六、用DataContractSerialize类序列化XML
一.层次结构基类:XmlObjectSerializer 派生类: DataContractSerializer NetDataContractSerializer DataContractJson ...
sql server update inner join on 的使用
假定我们有两张表,一张表为Product表存放产品信息,其中有产品价格列Price:另外一张表是ProductPrice表,我们要将ProductPrice表中的价格字段Price更新为Price表中 ...
学到了林海峰,武沛齐讲的Day17-5 内置函数
zip print(list(zip(('a','n','c','d'),(1,2,3)))) =====[('a', 1), ('n', 2), ('c', 3)] 一一对应====元组变列表 ...
AcWing P164 可达性统计题解
Analysis 这道题我一开始想到的是传递闭包,但是时间复杂度是n³,也开不下30000*30000的数组,所以我想到了拓扑+状态压缩(bitset),从后往前找,把能到达的点能到哪里用位运算赋到上 ...
Mongodb 查询优化（慢查询Profiling）
开启慢查询Profiling Profiling级别说明 0:关闭,不收集任何数据. 1:收集慢查询数据,默认是100毫秒. 2:收集所有数据 1.通过修改配置文件开启Profiling 修改启动mo ...
wepy小程序项目
# 安装(更新) wepy 命令行工具. cnpm install wepy-cli -g # 安装依赖包 cnpm install # 开发实时编译. npm run dev WePY开发文档参考 ...
P1613 跑路——倍增思想，floyd
https://www.luogu.org/problemnew/show/P1613 他有一个跑路机器,每次只能跑2k (单位)路程,每相邻两个点的路程为1,也就是说如果连边1——>2—— ...
ansible 任务流程控制
一.任务委托默认情况下,ansible的所有任务都是在指定的机器上运行的,当在一个独立的群集环境中配置时,但是只想操作其中的某一台主机,或者在特定的主机上运行,此时就需要用到ansible的任务委托 ...
checkbox取反
var qxs = document.getElementsByName("qx"); for(var i=0;i<qxs.length;i++){ var e=qxs[ ...

Unicode浅析——调用科大讯飞语音合成接口（日语）所遇到的天坑

Unicode浅析——调用科大讯飞语音合成接口（日语）所遇到的天坑的更多相关文章

随机推荐

热门专题