Python 将中文转拼音】的更多相关文章

闲着没事写了个小工具,将中文转拼音后填充到url做参数并写如excel 一.先看下演示,是个什么东西 二.代码 代码用到一个中文转拼音的库,库是网上下的,稍微做了下修改,已经找不原来下载的地址了,然后需要装个pywin32库,用来写excel表格的,下面看代码. #!/usr/bin/env python # coding=utf-8# Author: ca0gu0 from lib.chinese2pinyin import search from time import sleep impo…
文字转拼音 import os.path class PinYin(object): def __init__(self): self.word_dict = {} def load_word(self, dict_file): self.dict_file = dict_file if not os.path.exists(self.dict_file): raise IOError("No Found Dict File.") with open(self.dict_file) a…
本文的代码,从https://github.com/cleverdeng/pinyin.py升级得来,针对原文的代码,做了以下升级:     1 2 3 4 1.可以传入参数firstcode:如果为true,只取汉子的第一个拼音字母:如果为false,则会输出全部拼音: 2.修复:如果为英文字母,则直接输出: 3.修复:如果分隔符为空字符串,仍然能正常输出: 4.升级:可以指定词典的文件路径 代码很简单,直接读取了一个词典(字符和英文的映射),然后挨个替换中文中的拼音即可:          …
Python 获取中文的首字母 和 全部拼音首字母 代码如下: import pinyin def getStrAllAplha(str): return pinyin.get_initial(str, delimiter="").upper() def getStrFirstAplha(str): str=getStrAllAplha(str) str=str[:] return str.upper() str = '你好在哪来' print(getStrAllAplha(str))…
C#中文转换为拼音NPinyin代码  在Mono 3.2下运行正常,Spacebuilder 有使用到NPinyin组件,代码兼容性没有问题. using System; using System.Collections.Generic; using System.Text; using NPinyin; namespace NPinyinTest { class Program { static void Main(string[] args) { string[] maxims = new…
用来得到中文的首字母: 这个是将中文转换为拼音的类:charset <?php/*** 汉字转化为拼音,拼音转化为汉字**/ class charset{private $_code=array(array("a",'-20319'),array("ai",'-20317'),array("an",'-20304'),array("ang",'-20295'),array("ao",'-20292')…
python matplotlib 中文显示参数设置 方法一:每次编写代码时进行参数设置 #coding:utf-8import matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签plt.rcParams['axes.unicode_minus']=False #用来正常显示负号#有中文出现的情况,需要u'内容'方法二:import matplotlibmatplotlib.matplotl…
//php获取中文字符拼音首字母 function getFirstCharter($str){ if(empty($str)){return '';} $fchar=ord($str{}); }); $s1=iconv('UTF-8','gb2312',$str); $s2=iconv('gb2312','UTF-8',$s1); $s=$s2==$str?$s1:$str; $asc=ord($s{})*+ord($s{})-; &&$asc<=-) return 'A'; &a…
python的中文处理还是比较麻烦的,utf-8的字符串的长度是1-6个字符,一不小心就会从中截断,出现所谓的乱码.下面这个函数提供了,从一段utf-8编码的字符串中,截取固定长度的字串.ord(char)将字符转换称整数,根据utf-8的编码规则,确定每个utf-8的字占用几个字符,从而避免截断的情况.参数:  string  :utf-8字符串,如果是别的字符编码,请先转换成utf-8(推荐所有字符串和文件都用utf-8格式的)  length :字符数(注意不是中文字的个数) 题外话:py…
using System; using System.Collections.Generic; using System.Linq; using System.Text; namespace SU { /// <summary> /// 中文转拼音 /// </summary> public class PinYin { #region 字符集 private static readonly string[] _charIndex = new string[] { "1&…
SQL 用中文的拼音和笔画排序   城市按拼音排序: SELECT chineseName FROM [表名] order by chinesename collate Chinese_PRC_CS_AS_KS_WS asc 城市按笔划排序: SELECT chineseName FROM [表名] order by chinesename collate Chinese_PRC_Stroke_CS_AS_KS_WS   asc 以上代码中GD上调试通过. 多说两句,排序规则名称由两部份构成,前…
python 读取中文文件后,作为参数使用,经常会遇到乱码或者报错asii错误等. 我们需要对中文进行decode('gbk') 如我有一个data.txt文件有如下内容: 百度 谷歌 现在想读取文件中内容构建查询语句代码如下: f=open('data.txt','r') for i in f.readlines(): data_line=i.strip() data=data_line.decode("gbk") print "this is %s"%data…
Mono 3.2 测试NPinyin 中文转换拼音代码   C#中文转换为拼音NPinyin代码  在Mono 3.2下运行正常,Spacebuilder 有使用到NPinyin组件,代码兼容性没有问题. using System; using System.Collections.Generic; using System.Text; using NPinyin; namespace NPinyinTest { class Program { static void Main(string[]…
这篇博客根据中文自然语言预处理的步骤分成几个板块.以做LDA实验为例,在处理数据之前,会写一个类似于实验报告的东西,用来指导做实验,OK,举例: 一,实验数据预处理(python,结巴分词)1.对于爬取的评论做分词和词性标注处理(mac-result.txt)2.对于结果只用公版的停用词表去停用词,不进行人工筛选(mac-result1.txt)3.保留:名词,名词短语(两者为评论描述主题) 形容词,动词,动词短语(对主题的描述)以及其他可能有实意的词   去除:副词,标点,拟声词等无实意词包括…
这篇文章主要介绍了Python BeautifulSoup中文乱码问题的2种解决方法,需要的朋友可以参考下 解决方法一: 使用python的BeautifulSoup来抓取网页然后输出网页标题,但是输出的总是乱码,找了好久找到解决办法,下面分享给大家 首先是代码 复制代码 代码如下: 在刚开始测试的时候发现,虽然输出是乱码的,但是写在文件里面却是正常的.然后在网上找了找解决办法才发现 print一个对象的逻辑:内部是调用对象的__str__得到对应的字符串的,此处对应的是soup的__str__…
//php获取中文字符拼音首字母 function getFirstCharter($str){ if(empty($str)){ return ''; } $fchar = ord($str{0}); if($fchar >= ord('A') && $fchar <= ord('z')){ return strtoupper($str{0}); } $s1=iconv('UTF-8','gb2312',$str); $s2=iconv('gb2312','UTF-8',$s…
google了很多次才发现在国外网站上有提示如何比较中文,原文地址:http://www.webdeveloper.com/forum/showthread.php?t=9365 前提:使用Unicode 编码,如果其他GBK此方法应该就不行! 定义和用法 用本地特定的顺序来比较两个字符串. stringObject.localeCompare(target) target:要以本地特定的顺序与 stringObject 进行比较的字符串 测试1: var str="北京"; var…
Xamarin写Android程序时,通常要使用按中文首字母分组显示(如通讯录) . 于是需要被迫包含CJK,不过包含后包肯定是会变大的,于是....自己写了一个硬枚举的中文转拼音的类. 原理是这样的: public class PinYinUtils { private static readonly Dictionary<string, string> PinYinDict = new Dictionary<string, string> { {"猿", &…
python 清洗中文文件 需要用到的两个链接: 1,unicode编码转换器 http://www.bangnishouji.com/tools/chtounicode.html 2,Python匹配中文的正则表达式 http://www.jb51.net/article/83975.htm # -*- coding:utf-8 -*- import re import os ''' python3.5 存在bug,清洗前先清理如下的链接: img src="//p3.pstatp.com/l…
目录 python与中文的那点事 1. utf-8/gbk/unicode/ASCII 2.各种编码之间的转换 3. 统计字符串中数字,字母,汉字的个数 python与中文的那点事 在学习python的过程中,发现在python2与python3中对中文的处理有所不同,所以这篇文章就来探讨一下这些不同 1. utf-8/gbk/unicode/ASCII   我们都知道,在计算机内部所有的信息都可以被表示成二进制的字符串,每一个二进制位有1和0两种状态,因此8位的二进制数可以表示256种状态,这…
python matplotlib 中文显示乱码设置 原因:是matplotlib库中没有中文字体.1 解决方案:1.进入C:\Anaconda64\Lib\site-packages\matplotlib\mpl-data该文件夹下就能看到matplotlibrc配置文件,打开该配置文件 找到下面这行:然后,将前面的注释去掉,save. #font.serif : Bitstream Vera Serif, New Century Schoolbook, Century Schoolbook…
一.简介 有时候,须要将汉字编程相应的拼音.以方便数据的处理.比方在Android手机应用的开发上.要查询联系人的姓名.通常都是用拼音进行查询的. 比方要查询"曹孟德",就能够输入"cmd",即"曹孟德"三个汉字的拼音"caomengde"各字的首字母.可是如何才干将"曹孟德"翻译成"caomengde"呢? 非常easy的办法就是建立一个大的对比表(比方用关联容器Map),比方<…
python爬虫中文乱码 前几天用python来爬取全国行政区划编码的时候,遇到了中文乱码的问题,折腾了一会儿,才解决.现特记录一下,方便以后查看. 我是用python的requests和bs4库来实现爬虫,这两个库的简单用法可参照python爬取当当网的书籍信息并保存到csv文件 乱码未处理前部分代码 url = '要爬取的网页' r = requests.get(url, timeout=30) soup = BeautifulSoup(r.text, 'lxml') 乱码原因 我爬取的网页…
参考:什么是字符编码? 参考:Unicode 和 UTF-8 有何区别? 参考:python中文decode和encode转码 一.相关说明 Python 中关于字符串的操作只限于英文字母,当进行中文字符的操作的时候就会报错,以下将相关操作方法进行展示. 写在前面:如何获得系统的默认编码 ? >>> import sys >>> print sys.getdefaultencoding() ascii 通过如下代码查询不同的字符串所使用的编码,具体操作详见:用chard…
项目地址:https://code.google.com/p/npinyin/ 在一个采集的程序中,为了给每个文章起一个别名,据说有很好的别名的话,对于百度.google的收录 是很有好处的.按照Seo的说明,百度的URL,可以用拼音,英文谷歌的URL,可以用英文命名.网站主要 面向国内,而且大部分是国内信息,所以觉得使用中文的拼音作为文章的别名是极好的. 这里分2个步骤来做的,第一步主要是把采集的文章名字取出关键字来,这个另列文章说明吧.其实也没啥大不了的, 就是用盘古分词,是一个中英文分词组…
Java 中文转换拼音工具 /** * <html> * <body> * <P> Copyright 1994 JsonInternational</p> * <p> All rights reserved.</p> * <p> Created on 19941115</p> * <p> Created by Jason</p> * </body> * </html&…
python listdir() 中文路径 中文文件夹 乱码 解决方法 listdir(path)返回的结果的编码似乎和我们提供的 path 参数的编码有关: path = 'd:/test' try: path = unicode(path, 'utf-8') # 经过编码处理 except: pass # python3 已经移除 unicode,而且默认是 utf8 编码,所以不用转 listdir(path) 这样,就算 path 下有中文的文件和文件夹,我们获得的结果是 utf-8 的…
Pinyin 基于 CC-CEDICT 词典的中文转拼音工具,更准确的支持多音字的汉字转拼音解决方案. 安装 使用 Composer 安装: $ composer require "overtrue/pinyin:~4.0" 使用 可选转换方案: 内存型,适用于服务器内存空间较富余,优点:转换快 小内存型(默认),适用于内存比较紧张的环境,优点:占用内存小,转换不如内存型快 I/O型,适用于虚拟机,内存限制比较严格环境.优点:非常微小内存消耗.缺点:转换慢,不如内存型转换快,php &…
1.如何获取中文字符串的首字母 import pinyin #输入name def get_pinyin_first_alpha(name): return "".join([i[0] for i in pinyin.get(name, " ").split(" ")]) 2. 判断文件夹是否存在, 存在删除,不存在创建 import os import shutil def create_folder(train_data_path ): if…
# -*- coding: utf-8 -*-import sys def openTable(): f = open('gb-pinyin.table', 'r') table = f.read() f.close() return table def searchPinyin(num, table): if(num>0 & num<160): return chr(num) v=table.split(';') for i in xrange(len(v)-1,-1,-1): s=…