1.问题的叙述性说明

使用Python文本处理。文字有时被包括中国、英语、在日本和其他语言文字，进行处理。这个时候就须要判别当前文本是属于哪个语系的。

Python中有个langid工具包提供了此功能。langid眼下支持97种语言的检測，很好用。

2.程序的代码

下面Python是调用langid工具包来对文本进行语言检測与判别的程序代码：

import langid                                                         #引入langid模块

def translate(inputFile, outputFile):

	fin = open(inputFile, 'r')                                    #以读的方式打开输入文件

	fout = open(outputFile, 'w')                                  #以写的方式打开输出文件

	for eachLine in fin:                                          #依次读入每一行

		line = eachLine.strip().decode('utf-8', 'ignore')     #去除每行的首位空格等。并统一转化成Unicode

		lineTuple = langid.classify(line)                     #调用langid来对该行进行语言检測

		if lineTuple[0] == "zh":                              #假设该行语言大部分为中文，则不进行不论什么处理

			continue

		outstr = line                                         #假设该行语言为非中文，则准备输出

		fout.write(outstr.strip().encode('utf-8') + '\n')     #输出非中文的行，从Unicode转化成utf-8输出

	fin.close()

	fout.close()

if __name__ == '__main__':                                            #相当于main函数

	translate("myInputFile.txt", "myOutputFile.txt")

以上代码是用来处理一个文本。将不属于中文的行依次输出到一个新的文件。

3.注意

第9、10行代码。langid.classify(line)的输出结果是一个二元组，二元组的第一项表示该文本所属的语系，如：zh表示中文、en表示英语、等等；二元组的第二项表示该文本中属于第一项中语系的所占比例。

希望对大家有所帮助。

【Python】Python与文本处理langid工具包的文本语言检测和歧视的更多相关文章

[转]【NLP】干货！Python NLTK结合stanford NLP工具包进行文本处理阅读目录
[NLP]干货!Python NLTK结合stanford NLP工具包进行文本处理原贴: https://www.cnblogs.com/baiboy/p/nltk1.html 阅读目录目 ...
【转】Python之mmap内存映射模块（大文本处理）说明
[转]Python之mmap内存映射模块(大文本处理)说明背景: 通常在UNIX下面处理文本文件的方法是sed.awk等shell命令,对于处理大文件受CPU,IO等因素影响,对服务器也有一定的压力 ...
python 自然语言处理（二）____获得文本语料和词汇资源
一, 获取文本语料库一个文本语料库是一大段文本.它通常包含多个单独的文本,但为了处理方便,我们把他们头尾连接起来当做一个文本对待. 1. 古腾堡语料库 nltk包含古腾堡项目(Project Gut ...
python开发_tkinter_获取文本框内容_给文本框添加键盘输入事件
在之前的blog中有提到python的tkinter中的菜单操作 python开发_tkinter_窗口控件_自己制作的Python IDEL_博主推荐 python开发_tkinter_窗口控件_自 ...
Golang、Php、Python、Java基于Thrift0.9.1实现跨语言调用
目录: 一.什么是Thrift? 1) Thrift内部框架一瞥 2) 支持的数据传输格式.数据传输方式和服务模型 3) Thrift IDL 二.Thrift的官方网站在哪里? 三.在哪里下载?需要 ...
从Scratch到Python——python turtle 一种比pygame更加简洁的实现
从Scratch到Python--python turtle 一种比pygame更加简洁的实现现在很多学校都开设了Scratch课程,学生可以利用Scratch创作丰富的作品,然而Scratch之后 ...
从Scratch到Python——Python生成二维码
# Python利用pyqrcode模块生成二维码 import pyqrcode import sys number = pyqrcode.create('从Scratch到Python--Pyth ...
[Python] Python基础字符串
Python的语法采用缩进的方式,一般使用四个空格,并且是大小写敏感的字符编码计算机只能处理数字,如果要处理文本,必须先把文本转换成数字才能处理采用8个比特(bit)作为一个字节(byte) 一 ...
初识Python - Python的历史(转)
声明: 本文转自维基百科如有意见请联系删除综述该编程语言的Python是在20世纪80年代末的设想,和实施是在1989年12月开始由吉多·范罗苏姆在CWI在荷兰的继任者农行能够异常处理,并与接 ...

随机推荐

流动python - 什么是魔术方法(magic method)
我们经常看到各种各样的方法已经被包围了由双下划线,例如__init__,他们是魔术方法. 魔术方法python语言预订好"协议",在不同情况下不同的魔术方法,是隐式调用.我们重写这 ...
【C语言探索之旅】第一部分第六课：条件表达式
内容简介 1.课程大纲 2.第一部分第六课:条件表达式 3.第一部分第七课预告:循环语句课程大纲我们的课程分为四大部分,每一个部分结束后都会有练习题,并会公布答案.还会带大家用C语言编写三个游戏. ...
VirtualBox创建虚拟电脑、执行Genymotion模拟器报错
当安装完Genynition关于Android应用的调试模拟器之后,在Genymotion执行的平台virtualBox:VirtualBox创建虚拟电脑.执行Genymotion模拟器报错: 错误卖 ...
UVA - 10714 Ants
最多时间就是每仅仅蚂蚁选择最久的爬行方式最少时间就是每仅仅蚂蚁选择最快地爬行方式 #include<iostream> #include<map> #include<s ...
使用shell/python获取hostname/fqdn释疑(转)
一直以来被Linux的hostname和fqdn(Fully Qualified Domain Name)困惑了好久,今天专门抽时间把它们的使用细节弄清了. 一.设置hostname/fqdn 在Li ...
前框（一个）zTree 从数据库树形菜单动态加载
这些天做动态菜单使用此插件.现在有一个非常广泛的开源框架,最新QUI框架是菜单部分使用这个插件开发,因此,它是非常值获取深入的研究和探讨,通过使用非常丰富的感觉功能,己开发和编写,官网上有非常详尽的A ...
转让malloc()该功能后，发生了什么事内核？附malloc()和free()实现源
特此声明:在本文中,引用另一篇文章和帖子,结合的概括的理解malloc()函数的实现机制. 我们常常会在C程序中调用malloc()函数动态分配一块连续的内存空间并使用它们.那么,这些用户空间发生的事 ...
Oracle与Sql Server复制表结构和数据
1.Oracle create table 新表名 AS SELECT * FROM 源表名 2.Sql Server SELECT * into 新表名 from 源表名版权声明:笔者:jiank ...
SVD在推荐系统中的应用
一.奇异值分解SVD 1.SVD原理 SVD将矩阵分为三个矩阵的乘积,公式: 中间矩阵∑为对角阵,对角元素值为Data矩阵特征值λi,且已经从大到小排序,即使去掉特征值小的那些特征,依然可以很好地重构 ...
7-days-asp-dotnet-mvc-day1
目录第 1 天第 2 天第 3 天第 4 天第 5 天第 6 天第 7 天 0. 前言今天是开心的一天.因为我们终于来到了系列学习的最后一节.我相信你喜欢之前的课程,并从中学到了许多. ...

【Python】Python与文本处理langid工具包的文本语言检测和歧视

1.问题的叙述性说明

2.程序的代码

3.注意

【Python】Python与文本处理langid工具包的文本语言检测和歧视的更多相关文章

随机推荐

热门专题