python 读写txt文件并用jieba库进行中文分词

python用来批量处理一些数据的第一步吧。

对于我这样的的萌新。这是第一步。

#encoding=utf-8

file='test.txt'

fn=open(file,"r")

print fn.read()

fn.close()

在控制台输出txt文档的内容，注意中文会在这里乱码。因为和脚本文件放在同一个地方，我就没写路径了。

还有一些别的操作。

这是文件open（）函数的打开mode，在第二个参数中设置。特别需要注意一下。具体还有一些别的细节操作。

http://www.jb51.net/article/87398.htm

可以具体看上面这个博主，自己做test熟悉。我只是做一个简单的操作test。

这里用jieba库，对文档做一个中文分词的操作，以便我们以后对这些txt文档进行更好的分类操作。

http://www.oschina.net/p/jieba/?fromerr=5wT4rbGx

具体可以看这个。jieba库的安装很方便，只要安装了pip，配置好了环境变量。

在命令行输入

pip install jieba

就可以自行安装了。

我试了他的几个函数，不知道为什么不能正常地在txt文档输出结果。= =只有一个可以正常使用。

（2017.05.19补充：其中所有的函数都可以在txt文档输出结果，只需要在前面加上三行代码即可。）

import sys

reload(sys)

sys.setdefaultencoding( "utf-8" )

具体原因可以参照http://www.cnblogs.com/weedboy/p/6862158.html

#encoding=utf-8

import jieba

import jieba.posseg as pseg

import re

filename='result.txt'

fileneedCut='test.txt'

fn=open(fileneedCut,"r")

f=open(filename,"w+")

for line in fn.readlines():

    words=pseg.cut(line)

    for w in words:

        print >>f,str(w)

f.close()

fn.close()

把需要分词的txt放到脚本同一目录就好了。

后面是词的属性，左边是test文件，右边reault文件，和最流行的ICTCLAS的分词后属性貌似是一致的。= =。有点迷。

python 读写txt文件并用jieba库进行中文分词的更多相关文章

python操作txt文件中数据教程[1]-使用python读写txt文件
python操作txt文件中数据教程[1]-使用python读写txt文件觉得有用的话,欢迎一起讨论相互学习~Follow Me 原始txt文件程序实现后结果程序实现 filename = '. ...
Python读写txt文件时的编码问题
这个问题来自于一个小伙伴,他在处理中文数据时需要先把里面的文本过滤然后分词,因为里面有许多符号,不仅是中文标点符号,还有✳,emoji等奇怪的符号. 正常情况下,中文的str经过encode('utf ...
python读写txt文件
整理平常经常用到的文件对象方法: f.readline() 逐行读取数据方法一: >>> f = open('/tmp/test.txt') >>> f.rea ...
python操作txt文件中数据教程[4]-python去掉txt文件行尾换行
python操作txt文件中数据教程[4]-python去掉txt文件行尾换行觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考文章 python操作txt文件中数据教程[1]-使用pyt ...
python操作txt文件中数据教程[3]-python读取文件夹中所有txt文件并将数据转为csv文件
python操作txt文件中数据教程[3]-python读取文件夹中所有txt文件并将数据转为csv文件觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考文献 python操作txt文件中 ...
python写入txt文件时的覆盖和追加
python写入文件时的覆盖和追加在使用Python进行txt文件的读写时,当打开文件后,首先用read()对文件的内容读取,然后再用write()写入,这时发现虽然是用"r+" ...
python 读写TXT，安装pandas模块。
今天需要用python读TXT 文件,发现pandas库好用,所以就去下载,没想pythoncharm中的setting中下载失败,所以去下源文件,安装pandas 是提示得先装numpy库,于是又去 ...
Python读写Excel文件和正则表达式
Python 读写Excel文件这里使用的是 xlwt 和 xlrd 这两个excel读写库. #_*_ coding:utf-8 _*_ #__author__='观海云不远' #__date__ ...
[转载]C#读写txt文件的两种方法介绍
C#读写txt文件的两种方法介绍 by 大龙哥 1.添加命名空间 System.IO; System.Text; 2.文件的读取 (1).使用FileStream类进行文件的读取,并将它转换成char ...

随机推荐

flask基础之jijia2模板语言进阶（三）
前言前面学习了jijia2模板语言的一些基础知识,接下来继续深挖jijia2语言的用法. 系列文章 flask基础之安装和使用入门(一) flask基础之jijia2模板使用基础(二) 控制语句和 ...
Centos 6.4搭建git服务器【转】
前阵子公司需要,让我搭个Git服务器,把之前用的SVN上代码迁移到git上去,所以就在阿里云主机上搭了一个,记录了下安装过程,留存文档以备查阅.本篇本章只涉及搭建部分的操作,更多git的使用可以参考文 ...
Mysql存储之ORM框架SQLAlchemy(一)
上一篇我们说了mysql存储的原生语句方式,因为原生语句每次写都比较的复杂,所以这里我们说一种引用实体类的方式来操作数据库. 什么是ORM ORM技术:Object-Relational Mappin ...
eclipse 常见问题之字体更改、添加注释模板
有些同学可能会和我有一样的困扰,每次想要更改字体大小.背景颜色等,都需要百度一下才知道怎么去做...不知道有没有这种情况的孩子,反正我经常遇到,老是记不住,今天写下来,顺带自己忘记的时候可以查看一下. ...
Android: 在onCreate()中获得对象尺寸
onCreate() 中 View 尚未绘制完成很多时候,我们需要在某个界面刚刚加载的时候,执行一些对 View 进行操作的代码,通常我们把这些代码放在 Activity 的 onCreate() ...
[ python ] 字符串的操作及作业题
字符串的操作方法 capitalize() : 首字母大写 s1 = 'my heart will go on' print(s1.capitalize()) # 首字母大写 # 执行结果: # My ...
窗口生效函数UpdateData
Invalidate()使整个窗口客户区无效.窗口的客户区无效意味着需要重绘,例如,如果一个被其它窗口遮住的窗口变成了前台窗口,那么原来被遮住的部分就是无效的,需要重绘.这时Windows会在应用程序 ...
SSL与HTTPS,HTTP有什么联系
有人问:http和https有什么区别? HTTP,全称"Hyper Text Transfer Protocol",是从浏览器访问网站时使用的默认协议.由于浏览器到网站之间的数据 ...
Gitlab部署及汉化操作
一.简介 GitLab是一个利用 Ruby on Rails 开发的开源应用程序,实现一个自托管的Git项目仓库,可通过Web界面进行访问公开的或者私人项目. GitLab拥有与Github类似的功能 ...
Django之进阶相关操作
一.QuerySet的特点 1.可切片使用Python 的切片语法来限制查询集记录的数目 .它等同于SQL 的LIMIT 和OFFSET 子句. 1 >>> Entry.objec ...

python 读写txt文件并用jieba库进行中文分词

python 读写txt文件并用jieba库进行中文分词的更多相关文章

随机推荐

热门专题