# -*- coding:utf8 -*-
import os
import jieba.posseg as pseg
# -*- coding:utf8 -*-
import os
 
def splitSentence(inputFile,name):
    fin = open(inputFile, 'r')      #以读的方式打开文件
    print name
    fout= open('/home/xdj/target/'+name,'w')         #以写得方式打开文件
    for eachLine in fin:
        line = eachLine.strip().decode('utf-8', 'ignore')      #去除每行首尾可能出现的空格,并转为Unicode进行处理
    line=line.strip('\n')                                       #去掉多余空行
        wordList = pseg.cut(line)                        #用结巴分词,对每行内容进行分词    
        outStr = ''
        for word in wordList:#
        #print word.word,word.flag            
        outStr += word.word+'/'+word.flag
    #print outStr
        fout.write(outStr.encode('utf-8'))              #将分词好的结果写入到输出文件
        fout.write('\n')
    fin.close()
    fout.close()
 
path='/media/软件/zhuomian/VARandLDA/xuejiesourse'
fns=[os.path.join(root,fn) for root,dirs,files in os.walk(path) for fn in files]
#fout= open('/home/xdj/myOutput.txt','w')  
 
i=-1
num=0
for f in fns:
    print f
    i=i+1
    strm = '%d' %i
    splitSentence(f,strm)
#fout.close()
print num

# -*- coding:utf8 -*-
import os
import jieba.posseg as pseg
# -*- coding:utf8 -*-
import os def splitSentence(inputFile,name):
fin = open(inputFile, 'r') #以读的方式打开文件
print name
fout= open('/home/xdj/target/'+name,'w') #以写得方式打开文件
for eachLine in fin:
line = eachLine.strip().decode('utf-8', 'ignore') #去除每行首尾可能出现的空格,并转为Unicode进行处理
line=line.strip('\n') #去掉多余空行
wordList = pseg.cut(line) #用结巴分词,对每行内容进行分词
outStr = ''
for word in wordList:#
#print word.word,word.flag
outStr += word.word+'/'+word.flag
#print outStr
fout.write(outStr.encode('utf-8')) #将分词好的结果写入到输出文件
fout.write('\n')
fin.close()
fout.close() path='/media/软件/zhuomian/VARandLDA/xuejiesourse'
fns=[os.path.join(root,fn) for root,dirs,files in os.walk(path) for fn in files]
#fout= open('/home/xdj/myOutput.txt','w') i=-1
num=0
for f in fns:
print f
i=i+1
strm = '%d' %i
splitSentence(f,strm)
#fout.close()
print num

asdfsadfs的更多相关文章

随机推荐

  1. 在Linux上挂载Windows共享文件夹,如何开机自动挂载(mount)?

    按照一般的思路,我们先将文件夹挂载上去,命令如下: mkdir /mnt/share_software mount //192.9.206.43/share_software /mnt/share_s ...

  2. java后端制作MD5加密

    由于一次业务的需要,我制作了一次密码的修改子业务. 当用户忘记密码的情况下,我需要动态的发给他一个6位的随机密码,通过即时通,短信,微信等.并同时修改数据库中的原密码为这6位的随机密码.让用户再去修改 ...

  3. linux常用命令-文件搜索命令-locate,which,whereis,grep

    locate 目录或文件名 -i 查找的时候不区分大小写 这个类似everything,速度比find快很多,因为这个命令搜索的是它维护的文件资料库,文件资料库是var/lib/mlocate/mlo ...

  4. js string 转 int Number()

    var numString = '122'; var numberInt = Number(numString); var res = numberInt/2; 结果: res = 61

  5. 解决 iOS 9.1 微信内置浏览器中html audio 不能自动播放的问题

    使用微信现在提供过的微信js-sdk 在ready中进行播放便可. 首先引用js : <script src="http://res.wx.qq.com/open/js/jweixin ...

  6. 【转】Java读取matlab的.mat数据文件

    参考:Java读取mat文件 下载链接:ujmp  jmatio 下载完两个.jar文件之后,如何引用到java项目当中?项目名称->右键->Property->Java Build ...

  7. C#通过事件跨类调用WPF主窗口中的控件

    xaml.cs文件: using System; using System.Timers; using System.Windows; using System.Windows.Forms; name ...

  8. python os.path

    os.path 提供了一些处理文件路径的函数. os.path.abspath(path) 返回绝对路径, 在大多数平台上, os.path.abspath(path) == os.path.norm ...

  9. VC++ 应用程序无法正常启动0xc0150002

    使用VC++开发软件,编译后的程序打不开,弹出错误框:   使用Dpends Walker查看依赖项,没有什么异常. 然后,右键"计算机",选择"管理",打开计 ...

  10. iOS 禁止边缘滑动返回

    self.navigationController.interactivePopGestureRecognizer.enabled = NO;