
1. 基于wiki语料的LDA实验

上一文得到了wiki纯文本已分词语料 wiki.zh.seg.utf.txt,去停止词后可进行LDA实验。

  1. import codecs
  2. from gensim.models import LdaModel
  3. from gensim.corpora import Dictionary
  5. train = []
  6. stopwords = codecs.open('stopwords.txt','r',encoding='utf8').readlines()
    stopwords = [ w.strip() for w in stopwords ]
  7. fp = codecs.open('wiki.zh.seg.utf.txt','r',encoding='utf8')
  8. for line in fp:
  9. line = line.split()
  10. train.append([ w for w in line if w not in stopwords ])
  12. dictionary = corpora.Dictionary(train)
  13. corpus = [ dictionary.doc2bow(text) for text in train ]
  14. lda = LdaModel(corpus=corpus, id2word=dictionary, num_topics=100)

同时gensim也提供了对wiki压缩包直接进行抽取并保存为稀疏矩阵的脚本 make_wiki,可在bash运行下面命令查看用法。

  1. python -m gensim.scripts.make_wiki
  3. python -m gensim.scripts.make_wiki zhwiki-latest-pages-articles.xml.bz2 zhwiki

运行时间比较久,具体情况可以看gensim官网,结果如下,mm后缀表示Matrix Market格式保存的稀疏矩阵:

  1. -rw-r--r-- chenbingjin data 172M 7 : zhwiki_bow.mm
  2. -rw-r--r-- chenbingjin data 1.3M 7 : zhwiki_bow.mm.index
  3. -rw-r--r-- chenbingjin data 333M 7 : zhwiki_tfidf.mm
  4. -rw-r--r-- chenbingjin data 1.3M 7 : zhwiki_tfidf.mm.index
  5. -rw-r--r-- chenbingjin data 1.9M 7 : zhwiki_wordids.txt

利用 tfidf.mm 及wordids.txt 训练LDA模型

  1. # -*- coding: utf-8 -*-
  2. from gensim import corpora, models
  4. # 语料导入
  5. id2word = corpora.Dictionary.load_from_text('zhwiki_wordids.txt')
  6. mm = corpora.MmCorpus('zhwiki_tfidf.mm')
  8. # 模型训练,耗时28m
  9. lda = models.ldamodel.LdaModel(corpus=mm, id2word=id2word, num_topics=100)


训练过程指定参数 num_topics=100, 即训练100个主题,通过print_topics() 和print_topic() 可查看各个主题下的词分布,也可通过save/load 进行模型保存加载。

  1. # 打印前20个topic的词分布
  2. lda.print_topics(20)
  3. # 打印id为20的topic的词分布
  4. lda.print_topic(20)
  6. #模型的保存/ 加载
  7. lda.save('zhwiki_lda.model')
  8. lda = models.ldamodel.LdaModel.load('zhwiki_lda.model')



  1. test_doc = list(jieba.cut(test_doc))   #新文档进行分词
  2. doc_bow = id2word.doc2bow(test_doc) #文档转换成bow
  3. doc_lda = lda[doc_bow] #得到新文档的主题分布
  4. #输出新文档的主题分布
  5. print doc_lda
  6. for topic in doc_lda:
  7. print "%s\t%f\n"%(lda.print_topic(topic[0]), topic[1])

2. 基于Sogou新闻语料的LDA实验

Sogou实验室提供了很多中文语料的下载, 全网新闻数据(SogouCA),来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息。

这里使用的是2008精简版(一个月数据, 437MB)

数据转码处理,由于数据是Ascii文件,容易出现乱码情况,使用iconv命令转成utf8,由于XML文件处理时需要有顶级tag,这里使用sed 命令在文件的首行前插入<root>,在尾行后插入</root>

  1. #!/bin/bash
  3. #将文件夹下的Ascii文件转成utf8
  4. #Usage: ./iconv_encode.sh indir outdir
  5. #@chenbingjin --
  7. function conv_encode() {
  8. all=`ls ${indir}`
  9. for ffile in ${all}
  10. do
  11. ifile="${indir}${ffile}"
  12. ofile="${outdir}${ffile}"
  13. echo "iconv $ifile to $ofile"
  14. iconv -c -f gb2312 -t utf8 "$ifile" > "$ofile"
  15. sed -i '1i <root>' "$ofile"
  16. sed -i '$a </root>' "$ofile"
  17. done
  18. }
  20. if [ $# -ne ]; then
  21. echo "Usage: ./iconv_encode.sh indir outdir"
  22. exit
  23. fi
  25. indir=$
  26. outdir=$
  28. if [ ! -d $outdir ]; then
  29. echo "mkdir ${outdir}"
  30. mkdir $outdir
  31. fi
  33. time conv_encode


总共128个文件,存放在Sogou_data/ 文件夹下,使用iconv_encode.sh 进行处理,新文件保存在out文件夹,结果如下:

  1. $ ./iconv_encode.sh Sogou_data/ out/
  3. mkdir out/
  4. iconv Sogou_data/news.allsites..txt to out/news.allsites..txt
  5. iconv Sogou_data/news.allsites..txt to out/news.allsites..txt
  6. iconv Sogou_data/news.allsites..txt to out/news.allsites..txt
  7. iconv Sogou_data/news.allsites..txt to out/news.allsites..txt
  8. ......
  10. real 0m27.255s
  11. user 0m6.720s
  12. sys 0m8.924s

接下来需要对xml格式的数据进行预处理,这里使用lxml.etree,lxm 是Python的一个html/xml解析并建立dom的库, 比python自带的XML解析快。

防止出现异常 XMLSyntaxError: internal error: Huge input lookup ,设置XMLParser参数 huge_tree=True,详细见代码:

  1. # -*- coding: utf-8 -*-
  2. import os
  3. import codecs
  4. import logging
  5. from lxml import etree
  6. logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
  8. '''
  9. Sogou新闻语料预处理
  10. @chenbingjin 2016-07-01
  11. '''
  13. train = []
  14. # huge_tree=True, 防止文件过大时出错 XMLSyntaxError: internal error: Huge input lookup
  15. parser = etree.XMLParser(encoding='utf8',huge_tree=True)
  17. def load_data(dirname):
  18. global train
  19. files = os.listdir(dirname)
  20. for fi in files:
  21. logging.info("deal with "+fi)
  22. text = codecs.open(dirname+fi, 'r', encoding='utf8').read()
  23. # xml自身问题,存在&符号容易报错, 用&amp;代替
  24. text = text.replace('&', '&amp;')
  25. # 解析xml,提取新闻标题及内容
  26. root = etree.fromstring(text, parser=parser)
  27. docs = root.findall('doc')
  28. for doc in docs:
  29. tmp = ""
  30. for chi in doc.getchildren():
  31. if chi.tag == "contenttitle" or chi.tag == "content":
  32. if chi.text != None and chi.text != "":
  33. tmp += chi.text
  34. if tmp != "":
  35. train.append(tmp)



  1. from gensim.corpora import Dictionary
  2. from gensim.models import LdaModel
  4. stopwords = codecs.open('stopwords.txt','r',encoding='utf8').readlines()
    stopwords = [ w.strip() for w in stopwords ]
  5. train_set = []
  6. for line in train:
  7. line = list(jieba.cut(line))
    train_set.append([ w for w in line if w not in stopwords ])
  9. # 构建训练语料
  10. dictionary = Dictionary(train_set)
  11. corpus = [ dictionary.doc2bow(text) for text in train_set]
  13. # lda模型训练
  14. lda = LdaModel(corpus=corpus, id2word=dictionary, num_topics=20)
  15. lda.print_topics(20)

实验结果:训练时间久,可以使用 ldamulticore ,整体效果还不错,可以看出08年新闻主题主要是奥运,地震,经济等

得到的LDA模型可用于主题预测,给定新的文档预测文档主题分布,可用于分类。训练文档中每个词会分配一个主题,有paper就将这种主题信息做Topic Word Embedding,一定程度上解决一词多义问题。


1. gensim:Experiments on the English Wikipedia

2. Sogou:全网新闻数据

