学弟又一个自然语言处理的项目,需要在网上爬一些文章,然后进行分词,刚好牛客这周的是从一个html中找到正文,就实践了一下.写了一个爬门户网站新闻的程序 需求: 从门户网站爬取新闻,将新闻标题,作者,时间,内容保存到本地txt中. 用到的python模块: import re # 正则表达式 import bs4 # Beautiful Soup 4 解析模块 import urllib2 # 网络访问模块 import News #自己定义的新闻结构 import codecs #解决编码问题的…