【Python网络爬虫三】爬取网页新闻

学弟又一个自然语言处理的项目，需要在网上爬一些文章，然后进行分词，刚好牛客这周的是从一个html中找到正文，就实践了一下。写了一个爬门户网站新闻的程序

需求：

从门户网站爬取新闻，将新闻标题，作者，时间，内容保存到本地txt中。

用到的python模块：

 import re  # 正则表达式

 import bs4  # Beautiful Soup 4 解析模块

 import urllib2  # 网络访问模块

 import News   #自己定义的新闻结构

 import codecs  #解决编码问题的关键 ，使用codecs.open打开文件

 import sys   #1解决不同页面编码问题

其中bs4需要自己装一下，安装方法可以参考：Windows命令行下pip安装python whl包

程序：

 #coding=utf-8

 import re  # 正则表达式

 import bs4  # Beautiful Soup 4 解析模块

 import urllib2  # 网络访问模块

 import News   #自己定义的新闻结构

 import codecs  #解决编码问题的关键 ，使用codecs.open打开文件

 import sys   #1解决不同页面编码问题

 reload(sys)                         #

 sys.setdefaultencoding('utf-8')     #

 # 从首页获取所有链接

 def GetAllUrl(home):

     html = urllib2.urlopen(home).read().decode('utf8')

     soup = bs4.BeautifulSoup(html, 'html.parser')

     pattern = 'http://\w+\.baijia\.baidu\.com/article/\w+'

     links = soup.find_all('a', href=re.compile(pattern))

     for link in links:

         url_set.add(link['href'])

 def GetNews(url):

     global NewsCount,MaxNewsCount  #全局记录新闻数量

     while len(url_set) != 0:

         try:

             # 获取链接

             url = url_set.pop()

             url_old.add(url)

             # 获取代码

             html = urllib2.urlopen(url).read().decode('utf8')

             # 解析

             soup = bs4.BeautifulSoup(html, 'html.parser')

             pattern = 'http://\w+\.baijia\.baidu\.com/article/\w+'  # 链接匹配规则

             links = soup.find_all('a', href=re.compile(pattern))

             # 获取URL

             for link in links:

                 if link['href'] not in url_old:

                     url_set.add(link['href'])

                     # 获取信息

                     article = News.News()

                     article.url = url  # URL信息

                     page = soup.find('div', {'id': 'page'})

                     article.title = page.find('h1').get_text()  # 标题信息

                     info = page.find('div', {'class': 'article-info'})

                     article.author = info.find('a', {'class': 'name'}).get_text()  # 作者信息

                     article.date = info.find('span', {'class': 'time'}).get_text()  # 日期信息

                     article.about = page.find('blockquote').get_text()

                     pnode = page.find('div', {'class': 'article-detail'}).find_all('p')

                     article.content = ''

                     for node in pnode:  # 获取文章段落

                         article.content += node.get_text() + '\n'  # 追加段落信息

                     SaveNews(article)

                     print NewsCount

                     break

         except Exception as e:

             print(e)

             continue

         else:

             print(article.title)

             NewsCount+=1

         finally:

             # 判断数据是否收集完成

             if NewsCount == MaxNewsCount:

                 break

 def SaveNews(Object):

     file.write("【"+Object.title+"】"+"\t")

     file.write(Object.author+"\t"+Object.date+"\n")

     file.write(Object.content+"\n"+"\n")

 url_set = set()  # url集合

 url_old = set()  # 爬过的url集合

 NewsCount = 0

 MaxNewsCount=3

 home = 'http://baijia.baidu.com/'  # 起始位置

 GetAllUrl(home)

 file=codecs.open("D:\\test.txt","a+") #文件操作

 for url in url_set:

     GetNews(url)

     # 判断数据是否收集完成

     if NewsCount == MaxNewsCount:

         break

 file.close()

新闻文章结构

 #coding: utf-8

 # 文章类定义

 class News(object):

     def __init__(self):

         self.url = None

         self.title = None

         self.author = None

         self.date = None

         self.about = None

         self.content = None

对爬取的文章数量就行统计。

【Python网络爬虫三】爬取网页新闻的更多相关文章

Python网络爬虫_爬取Ajax动态加载和翻页时url不变的网页
1 . 什么是 AJAX ? AJAX = 异步 JavaScript 和 XML. AJAX 是一种用于创建快速动态网页的技术. 通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新 ...
python网络爬虫《爬取get请求的页面数据》
一.urllib库 urllib是python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在python3中的为urllib.request和urllib. ...
Python网络爬虫 | Scrapy爬取妹子图网站全站照片
根据现有的知识,写了一个下载妹子图(meizitu.com)Scrapy脚本,把全站两万多张照片下载到了本地. 网站的分析网页的网址分析打开网站,发现网页的网址都是以 http://www.mei ...
python网络爬虫--简单爬取糗事百科
刚开始学习python爬虫,写了一个简单python程序爬取糗事百科. 具体步骤是这样的:首先查看糗事百科的url:http://www.qiushibaike.com/8hr/page/2/?s=4 ...
第三百三十四节，web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息
第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址有多 ...
【网络爬虫】【python】网络爬虫（五）：scrapy爬虫初探——爬取网页及选择器
在上一篇文章的末尾,我们创建了一个scrapy框架的爬虫项目test,现在来运行下一个简单的爬虫,看看scrapy爬取的过程是怎样的. 一.爬虫类编写(spider.py) from scrapy.s ...
python 爬虫（爬取网页的img并下载）
from urllib.request import urlopen # 引用第三方库 import requests #引用requests/用于访问网站(没安装需要安装) from pyquery ...
十三 web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息
crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址有多网站,当你浏览器访问时看到的信息,在html源文件里却找不到,由得信息还是滚动条滚动到对应的位置后才显示信息, ...
java爬虫-简单爬取网页图片
刚刚接触到“爬虫”这个词的时候是在大一,那时候什么都不明白,但知道了百度.谷歌他们的搜索引擎就是个爬虫. 现在大二.再次燃起对爬虫的热爱,查阅资料,知道常用java.python语言编程,这次我选择了 ...
初识python 之爬虫：爬取双色球中奖号码信息
人生还是要有梦想的,毕竟还有python.比如,通过python来搞一搞彩票(双色球).注:此文仅用于python学习,结果仅作参考.用到知识点:1.爬取网页基础数据2.将数据写入excel文件3.将 ...

随机推荐

扩展Caylay定理
参考资料: https://hyscere.github.io/2019/09/05/%E6%89%A9%E5%B1%95Caylay%E5%AE%9A%E7%90%86/ https://www.c ...
Leetcode之动态规划（DP）专题-1025. 除数博弈（Divisor Game）
Leetcode之动态规划(DP)专题-1025. 除数博弈(Divisor Game) 爱丽丝和鲍勃一起玩游戏,他们轮流行动.爱丽丝先手开局. 最初,黑板上有一个数字 N .在每个玩家的回合,玩家需 ...
【Python开发】matplotlib绘图不显示问题解决plt.show()
最近在看<Python数据分析>这本书,而自己写代码一直用的是Pycharm,在练习的时候就碰到了plot()绘图不能显示出来的问题.网上翻了一下找到知乎上一篇回答,试了一下好像不行,而且 ...
python笔记之元祖
元祖创建使用圆括号括起来,中间元素使用逗号隔开如:tuple1 = (1,2,3,4) tuple2 = () 空元祖 #!/usr/bin/env python #-*-coding:utf-8- ...
小记---------CDH版大数据组件--clouderManager UI界面
启动 /opt/cm-5.14.0/etc/init.d/clouder-scm-server start /opt/cm-5.14.0/etc/init.d/clouder-scm-agent st ...
BM求线性递推模板（杜教版）
BM求线性递推模板(杜教版) BM求线性递推是最近了解到的一个黑科技如果一个数列.其能够通过线性递推而来例如使用矩阵快速幂优化的 DP 大概都可以丢进去则使用 BM 即可得到任意 N 项的数列元 ...
python爬虫简介
一.什么是网络爬虫? 网络爬虫,是一种按照一定规则,自动的抓取万维网信息的程序或者脚本. 二.python网络爬虫, 需要用到的第三方包 requests和BeautifulSoup4 pip ins ...
SpringMVC整体架构
总结: 1. 用户发起请求到前端控制器(DispatchServlet): 2. 前端控制器没有处理业务逻辑的能力,需要找到具体的模型对象处理(Handler),到处理器映射器中查找Handler对象 ...
O005、远程管理 KVM 虚机
参考https://www.cnblogs.com/CloudMan6/p/5256018.html 上一节我们通过 virt-manager 在本地主机上创建并管理 KVM 虚机,其实 virt ...
帝国cms 反馈
<form name='feedback' method='post' enctype='multipart/form-data' action='/e/enews/index.php' ons ...

【Python网络爬虫三】 爬取网页新闻

需求：

程序：

【Python网络爬虫三】 爬取网页新闻的更多相关文章

随机推荐

热门专题

【Python网络爬虫三】爬取网页新闻

【Python网络爬虫三】爬取网页新闻的更多相关文章