利用BeautifulSoup抓取新浪网页新闻的内容

第一次写的小爬虫，python确实功能很强大，二十来行的代码抓取内容并存储为一个txt文本

直接上代码

#coding = 'utf-8'

import requests

from bs4 import BeautifulSoup

import sys

reload(sys)

sys.setdefaultencoding("utf-8")

#抓取web页面

url = "http://news.sina.com.cn/china/"

res = requests.get(url)

res.encoding = 'utf-8'

#放进soup里面进行网页内容剖析

soup = BeautifulSoup(res.text, "html.parser")

elements = soup.select('.news-item')

#抓取需要的内容并且放入文件中

#抓取的内容有时间，内容文本，以及内容的链接

fname = "F:/asdf666.txt"

try:

    f = open(fname, 'w')

    for element in elements:

        if len(element.select('h2')) > 0:

            f.write(element.select('.time')[0].text)

            f.write(element.select('h2')[0].text)

            f.write(element.select('a')[0]['href'])

            f.write('\n\n')

    f.close()

except Exception, e:

    print e

else:

    pass

finally:

    pass

因为这只第一次做的小爬虫，功能很简单也很单一，就是直接抓取新闻页面的部分新闻

然后抓取新闻的时间和超链接

然后按照新闻的顺序整合起来，并且放进文本文件中去存储起来

截取一下效果图，效果很简单，就是一条一条的记录，时间，新闻内容，新闻链接（因为是今天才写的，所以新闻都是今天的）

利用BeautifulSoup抓取新浪网页新闻的内容的更多相关文章

[Python爬虫] ：Selenium +phantomjs 利用 pyquery抓取脚本链接对应的内容
抓取上面对应链接的网页的文章的内容 ele = element.attr("onclick") self.driver.execute_script(ele) sub_seleni ...
Python 利用 BeautifulSoup 爬取网站获取新闻流
0. 引言介绍下 Python 用 Beautiful Soup 周期性爬取 xxx 网站获取新闻流: 图 1 项目介绍 1. 开发环境 Python: 3.6.3 BeautifulSoup: ...
BeautifulSoup抓取列表页锚文本
素闻BeautifulSoup提取效率低,艾玛,第一印象果然是很要命的,反正比Re 和 Lxml 是要慢的,不过就无奈Re的正则折腾来折腾去,没写出来,Lxml 的 Xpath 又用得不好. 不过就这 ...
scrapy抓取中国新闻网新闻
目标说明利用scrapy抓取中新网新闻,关于自然灾害滑坡的全部国内新闻:要求主题为滑坡类新闻,包含灾害造成的经济损失等相关内容,并结合textrank算法,得到每篇新闻的关键词,便于后续文本挖掘分析 ...
python实现一个栏目的分页抓取列表页抓取
python实现一个栏目的分页抓取列表页抓取 #!/usr/bin/env python # coding=utf-8 import requests from bs4 import Beautifu ...
Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
更新其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 可就在今天,淘宝把所有的账号设置成了匿名显示,SO,获取非匿名旺旺号已经 ...
利用Crowbar抓取网页异步加载的内容 [Python俱乐部]
利用Crowbar抓取网页异步加载的内容 [Python俱乐部] 利用Crowbar抓取网页异步加载的内容在做 Web 信息提取.数据挖掘的过程中,一个关键步骤就是网页源代码的获取.但是出于各种原因 ...
利用Fiddler抓取websocket包
一.利用fiddler抓取websockt包打开Fiddler,点开菜单栏的Rules,选择Customize Rules... 这时会打开CustomRules.js文件,在class Handl ...
[Python爬虫] 之二十八：Selenium +phantomjs 利用 pyquery抓取网站排名信息
一.介绍本例子用Selenium +phantomjs爬取中文网站总排名(http://top.chinaz.com/all/index.html,http://top.chinaz.com/han ...

随机推荐

module
扯淡的人 http://www.cnblogs.com/yuanchenqi/articles/5732581.html 不被调用的要写在这下面 1 if __name__=="__ ...
USACO　滑雪课程
#include<cstdio> #include<iostream> using namespace std; int T,S,N,maxd; ],lv[],next[],f ...
【javascript杂谈】你所不知道的replace函数
前言最近在做面试题的时候总会用到这个函数,这个函数总是和正则表达式联系到一起,并且效果很是不错,总能很简单出色的完成字符串的实际问题,大家肯定都会使用这个函数,像我一样的初学者可能对这个函数的了解还 ...
SQL查询一个月第一天/最后一天及日期格式化
1.一个月第一天的Select DATEADD(mm, DATEDIFF(mm,0,getdate()), 0) 2.本周的星期一Select DATEADD(wk, DATEDIFF(wk,0,ge ...
CentOS7：搭建SVN ＋ Apache 服务器
1. 安装httpd 安装httpd服务: $ sudo yum install httpd 检查httpd是否安装成功: $ httpd -version Server version: Apach ...
Android中View绘制流程以及invalidate()等相关方法分析
[原文]http://blog.csdn.net/qinjuning 整个View树的绘图流程是在ViewRoot.java类的performTraversals()函数展开的,该函数做的执行过程可简 ...
在windows编译MariaDB
OS: Windows XP sp3 IDE: VS2010 MariaDB: V5.5 (到目前为止2016.5,中文域(.cn)只有清华大学 TUNA 镜像源可用) (.tar.gz为源码:.zi ...
ORACLE插入DATE类型字段
1 怎样在ORACLE中输入DATE类型的字段 insert into table_name (date_column) values(to_date('2006-06-04','yyyy-mm-dd ...
MyBatis学习总结(七)——Mybatis缓存（转载）
孤傲苍狼只为成功找方法,不为失败找借口! MyBatis学习总结(七)--Mybatis缓存一.MyBatis缓存介绍正如大多数持久层框架一样,MyBatis 同样提供了一级缓存和二级缓存的 ...
2016-10-17: source insight插件
使用快捷键注释,单行注释,多行注释,#if 0注释将文件 mycomment.em点此下载放到sourceinsight的Base工程的路径下(一般是在C:\Documents and Settin ...

利用BeautifulSoup抓取新浪网页新闻的内容

利用BeautifulSoup抓取新浪网页新闻的内容的更多相关文章

随机推荐

热门专题