python：爬虫

模块：

（1）url管理器：对url进行管理

（2）网页下载器（urllib2）：将需要爬取的url指定的网页以字符串的形式下载下来

（3）网页解释器（BeautifulSoup）：解析

利用urllib2下载网页的方法：

方法1：

import urllib2,cookielib

url = 'http://www.baidu.com'  #定义url

res1 = urllib2.urlopen(url)   #请求url

print res1.getcode()     #获取动态码

print len(res1.read())    #获取内容

方法2：

#伪装成浏览器

import urllib2,cookielib

url = 'http://www.baidu.com'

request = urllib2.Request(url)

request.add_header('User-Agent','Mozilla/5.0')   #添加http的header，伪装成浏览器

res2 = urllib2.urlopen(request)   #发送请求获取结果

print res2.getcode()

print len(res2.read())

方法3：

#添加特殊情景的处理器。例如需要登录cookie、代理proxy、https、网页自动跳转或者互相志向等网页

#处理cookie实例

import urllib2

import cookielib

url = 'http://www.baidu.com'

cj = cookielib.CookieJar()  #创建cookie容器

opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))  #创建一个opener

urllib2.install_opener(opener)   #给urllib2安装opener

res3 = urllib2.urlopen(url)   #发送请求获取结果

print res3.getcode()

print len(res3.read())

print cj

网页解释器种类：

（1）正则表达式

（2）html.parser

（3）BeautifulSoup：第三方包

（4）lxml

BeautifulSoup语法：

（1）创建bs对象
（2）搜索节点find_all，find（搜索第一个节点）
　　搜索内容包括：节点名字，节点属性，节点内容
　　例如：<a href='123.html' class='article_link'>hello,python!</a>
　　　　节点名字：a
　　　　节点属性：href='123.html' 或 class='article_link'
　　　节点内容：hello,python！
（3）访问节点

from bs4 import BeautifulSoup

html_doc = '''

<!DOCTYPE html>

<html>

    <head>

        <meta http-equiv="content-type" content="text/html;charset=utf-8">

        <title>页面1</title>

    </head>

    <body>

        <a href='http://www.baidu.com'>百度</a>

        <a href='http://www.youku.com'>优酷</a>

        <a href='http://www.hao123.com'>hao123</a>

    </body>

</html>

'''

soup = BeautifulSoup(html_doc,'html.parser',from_encoding='utf-8')

print '获取所有链接:'

links = soup.find_all('a')

for link in links:

    print link.name,link['href'],link.get_text()

print '只获取百度的链接:'

link_node = soup.find('a',href='http://www.baidu.com')

print link_node.name,link_node['href'],link_node.get_text()

输出结果：

获取所有链接:

a http://www.baidu.com 百度

a http://www.youku.com 优酷

a http://www.hao123.com hao123

获取百度的链接:

a http://www.baidu.com 百度

正则表达式匹配

a http://www.baidu.com 百度

python：爬虫的更多相关文章

Python 爬虫模拟登陆知乎
在之前写过一篇使用python爬虫爬取电影天堂资源的博客,重点是如何解析页面和提高爬虫的效率.由于电影天堂上的资源获取权限是所有人都一样的,所以不需要进行登录验证操作,写完那篇文章后又花了些时间研究了 ...
python爬虫成长之路（一）：抓取证券之星的股票数据
获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一.鉴于此,我拾起了Python这把利器,开启了网络爬虫之路. 本篇使用的版本为python3.5,意在抓取证券之星上当天所 ...
python爬虫学习(7) —— 爬取你的AC代码
上一篇文章中,我们介绍了python爬虫利器--requests,并且拿HDU做了小测试. 这篇文章,我们来爬取一下自己AC的代码. 1 确定ac代码对应的页面如下图所示,我们一般情况可以通过该顺序 ...
python爬虫学习(6) —— 神器 Requests
Requests 是使用 Apache2 Licensed 许可证的 HTTP 库.用 Python 编写,真正的为人类着想. Python 标准库中的 urllib2 模块提供了你所需要的大多数 H ...
批量下载小说网站上的小说（python爬虫）
随便说点什么因为在学python,所有自然而然的就掉进了爬虫这个坑里,好吧,主要是因为我觉得爬虫比较酷,才入坑的. 想想看,你可以批量自动的采集互联网上海量的资料数据,是多么令人激动啊! 所以我就被 ...
python 爬虫（二）
python 爬虫 Advanced HTML Parsing 1. 通过属性查找标签:基本上在每一个网站上都有stylesheets,针对于不同的标签会有不同的css类于之向对应在我们看到的标签可能 ...
Python 爬虫1——爬虫简述
Python除了可以用来开发Python Web之后,其实还可以用来编写一些爬虫小工具,可能还有人不知道什么是爬虫的. 一.爬虫的定义: 爬虫——网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区 ...
Python爬虫入门一之综述
大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章作为参考,也欢迎大家一共分享学习经验. Pyth ...
[python]爬虫学习（一）
要学习Python爬虫,我们要学习的共有以下几点(python2): Python基础知识 Python中urllib和urllib2库的用法 Python正则表达式 Python爬虫框架Scrapy ...
python爬虫学习(1) —— 从urllib说起
0. 前言如果你从来没有接触过爬虫,刚开始的时候可能会有些许吃力因为我不会从头到尾把所有知识点都说一遍,很多文章主要是记录我自己写的一些爬虫所以建议先学习一下cuiqingcai大神的 Pyth ...

随机推荐

0，SFDC 开发篇 - 开发框架和APEX语法
1, 开发环境 Your Name | Developer Console | Debug | Open Execute Anonymous Window 输入hello world,并点击Excut ...
如何启动另一个应用的activity
1.使用action Intent i=new Intent(); i.setAction(".........."); startActivity(i); 前提条件:要启动的ac ...
C语言PIC18 serial bootloader和C#语言bootloader PC端串口通信程序
了解更多关于bootloader 的C语言实现,请加我QQ: 1273623966 (验证信息请填 bootloader),欢迎咨询或定制bootloader(在线升级程序). 新PIC18 Boot ...
NHibernate系列文章二十四：NHibernate查询之Linq查询（附程序下载）
摘要 NHibernate从3.0开始支持Linq查询.写Linq to NHibernate查询就跟写.net linq代码一样,非常灵活,可以很容易实现复杂的查询.这篇文章使用Linq to NH ...
redis 事务
概述相信学过MySQL等其他数据库的同学对事务这个词都不陌生,事务表示的是一组动作,这组动作要么全部执行,要么全部不执行.为什么会有这样的需求呢?看看下面的场景: 微博是一个弱关系型社交网络,用户之 ...
如果客户端禁用cookie，session还能使用吗？
记得在以前找工作的时候,可多次被问到如果客户端被禁用cookie,session还能使用吗? 今天终于找到了相关的答案:我们来看一下: session是在服务器段保持会话数据的一种方法,对应的cook ...
git命令解析
一常用命令 1..gitignore 文件为git忽略文件,例*.[oa] *.~ 为忽略.a或.o或.~结尾的文件./表示忽略目录,!表示反取, *表示匹配零个或者多个字符.?表示匹配一个字符. ...
c#程序中使用"like“查询access数据库查询为空的问题
今天,在开发的过程中发现了一个特别奇怪的问题:access中like查询时候,在Access数据库中执行,发现可以查询出结果,这是在数据库上执行,select * from KPProj where ...
php获取时间问题，用默认配置读到本地时间。。。。。
用date获取到时间有8小时时差因为php用date获取到的是格林威治时区的时间,而大陆时间和格林威治时间有8个小时时差,所以.... 修改:网上有各种修改方式: 比如:在程序中添加时间的初始化的语 ...
提高 ASP.NET Web 应用性能的 24 种方法和技巧
那性能问题到底该如何解决?以下是应用系统发布前,作为 .NET 开发人员需要检查的点. 1.debug=「false」当创建 ASP.NET Web应用程序,默认设置为「true」.开发过程中,设置 ...

python：爬虫

python：爬虫的更多相关文章

随机推荐

热门专题