Python定向爬虫实战

转载请注明原文地址：http://www.cnblogs.com/ygj0930/p/7019963.html

一：requests模块介绍

requests是第三方http库，可以十分方便地实现python的网络连接，完美替代了urllib2模块。

二：原理

使用requests实现定向爬虫需要两步：首先使用requests获取目标网页的源代码；然后使用requests与正则表达式从中提取信息。

获取源码有两种方式：

使用requests.get(url).text可以直接获取无反爬虫机制的网页的源码；

但对于有反爬虫机制的网页，上面的简单手段是不能完整获取到网页源码的，只能读取到网页中robot中的内容，提示你该网页禁止爬取。

此时，可以修改http头，然后在requests.get时把头传进去，戴上伪装帽子，即可正常访问目标网页并获取源码了。

首先，我们用浏览器打开目标网页，右键—>审查元素（火狐）、检查（谷歌）

然后在打开的面板中，选择 NetWork 选项卡。

最后，在选项卡下面一行行的网络请求中随便点击一个，打开详情，拖到最下面RequestHeader项的底部，找到User-Agent，复制它。

这个User-Agent就是我们需要的伪装了，我们用这个为爬虫模拟出一个浏览器访问页面的请求，从而绕过网页的反爬虫协议。

#coding:utf8

import requests

#从浏览器中复制过来的伪装头

head={'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'}

#使用伪装头发出请求

html=requests.get("https://www.bilibili.com/",headers=head)

#指定编码格式，避免中文乱码

html.encoding= 'utf8'

#获取网页源码

print html.text

然后，就可以用正则表达式从网页源码提取内容了。

三：实战

#coding:utf8

import requests

import re

#从浏览器中复制过来的伪装头

head={'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'}

#使用伪装头发出请求

html=requests.get("https://git.oschina.net/",headers=head)

#指定编码格式，避免中文乱码

html.encoding= 'utf8'

#获取网页源码

src=html.text

#使用正则表达式提取内容，这里提取网页中的http链接：注意使用 () 提取想要的匹配信息

urls=re.findall('href="(http.*?)"',src)

for url in urls:

    print url

结果：

http://www.oschina.net

http://git.mydoc.io

http://weibo.com/mayunOSC

http://www.51idc.com/

Python定向爬虫实战的更多相关文章

关于Python网络爬虫实战笔记③
Python网络爬虫实战笔记③如何下载韩寒博客文章 Python网络爬虫实战笔记③如何下载韩寒博客文章 target:下载全部的文章 1. 博客列表页面规则也就是, http://blog.sina ...
python网络爬虫实战PDF高清完整版免费下载|百度云盘|Python基础教程免费电子书
点击获取提取码:vg1y python网络爬虫实战帮助读者学习Python并开发出符合自己要求的网络爬虫.网络爬虫,又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取互联网信息的程序或者脚 ...
关于Python网络爬虫实战笔记①
python网络爬虫项目实战笔记①如何下载韩寒的博客文章 python网络爬虫项目实战笔记①如何下载韩寒的博客文章 1. 打开韩寒博客列表页面 http://blog.sina.com.cn/s/ar ...
Python网络爬虫实战(一)快速入门
本系列从零开始阐述如何编写Python网络爬虫,以及网络爬虫中容易遇到的问题,比如具有反爬,加密的网站,还有爬虫拿不到数据,以及登录验证等问题,会伴随大量网站的爬虫实战来进行. 我们编写网络爬虫最主要 ...
python网络爬虫实战之快速入门
本系列从零开始阐述如何编写Python网络爬虫,以及网络爬虫中容易遇到的问题,比如具有反爬,加密的网站,还有爬虫拿不到数据,以及登录验证等问题,会伴随大量网站的爬虫实战来进行. 我们编写网络爬虫最主要 ...
Python网络爬虫实战(三)照片定位与B站弹幕
之前两篇已经说完了如何爬取网页以及如何解析其中的数据,那么今天我们就可以开始第一次实战了. 这篇实战包含两个内容. * 利用爬虫调用Api来解析照片的拍摄位置 * 利用爬虫爬取Bilibili视频中的 ...
Python网络爬虫实战：根据天猫胸罩销售数据分析中国女性胸部大小分布
本文实现一个非常有趣的项目,这个项目是关于胸罩销售数据分析的.是网络爬虫和数据分析的综合应用项目.本项目会从天猫抓取胸罩销售数据,并将这些数据保存到SQLite数据库中,然后对数据进行清洗,最后通过S ...
Python文本爬虫实战
转载请注明原文地址:http://www.cnblogs.com/ygj0930/p/7019950.html 一:流程目标:爬取目标网页的图片 1:获取网页源码 2:用Python读取源码 3: ...
自学Python十爬虫实战三（美女福利续）
我又来送福利啦!!!不同于上篇文章,这次我们的爬虫采用了多线程,一直以来被所谓的分布式多线程爬虫给唬的怕怕的.今天就来一发多线程爬虫吧,还能看妹子图,想想就觉得很激动!!! 依然是流程解释: ...

随机推荐

IOS的唯一标识符问题(转)
引用地址 http://www.zhihu.com/question/22599526/answer/21938878 网上搜了下IOS手机标志的种类,直接引用过来. UDID [[UIDevice ...
Node.js + Express 构建的订餐系统
Node.js的版本 - v0.8.12 Express的版本 – v3.3.3 (安装 $ npm install -g express) 系统的登录逻辑是:获取用户名 + 密码,向内网RTX服务 ...
Android加密解密
随笔分类 - Android加密解密 Android数据加密之异或加密算法摘要: 前言: 这几天被公司临时拉到去做Android IM即时通信协议实现,大致看了下他们定的协议,由于之前没有参与,据说 ...
利用Palette库来取得图片中的主要色彩
其实就我对开源库的了解,有很多开源库都能实现自动计算出任意一张图片中的主要色彩的功能,这种看似神奇实则枯燥的技术很容易适用到手机的UI中.根据不同的背景定制不同的UI,这个在最新的Android Ma ...
[转]用国内软件源为Ubuntu的apt-get提速方法
FROM : http://www.jb51.net/os/Ubuntu/45293.html 刚装好Ubuntu系统之后根据需要还要安装一系列的软件,最省心的办法就是通过apt-get来进行默 ...
Spring Test, JUnit, Mockito, Hamcrest 集成 Web 测试
关于Spring 3.2 1. Spring 3.2 及以上版本自动开启检测URL后缀,设置Response content-type功能, 如果不手动关闭这个功能,当url后缀与accept头不一致 ...
codevs 2190 有理逼近
2190 有理逼近时间限制: 1 s 空间限制: 32000 KB 题目等级 : 黄金 Gold 题目描述 Description 对于一个素数P,我们可以用一系列有理分数(分子.分母都是 ...
Guava之Iterables使用示例
这是一个常量工具类.Iterables类包含了一系列的静态方法,来操作或返回Iterable对象. public final class Iterables { private Iterables() ...
JavaScript 覆盖document.createElement 方法
最近项目遇到了问题,有个asp.net web程序只能在IE7 运行,现在xp都淘汰了,大家都用IE8-IE11,因此这个web app也需要升级适应所有IE版本.照成IE版本不兼容的问题主要来致d ...
通过js去掉所有的html标签，得到HTML标签中的所有内容
<script> //替换掉所有的 html标签,得到Html标签中的内容 var s="<P><FONT face=宋体 color=#000000> ...

Python定向爬虫实战

Python定向爬虫实战的更多相关文章

随机推荐

热门专题