【爬虫】Python2 爬虫初学笔记
爬虫,个人理解就是:利用模拟“操作浏览器”的过程,自动获取我们想要的数据(或者说信息,比如图片啊)
为何要学爬虫:爬取数据,为我所用(相当于可以把一类数据整合起来)
一.简单静态网页爬虫架构:
1.Background Knowledge:URL(统一资源定位符,能帮助我们定位到网页在网络中的位置,URI 是统一资源标志符),HTTP协议
2.构架:
需要一个爬虫调度器管理下面的程序,涉及多线程管理等(比如说申请网页的阻塞时间可以用来建立新的申请,这些资源分配由操作系统完成)
URL管理器,防止URL重复使用,获取URL,未爬取和已爬取的管理
3.工作流程:
4.URL管理器实现方式:
a.存储在内存(set)
b.关系数据库(可永久保存)
c.缓存数据库(大部分公司使用这种方式)
5.网页下载器:
以HTML形式保存网页,可以使用urllib和urllib2实现下载
实现方法:
a.简单的使用urllib2.open(url)
b.添加Request方法,发送包头,伪装成浏览器
c.添加cookiejar cookie 容器
- # coding=utf-8
- import urllib2
- import cookielib
- url = "http://www.baidu.com"
- print '方法1'
- #请确保url 的合法性
- response1 = urllib2.urlopen(url)
- if response1.getcode()==200:
- print ' 读取网页成功'
- print ' Length:',
- print len(response1.read())
- else:
- print ' 读取网页失败'
- print 'Method2:'
- request = urllib2.Request(url)
- request.add_header("usr_agent","Mozilla/6.0")
- response2 = urllib2.urlopen(request)
- if response2.getcode()==200:
- print ' 读取网页成功'
- print ' Length:',
- print len(response2.read())
- else:
- print ' 读取网页失败'
- print 'Method3:'
- cj = cookielib.CookieJar()
- opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
- urllib2.install_opener(opener)
- response3 = urllib2.urlopen(url)
- if response3.getcode()==200:
- print ' 读取网页成功'
- print ' Length:',
- print len(response3.read())
- print cj
- print response3.read()
- else:
- print ' 读取网页失败'
6.网页解析器:
以下载好的HTML当成字符串,查找出
1.正则表达式匹配
2.html.parser
3.lxml解析器
4.BeautifulSoup
以DOM(Document Object Model) 结构化解析,下面是其语法
- # coding=utf-8
- import re
- from bs4 import BeautifulSoup
- html_doc = """
- <html><head><title>The Dormouse's story</title></head>
- <body>
- <p class="title"><b>The Dormouse's story</b></p>
- <p class="story">Once upon a time there were three little sisters; and their names were
- <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
- <a href="http://example.com/lacied" class="sister" id="link2">Lacie</a> and
- <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
- and they lived at the bottom of a well.</p>
- <p class="story">...</p>
- """
- #创建
- ccsSoup = BeautifulSoup(html_doc,'html.parser',from_encoding='utf8')
- #获取所有链接
- links= ccsSoup.find_all('a')
- for link in links:
- print link.name,link['href'],link.get_text()
- print ccsSoup.p('class')
- print '正则匹配'
- link_node = ccsSoup.find('a',href= re.compile(r"h"),class_='sister')
- print link_node
- link_node = ccsSoup.find('a',href= re.compile(r"d"))
- print link_node
5.调度程序
参考:
http://www.imooc.com/video/10686
https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
正则表达式:
http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html
PyCharm:使用教程
http://blog.csdn.net/pipisorry/article/details/39909057
【爬虫】Python2 爬虫初学笔记的更多相关文章
- python3爬虫--反爬虫应对机制
python3爬虫--反爬虫应对机制 内容来源于: Python3网络爬虫开发实战: 网络爬虫教程(python2): 前言: 反爬虫更多是一种攻防战,针对网站的反爬虫处理来采取对应的应对机制,一般需 ...
- Python 爬虫1——爬虫简述
Python除了可以用来开发Python Web之后,其实还可以用来编写一些爬虫小工具,可能还有人不知道什么是爬虫的. 一.爬虫的定义: 爬虫——网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区 ...
- C++ STL初学笔记
C++ STL初学笔记 更系统的版本见徐本柱的PPT set 在这儿:http://www.cnblogs.com/pdev/p/4035020.html #include <vector&g ...
- 【java爬虫】---爬虫+基于接口的网络爬虫
爬虫+基于接口的网络爬虫 上一篇讲了[java爬虫]---爬虫+jsoup轻松爬博客,该方式有个很大的局限性,就是你通过jsoup爬虫只适合爬静态网页,所以只能爬当前页面的所有新闻.如果需要爬一个网站 ...
- Spring 初学笔记
Spring 初学笔记: https://blog.csdn.net/weixin_35909255/article/category/7470388
- [爬虫]Python爬虫基础
一.什么是爬虫,爬虫能做什么 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来.比如它在抓取一个网 ...
- (Pyhton爬虫03)爬虫初识
原本的想法是这样的:博客整理知识学习的同时,也记录点心情...集中式学习就没这么多好记录的了! 要学习一门技术,首先要简单认识一下爬虫!其实可以参考爬虫第一章! 整体上介绍该技术包含技能,具体能做什么 ...
- laravel 5.6初学笔记
laravel 5.6初学笔记 http://note.youdao.com/noteshare?id=bf4b701b49dd035564e7145ba2d978b4 框架简介 laravel文档齐 ...
- csapp网络编程初学笔记
csapp网络编程初学笔记 客户端-服务器编程模型 每个网络应用都是基于客户端-服务器模型,服务器管理某种资源,并且通过操作来为它的客户提供某种服务 客户端-服务器模型中的基本操作是transacti ...
- PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二手急速响应捡垃圾平台_3(附源码持续更新)
说明 文章首发于HURUWO的博客小站,本平台做同步备份发布. 如有浏览或访问异常图片加载失败或者相关疑问可前往原博客下评论浏览. 原文链接 PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二 ...
随机推荐
- .net导入excel数据到数据库中
在开发过程中我们经常面临着需要将数据导出或者导入到系统中,例如一些生产管理系统,项目管理系统等等都会有这样的需求: 将excel数据到系统中思路:获取excel中每一行的数据,然后存入集合中,批量添加 ...
- sqlservcer行列互转
普通行列转换 行转列 假设有张学生成绩表(tb)如下:Name Subject Result张三 语文 74张三 数学 83张三 物理 93李四 语文 74李四 数学 84李四 物理 94*/---- ...
- JS判断是不是手机浏览器浏览网站的网页,并自动跳转
现在智能手机上网越来越普遍了,为了获得用户体验增加网站流量,你有必要为你的网站增加一个访问端设备的判断功能,若发现是手机用户访问,则直接跳转到手机站,通过百度的APP site,很容易就可实现这功能. ...
- noi前机房日常
2015/6/16 上午a了一道省选分组赛day1t2,并在cf100553H双倍经验,好评 bzoj3152(ctsc2013)贪心,用priority_queue要清空 bx2k上午交了几十题,他 ...
- test1.xlsx
耿丹CS16-2班第三次作业汇总 排名 学号后三位 姓名 作业顺序 作业情况 第三周博客 总得分 博客园地址 1 232 周* 1 8.5 3 12.5 http://www.cnblogs.com/ ...
- gen_server port 调用receive_match 问题
问题由来 前些天对系统做了一个优化,将原来从queue 轮询刷出数据后每条消息一个 spawn 进程单独处理,修改为批量刷出.一条一条刷轮询刷 queue 存在问题:刷queue 进程太多时,占用CP ...
- input函数出现的问题(Python)
参考书<A Learner's Guide to Programming Using the Python Language>,写下如下的程序: # coding=utf-8 # 以上是为 ...
- Python: Win7 64位如何安装MongoDB?
Windows 7 64位安装MongoDB 官网tutorial: https://docs.mongodb.com/v3.0/tutorial/install-mongodb-on-window ...
- 求一个区间[a,b]中数字1出现的次数
问题来源:http://ac.jobdu.com/problem.php?pid=1373 举例:如果n=10 那么1-10之间的1的个数是2(1,2,3,4,...10) 这其中有一个规律: 挨着看 ...
- mui项目中如何使用原生JavaScript代替jquery来操作dom 转自【B5教程网】:http://www.bcty365.com/content-146-3661-1.html
最近在用mui写页面,当然了在移动App里引入jq或zepto这些框架,肯定是极不理性的.原生JS挺简单,为何需要jq?jq的成功当时是因为ie6.7.8.9.10.chrome.ff这些浏览器不兼容 ...