使用python实现简单爬虫

简单的爬虫架构

调度器

URL管理器

管理待抓取的URL集合和已抓取的URL，防止重复抓取，防止死循环

功能列表

1：判断新添加URL是否在容器中

2：向管理器添加新URL

3：判断容器是否为空

4：将已爬取URL移动到已爬取集合

5：获取待爬取URL

实现方式

1:使用set（自动去除重复项目）

2:使用关系数据库(MySQL)

3：使用缓存数据库（redis）：大型公司使用这玩意

网页下载器

功能列表

1:get

2:post

3:伪装头信息

4:HTTPCookieProcessor

5:ProxyHandler

6:HTTPSHandler

7:HTTPRedirectHAndler

实现方法

1:urllib2

2:URLlib3

3:requests

此处使用request实现

#coding=utf-8

import requests,json

url = 'http://www.baidu.com'

headers = {'user-agent':'Mozilla/5.0'}	#模拟Mozilla浏览器头,此行可以为空

get_data = {'wd':'linux'}

r = requests.get(url,headers=headers,params = get_data)

if r.status_code == 200:

	'访问成功'

	try:

		file = open('baidu.com','w')

		file.write('本次访问网址是：' + r.url)

		print('本次访问网址是：' + r.url)

	except IOError as e:

		print('文件读取错误：' + str(e))

	try:

		file = open('baidu.com','a+')

		text = r.text

		file.write('\n得到数据如下：\n' + text)

		print('得到数据长度：' + str(len(r.content)))

	except IOError as e:

		print('文件读取错误：' + str(e))

else:

	print('我是假的404')

解析器

1:正则表达式			传统经典，语法奇葩难懂

2:html.parser		python自带

3:BeautifulSoup		可以使用上下两种解析器，集合天地精华

4:lxml				可以解析html和xml

#coding=utf-8

from bs4 import BeautifulSoup,re

try:

	file = open('baidu.com','r')

	html_str = file.read()

	print(type(html_str))

except IOError as e:

	print(str(e))

finally:

	if 'file' in locals():

		file.close()

if 'html_str' in locals():

	#根据HTML网页字符串创建BeautifulSoup对象

	soup = BeautifulSoup(

		html_str,				#html文档字符串

		'html.parser',			#html解析器，可以使用py自带的html_parser

		from_encoding='utf-8'	#文档编码格式

		)

	#soup.find(name,attrs,string)	#只查找第一个匹配对象,支持正则表达式

	nodes = soup.find_all('a')

	for node in nodes:

		print(node.name)			#得到节点标签（参数1）

		print(node['href'])			#得到属性（参数2）

		print(node.get_text())		#得到文字（参数3）

	#正则匹配

	nodes2 = soup.find_all('a',href=re.compile(r"map"))

	print('\n\n\n\n\n---------------------------百年分割线------------------------\n')

	for node in nodes2:

		print(node.name)			#得到节点标签（参数1）

		print(node['href'])			#得到属性（参数2）

		print(node.get_text())		#得到文字（参数3）

使用python实现简单爬虫的更多相关文章

Python开发简单爬虫 - 慕课网
课程链接:Python开发简单爬虫环境搭建: Eclipse+PyDev配置搭建Python开发环境 Python入门基础教程用Eclipse编写Python程序课程目录第1章课程介绍 ...
python实现简单爬虫抓取图片
最近在学习python,正如大家所知,python在网络爬虫方面有着广泛的应用,下面是一个利用python程序抓取网络图片的简单程序,可以批量下载一个网站更新的图片,其中使用了代理IP的技术. imp ...
Python开发简单爬虫（一）
一 .简单爬虫架构: 爬虫调度端:启动爬虫,停止爬虫,监视爬虫运行情况 URL管理器:对将要爬取的和已经爬取过的URL进行管理:可取出带爬取的URL,将其传送给“网页下载器” 网页下载器:将URL指定 ...
Python开发简单爬虫
简单爬虫框架: 爬虫调度器 -> URL管理器 -> 网页下载器(urllib2) -> 网页解析器(BeautifulSoup) -> 价值数据 Demo1: # codin ...
Python做简单爬虫（urllib.request怎么抓取https以及伪装浏览器访问的方法）
一:抓取简单的页面: 用Python来做爬虫抓取网站这个功能很强大,今天试着抓取了一下百度的首页,很成功,来看一下步骤吧首先需要准备工具: 1.python:自己比较喜欢用新的东西,所以用的是Pyt ...
python多线程简单爬虫
爬虫本质就是将网站或者接口的数据经过筛选后按需求保存这里实现一个简单爬虫仅供参考 import requests import bs4 import threading import queue i ...
教你如何入手用python实现简单爬虫微信公众号并下载视频
主要功能如何简单爬虫微信公众号获取信息:标题.摘要.封面.文章地址自动批量下载公众号内的视频一.获取公众号信息:标题.摘要.封面.文章URL 操作步骤: 1.先自己申请一个公众号 2.登录自己 ...
python实现简单爬虫功能
在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材. 我们最常规的做法就是通过鼠标右键,选择另存为.但有些图片鼠标右键的 ...
python scrapy简单爬虫记录(实现简单爬取知乎)
之前写了个scrapy的学习记录,只是简单的介绍了下scrapy的一些内容,并没有实际的例子,现在开始记录例子使用的环境是python2.7, scrapy1.2.0 首先创建项目在要建立项目的目 ...

随机推荐

hibernate课程初探单表映射3-1 单一主键
本节简介: 1 单一主键的两种赋值方式:手动赋值(assigned)和自动赋值(native) 2 mysql和oracle赋值的不同形式 3 demo 2 native由底层数据库生成标识符,如果是 ...
SpringBoot的核心功能
1.独立运行的Spring项目 SpringBoot可以以jar包的形式独立运行,运行一个SpringBoot项目只需要通过java -jar xx.jar来启动. 2.内嵌Servlet容器 Spr ...
WIN10+Ubuntu14.04 双系统 ubuntu无法有线上网的问题
注:在WIN10 的引导下安装了双系统,ubuntu有线无法上网,无线却可以. 上网一查,发现之前许多安装双系统的人都存在以上的问题. 常见的解决方法是: 在WINDOWS下关闭网络唤醒,还有一些检查 ...
sql server2016安装程序图
今天终于有时间安装SQL Server2016正式版,下载那个安装包都用了一个星期安装包可以从这里下载: http://www.itellyou.cn/ https://msdn.microsoft ...
springMvc-框架搭建
搭建springmvc框架的步骤: 1.在web.xml中配置springMvc的servlet 2.创建controller处理页面传来的数据, 3.床架springMvc文件,处理视图: 3.1: ...
linux 命令——39 grep (转）
Linux系统中grep命令是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来.grep全称是Global Regular Expression Print,表示全局正则表达 ...
mysql 疑难问题-django
1不能存储中文问题解决1: 确认表设计时,字段name_vn字符集是utf8,改成utf8后可以存储中文
集成Ehcache用来缓存表以后，怎么设置缓存刷新时间
问答集成Ehcache用来缓存表以后,怎么设置缓存刷新时间发布于 217天前作者老司机 93 次浏览复制上一个帖子下一个帖子标签: 无集成Ehcache用来缓存表以后, ...
用fast rcnn绘制loss曲线遇到的问题
运行fast rcnn的train,会进入ipython,要先exit退出才能继续运行程序绘制图像时,用了命令: ./tools/train_net.py --gpu 0 --solver mode ...
js 数组方法大集合，各方法是否改变原有的数组详解
不会改变原来数组的有: concat()---连接两个或更多的数组,并返回结果. every()---检测数组元素的每个元素是否都符合条件. some()---检测数组元素中是否有元素符合指定条件. ...

使用python实现简单爬虫

简单的爬虫架构

调度器

URL管理器

功能列表

实现方式

网页下载器

功能列表

实现方法

解析器

使用python实现简单爬虫的更多相关文章

随机推荐

热门专题