学习进度-16 python爬虫

爬虫是一个程序，这个程序的目的就是为了抓取万维网信息资源，比如你日常使用的谷歌等搜索引擎，搜索结果就全都依赖爬虫来定时获取

从百度可以看出来爬虫与python关系很紧密，

爬虫的目标对象也很丰富，不论是文字、图片、视频，任何结构化非结构化的数据爬虫都可以爬取，爬虫经过发展，也衍生出了各种爬虫类型：

通用网络爬虫：爬取对象从一些种子 URL 扩充到整个 Web，搜索引擎干的就是这些事

垂直网络爬虫：针对特定领域主题进行爬取，比如专门爬取小说目录以及章节的垂直爬虫

增量网络爬虫：对已经抓取的网页进行实时更新

深层网络爬虫：爬取一些需要用户提交关键词才能获得的 Web 页面

要爬虫必须掌握：
网页的结构是HTML，爬虫的目标就是解析HTML，获取目标字段并保存

客户端展现的网页由浏览器渲染，客户端和服务端的信息交互依靠HTTP协议

爬虫得步骤为：

模拟请求网页资源

从HTML提取目标元素

数据持久化

例如：

import requests

from bs4 import BeautifulSoup

target_url = 'http://www.baidu.com/s?wd=爬虫'

# 第一步 发起一个GET请求

res = requests.get(target_url)

# 第二步 提取HTML并解析想获取的数据 比如获取 title

soup = BeautifulSoup(res.text, "lxml")

# 输出 soup.title.text

title = soup.title.text

# 第三步 持久化 比如保存到本地

with open('title.txt', 'w') as fp:

    fp.write(title)

这就是一个简单得爬虫

参考网址：https://www.jianshu.com/p/c92dae931098

学习进度-16 python爬虫的更多相关文章

学习进度-10 python爬虫
学习爬虫的第一个案例是小说爬虫. 小说爬虫首先是解析小说页面源代码,在页面源代码中可以看到小说每章节的内容链接爬虫的代码: import requests import re url = 'http ...
学习笔记之Python爬虫
Python 爬虫介绍 | 菜鸟教程 http://www.runoob.com/w3cnote/python-spider-intro.html https://blog.csdn.net/sina ...
吴裕雄--天生自然python学习笔记：python爬虫PM2.5 实时监测显示器
PM2.5 对人体的健康影响很大,所以空气中的 PM2.5 实时信息受到越来越多的关注. Python 的 Pandas 套件不但可以自动读取网页中的表格数据 , 还可对数据进行修改.排序等处理,也 ...
Python学习：16.Python面对对象（三、反射，构造方法，静态字段，静态方法）
一.构造方法在使用类创建对象的时候(就是类后面加括号)就自动执行__init__方法. class A: def __init__(self): print('A') class B: def __ ...
吴裕雄--天生自然python学习笔记：python爬虫与网页分析
我们所抓取的网页源代码一般都是 HTML 格式的文件,只要研究明白 HTML 中的标签( Tag )结构,就很容易进行解析并取得所需数据 . HTML 网页结构 HTML 网页是由许多标签( Ta ...
【Python爬虫】入门知识
爬虫基本知识这阵子需要用爬虫做点事情,于是系统的学习了一下python爬虫,觉得还挺有意思的,比我想象中的能干更多的事情,这里记录下学习的经历. 网上有关爬虫的资料特别多,写的都挺复杂的,我这里不打 ...
python爬虫小实例
1.python爬取贴吧壁纸 1.1.获取整个页面数据 #coding=utf-8 import urllib def getHtml(url): page = urllib.urlopen(url) ...
【学习笔记】PYTHON网络爬虫与信息提取(北理工嵩天)
学习目的:掌握定向网络数据爬取和网页解析的基本能力the Website is the API- 1 python ide 文本ide:IDLE,Sublime Text集成ide:Pychar ...
第三次作业-MOOC学习笔记：Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业第一周 Requests库的爬 ...

随机推荐

centos610无桌面安装JDK
Centos610系列配置 1.使用yum查找jdk: yum search java|grep jdk 2.选择安装截图中选中的版本 yum install java-1.8.0-openj ...
Computational Complexity of Fibonacci Sequence / 斐波那契数列的时空复杂度
Fibonacci Sequence 维基百科 \(F(n) = F(n-1)+F(n-2)\),其中 \(F(0)=0, F(1)=1\),即该数列由 0 和 1 开始,之后的数字由相邻的前两项相加 ...
「NOIP2016」蚯蚓
传送门 Luogu 解题思路很容易想到用一个堆去维护,但是复杂度是 \(O((n+m)\log(n+m))\) 的,显然过不了 \(7e6\). 其实这题有一个性质: 先被切开的蚯蚓,得到的两条新蚯 ...
基于Tesseract实现图片文字识别
一.简介 Tesseract是一个开源的文本识别[OCR]引擎,可通过Apache 2.0许可获得.它可以直接使用,或者使用API从图像中提取打印的文本,支持多种语言.该软件包包含一个ORC引擎[l ...
浏览器 User-Agent 整理
也可以去这里查询:http://tools.jb51.net/table/useragent window.navigator.userAgent 1) Chrome Win7: Mozilla/5. ...
string和stringBuffer，stringBuilder的区别
1,String类的内容一旦声明后是不可改变的,改变的只是其内存的指向,而StringBuffer类的对象内容是可以改变的. 2,对于StringBuffer,不能像String那样直接通过赋值的方式 ...
杭电1004 Let the Balloon Rise
Let the Balloon Rise Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Oth ...
quartz定时任务cron表达式讲解及翻译成现实语言的插件的使用详解
cron表达式讲解参见该网址: https://www.cnblogs.com/GarfieldTom/p/3746290.html cron表达式只有专业技术人员才看得懂,普通人不知道表达式是什么 ...
Python学习笔记010
倒三角 num2 = int(input("Line:")) while num2 > 0: num1 = num2 while num1 > 0: ...
SpringBoot 集成JUnit
项目太大,不好直接测整个项目,一般都是切割成多个单元,单独测试,即单元测试. 直接在原项目上测试,会把项目改得乱七八糟的,一般是单独写测试代码. 进行单元测试,这就需要集成JUnit. (1)在pom ...

学习进度-16 python爬虫

学习进度-16 python爬虫的更多相关文章

随机推荐

热门专题