python爬虫之路——初识爬虫三大库,requests,lxml,beautiful.
三大库:requests,lxml,beautifulSoup.
Request库作用:请求网站获取网页数据。
get()的基本使用方法
#导入库
import requests
#向网站发送请求,获取数据。
res= requests.get(‘http://bj.xiaozhu.com/’)
#打印返回值,<response [200]>成功,<response [404]>,<response [400]>失败
print(res)
#打印返回文本
print(res.test)
加入请求头伪装成浏览器
import request
#User-Agent
headers={Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36 QIHU 360SE}
#将heads导入
res=requests.get('https://www.baidu.com/?tn=92495750_hao_pg',headers=headers)
print(res.test)
post()的基本使用:用于提交表单来爬取需要登录才能获得数据的网页。
增加健壮性和效率
Requests库的错误和异常分四种:自己分为两种①未发出Reques②未收到Html
当发现这些错误或异常进行代码修改重新再来,爬虫重新再来,有些数据又爬一次。效率和质量低。
import request
#User-Agent
headers={Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36 QIHU 360SE}
#将heads导入
res=requests.get('https://www.baidu.com/?tn=92495750_hao_pg',headers=headers)
try:
print(res.test)
except ConnectionError:
print('拒绝连接')
beautifulSoup()库的作用:①解析requests库请求的网页,把网页源代码解析成soup文档。②初步提取
①解析requests库请求的网页,把网页源代码解析成soup文档,得到标准缩进格式的结构输出,为进步处理准备。
#导入库
import requests
from bs4 import BeautifulSoup
#向网站发送请求,获取数据。
res= requests.get(‘http://bj.xiaozhu.com/’)
#利用Beauiful库解析为soup文档。
soup=BeautifulSoup(res.test,'html.parser')
print(soup.prettify())
②初步提取
find_all和find()的区别:查询一个或查询所有。使用方法一样,没有具体事例可能用的不多。
根据标签名提取内容
soup.find_all('div',"item")
soup.find_all('div',class='item')
soup.find_all('div',attrs={"class":"item"})
selector():根据路径查询数据
soup.selector( div > div > div.lay.first > div.list_li.\30 > a > img)
div是标签名,list_li.\30是属性class的值
多分支标签中不能使用child要改为type
li:nth-child(1)需改为li:nth-of-type(1)
③get_text()方法:提取标签内容去掉头尾,<i>5456</i> => 5456
import requests
from bs4 import BeautifulSoup
#向网站发送请求,获取数据。
res= requests.get(‘http://bj.xiaozhu.com/’)
#利用Beauiful库解析为soup文档。
soup=BeautifulSoup(res.test,'html.parser')
#利用css定位元素
prices=soup.selector( div > div > div.lay.first > div.list_li.\30 > a > img)
#提取标签内容去掉头尾,<i>5456</i>=>5456
for price in prices:
print (price.get_text())
lxml库
python爬虫之路——初识爬虫三大库,requests,lxml,beautiful.的更多相关文章
- python爬虫之路——初识爬虫原理
爬虫主要做两件事 ①模拟计算机对服务器发起Request请求 ②接收服务器端的Response内容并解析,提取所需的信息 互联网页面错综复杂,一次请求不能获取全部信息.就需要设计爬虫的流程. 本书主要 ...
- 【网络爬虫入门02】HTTP客户端库Requests的基本原理与基础应用
[网络爬虫入门02]HTTP客户端库Requests的基本原理与基础应用 广东职业技术学院 欧浩源 1.引言 实现网络爬虫的第一步就是要建立网络连接并向服务器或网页等网络资源发起请求.urllib是 ...
- python爬虫之路——初识lxml库和xpath语法
lxml库:是xml解析库,也支持html文档解析功能,实用功能:自动修正补全html代码. 使用流程:①导入lxml中的etree库,②利用etree.HTML(文件名)或etree.parse(本 ...
- python爬虫之路——初识函数与控制语句
介绍python函数的定义与使用方法,介绍Python的常用控制语句:判断和循环 函数: 格式 def 函数名(参数1,参数2): return ‘结果’ 判断语句:就是多选一 二选一: if c ...
- python爬虫之路——初识数据库存储
非关系型数据库:MongoDB.关系型数据库:MySQL 关系型和非关系型的区别: 安装: 使用: 应用场景: mongoDB是一种非关系型数据库,分为四大类:键值存储数据库,列存储数据库,文档型数据 ...
- python爬虫之路——初识基本页面构造原理
通过chrome浏览器的使用简单介绍网页构成 360浏览器使用右键审查元素,Chrome浏览器使用右键检查,都可查看网页代码. 网页代码有两部分:HTML文件和CSS样式.其中有<script& ...
- python爬虫系列之初识爬虫
前言 我们这里主要是利用requests模块和bs4模块进行简单的爬虫的讲解,让大家可以对爬虫有了初步的认识,我们通过爬几个简单网站,让大家循序渐进的掌握爬虫的基础知识,做网络爬虫还是需要基本的前端的 ...
- Python学习之路——初识Python
一.第一个程序Hello World: 1.打印输出Hello World: Python2打印方法: >>> print "hello world"hello ...
- python学习之路 初识xml
import requests from xml.etree import ElementTree as ET r = requests.get('http://www.webxml.com.cn// ...
随机推荐
- sql中的begin....end
Begin...End之间的是一个语句块,一般Begin...End用在 ( 相当于 {})whileif等语句中在T_SQL中,if/while后只能紧跟一条sql语句,如果有多条则应该用Beg ...
- SpringMVC中的常用注解
RequestParam 作用: 用于 将请求参数区数据 映射到 功能处理方法的参数上. 属性: value 请求参数中的名称 required 请求参数中是否必须提供此参数. 默认值: ...
- 关于$_SERVER['PHP_SELF']用法及其安全性---改良
网站来源:http://www.5idev.com/p-php_server_php_self.shtml PHP 使用 $_SERVER['PHP_SELF'] 获取当前页面地址及其安全性问题 PH ...
- VS中运行后控制台窗口一闪就没了
使用VS2010后,用Ctrl+F5运行程序,结果控制台窗口一闪就没了,也没有出现”press any key to continue…” 或者“请按任意键继续”. 出现这种原因,主要是建立工程时选用 ...
- 洛谷P2280 [HNOI2003]激光炸弹
P2280 [HNOI2003]激光炸弹 题目描述 输入输出格式 输入格式: 输入文件名为input.txt 输入文件的第一行为正整数n和正整数R,接下来的n行每行有3个正整数,分别表示 xi,yi ...
- 两数相加LeetCode
给出两个 非空 的链表用来表示两个非负的整数.其中,它们各自的位数是按照 逆序 的方式存储的,并且它们的每个节点只能存储 一位 数字. 如果,我们将这两个数相加起来,则会返回一个新的链表来表示它们的和 ...
- 洛谷P2912 牧场散步Pasture Walking
题目描述 The \(N\) cows (\(2 \leq N \leq 1,000\)) conveniently numbered \(1..N\) are grazing among the N ...
- 黑马学习ajax&json 笔记
## 今日内容 1. AJAX: 2. JSON # AJAX: 1. 概念: ASynchronous JavaScript And XML 异步的JavaScript 和 XML 1. 异步和同步 ...
- JavaScript进阶 - 第9章 DOM对象,控制HTML元素
第9章 DOM对象,控制HTML元素 9-1 认识DOM 文档对象模型DOM(Document Object Model)定义访问和处理HTML文档的标准方法.DOM 将HTML文档呈现为带有元素.属 ...
- JS 检测字符串是否还有某个字符
function filer(s) { var str = "字符串"; if (str.indexOf(s) == -1) { alert("没有"); } ...