requests 库和beautifulsoup库

python 爬虫和解析

库的安装：pip install requests; pip install beautifulsoup4

requests 的几个常用方法：

　　requests.request() #以下各方法的基础

　　requests.get(url,params=None,**kwargs) #获取html内容

　　requests.head() #获取网页头部内容

　　requests.post()

　　requests.put()

　　requests.patch()

　　requests.delete()

重点为：get()其有12个控制关键字参数返回为response对象

r.status_code #200为正常

r.text #html内容

r.encoding 编码

r.apparent_encoding 备选编码

r.content 二进制形式返回，爬取图片，视频，音频等的关键

常使用try,except框架

import requests

import os

url = 'http://image.ngchina.com.cn/2018/1010/20181010031434134.jpg'

root = 'd://pics//'

path = root + url.split('/')[-1]

try:

    if not os.path.exists(root):

        os.mkdir(root)

    if not os.path.exists(path):

        r=requests.get(url)

        with open(path,'wb') as f:

            f.write(r.content)

            f.close()

            print('文件保存成功')

    else:

        print('文件已存在')

except:

    print('失败')

import requests

import os

url = 'http://mov.bn.netease.com/open-movie/nos/mp4/2016/05/16/SBM8NN8G6_shd.mp4'

root = 'd://vidio//'

path = root + url.split('/')[-1]

try:

    if not os.path.exists(root):

        os.mkdir(root)

    if not os.path.exists(path):

        r=requests.get(url)

        with open(path,'wb') as f:

            f.write(r.content)

            f.close()

            print('文件保存成功')

    else:

        print('文件已存在')

except:

    print('失败')

 1 import requests

 2 from bs4 import BeautifulSoup

 3 import bs4

 4 def gethtmltext(url):

 5     try:

 6         r = requests.get(url,timeout=30)

 7         r.raise_for_status()

 8         r.encoding=r.apparent_encoding

 9         return r.text

10     except:

11         return ''

12

13

14 def fillunivlist(ulist,html):

15     soup = BeautifulSoup(html,'html.parser')

16     for tr in soup.find('tbody').children:

17         if isinstance(tr,bs4.element.Tag):

18             tds = tr('td')

19             ulist.append([tds[0].string,tds[1].string,tds[2].string])

20

21 def printunivlist(ulist,num):

22     print('{:^10}\t{:^6}\t{:^10}'.format('排名','学校名称','总分'))

23     for i in range(num):

24         u=ulist[i]

25         print('{:^10}\t{:^6}\t{:^10}'.format(u[0],u[1],u[2]))

26

27

28 def main():

29     uinfo = []

30     url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'

31     html = gethtmltext(url)

32     fillunivlist(uinfo,html)

33     printunivlist(uinfo,20)

34

35 main()

查看爬虫协议在最后加上robots.txt 如：www.jd.com/robots.txt

Beautiful Soup库 #解析网页用

BeautifulSoup(text,'html.parser')

SOUP库的基本元素：

Tag 标签，最基本的信息单元，对应<>....</>

Name 标签名

attributes 标签属性：Tag.attrs

Navigablestring 标签内非属性字符串<>....</>中的字符串格式：Tag.string

Comment 标签的注释部分

如：<p class='title'>.....</p> p标签

p.name p.attrs p.string

requests 库和beautifulsoup库的更多相关文章

python爬虫学习(一)：BeautifulSoup库基础及一般元素提取方法
最近在看爬虫相关的东西,一方面是兴趣,另一方面也是借学习爬虫练习python的使用,推荐一个很好的入门教程:中国大学MOOC的<python网络爬虫与信息提取>,是由北京理工的副教授嵩天老 ...
Python:requests库、BeautifulSoup4库的基本使用（实现简单的网络爬虫）
Python:requests库.BeautifulSoup4库的基本使用(实现简单的网络爬虫) 一.requests库的基本使用 requests是python语言编写的简单易用的HTTP库,使用起 ...
BeautifulSoup库整理
BeautifulSoup库一.BeautifulSoup库的下载以及使用 1.下载 pip3 install beautifulsoup4 2.使用 improt bs4 二.BeautifulS ...
爬虫 Http请求,urllib2获取数据,第三方库requests获取数据,BeautifulSoup处理数据,使用Chrome浏览器开发者工具显示检查网页源代码,json模块的dumps，loads，dump，load方法介绍
爬虫 Http请求,urllib2获取数据,第三方库requests获取数据,BeautifulSoup处理数据,使用Chrome浏览器开发者工具显示检查网页源代码,json模块的dumps,load ...
$python爬虫系列（2）—— requests和BeautifulSoup库的基本用法
本文主要介绍python爬虫的两大利器:requests和BeautifulSoup库的基本用法. 1. 安装requests和BeautifulSoup库可以通过3种方式安装: easy_inst ...
利用python的requests和BeautifulSoup库爬取小说网站内容
1. 什么是Requests? Requests是用Python语言编写的,基于urllib3来改写的,采用Apache2 Licensed 来源协议的HTTP库. 它比urllib更加方便,可以节约 ...
Python爬虫小白入门（三）BeautifulSoup库
# 一.前言 *** 上一篇演示了如何使用requests模块向网站发送http请求,获取到网页的HTML数据.这篇来演示如何使用BeautifulSoup模块来从HTML文本中提取我们想要的数据. ...
网络爬虫BeautifulSoup库的使用
使用BeautifulSoup库提取HTML页面信息 #!/usr/bin/python3 import requests from bs4 import BeautifulSoup url='htt ...
基于BeautifulSoup库的HTML内容的查找
一.BeautifulSoup库提供了一个检索的参数: <>.find_all(name,attrs,recursive,string,**kwargs),它返回一个列表类型,存储查找的结 ...

随机推荐

实用向—总结一些唯一ID生成方式
在日常的项目开发中,我们经常会遇到需要生成唯一ID的业务场景,不同的业务对唯一ID的生成方式与要求都会不尽相同,一是生成方式多种多样,如UUID.雪花算法.数据库递增等:其次业务要求上也各有不同,有的 ...
解析Vue-router相关干货及工作原理
本文主要介绍了vue-router相关基础知识及单页面应用的工作原理,写的十分的全面细致,具有一定的参考价值,对此有需要的朋友可以参考学习下.如有不足之处,欢迎批评指正. 单页面工作原理是通过浏览器U ...
纯粹极简的react状态管理组件unstated
简介 unstated是一个极简的状态管理组件看它的简介:State so simple, it goes without saying 对比对比redux: 更加灵活(相对的缺点是缺少规则,需要 ...
python学习笔记1之-python简介及其环境安装
python学习笔记之-python简介及其环境安装最近几年python之火不用多说,最近开始利用时间自学python,在学习的过程中,按照自己的思路和理解记录下学习的过程,并分享出来,如果正好你也 ...
Centos-服务管理-systemctl
systemctl命令属于systemd软件包,这个软件包不仅可以完成系统的初始化工作,还能对系统和服务进行管理在centos7中,服务单元取代启动脚本,服务单元以.service为文件扩展名,配置 ...
Java 实现截屏
操作系统:Windows 10 x64 参考:https://blog.csdn.net/weixin_40657079/article/details/83961708 1 import java. ...
【题解】[USACO07OPEN]Dining G
$Link$ $\text{Solution:}$ 这一题,我们要做到,食物和牛.牛和饮料均为一对一的关系.我们发现这个图不好建立. 经典技巧:将牛拆边,拆成入点和出点,并连容量为$1$的 ...
【从零开始撸一个App】Kotlin
工欲善其事必先利其器.像我们从零开始撸一个App的话,选择最合适的语言是首要任务.如果你跟我一样对Java蹒跚的步态和僵硬的语法颇感无奈,那么Kotlin在很大程度上不会令你失望.虽然为了符合JVM规 ...
轻轻松松学CSS:Grid布局
网页布局总的来说经历了以下四个阶段: 1.古老的table表格布局,现在基本已被淘汰. 2.float浮动布局(或者position定位布局),借助float.position 等属性等进行布局,这种 ...
Prometheus第一篇：Prometheus架构解析
Prometheus是新一代的监控系统解决方案,原生支持云环境,和kubernetes无缝对接,的却是容器化监控解决方案的不二之选.当然对传统的监控方案也能够兼容,通过自定义或是用开源社区提供的各种e ...

requests 库和beautifulsoup库

requests 库和beautifulsoup库的更多相关文章

随机推荐

热门专题