title: python爬虫01

date: 2020-03-08 22:56:12

tags:

1、requests模块

requests模块的底层是urllib，但是比urllib更强大也更加简洁。

基本方法:

requests.get()
requests.post()
requests.request()
requests.head()

目前阶段只学习到了get和post方法。

其中get方法是获得请求的，post方法是发送请求的。

2、爬取百度贴吧网页实例

# coding=utf-8

import requests

class TiebaSpider:

    def __init__(self,tieba_name):

        self.tieba_name = tieba_name

        self.tieba_url = "https://tieba.baidu.com/f?kw="+ tieba_name +"&ie=utf-8&pn={}"

        self.header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.116 Safari/537.36"}

    def getUrlList(self):

        # url_list = []

        # for i in range(3):

        #     url_list.append(self.tieba_url.format(i*50))

        # return url_list

        # 下方的是简洁写法，是主流的写法

        return [self.tieba_url.format(i*50) for i in range(3)]

    def get_content(self,url):

        print(url)

        response = requests.get(url,headers = self.header)

        return response.content.decode()

    def save_html(self,response,index):

        file_name = "{}吧-第{}页.html".format(self.tieba_name,index)

        # with open as 变量名 方式打开文件会在最后关闭文件

        with open(file_name,"w",encoding="utf-8") as f:

            f.write(response)

    def run(self):

        #1.获取要爬的url列表

        url_list = self.getUrlList()

        #2.开始爬取

        for url in url_list:

            response = self.get_content(url)

            # 3.保存文件

            self.save_html(response,url_list.index(url)+1)

if __name__ == '__main__':

    tieba_name = input("请输入要爬取的贴吧名称:")

    spider = TiebaSpider(tieba_name)

    spider.run()

爬虫模块-requests的更多相关文章

Python-网络爬虫模块-requests模块之请求
Python原生库urllib库不太方便使用,本着"人生苦短, 我用Python"的珍惜生命精神, 基于urllib, 开发了一个对人类来说, 更好使用的一个库——requests ...
Python-网络爬虫模块-requests模块之响应-response
当requests发送请求成功后,requests就会得到返回值,如果服务器响应正常,就会接收到响应数据: Response响应中的属性和方法常用属性: status_code: 数据类型:int ...
Python--网络爬虫模块requests模块之响应--response
当requests发送请求成功后,requests就会得到返回值,如果服务器响应正常,就会接收到响应数据: Response响应中的属性和方法常用属性: status_code: 数据类型:int ...
爬虫之requests模块
requests模块什么是requests模块 requests模块是python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求.功能强大,用法简洁高效.在爬虫领域中占据着半壁江山的 ...
04.Python网络爬虫之requests模块（1）
引入 Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用. 警告:非专业使用其他 HTTP 库会导致危险的副作用,包括:安全缺陷症.冗余代码症.重新发明轮子症.啃文档 ...
Python 爬虫二 requests模块
requests模块 Requests模块 get方法请求整体演示一下: import requests response = requests.get("https://www.baid ...
Python网络爬虫之requests模块（1）
引入 Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用. 警告:非专业使用其他 HTTP 库会导致危险的副作用,包括:安全缺陷症.冗余代码症.重新发明轮子症.啃文档 ...
爬虫概念 requests模块
requests模块 - 基于如下5点展开requests模块的学习什么是requests模块 requests模块是python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求.功能 ...
Python爬虫之requests模块(1)
一.引入 Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用. 警告:非专业使用其他 HTTP 库会导致危险的副作用,包括:安全缺陷症.冗余代码症.重新发明轮子症.啃 ...

随机推荐

efcore 学习
新开一个博客来写一下ef core的学习过程这个博客内容会跟着官网走具体可见官网https://docs.microsoft.com/zh-cn/ef/core/get-started/?tabs ...
php支付宝签名验证类
<?php /* * 黎明互联 * https://www.liminghulian.com/ */ class RSA { /** * RSA签名 * @param $data 待签名数据 * ...
MySQL全面瓦解10：分组查询和聚合函数
概述相信我们经常会遇到这样的场景:想要了解双十一天猫购买化妆品的人员中平均消费额度是多少(这可能有利于对商品价格区间的定位):或者不同年龄段的化妆品消费占比是多少(这可能有助于对商品备货量的预估). ...
流量控制--3.Linux流量控制的组件
Linux流量控制的组件流量控制元素与Linux组件之间的相关性: traditional element Linux component 入队列修订:从用户或网络接收报文整流 class 提供 ...
Mockserver之Moco框架搭建使用
客户要求进行完整的产品展示,人员和时间都有限,来不及开发后端服务... 工期比较紧的项目,前端已开发完成,需要调试,后端接口还未开发完成... 公司某个项目依赖于第三方服务,但是第三方服务不方便频繁调 ...
从头学起Verilog（三）：Verilog逻辑设计
引言经过了组合逻辑和时序逻辑的复习,终于到了Verilog部分.这里主要介绍Verilog一些基础内容,包括结构化模型.TestBench编写和仿真.真值表模型. 这部分内容不多,也都十分基础,大家 ...
新建Chrome标签页，极简+自用
[跳转GitHub] chromeNewTab 已经入坑Chrome应用开发者,可以去:[应用商店地址]直接添加使用. 使用说明下载chrome的一个[window组策略文件],解压文件后找到(\p ...
rsync未授权访问漏洞复现
rsync未授权访问漏洞简介 rsync是Linux/Unix下的一个远程数据同步工具,可通过LAN/WAN快速同步多台主机间的文件和目录,默认运行在873端口.由于配置不当,导致任何人可未授权访问r ...
python-网络安全编程第九天(json模块、zoomeye采集)
前言其实这篇应该是昨天必须完成的但是昨天emmmmm 学习进度有点慢今天早上起来早点完成了这些的学习昨天计划学习内容还差一道CTFemmm 不管了先写一下今天的计划开始锻炼身体去. pyth ...
Vue知识点回顾(一)
一.什么是vue? Vue (读音 /vjuː/,类似于 view) 是一套用于构建用户界面的渐进式框架.与其它大型框架不同的是,Vue 被设计为可以自底向上逐层应用.Vue 的核心库只关注视图层,不 ...

爬虫模块-requests

1、requests模块

2、爬取百度贴吧网页实例

爬虫模块-requests的更多相关文章

随机推荐

热门专题