Python3---爬虫---抓取百度贴吧

前言

该文章主要描述如何抓取百度贴吧内容。当然是简单爬虫实现功能，没有实现输入参数过滤等辅助功能，仅供小白学习。

修改时间：20191219

天象独行

import os,urllib.request,urllib.parse
 
'''
    测试要求：
        1；输入吧名，首页，结束页进行爬虫。
        2；创建一个以吧名为名字的文件夹，里面是每一页的html的内容，文件名格式：吧名_page.html
'''
url = "https://tieba.baidu.com/f?"
 
ba_name = input("请输入需要下载的吧名： ")
home_page = int(input("请输入首页："))
end_page = int(input("请输入结束页："))
#创建一个路径变量：
path = "C:\\Users\\aaron\\Documents\\Python3-test"
os.makedirs(path)
'''
    pn = 0  第一页
    pn = 50 第二页
    pn = 100 第三页
    。。。。
    pn = (n-1)*50 第n页
'''
for page in range(home_page,end_page+1):
    #构造请求参数字典
    data = {
        "kw":ba_name,
        "ie":"urt-8",
        "pn":(page-1)*50
    }
    #构造请求hearders头
    #构造请求参数
    url_get = urllib.parse.urlencode(data)
    #构造请求url
    url_get = url + url_get
    #请求url
    request = urllib.request.urlopen(url_get)
    #创建一个文件名
    filename = ba_name + '_' + str(page) + '.html'
    #拼接文件路径
    filepath = path + '\\' + filename
    print(filepath)
    #写入内容
    with open(filepath,'wb') as fp:
        fp.write(request.read())

执行结果：

Python3---爬虫---抓取百度贴吧的更多相关文章

笔趣看小说Python3爬虫抓取
笔趣看小说Python3爬虫抓取获取HTML信息解析HTML信息整合代码获取HTML信息 # -*- coding:UTF-8 -*- import requests if __name__ ...
使用Python3爬虫抓取网页来下载小说
很多时候想看小说但是在网页上找不到资源,即使找到了资源也没有提供下载,小说当然是下载下来用手机看才爽快啦! 于是程序员的思维出来了,不能下载我就直接用爬虫把各个章节爬下来,存入一个txt文件中,这样, ...
关于Python3爬虫抓取网页Unicode
import urllib.requestresponse = urllib.request.urlopen('http://www.baidu.com')html = response.read() ...
python3爬虫抓取智联招聘职位信息代码
上代码,有问题欢迎留言指出. # -*- coding: utf-8 -*- """ Created on Tue Aug 7 20:41:09 2018 @author ...
Python3简单爬虫抓取网页图片
现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到 ...
Python爬虫之小试牛刀——使用Python抓取百度街景图像
之前用.Net做过一些自动化爬虫程序,听大牛们说使用python来写爬虫更便捷,按捺不住抽空试了一把,使用Python抓取百度街景影像. 这两天,武汉迎来了一个德国总理默克尔这位大人物,又刷了一把武汉 ...
PHP网络爬虫实践：抓取百度搜索结果，并分析数据结构
百度的搜索引擎有反爬虫机制,我先直接用guzzle试试水.代码如下: <?php /** * Created by Benjiemin * Date: 2020/3/5 * Time: 14:5 ...
python3 - 通过BeautifulSoup 4抓取百度百科人物相关链接
导入需要的模块需要安装BeautifulSoup from urllib.request import urlopen, HTTPError, URLError from bs4 import Be ...
Python抓取百度百科数据
前言本文整理自慕课网<Python开发简单爬虫>,将会记录爬取百度百科"python"词条相关页面的整个过程. 抓取策略确定目标:确定抓取哪个网站的哪些页面的哪部分 ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...

随机推荐

c++.net学习笔记
Notes for c++ learning 程序根据什么特征来区分调用哪个重载函数? 只能靠参数而不能靠返回值类型的不同来区分重载函数. 编译器根据参数为每个重载函数产生不同的内部标识符在Visu ...
javascript截取字符串的最后几个字符
在JavaScript中截取字符串一般是使用内置的substring()方法和substr()方法,这两个方法功能都很强大,也都能实现截取字符串中的最后几个字符. substring()方法 Java ...
Python 爬虫从入门到进阶之路（一）
通用爬虫和聚焦爬虫根据使用场景,网络爬虫可分为通用爬虫和聚焦爬虫两种. 通用爬虫通用网络爬虫是捜索引擎抓取系统(Baidu.Google.Yahoo等)的重要组成部分.主要目的是将互联 ...
【CF908D】New Year and Arbitrary Arrangement
Problem Description 给定三个数 \(k,pa,pb\) ,每次有 \(\frac{pa}{pa+pb}\) 的概率往后面添加一个 a,有 \(\frac{pb}{pa+pb}\) ...
在Asp.Net或.Net Core中配置使用MarkDown富文本编辑器有开源模板代码（代码是.net core3.0版本）
研究如何使用Markdown你们可能要花好几天才能搞定,但是看我的文章或者下载了源码,你搞定一般在10分钟之内.我先给各位介绍下它: Markdown 是一种轻量级标记语言,它允许人们使用易读易写的纯 ...
关于C# webapi ，接口返回字符串和json格式，返回值中有反斜杠
最近遇到一个比较郁闷的问题,记录一下写了一个接口,想返回json 数据,但是返回值中总是带有反斜杠... ,下面来看原因首先,配置 webapi的路由 App_Start 文件夹下 ,WebApi ...
使用策略模式重构switch case 代码
目录 1.背景 2.案例 3.switch…case…方式实现 4.switch…case…带来的问题 5.使用策略模式重构switch…case…代码 6.总结 1.背景之前在看<重构 ...
一种简单的REST API接口加密实现，只允许自己的产品调用后台，防止接口被刷
在项目上线后,后台接口很容易通过抓包工具看到, 难免被人为构造恶意请求攻击我们的系统,相信大家都或多或少都遇到过短信验证码被刷.疯狂留言灌水.数据被恶意爬取等问题,这种直接抓接口然后写个循环调用的行为 ...
python列表转换为字符串
对于非纯字符串组成的列表,需要使用map(str, 列表)转换,纯字符串组成的列表则不需要转换 list1 = [1, 2, 3, 4, 5]c = ','.join(map(str,list1))p ...
操作系统|VirtualBox for Mac(虚拟机软件)
VirtualBox是德国一家软件公司InnoTek所开发的虚拟系统软件,它不仅具有丰富的特色,而且性能也很优异,更是开源的,成为了一个发布在GPL许可之下的自由软件.VirtualBox 可以在 L ...

Python3---爬虫---抓取百度贴吧

Python3---爬虫---抓取百度贴吧的更多相关文章

随机推荐

热门专题