爬取贴吧中的html，并保存到相对应的文件夹中

功能：输入要爬取的贴吧名称，起始页和终止页即可。

# -*- coding: utf-8 -*-

import urllib.request

import urllib.parse

import os

class BaiduSpider:

    def __init__(self):

        self.baseurl = ""

        self.headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36"}

    # 请求并获取页面的内容

    def getPage(self, url):

        req = urllib.request.Request(url, headers=self.headers)

        res = urllib.request.urlopen(req)

        html = res.read().decode("utf-8")

        print(res.getcode())

        return html

    # 保存

    def writePage(self, x, html):

        print("===")

        # 获取路径

        path = os.path.join(os.path.dirname(__file__),"baidutieba/")

        # 判断路径

        if not os.path.exists(path):

            # 如果不存在，则创建该路径相关的路径文件

            os.makedirs(path)

            # 给文件有相对应的权限

            os.chmod(path, "rw")

        with open(path+str(x) + ".html", "w", encoding="utf-8") as f:

            f.write(html)

            print("保存成功")

    # 主函数

    def workOn(self):

        title = urllib.parse.quote(input("请输入你要搜索的贴吧名："))

        start= int(input("请输入起始页："))

        end = int(input("请输入终止页："))

        baseurl = "https://tieba.baidu.com/f?kw="+ title  +"&ie=utf-8&"

        for x in range(start, end+1):

            if x == 1:

                url = baseurl

            pn = (x-1)*50

            url = baseurl + "&pn=" + str(pn)

            html = self.getPage(url)

            self.writePage(x, html)

            print("ok")

if __name__ == "__main__":

    # 创建对象

    spider = BaiduSpider()

    spider.workOn()

运行结果：

请输入你要搜索的贴吧名：海贼王

请输入起始页：1

请输入终止页：5
200
===
保存成功
ok

爬取贴吧中的html，并保存到相对应的文件夹中的更多相关文章

android中保存Bitmap图片到指定文件夹中的方法
/** 保存方法 */ public void saveBitmap() { Log.e(TAG, "保存图片"); File f = new File("/s ...
[R语言]读取文件夹下所有子文件夹中的excel文件，并根据分类合并。
解决的问题:需要读取某个大文件夹下所有子文件夹中的excel文件,并汇总,汇总文件中需要包含的2部分的信息:1.该条数据来源于哪个子文件夹:2.该条数据来源于哪个excel文件.最终,按照子文件夹单独 ...
python连续爬取多个网页的图片分别保存到不同的文件夹
python连续爬取多个网页的图片分别保存到不同的文件夹作者:vpoet mail:vpoet_sir@163.com #coding:utf-8 import urllib import ur ...
用Python批量裁取图，来获取文件夹中所有图片名
批量截图(截取正方形图,哪个边短就用哪个边作为标准来截取) 功能是裁取图片中红色框的部分. 代码为: import sys from tkinter.tix import Tk from PIL im ...
【Python爬虫程序】抓取MM131美女图片，并将这些图片下载到本地指定文件夹。
一.项目名称抓取MM131美女写真图片,并将这些图片下载到本地指定文件夹. 共有6种类型的美女图片: 性感美女清纯美眉美女校花性感车模旗袍美女明星写真抓取后的效果图如下,每个图集是一个独 ...
matlab中exist 检查变量、脚本、函数、文件夹或类的存在情况
参考: 1.https://ww2.mathworks.cn/help/matlab/ref/exist.html?searchHighlight=exist&s_tid=doc_srchti ...
2. 假设当前文件夹中data.csv文件中存放了2020年某饭店营业额，第一列为日期（如2020-02-03），第二列为每天交易额（如3560），文件中第一行为表头，其余行为实际数据。
假设当前文件夹中data.csv文件中存放了2020年某饭店营业额,第一列为日期(如2020-02-03),第二列为每天交易额(如3560),文件中第一行为表头,其余行为实际数据.编写程序,完成下 ...
152-技巧-Power Query 快速合并文件夹中表格之自定义函数 TableXlsxCsv
152-技巧-Power Query 快速合并文件夹中表格之自定义函数 TableXlsxCsv 附件下载地址:https://jiaopengzi.com/2602.html 一.背景在我们使用 ...
用字符流实现每个文件夹中创建包含所有文件信息的readme.txt
package com.readme; import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; i ...

随机推荐

spring context 继承
<web-app> <display-name>Archetype Created Web Application</display-name> <conte ...
Python学习之路【第二篇】-pyc简介、Python常用的数据类型及其用法和常用运算符
1.pyc简介 python程序在运行时也有编译过程,编译后会产生.pyc文件.这是一种由python虚拟机执行的二进制文件(字节码),用于保存内存中PyCodeObject,以便加快程序的加载运行. ...
How can I perform the likelihood ratio, Wald, and Lagrange multiplier (score) test in Stata?
http://www.ats.ucla.edu/stat/stata/faq/nested_tests.htm The likelihood ratio (lr) test, Wald test, ...
linux下sed命令详解
sed:Stream Editor文本流编辑,sed是一个“非交互式的”面向字符流的编辑器.能同时处理多个文件多行的内容,可以不对原文件改动,把整个文件输入到屏幕,可以把只匹配到模式的内容输入到屏幕上 ...
laravel的工厂模式数据填充：
数据表post中的字段结构. database\factory\UserFactory.php $factory->define(App\Post::class,function (Faker ...
【资料收集】QT 环境安装配置
(很详细,极力推荐) [OpenCV] -- win7下配置OpenCV的Qt开发环境 - 代码人生 - 博客频道 - CSDN.NET http://blog.csdn.net/qiurisuix ...
rabbitMq无法消费发送的q的问题
1.问题叙述: 该项目配置了10来个mq,应对新开发需求,我也加了一个mq配置,然后在本地代码当中调用,当中接受,与前面写法相似,项目上测试环境测试.发现发送了queue之后本地消费日志没有的bug. ...
强化学习8-时序差分控制离线算法Q-Learning
Q-Learning和Sarsa一样是基于时序差分的控制算法,那两者有什么区别呢? 这里已经必须引入新的概念时序差分控制算法的分类:在线和离线在线控制算法:一直使用一个策略选择动作和更新价值函数, ...
oracle用户下查看服务器或者本地IP地址
1.查看oracle所在服务器的ip: select utl_inaddr.get_host_address from dual; 2.查看登陆oracle机器的IP: select sys_cont ...
火狐下，td 的 bug;
想实现类似的效果,看代码, <div style="width:488px;float:left; margin:-52px 0px 15px 15px;"> < ...

爬取贴吧中的html，并保存到相对应的文件夹中

爬取贴吧中的html，并保存到相对应的文件夹中的更多相关文章

随机推荐

热门专题