base64解析爬取糗百

一、缘由

　　这是我之前刚开始学习的时候爬取糗百的练习内容，主要练习的是bs64解析。虽然现在用的不是特别的多，但是当初的时候用起来还是非常的顺手的。

二、代码实现

#coding:utf-8

import requests

from bs4 import BeautifulSoup

def download_page(url):

    headers={

        'User - Agent':"Mozilla / 5.0(Windows NT 10.0; WOW64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 86.0.4240.198  Safari / 537.36"

    }  #模拟请求登录

    r=requests.get(url,headers=headers)

    return r.text

def get_content(html,page):

    output='''第{}页  作者:{}性别:{}年龄:{}点赞：{}\n{}\n----------\n\n'''

    soup=BeautifulSoup(html,'html.parser')

    con=soup.find('div',id='content')

    con_list=con.find_all('div',class_='article')

    for i in con_list:

       # hot_comments = i.find('div', class_='main-text').get_text() # 获取热评

        vote = i.find('i', class_='number').string  # 点赞数

        author=i.find('h2').string       #获得作者的名字

        content=i.find('div',class_='content').find('span').get_text()  #获取内容

        author_info=i.find('div',class_='artciGender') #获取性别，年龄等

        if author_info is not None:

            class_list=author_info['class']

            if 'womenIcon' in class_list:

                 gender='女'

            elif 'manIcon' in class_list:

                 gender='男'

            else:

                gender=''

            age=author_info.string

        else:

            gender=''

            age=''

        save_txt(output.format(page,author,gender,age,vote,content,))#hot_comments

def save_txt(*args):

    for i in args:

        with open('qiubai.txt','a',encoding='utf-8') as f:

            f.write(i)

            print(i)

def main():

        for i in range(1,14):

            url=f'''https://www.qiushibaike.com/text/page/{i}/'''

            html=download_page(url)

            get_content(html, i)

if __name__ == '__main__':

    main()

三、效果展示

base64解析爬取糗百的更多相关文章

Python 爬虫入门(一)——爬取糗百
爬取糗百内容 GitHub 代码地址https://github.com/injetlee/Python/blob/master/qiubai_crawer.py 微信公众号:[智能制造专栏],欢迎关 ...
Java - XPath解析爬取内容
code { margin: 0; padding: 0; white-space: pre; border: none; background: transparent; } pre { backg ...
Beautifulsoup网页解析——爬取豆瓣排行榜分类接口
我们在网页爬取的过程中,会通过requests成功的获取到所需要的信息,而且,在返回的网页信息中,也是通过HTML代码的形式进行展示的.HTML代码都是通过固定的标签组合来实现页面信息的展示,所以,最 ...
BS4爬取糗百
-- coding: cp936 -- import urllib,urllib2 from bs4 import BeautifulSoup user_agent='Mozilla/5.0 (Win ...
python爬取糗百第一页的笑话
自学python网络爬虫,发现request比urllib还是要好用一些,因此利用request和BeautifulSoup来实现糗百的首页笑话的抓取.BeautifulSoup通过find和find ...
爬虫实例之使用requests和Beautifusoup爬取糗百热门用户信息
这次主要用requests库和Beautifusoup库来实现对糗百的热门帖子的用户信息的收集,由于糗百的反爬虫不是很严格,也不需要先登录才能获取数据,所以较简单. 思路,先请求首页的热门帖子获得用户 ...
python爬取糗百内容
#-*- coding: utf-8 -*- import urllib import urllib2 import re #页面为1 page=1 url='http://www.qiushibai ...
接着上次的python爬虫，今天进阶一哈，局部解析爬取网页数据
*解析网页数据的仓库用Beatifulsoup基于lxml包lxml包基于html和xml的标记语言的解析包.可以去解析网页的内容,把我们想要的提取出来. 第一步.导入两个包,项目中必须包含beau ...
全栈爬取-Scrapy框架(CrawlSpider)
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
scrapy框架基于CrawlSpider的全站数据爬取
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...

随机推荐

第2篇----Istio架构概述篇
Istio的工作机制 Istio的工作机制和架构,分为控制面和数据面两部分.控制面主要包括Pilot.Mixer.Citadel等服务组件:数据面由伴随每个应用程序部署的代理程序Envoy组成,执行针 ...
Nginx负载均衡设置max_fails和fail_timeout
在Nginx的负载均衡检查模块中,对于负载均衡的节点可以配置如下可选参数: max_fails=1 fail_timeout=10s 这个是Nginx在负载均衡功能中,用于判断后端节点状态,所用到两个 ...
生产环境中使用Kibana
在 Kibana 中使用 X-Pack 使用 X-Pack 安全模块控制用户通过 Kibana 可以访问哪些 Elasticsearch 数据. 当安装 X-Pack 时,Kibana 用户必须登陆 ...
AlertManager企业微信报警，时间是UTC时间，错8个小时的两种解决办法
第一种 {{ (.StartsAt.Add 28800e9).Format "2020-01-02 15:04:05" }} 或者是 {{ ($alert.StartsAt.Add ...
Java对象或String转JSON对象
Java String转JSON对象用阿里的fastjson里的一个方法,导入fastjson包JSONObject jsonObject1 =JSONObject.parseObject(Stri ...
云原生下基于K8S声明式GitOps持续部署工具ArgoCD实战-上
@ 目录概述定义工作原理主要组件核心概念环境准备概述安装Kubekey 创建K8S 安装K9S OpenLB 安装ArgoCD 安装 ArgoCD CLI 从Git库中创建一个应用程序 ...
Pyhton实践项目之（一）五子棋人机对战
1 """五子棋之人机对战""" 2 3 import random 4 import sys 5 6 import pygame 7 im ...
在IDEA中使用Maven将SpringBoot项目打成jar包、同时运行打成的jar包（前后端项目分离）
1.maven教程官网 https://m.runoob.com/maven/ 2.理解Maven的构建生命周期(clean.Package) 3.在项目中使用maven进行打包 4.运行打包好的ja ...
vue3中$attrs的变化与inheritAttrs的使用
在vue3中的$attrs的变化 $listeners已被删除合并到$attrs中. $attrs现在包括class和style属性. 也就是说在vue3中$listeners不存在了.vue2中$l ...
win10安装pip
Windows如何安装pip?请看下面方法: 1.搜索pip 2.点击下载文件. 3.下载压缩包 6.解压到桌面. 7.进入解压目录,按住Shift点击右键,选择打开powershell 8.执行py ...

base64解析爬取糗百

一、缘由

二、代码实现

三、效果展示

base64解析爬取糗百的更多相关文章

随机推荐

热门专题