bs4抓取糗事百科

抓取糗事百科内容及评论，不包含图片信息。user-agent填入浏览器的即可。user-agent对应的value，360极速浏览器的话，可以在地址栏输入about:version，回车，用户代理后面的一长串就是需要填入''里面的内容。其他的可以自行百度

import urllib.request

import re

from urllib import request

from bs4 import BeautifulSoup

#1.获取网页源代码

def get_html(url):

    headers = {

        'User-Agent': '',

    }

    req = request.Request(headers=headers,url=url)

    response = urllib.request.urlopen(req)

    content = response.read().decode('utf-8')

    return content

#获取评论链接

def get_comment_link(content,comment_url_base):

    soup = BeautifulSoup(content,'html.parser')

    articleFloor = 1

    for string in soup.find_all(attrs=re.compile(r"article block untagged mb15.*?")):

        comment = str(string.get('id')).strip().split("_")[2]

        comment_url = comment_url_base % comment#评论链接

        get_comment_content(comment_url,articleFloor)#获取评论内容

        articleFloor += 1

#获取糗事内容及评论内容

def get_comment_content(comment_url,articleFloor):

    commentPage = get_html(comment_url)

    commentFloor = 1

    soupComment = BeautifulSoup(commentPage,'html.parser')

    for item in soupComment.find_all('div',class_='content'):

        print(articleFloor,".",item.get_text().strip())#获取糗事内容

    for comment in soupComment.find_all(attrs="body"):

        print("      ",commentFloor,"楼回复：",comment.get_text())#获取评论内容

        commentFloor += 1

def command():

    while True:

        raw = input("点击enter查看或者输入exit退出，请输入你的选择：")

        if raw=='enter':

            main()

            break

        else:

            break

def main():

    article_url_base = 'https://www.qiushibaike.com/8hr/page/%d/'#文章地址

    comment_url_base = 'https://www.qiushibaike.com/article/%s'#评论地址

    article_url = article_url_base % 2

    content = get_html(article_url)

    get_comment_link(content,comment_url_base)

if __name__ == '__main__':

    command()

bs4抓取糗事百科的更多相关文章

Python爬虫--抓取糗事百科段子
今天使用python爬虫实现了自动抓取糗事百科的段子,因为糗事百科不需要登录,抓取比较简单.程序每按一次回车输出一条段子,代码参考了 http://cuiqingcai.com/990.html 但该 ...
python 抓取糗事百科糗图
1 首先看下要抓取的页面这是糗事百科里面的糗图页面,每一页里面有很多的图片,我们要做的就是把这些图片抓取下来. 2 分析网页源代码发现源代码里面的每张图是这样储存的,所以决定使用正则匹配出图片的u ...
Python抓取糗事百科成人版图片
最近开始学习爬虫,一开始看的是静觅的爬虫系列文章,今天看到糗事百科成人版,心里就邪恶了一下,把图片都爬下来吧,哈哈~ 虽然后来实现了,但还是存在一些问题,暂且不提,先切入正题吧,没什么好说的,直接上代 ...
python_爬虫一之爬取糗事百科上的段子
目标抓取糗事百科上的段子实现每按一次回车显示一个段子输入想要看的页数,按 'Q' 或者 'q' 退出实现思路目标网址:糗事百科使用requests抓取页面 requests官方教程使用 ...
Python爬取糗事百科
import urllib import urllib.request from bs4 import BeautifulSoup """ 1.抓取糗事百科所有纯 ...
Python爬虫爬取糗事百科段子内容
参照网上的教程再做修改,抓取糗事百科段子(去除图片),详情见下面源码: #coding=utf-8#!/usr/bin/pythonimport urllibimport urllib2import ...
芝麻HTTP：Python爬虫实战之爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
8.Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
5 使用ip代理池爬取糗事百科
从09年读本科开始学计算机以来,一直在迷茫中度过,很想学些东西,做些事情,却往往陷进一些技术细节而蹉跎时光.直到最近几个月,才明白程序员的意义并不是要搞清楚所有代码细节,而是要有更宏高的方向,要有更专 ...

随机推荐

SOAP-ERROR: Encoding: string … is not a valid utf-8 string
今天遇到一个错误,看标题就知道是什么错误了.... 最坑爹的是,不是所有的用户会报这个错误.只有少部分.在生产环境又没办法调试. 找了半天都不知道什么原因,字面意思大概是需要一个utf8编码的字符串, ...
Chrome & QR Code Reader
Chrome & QR Code Reader Allows to generate a QR Code for the current page and scan a QR Code usi ...
Python的web编程
1.urlparse模块 urlparse.urlparse() 将一个url转化为(prot_sch, net_loc, path, params, query, frag)的元组 url ...
Scrapy网络爬虫框架的开发使用
1.安装 2.使用scrapy startproject project_name 命令创建scrapy项目如图: 3.根据提示使用scrapy genspider spider_name dom ...
todo项目总结
vue+webpack项目工程配置 1.vue-loader+webpack项目配置 2.webpack配置项目加载各种静态资源 3.webpack-dev-server的配置和使用安装: pack ...
一、.NET Core MVC 项目结构模板
一.图文描述,开口干二.文件结构: wwwroot 首先,Razor Pages项目中多了一个wwwroot的文件夹,这个文件夹中,主要存放网站的静态资源,如css,网站图片资源文件,js文件,三 ...
微服务配合docker使用
1.docker 安装 rabbitmq 启动脚本: docker run -d --name rabbitmq --publish : \ --publish : --publish : --pub ...
Luogu5245 【模板】多项式快速幂（多项式exp）
A(x)k=eklnA(x).泰勒展开之后容易发现k并非在指数上,所以对p取模. #include<iostream> #include<cstdio> #include< ...
BZOJ2616 SPOJ PERIODNI（笛卡尔树+树形dp）
考虑建一棵小根堆笛卡尔树,即每次在当前区间中找到最小值,以最小值为界分割区间,由当前最小值所在位置向两边区间最小值所在位置连边,递归建树.那么该笛卡尔树中的一棵子树对应序列的一个连续区间,且根的权值是 ...
windows环境pip安装时一直报错Could not fetch URL https://pypi.org/simple/xrld/: There was a problem confirming the ssl certificate: HTTPSConnectionPool(host='pypi.org', port=443): Max retries exceeded with url:
最近项目不忙了~~有开始专研的python大业,上来想用pip安装一个第三方的库,就一直报错: Could not fetch URL https://pypi.org/simple/xrld/: T ...

bs4抓取糗事百科

bs4抓取糗事百科的更多相关文章

随机推荐

热门专题