爬取简书图片(使用BeautifulSoup)

import requests

from bs4 import BeautifulSoup

url_list = []

kv = {'User-Agent':'Mozilla/5.0'}

r = requests.get('https://www.jianshu.com/p/42df25cfc1ec',timeout=30,headers = kv)

# print(r.request.headers)

dome = r.text

soup = BeautifulSoup(dome,'html.parser')

# print(soup.prettify())

img_ = soup.find_all('img')

for i in img_:

    # print(i.get('src'))

    if i.get('data-original-src') != '//cdn2.jianshu.io/assets/web/nav-logo-4c7bbafe27adc892f3046e6978459bac.png' and i.get('data-original-src') != None:

        url_list.append(i.get('data-original-src'))

for i in url_list:

    image_name = i.split('/')[-1]

    response = requests.get(f'https:{i}')

    image_data = response.content

    with open(f"./image/{image_name}",'wb') as fw:

        fw.write(image_data)

爬取简书图片(使用BeautifulSoup)的更多相关文章

python3 爬取简书30日热门，同时存储到txt与mongodb中
初学python,记录学习过程. 新上榜,七日热门等同理. 此次主要为了学习python中对mongodb的操作,顺便巩固requests与BeautifulSoup. 点击,得到URL https: ...
Node爬取简书首页文章
Node爬取简书首页文章博主刚学node,打算写个爬虫练练手,这次的爬虫目标是简书的首页文章流程分析使用superagent发送http请求到服务端,获取HTML文本用cheerio解析获得的 ...
Python爬取简书主页信息
主要学习如何通过抓包工具分析简书的Ajax加载,有时间再写一个Multithread proxy spider提升效率. 1. 关键点: 使用单线程爬取,未登录,爬取简书主页Ajax加载的内容.主要有 ...
Scrapy+selenium爬取简书全站
Scrapy+selenium爬取简书全站环境 Ubuntu 18.04 Python 3.8 Scrapy 2.1 爬取内容文字标题作者作者头像发布日期内容文章连接文章ID 思路分 ...
python2.7 爬取简书30日热门专题文章之简单分析_20170207
昨天在简书上写了用Scrapy抓取简书30日热门文章,对scrapy是刚接触,跨页面抓取以及在pipelines里调用settings,连接mysql等还不是很熟悉,今天依旧以单独的py文件区去抓取数 ...
【python3】爬取简书评论生成词云
一.起因: 昨天在简书上看到这么一篇文章<中国的父母,大都有毛病>,看完之后个人是比较认同作者的观点. 不过,翻了下评论,发现评论区争议颇大,基本两极化.好奇,想看看整体的评论是个什么样, ...
scrapy爬取简书整站文章
在这里我们使用CrawlSpider爬虫模板, 通过其过滤规则进行抓取, 并将抓取后的结果存入mysql中,下面直接上代码: jianshu_spider.py # -*- coding: utf-8 ...
python 爬取简书评论
import json import requests from lxml import etree from time import sleep url = "https://www.ji ...
python 爬虫入门----案例爬取上海租房图片
前言对于一个net开发这爬虫真真的以前没有写过.这段时间学习python爬虫,今天周末无聊写了一段代码爬取上海租房图片,其实很简短就是利用爬虫的第三方库Requests与BeautifulSoup. ...

随机推荐

[JZOJ4649] 【NOIP2016提高A组模拟7.17】项链
题目描述题目大意给你一堆小串,每个小串都有一定的分数. 让你构造一个字符串,若子串中出现了之前的小串,就可以得到对应的分数(可以重复) 问最大分数. 思考历程一看这题就知道是什么字符串方面的算 ...
淼一淼A+B problem
鲁迅:这可是道难题呢! 鲁迅:我没说过这话,不过确实在理. 某改题毕,但见LOJ之上有数「A+B」之AC记录.余亦尝闻A+B之趣味无穷,遂兴起而码之. 少顷,AC之,吾心所畅. #include< ...
iframe跨域数据传递
项目中需要和其他单位合作开发,方案采用iframe嵌入页面,开发过程中设计到了跨域数据的传递,初步方案决定使用html5 API postMessage进行iframe跨域数据传递: 域名A下的页面 ...
jsp页面判断当前请求的host
需要引入<%@ taglib uri="http://java.sun.com/jsp/jstl/functions" prefix="fn" %> ...
Apollo Lake设计缺陷，避免使用它们
很多经验告诉我们,在不大幅加电压超频的情况下,CPU很少会用坏.多数情况下电脑退役都是主板或其他部件故障,或是性能严重落后而不得不淘汰.但是如果CPU在制造阶段就存有缺陷的话,情况就不是这样了. 英特 ...
js 实现横向轮播效果
参考:https://www.cnblogs.com/LIUYANZUO/p/5679753.html html: <!DOCTYPE html> <html> <hea ...
05.Hibernate常用的接口和类---Configuration类和作用
Configuration作用: 加载Hibernate配置文件,可以获取SessionFactory对象加载方式: 1.加载配置文件 Configuration configuration = n ...
矩阵快速幂3 k*n铺方格
#include <iostream> #include <cstdlib> #include <cstring> #include <queue> # ...
深入浅出 Java Concurrency (3): 原子操作 part 2[转]
在这一部分开始讨论数组原子操作和一些其他的原子操作. AtomicIntegerArray/AtomicLongArray/AtomicReferenceArray的API类似,选择有代表性的Atom ...
maven项目mapper文件加载不到classpath问题解决方案
在调试我的maven项目的过程种,当我执行maven install时总提示找不到mapper.xml文件,看了一下大家的说法,都说是maven没有把src/main/java下的mapper包记载到 ...

爬取简书图片(使用BeautifulSoup)

爬取简书图片(使用BeautifulSoup)的更多相关文章

随机推荐

热门专题