python爬取文件时，内容为空

解决方式：

img_res = requests.get(src,headers=header)
在header中加上referer防盗链
加上防盗链header的例子：

    header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64; rv:66.0) Gecko/20100101 Firefox/66.0",
              "Referer":"https://www.mzitu.com/",}


；
还有关于header的问题，
如果进不去网址，说明浏览器防火墙给阻断了，这时候要加入  虚拟浏览器头：例子如上

     header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64; rv:66.0) Gecko/20100101 Firefox/66.0",
              "Referer":"https://www.mzitu.com/",}

；
还有关于python进行一段时间便出现'NoneType' object has no attribute 'find'
这是空类型的问题，即 <class 'NoneType'>

用isinstance()函数将空类型过滤掉。

例子：

源代码如下：

max_no = soup_item.find('div', class_='pagenavi').find_all('span')[6].get_text()

　　解决方式：

max_no = soup_item.find('div', class_='pagenavi').find_all('span')[6].get_text()

     if isinstance(max_no,bs4.element.Tag):

            #后边的代码

　　************************************************************************************************************

python爬取文件时，内容为空的更多相关文章

爬取文件时，对已经操作过的URL进行过滤
爬取文件时,对已经操作过的URL进行过滤 1.创建过滤规则文件filter.py在spiders同级目录 class RepeatUrl: def __init__(self): self.visit ...
用python爬取小说章节内容
在学爬虫之前, 最好有一些html基础, 才能更好的分析网页. 主要是五步: 1. 获取链接 2. 正则匹配 3. 获取内容 4. 处理内容 5. 写入文件代码如下: #导入相关model fro ...
python爬取当当网的书籍信息并保存到csv文件
python爬取当当网的书籍信息并保存到csv文件依赖的库: requests #用来获取页面内容 BeautifulSoup #opython3不能安装BeautifulSoup,但可以安装Bea ...
python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
使用python爬取MedSci上的期刊信息
使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...
萌新学习Python爬取B站弹幕+R语言分词demo说明
代码地址如下:http://www.demodashi.com/demo/11578.html 一.写在前面之前在简书首页看到了Python爬虫的介绍,于是就想着爬取B站弹幕并绘制词云,因此有了这样 ...
python爬取网站数据保存使用的方法
这篇文章主要介绍了使用Python从网上爬取特定属性数据保存的方法,其中解决了编码问题和如何使用正则匹配数据的方法,详情看下文编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这 ...
Python爬取招聘信息，并且存储到MySQL数据库中
前面一篇文章主要讲述,如何通过Python爬取招聘信息,且爬取的日期为前一天的,同时将爬取的内容保存到数据库中:这篇文章主要讲述如何将python文件压缩成exe可执行文件,供后面的操作. 这系列文章 ...
Python爬取中国天气网
Python爬取中国天气网基于requests库制作的爬虫. 使用方法:打开终端输入 “python3 weather.py 北京(或你所在的城市)" 程序正常运行需要在同文件夹下加入一个 ...

随机推荐

Linux下常用的配置文件位置
1.别名配置文件 [root@room8pc205 ~]# vim /root/.bashrc #此处是root用户定义的别名文件的位置,只有root用户登录可用 [root@room8pc2 ...
生产环境用到的几个有用的Linux命令
有时候,几个有用的Linux命令可以很大的提高你的工作效率. 1.free -m 这个命令我暂时就只会这么使用,它可以查看服务器的内存资源 2.top 这个命令同样可以查看服务器的资源,当然我还是用它 ...
mysql优化1：建表原则
建表三大原则: 定长和变长分离常用字段和不常用字段分离使用冗余字段或冗余表 1.定长与变长分离如 id int,占4个字节,char(4)占4个字符长度,也是定长,time 即每一个单元值占的字 ...
cesium相关学习网址
cesium相关学习网址: cesium资料大全网址:https://www.cnblogs.com/cesium1/p/10062942.html http://192.168.101. ...
There was an unexpected error (type=Method Not Allowed, status=405). Request method 'POST' not supported
背景:点击提交按钮ajax请求接口时,报出错误[ Whitelabel Error Page This application has no explicit mapping for /error, ...
6.1_springboot2.x分布式-整合SpringCloud
1.SpringCloud简介 Spring Cloud是一个分布式的整体解决方案.Spring Cloud 为开发者提供了在分布式系统(配置管理,服务发现,熔断,路由,微代理,控制总线,一次性t ...
java-day26
## DOM简单学习:为了满足案例要求 * 功能:控制html文档的内容 * 获取页面标签(元素)对象:Element * document.getElementByI ...
Selenium3 + Python3自动化测试系列八——警告框处理和下拉框选择
警告框处理在WebDriver中处理JavaScript所生成的alert.confirm以及prompt十分简单,具体做法是使用 switch_to.alert 方法定位到 alert/confi ...
hdu6396 /// fread()快速读入挂
题目大意: 给定n k 给定主角具有的k种属性给定n个怪兽具有的k种属性和打死该怪兽后能得到的k种属性对应增幅求主角最多能打死多少怪兽和最终主角的k种属性 k最大为5 开5个优先队列贪心快速读入 ...
209. Minimum Size Subarray Sum【滑动窗口】
Given an array of n positive integers and a positive integer s, find the minimal length of a contigu ...

python爬取文件时，内容为空

python爬取文件时，内容为空的更多相关文章

随机推荐

热门专题