1. 爬虫出现Forbidden by robots.txt 解决方法:setting.py ROBOTSTXT_OBEY = True 改成False 原因:scrapy抓包时的输出就能发现,在请求我们设定的url之前,它会先向服务器根目录请求一个txt文件 这个文件中规定了本站点允许的爬虫机器爬取的范围(比如你不想让百度爬取你的页面,就可以通过robot来限制),因为默认scrapy遵守robot协议,所以会先请求这个文件查看自己的权限,而我们现在访问这个url得到 User-agent:…
ImportError: No module named win32api 处理办法 windows系统上出现这个问题的解决需要安装Py32Win模块,但是直接通过官网链接装exe会出现几百个错误,更方便的做法是 pip install pypiwin32 执行scrapy 时 如果要将爬取得数据保存起来,可以 使用命令 scrapy crawl  spiderName -o 文件名.格式 scrapy crawl HuibeiSpider -o hubei_info.csv 生成的csv 文件…
0.python-dev安装(ubuntu) apt-get install  python-dev 1.Open(filename,mode) 报错实例: f = open('d:\Users\168935495Request.xml','r') 错误信息"SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes inposition 2-3: truncated \UXXXXXXXX escape"…
Scrapy是为了爬取网站数据而编写的一款应用框架,出名,强大.所谓的框架其实就是一个集成了相应的功能且具有很强通用性的项目模板. 其实在Linux和 Mac安装,就简单的pip命令即可: pip install wheel 但是在Windows上安装却有很多坑,所以下面小编讲一下自己在windows10安装及配置Scrapy中遇到的一些坑及其解决的方法,现在总结如下,希望对大家有所帮助. 包的下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/ 常见…
下面小编讲一下自己在windows10安装及配置Scrapy中遇到的一些坑及其解决的方法,现在总结如下,希望对大家有所帮助. 常见问题一:pip版本需要升级 如果你的pip版本比较老,可能在安装的过程中需要更新对应的pip版本,所以最好通过指令升级一下pip 升级指令如下(这是在cmd中操作): python -m pip install --upgrade pip 升级完成后,这一类问题就解决了. 常见问题二:安装wheel pip install wheel 如果未安装wheel,使用该命令…
安装scrapy的时候遇到如下错误的解决办法: "python scrapy cannot import name xmlrpc_client" 先执行 sudo pip uninstall six 再执行 sudo easy_install six 验证是否解决: scrapy…
Python 编程常见问题 经常使用Python编程,把经常遇到问题在这里记录一下,省得到网上查找,因此这篇文章会持续更新,需要的可以Mark一下.进入正题: 1.Python常用的文件头声明 #!/usr/bin/python #-*- coding: UTF-8 -*- # # @filename: # @author: # @since: 2013- # @version: 0.0.1 # # Usage: #########################################…
开始学python 交互MySQLdb,踩了很多坑 第一个 %d format: a number is required, not str 参照以下博客: https://blog.csdn.net/u011878172/article/details/72599120 # -*- coding: utf-8 -*- import MySQLdb try: conn=MySQLdb.connect(host='localhost',port='3306',db='test',user='roo…
NHibernate常见问题及解决方法 曾经学过NHibernate的,但是自从工作到现在快一年了却从未用到过,近来要巩固一下却发现忘记了许多,一个"in expected: <end-of-text> (possibly an invalid or unmapped class name was used in the query)."错误查了好半天终于查到了.这篇文章是我转载的NHibernate的常见错误... hbm.xmlNHibernate文件中版本号可能引起的…
python scrapy版 极客学院爬虫V2 1 基本技术 使用scrapy 2 这个爬虫的难点是 Request中的headers和cookies 尝试过好多次才成功(模拟登录),否则只能抓免费课程 3文件树如下 │ jike.json 存储json文件│ run.py 运行爬虫└─jkscrapy │ items.py 设置字段 │ pipelines.py 处理字段 │ settings.py 基本设置 │ init.py └─spiders jkspiders.py 爬虫 jkspid…