先说报错原因:使用了和start_urls同名的参数 我通过scral crawl projename -a start_urls=http:example.com来传start_urls,然后想在项目中初始化spider类的时候,添加抓取URL,代码如下: class xxxxSpider(CrawlSpider): name = 'xxxx' allowed_domains = ['xxxx.gov.cn'] start_urls = [ ] rules = ( Rule(LinkExtra…
一 .scrapy整体框架 1.1 scrapy框架图 1.2 scrapy框架各结构解析 item:保存抓取的内容 spider:定义抓取内容的规则,也是我们主要编辑的文件 pipelines:管道作用,用来定义如何过滤.存储等功能(比如导出到csv或者mysql等功能) settings:配置例如ITEM_PIPELINES .图片存储位置等等功能 middlewares:下载器中间件是在引擎及下载器之间的特定钩子(specific hook),处理Downloader传递给引擎的respo…
只需要将 for href in response.xpath('XX').extract(): yield Request(hrefs) 修改为下面,就可以显示出来 for href in response.xpath('XX').extract(): hrefs = response.urljoin(href) yield Request(hrefs) 感谢这个 找了很久.…
查阅相关资料,了解到使用ImagesPipeline传入的url地址必须是一个list,而我写的是一个字符串,所以报错,所以需要修改一下传入的url格式就行了 def parse_detail(self, response): # print(response) item = JobBoleItem() # note:把字符创修改为列表即可 item['front_image_url'] = [response.meta.get('front_image_url', '')] # 文章封面图 i…
今天将图片服务切到使用了cdn的机器上面去,然后就部分图片报如下图错误“HTTP Error 400. The request URL is invalid” 看到这种错误信息,一般的开发者心中可能会猜测到两个原因 1.链接中有特殊字符 2.链接长度过长(似乎长度过长也不是这个错,模糊不清,忘记了) 错误图片的地址如下:http://{host}/SearchService.svc/rest/pic600x320/png/kv3hcxmnCmISVvFKojNBGpkN44MRx71vV4v7Q…
今天将图片服务切到使用了cdn的机器上面去,然后就部分图片报如下图错误“HTTP Error 400. The request URL is invalid” 看到这种错误信息,一般的开发者心中可能会猜测到两个原因 1.链接中有特殊字符 2.链接长度过长(似乎长度过长也不是这个错,模糊不清,忘记了) 错误图片的地址如下:http://{host}/SearchService.svc/rest/pic600x320/png/kv3hcxmnCmISVvFKojNBGpkN44MRx71vV4v7Q…
Android Project from Existing Code 生成 R 文件错误.失败等问题解决办法 - 持续更新 git  上的项目,pull下来之后用Android Project from Existing Code 导入项目后,生成 R 文件错误.失败 说明:git上的项目是用老版本的Eclipse和Android2.1,现在个人开发环境换成了最新版本的Eclipse Build: v22.0.5-757759,android版本换成2.2 解决办法: 用Android Proj…
本文为个人工作中处理遇到的编译问题做个小结,后续遇到新的问题,持续更新. No such file or directory: 1. 检查路径是否有问题,文件是否存在,若文件存在且路径没问题 2. 检查文件的路径目录和文件是否具有可读权限 代码中的 error: : error: package ....... does not exist 1. 确认该代码中所用的包名是否正确; 2. 包名正确的情况,该包所在的jar是否引入,参与编译,查看out/target/common/obj/JAVA_…
更新至2018.5.1 字典生成DataFrame 今天一个字典生成一个DataFrame,采用了以下形式,每一个value都是一个数(不是vector) df = pd.DataFrame({ 'id': data_speed.index, 'Mileage':data_speed['count']*data_speed['mean'], 'SpeedAve':data_speed['mean'], 'SpeedStd':data_speed['std'], 'SpeedMax':data_s…
记录日常工作中一些容易被忽视的错误及细节,持续更新...... 一.问题:HashMap<Long, String>中,用get(Integer key)取不到值 Map<Long, String> map = new HashMap<Long, String>(); map.put(1L, "1"); System.err.println(map.get(1));// null System.err.println(map.get(1L)); 1.…