Scrapy项目_阳光热线问政平台

目的：

爬取阳光热线问政平台问题中每个帖子的标题、详情URL、详情内容、图片以及发布时间

步骤：

1、创建爬虫项目

1 scrapy startproject yangguang

2 cd yangguang

3 scrapy genspider yangguang sun0769.com

2、设置item.py文件

import scrapy

class YangguangItem(scrapy.Item):

    # 每条帖子的标题

    title = scrapy.Field()

    # 帖子链接

    href = scrapy.Field()

    # 发布日期

    publish_time = scrapy.Field()

    # 详情内容

    content = scrapy.Field()

    # 详情图片

    content_img = scrapy.Field()

3、编写爬虫文件

 1 import scrapy

 2 from yangguang.items import YangguangItem

 3

 4

 5 class YgSpider(scrapy.Spider):

 6     name = 'yg'

 7     allowed_domains = ['sun0769.com']

 8     start_urls = ['http://wz.sun0769.com/political/index/politicsNewest?id=1&page=1']

 9

10     page = 1

11     url = "http://wz.sun0769.com/political/index/politicsNewest?id=1&page= {}"

12

13     def parse(self, response):

14         # 分组

15         li_list = response.xpath("//ul[@class='title-state-ul']/li")

16         for li in li_list:

17             item = YangguangItem()

18             item["title"] = li.xpath("./span[@class='state3']/a/text()").extract_first()

19             item["href"] = "http://wz.sun0769.com" + li.xpath("./span[@class='state3']/a/@href").extract_first()

20             item["publish_time"] = li.xpath("./span[@class='state5 ']/text()").extract_first()

21

22             yield scrapy.Request(

23                 item["href"],

24                 callback=self.parse_detail,

25                 meta={

26                     "item": item,

27                     "proxy": "http://171.12.221.51:9999"

28                 }

29             )

30         # 翻页

31         if self.page < 10:

32             self.page += 1

33             next_url = self.url.format(self.page)

34

35             yield scrapy.Request(next_url, callback=self.parse, meta={"proxy": "http://123.163.118.71:9999"})

36

37     def parse_detail(self, response):  # 处理详情页

38         item = response.meta["item"]

39         item["content"] = response.xpath("//div[@class='details-box']/pre/text()").extract_first()

40         item["content_img"] = response.xpath("//div[@class='clear details-img-list Picture-img']/img/@src").extract()

41         yield item

4、测试

scrapy crawl yg

Scrapy项目_阳光热线问政平台的更多相关文章

scrapy爬虫案例--爬取阳关热线问政平台
阳光热线问政平台:http://wz.sun0769.com/political/index/politicsNewest?id=1&page=1 爬取最新问政帖子的编号.投诉标题.投诉内容以 ...
Scrapy项目_苏宁图书信息
苏宁图书(https://book.suning.com/) 目标: 1.图书一级分类 2.图书二级分类 3.图书三级分类 4.图书名字 5.图书作者 6.图书价格 7.通过Scrapy获取以上数据 ...
爬虫——Scrapy框架案例二：阳光问政平台
阳光热线问政平台 URL地址:http://wz.sun0769.com/index.php/question/questionType?type=4&page= 爬取字段:帖子的编号.投诉类 ...
scrapy爬虫案例：问政平台
问政平台 http://wz.sun0769.com/index.php/question/questionType?type=4 爬取投诉帖子的编号.帖子的url.帖子的标题,和帖子里的内容. it ...
C++框架_之Qt的开始部分_概述_安装_创建项目_快捷键等一系列注意细节
C++框架_之Qt的开始部分_概述_安装_创建项目_快捷键等一系列注意细节 1.Qt概述 1.1 什么是Qt Qt是一个跨平台的C++图形用户界面应用程序框架.它为应用程序开发者提供建立艺术级图形界面 ...
python爬虫scrapy项目详解（关注、持续更新）
python爬虫scrapy项目(一) 爬取目标:腾讯招聘网站(起始url:https://hr.tencent.com/position.php?keywords=&tid=0&st ...
亲测——pycharm下运行第一个scrapy项目 ©seven_clear
最近在学习scrapy,就想着用pycharm调试,但不知道怎么弄,从网上搜了很多方法,这里总结一个我试成功了的. 首先当然是安装scrapy,安装教程什么的网上一大堆,这里推荐一个详细的:http: ...
凡客副总裁崔晓琦离职曾负责旗下V+商城项目_科技_腾讯网
凡客副总裁崔晓琦离职曾负责旗下V+商城项目_科技_腾讯网凡客副总裁崔晓琦离职曾负责旗下V+商城项目腾讯科技[微博]乐天2013年09月18日12:44 分享微博空间微信新浪微博邮箱 ...
scrapy（一）建立一个scrapy项目
本项目实现了获取stack overflow的问题,语言使用python,框架scrapy框架,选取mongoDB作为持久化数据库,redis做为数据缓存项目源码可以参考我的github:https ...

随机推荐

Linux提权常用漏洞速查表
漏洞列表 #CVE #Description #Kernels CVE–2018–18955 [map_write() in kernel/user_namespace.c allows privil ...
TCP/IP__IP寻址及ARP解析
ARP解析过程中MAC地址以及IP地址的变化情况 1.两主机要通信传送数据时,就要把应用数据封装成IP包,然后再交给下一层数据链路层继续封装成帧:之后根据MAC地址才能把数据从一台主机,准确无误的传送 ...
Flink-v1.12官方网站翻译-P008-Streaming Analytics
流式分析事件时间和水印介绍 Flink明确支持三种不同的时间概念. 事件时间:事件发生的时间,由产生(或存储)该事件的设备记录的时间摄取时间:Flink在摄取事件时记录的时间戳. 处理时间:您的 ...
windows下使用HyperV安装Centos7虚拟机
以前都是用的VM(VMWare)安装虚拟机, 然鹅, 现在电脑装了Docker需要开启Windows的HyperV, 而我使用的VM版本(14)和HyperV 是不兼容的, 于是搜索引擎搜索了一下解决 ...
使用Observer实现HBase到Elasticsearch的数据同步
最近在公司做统一日志收集处理平台,技术选型肯定要选择elasticsearch,因为可以快速检索系统日志,日志问题排查及功业务链调用可以被快速检索,公司各个应用的日志有些字段比如说content是不需 ...
Gym 101485 E Elementary Math 网络流或者二分图
题意: 输入一个n,后面输入n行,每一行两个数a.b.你可以对a.b进行三种操作:+.-.* 你需要保证对每一行a.b选取一个操作得到一个结果你要保证这n行每一个式子选取的操作之后得到的结果都不一样 ...
AcWing 247. 亚特兰蒂斯 (线段树,扫描线,离散化)
题意:给你\(n\)个矩形,求矩形并的面积. 题解:我们建立坐标轴,然后可以对矩形的横坐标进行排序,之后可以遍历这些横坐标,这个过程可以想像成是一条线从左往右扫过x坐标轴,假如这条线是第一次扫过矩形的 ...
Codeforces Round #654 (Div. 2) C. A Cookie for You (思维)
题意:有\(a\)个蛋糕,\(b\)个巧克力,第一类人有\(n\)个,总是吃多的东西(若\(a>b\),吃蛋糕,否则吃巧克力),第二类人有\(m\)个,总是吃少的,可以随便调整这两类人吃的顺序, ...
C#之字符编码
在 Windows Vista 及之后的版本中,每个Unicode字符都使用UTF-16编码,UTF的全称是 Unicode Transformation Format(Unicode 转换格式).U ...
01.原生态jdbc程序中问题总结
1.数据库启动包配置到工程目录中(mysql5.1) mysql-connector-java-5.1.7-bin.jar 2.jdbc原生态操作数据库(程序) 操作mysql数据库 1 packag ...

Scrapy项目_阳光热线问政平台

Scrapy项目_阳光热线问政平台的更多相关文章

随机推荐

热门专题