# -*- coding: gbk -*-
import time from scrapy.spider import BaseSpider
from scrapy.http import Request
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from slyy.items import SlyyItem class SlyySpider(BaseSpider):
name = "slyy1"
allowed_domains = [""]
start_urls = [""] def parse(self, response):
hxs = HtmlXPathSelector(response) items = []
h3 ='''//*[@id="-3"]/div[2]/div[1]/div/div[2]/div/div[2]/div[1]/div[1]/div/div/h3/span[1]/text()''').extract()
h3_unicode = "".join(h3)
t1 ='''//*[@id="-3"]/div[2]/div[1]/div/div[2]/div/div[2]/div[1]/div[1]/div/div/p/span[1]/span[1]/text()''').extract()
items.append(SlyyItem(head=h3_unicode, url=response.url)) for url in'''//*[@id="$_divTopLink"]/div[1]/a/@href''').extract():
items.append(Request(url, callback=self.parse)) print "{'head': '''" + items[0]['head'] + "''','url': '" + items[0]['url'] + "'}" return items
# -*- coding: gbk -*-
import time from scrapy.spider import BaseSpider
from scrapy.http import Request
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from slyy.items import SlyyItem class SlyySpider(BaseSpider):
name = "slyy2"
allowed_domains = [""]
start_urls = [""] def parse(self, response):
hxs = HtmlXPathSelector(response) h3 ='''//*[@id="-3"]/div[2]/div[1]/div/div[2]/div/div[2]/div[1]/div[1]/div/div/h3/span[1]/text()''').extract()
h3_unicode = "".join(h3)
yield SlyyItem(head=h3_unicode, url=response.url) for url in'''//*[@id="$_divTopLink"]/div[1]/a/@href''').extract():
yield Request(url, callback=self.parse)
# -*- coding: gbk -*-
import time from scrapy.spider import BaseSpider
from scrapy.http import Request
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from slyy.items import SlyyItem class SlyySpider(BaseSpider):
name = "slyy3"
allowed_domains = [""]
start_urls = [""] def parse(self, response):
hxs = HtmlXPathSelector(response)
items = [] firspost ='''//html/body/div[3]/div[4]/div/div/div/div[2]/div/div/div[2]/div/div/div/a/@href''').extract()[0]
items.extend([self.make_requests_from_url(firspost).replace(callback=self.parse_post)]) url2 ='''//html/body/div[3]/div[4]/div/div/div/div[2]/div/div/div[2]/div/div/div/a/@href''').extract()[0]
items.append(self.make_requests_from_url(url2)) return items def parse_post(self, response):
hxs = HtmlXPathSelector(response)
h3 ='''//*[@id="-3"]/div[2]/div[1]/div/div[2]/div/div[2]/div[1]/div[1]/div/div/h3/span[1]/text()''').extract()[0]
print h3
item = SlyyItem()
item['url'] = response.url
item['head'] = h3
return item
{'head': '''《漫步遐想录》之五 Part1''','url': ''}
{'head': '''《漫步遐想录》之五 Part2''','url': ''}
{'head': '''Steve Jobs addresses on Standford''','url': ''}
{'head': '''理想的光亮''','url': ''}
{'head': '''实迷途其未远''','url': ''}
{'head': '''自我解放 告别“衰世”''','url': ''}
{'head': '''Engineering工程学''','url': ''}
{'head': '''《南方周末》暑期文科综合自测题''','url': ''}
{'head': '''我们选择的不是工作,是生活''','url': ''}
{'head': '''不想言败,大器晚成''','url': ''}
{'head': '''降级论''','url': ''}
{'head': '''归去来辞''','url': ''}
{'head': '''笑''','url': ''}
{'head': '''滕王阁序''','url': ''}
{'head': '''洛神赋''','url': ''}
{'head': '''两都赋''','url': ''}
{'head': '''司马相如 子虚赋 上林赋''','url': ''}
{'head': '''声律启蒙''','url': ''}
{'head': '''论语 尧曰第二十''','url': ''}
{'head': '''论语 子张第十九''','url': ''}
{'head': '''论语 卫子第十八''','url': ''}
{'head': '''论语 阳货第十七''','url': ''}
{'head': '''论语 季氏第十六''','url': ''}
{'head': '''论语 卫灵公第十五''','url': ''}
{'head': '''论语 宪问第十四''','url': ''}
{'head': '''论语 子路第十三''','url': ''}
{'head': '''论语 颜渊第十二''','url': ''}
{'head': '''论语 先进第十一''','url': ''}
{'head': '''论语 乡党第十''','url': ''}
{'head': '''论语 子罕第九''','url': ''}
{'head': '''论语 泰伯第八''','url': ''}
{'head': '''论语 述而第七''','url': ''}
{'head': '''论语 雍也第六''','url': ''}
{'head': '''论语 公冶长第五''','url': ''}
{'head': '''论语 里仁第四''','url': ''}
{'head': '''论语 八佾第三''','url': ''}
{'head': '''论语 为政第二''','url': ''}
{'head': '''论语 学而第一''','url': ''}
{'head': '''醉翁亭记''','url': ''}
{'head': '''与高司谏书''','url': ''}
{'head': '''丁香花开的时候''','url': ''}
{'head': '''与山巨源绝交书''','url': ''}
{'head': '''高阳作品-胡雪岩系列''','url': ''}
{'head': '''昼信基督夜信佛''','url': ''}
{'head': '''合理生活''','url': ''}
{'head': '''报任少卿书''','url': ''}
{'head': '''那些让我们难堪的亲人''','url': ''}
{'head': '''天边与身边''','url': ''}
{'head': '''汜水关温酒斩华雄''','url': ''}
{'head': '''在一个不伟大的行业里做一家伟大的公司''','url': ''}
{'head': '''最苦与最乐''','url': ''}
{'head': '''扎克伯格公开信''','url': ''}
{'head': '''与陌生人交流''','url': ''}
{'head': '''掉到井里的人''','url': ''}
{'head': '''赵明诚致李清照书''','url': ''}
{'head': '''赠卫八处士''','url': ''}
{'head': '''科学的宗教''','url': ''}
{'head': '''以色列国立国宣言''','url': ''}
{'head': '''Balfour Declaration''','url': ''}
{'head': '''致舞神''','url': ''}
{'head': '''实行的悲哀''','url': ''}
{'head': '''初冬浴日漫感''','url': ''}
{'head': '''最后一次演讲''','url': ''}
{'head': '''橘子''','url': ''}
{'head': '''蘭亭集序''','url': ''}
{'head': '''The Declaration of Geneva''','url': ''}
{'head': '''《自深深处》选读3''','url': ''}
{'head': '''《自深深处》选读2''','url': ''}
{'head': '''《自深深处》选读1''','url': ''}
{'head': '''成功需要积累''','url': ''}
{'head': '''秋檐''','url': ''}
{'head': '''给未来的自己''','url': ''}
{'head': '''晁错论''','url': ''}
{'head': '''黄州快哉亭记''','url': ''}
{'head': '''We Are on a Journey''','url': ''}
{'head': '''Beauty of July''','url': ''}
{'head': '''看着你走远''','url': ''}
{'head': '''金融行业与独立思考''','url': ''}
{'head': '''花园里的小山丘''','url': ''}
{'head': '''静虚村记''','url': ''}
{'head': '''Two Types of People''','url': ''}
{'head': '''音的世界''','url': ''}
{'head': '''认识的人,了解的事!''','url': ''}
{'head': '''降低幸福沸点''','url': ''}
{'head': '''秦国是怎样崛起的?''','url': ''}
{'head': '''黄生借书说''','url': ''}
{'head': '''沉默''','url': ''}
{'head': '''网络森林的寄居者''','url': ''}
{'head': '''未来10年中国的道路选择''','url': ''}
{'head': '''春天''','url': ''}
{'head': '''Of Studie''','url': ''}
{'head': '''限购令与深层经济结构失衡''','url': ''}
{'head': '''巷''','url': ''}
{'head': '''为什么你们永远不说不?''','url': ''}
{'head': '''Inaugural Address of Barack Obama''','url': ''}
{'head': '''爱的信笺''','url': ''}
{'head': '''我们越来越懒于思考''','url': ''}
{'head': '''国立西南联合大学纪念碑碑文''','url': ''}
{'head': '''用“最简单”应对复杂''','url': ''}
{'head': '''The Fringe Benefits of Failure, and the Importance of Imagination''','url': ''}
{'head': '''母亲是游子的故乡''','url': ''}
{'head': '''桨声灯影里的秦淮河''','url': ''}
{'head': '''西湖的雪景''','url': ''}
{'head': '''一个王朝的背影''','url': ''}
{'head': '''途中''','url': ''}
{'head': '''永远的灯光''','url': ''}
{'head': '''When the Teacher Becomes the Student''','url': ''}
{'head': '''我的愿望''','url': ''}
{'head': '''无二的松子''','url': ''}
{'head': '''年轻的旅行者''','url': ''}
{'head': '''你愿不愿意父母来看你''','url': ''}
{'head': '''价值的真谛''','url': ''}
{'head': '''这世界上有另一个你''','url': ''}
{'head': '''The careerist: Summer school''','url': ''}
{'head': '''如果客户向你要回扣……''','url': ''}
{'head': '''Understanding 802.11n wireless antennas''','url': ''}
{'head': '''被掠夺的梦想与生活''','url': ''}
{'head': '''一个猜数游戏''','url': ''}
{'head': '''素书''','url': ''}
{'head': '''Self-Contained Underwater Breathing Apparatus''','url': ''}
{'head': '''我奋斗了18年不是为了和你一起喝咖啡''','url': ''}
{'head': '''我奋斗了18年才和你坐在一起喝咖啡''','url': ''}
{'head': '''聆听''','url': ''}
{'head': '''美国总统奥巴马在矿难悼念仪式的讲话''','url': ''}
{'head': '''致吾女''','url': ''}
{'head': '''落叶''','url': ''}
{'head': '''房子是囚人的''','url': ''}
{'head': '''关键四小时''','url': ''}
{'head': '''像流水一样生活''','url': ''}
{'head': '''我曾有梦''','url': ''}
{'head': '''《唯物论启示录》之一''','url': ''}
{'head': '''过自己的生活''','url': ''}
{'head': '''是我摧垮了经济''','url': ''}
{'head': '''那个被你伤得最深的人''','url': ''}
{'head': '''为徐敬业讨武瞾叫檄''','url': ''}
{'head': '''一口闲钟''','url': ''}
{'head': '''曹操《让县自明本志令》''','url': ''}
{'head': '''再见!蜡笔小新''','url': ''}
{'head': '''快乐只需两步''','url': ''}
{'head': '''《莺莺传》节选''','url': ''}
{'head': '''Father Forgets''','url': ''}
{'head': '''一个房奴的精神大字报''','url': ''}
{'head': '''我们每个人,都是某人一生的至爱''','url': ''}
{'head': '''幸福只和一件事有关''','url': ''}
{'head': '''种树的牧羊人''','url': ''}
{'head': '''我们老去的青春''','url': ''}
{'head': '''外婆家的月亮''','url': ''}
{'head': '''你的温柔给了谁''','url': ''}
{'head': '''小康胜大富''','url': ''}
{'head': '''成功的真谛''','url': ''}
{'head': '''记住,这是你的工作!''','url': ''}
{'head': '''迎迓绿色''','url': ''}
{'head': '''最不愿单独面对的人''','url': ''}
{'head': '''What is a girl to focus on – looks or brains?''','url': ''}
{'head': '''《刺杀肯尼迪》片尾演讲''','url': ''}
{'head': '''千字文''','url': ''}
{'head': '''百岁人生''','url': ''}
{'head': '''人生的价值''','url': ''}
{'head': '''HEAL THE WORLD''','url': ''}
{'head': '''读“无用的书”''','url': ''}
{'head': '''人这东西''','url': ''}
{'head': '''高贵的哑巴''','url': ''}
{'head': '''我曾经七次鄙视自己的灵魂''','url': ''}
{'head': '''The life I desired''','url': ''}
{'head': '''昆明的雨''','url': ''}
{'head': '''家''','url': ''}
{'head': '''爱是一条双行道''','url': ''}
{'head': '''淡定是一种生活状态''','url': ''}
{'head': '''有一种错误叫放大痛苦''','url': ''}
{'head': '''鲜花总是在远方''','url': ''}
{'head': '''Israel in a nutshell''','url': ''}
{'head': '''What is success?''','url': ''}
{'head': '''落难的王子''','url': ''}
{'head': '''What I Have Lived For''','url': ''}
{'head': '''Relish the moment''','url': ''}
{'head': '''让别人说话''','url': ''}
{'head': '''儿子教我“游戏”人生''','url': ''}
{'head': '''谁是最忠诚的人''','url': ''}
{'head': '''抱怨比赛开始了……''','url': ''}
{'head': '''珍言''','url': ''}
{'head': '''丰收的秘密''','url': ''}
{'head': '''并非寓言''','url': ''}
{'head': '''所谓的选择''','url': ''}
{'head': '''为什么不属于自己''','url': ''}
{'head': '''总会轮到你''','url': ''}
{'head': '''老板娘给我的10个人生教益''','url': ''}
{'head': '''逆风的香''','url': ''}
{'head': '''最幸福的人不必问人生意义''','url': ''}
{'head': '''你离挨饿只有三天''','url': ''}
{'head': '''毛-泽东:论持久战(一九三八年五月)''','url': ''}
{'head': '''怀才不遇''','url': ''}
{'head': '''“荒谬”的论文''','url': ''}
{'head': '''空瓶子''','url': ''}
{'head': '''你在职场第几层''','url': ''}
{'head': '''不要去看远处的东西''','url': ''}
{'head': '''地上有餐巾''','url': ''}
{'head': '''光''','url': ''}
{'head': '''乐观就是一桶金''','url': ''}
{'head': '''最苦与最乐''','url': ''}
{'head': '''愿你有这样的人生情怀''','url': ''}
{'head': '''26岁开始要学会去面对的50件事''','url': ''}
{'head': '''草莓''','url': ''}
{'head': '''最珍贵的东西是免费的''','url': ''}
{'head': '''摆渡自己''','url': ''}
{'head': '''人生的三层楼''','url': ''}
{'head': '''幸福是什么''','url': ''}
{'head': '''人生的解释''','url': ''}
{'head': '''活出意义来''','url': ''}
{'head': '''每天诞生一次''','url': ''}
{'head': '''没人蔑视你,只是忽略你''','url': ''}
{'head': '''实现梦想的常识''','url': ''}
{'head': '''破碎的美丽''','url': ''}
{'head': '''你有没有最珍贵的?''','url': ''}
{'head': '''二十分钟''','url': ''}
{'head': '''生活需要等待''','url': ''}
{'head': '''幸福没有榜样''','url': ''}
{'head': '''生活的一种''','url': ''}
{'head': '''目标与人生''','url': ''}
{'head': '''小职员''','url': ''}
{'head': '''15条人生箴言''','url': ''}
{'head': '''人性暗箱''','url': ''}
{'head': '''瓷器中的哲理''','url': ''}
{'head': '''世界的最后一夜''','url': ''}
{'head': '''成功是优秀的副产品''','url': ''}
{'head': '''灵魂的在场''','url': ''}
{'head': '''生死之间''','url': ''}
{'head': '''诅咒是一座牢房''','url': ''}
{'head': '''人到何时最清醒''','url': ''}
{'head': '''四十岁的心情''','url': ''}
{'head': '''换个视角''','url': ''}
{'head': '''13亿人的哀悼''','url': ''}
{'head': '''亲爱的宝贝,如果你能活着,一定要记住我爱你''','url': ''}
{'head': '''花钱的事''','url': ''}
{'head': '''假如生活把你欺骗''','url': ''}
{'head': '''为母亲祈祷''','url': ''}
{'head': '''跨越百年的美丽''','url': ''}
{'head': '''正确表达你的爱''','url': ''}
{'head': '''陋室王侯''','url': ''}
{'head': '''沉默的大多数''','url': ''}
{'head': '''一天之后,已成往事''','url': ''}
{'head': '''人生之不可管理''','url': ''}
{'head': '''你最后悔什么?''','url': ''}
{'head': '''无怨的青春''','url': ''}
{'head': '''“路径依赖”原理''','url': ''}
{'head': '''热爱生命''','url': ''}
{'head': '''一个人都没有''','url': ''}
{'head': '''光和影的游戏''','url': ''}
{'head': '''值得的生活''','url': ''}
{'head': '''除了股票人生还有许多重要事情''','url': ''}
{'head': '''爱''','url': ''}
{'head': '''自我解放 告别“衰世” (三)''','url': ''}
{'head': '''自我解放 告别“衰世” (二)''','url': ''}
{'head': '''自我解放 告别“衰世” (一)''','url': ''}
{'head': '''翠湖心影''','url': ''}
{'head': '''爱与孤独''','url': ''}
{'head': '''无用之用''','url': ''}
{'head': '''一只特立独行的猪''','url': ''}
{'head': '''小石潭记''','url': ''}
{'head': '''小重山''','url': ''}
{'head': '''云南雪''','url': ''}
{'head': '''我与地坛''','url': ''}
1. 保存到json中,仍然是unicode,无法为中文。
2. 从首页开始,得指
- 爬虫系列3:scrapy技术进阶(xpath、rules、shell等)
本文主要介绍与scrapy应用紧密相关的关键技术,不求很深入,但求能够提取要点.内容包括: 1.xpath选择器:选择页面中想要的内容 2.rules规则:定义爬虫要爬取的域 3.scrapy she ...
- 爬虫系列4:scrapy技术进阶之多页面爬取
多页面爬取有两种形式. 1)从某一个或者多个主页中获取多个子页面的url列表,parse()函数依次爬取列表中的各个子页面. 2)从递归爬取,这个相对简单.在scrapy中只要定义好初始页面以及爬虫规 ...
- Scala 深入浅出实战经典 第52讲:Scala中路径依赖代码实战详解
王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-64讲)完整视频.PPT.代码下载:百度云盘: ...
- 服务端技术进阶(六)Ant和Maven的作用是什么?两者之间功能、特点有哪些区别?
服务端技术进阶(六)Ant和Maven的作用是什么?两者之间功能.特点有哪些区别? Ant和Maven都是基于Java的构建(build)工具.理论上来说,有些类似于(Unix)C中的make ,但没 ...
- 双倍NB!字节跳动资深研发花7天肝出的这份286页“Flutter技术进阶”
前言 截至目前,字节跳动有很多业务落地了 Flutter 技术方案,包括今日头条.西瓜视频.皮皮虾等 20 多个业务在使用 Flutter 开发,有纯 Flutter 工程,也有 Flutter 与 ...
- 【LabVIEW技巧】路径依赖解除方法
前言 LabVIEW程序开发,让我们的程序设计变的简单容易,但是设计过程中也不乏大量的重复性工作,其中最让人头痛的莫过于依赖冲突问题. 事实上,只要你对文件进行了修改或者移动,必不可少的依赖冲突就会产 ...
- django url路径与模板中样式相对路径的问题
static目录下有css和js及image等文件夹,里面放置网站的一些静态文件,static位于网站根目录下,django中配置静态文件这个就细说,网上都有,昨天在添加新内容时发现一个问题,我的ur ...
- 第52讲:Scala中路径依赖代码实战详解
今天学习了scala中的路径依赖,来看一下实战代码 class Outer{ private val x = 10 class Inner{ private val y = x +10 } ...
- paip.解决中文url路径的问题图片文件不能显示
paip.解决中文url路径的问题图片文件不能显示 #现状..中文url路径 图片文件不能显示 <img src="img/QQ截图20140401175433.jpg" w ...
- svn 清理失败 (clean up 失败) 的解决方法
解决方法: step1: 到 sqlite官网 ( 下载 sqlite3.exe 找到 Precompiled Binaries ...
- [TypeStyle] Compose CSS classes using TypeStyle
We will demonstrate composing classes using the utility classes function. classes is also what we re ...
- windows2003 IIS6下安装ISAPI_Rewrite3破解版
摘抄的 非常感谢,我是怕百度经验有一天消失了,以防万一 iis6 ISAP ...
- hdu 2577 How to Type(DP)
How to Type Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) Tota ...
- GitHub项目协作基本步骤 分类: C_OHTERS 2013-09-23 21:31 690人阅读 评论(0) 收藏
1.查找某个项目,然后Fork 2.打开GitHub For Windows,发现刚才Fork的项目 3.对着项目点击Clone,将之复制至本地 4.使用Eclipse等进行开发,如新增一个文件 5. ...
- asm 的hello world 2011.04.28
这几天一直在弄一个嵌入式的程序,搭环境,熟悉库函数,熟悉汇编,乱成一锅粥,到现在还是没有什么系统性的收获. 或许下周弄出来吧,(一定得弄出来,不然老大该跟我急了……). 今天,熟悉汇编,好歹用汇编写出 ...
- php计算两个坐标直线距离
function rad($d) { return $d * 3.1415926535898 / 180.0; } function GetDistance($lat1, $lng1, $lat2, ...
- 【u012】数字游戏
Time Limit: 1 second Memory Limit: 128 MB [问题描述] 小W发明了一个游戏,他在黑板上写出了一行数字a1,a2,-an,然后给你m个回合的机会,每回合你可以从 ...
- 在CentOS上使用Nginx和Tomcat搭建高可用高并发网站
目录 目录 前言 创建CentOS虚拟机 安装Nginx 安装Tomcat 安装lvs和keepalived 反向代理 部署网站 搭建数据库 编写网站项目 解决session一致性 注意 参考资料 前 ...
- javaScript DOM编程经常使用的方法与属性
DOM是Document Object Model文档对象模型的缩写.依据W3C DOM规范,DOM是一种与浏览器,平台,语言无关的接口,使得你能够訪问页面其它的标准组件. Node接口的特性和方法 ...