方法1:

#!/usr/bin/python
# -*- coding: gbk -*-
import time from scrapy.spider import BaseSpider
from scrapy.http import Request
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from slyy.items import SlyyItem class SlyySpider(BaseSpider):
name = "slyy1"
allowed_domains = ["txw1958.blog.163.com"]
start_urls = ["http://txw1958.blog.163.com/blog/static/188725046201262492446552/"] def parse(self, response):
hxs = HtmlXPathSelector(response) items = []
h3 = hxs.select('''//*[@id="-3"]/div[2]/div[1]/div/div[2]/div/div[2]/div[1]/div[1]/div/div/h3/span[1]/text()''').extract()
h3_unicode = "".join(h3)
t1 = hxs.select('''//*[@id="-3"]/div[2]/div[1]/div/div[2]/div/div[2]/div[1]/div[1]/div/div/p/span[1]/span[1]/text()''').extract()
items.append(SlyyItem(head=h3_unicode, url=response.url)) for url in hxs.select('''//*[@id="$_divTopLink"]/div[1]/a/@href''').extract():
items.append(Request(url, callback=self.parse)) print "{'head': '''" + items[0]['head'] + "''','url': '" + items[0]['url'] + "'}" return items

方法2:

#!/usr/bin/python
# -*- coding: gbk -*-
import time from scrapy.spider import BaseSpider
from scrapy.http import Request
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from slyy.items import SlyyItem class SlyySpider(BaseSpider):
name = "slyy2"
allowed_domains = ["txw1958.blog.163.com"]
start_urls = ["http://txw1958.blog.163.com/blog/static/188725046201262492446552/"] def parse(self, response):
hxs = HtmlXPathSelector(response) h3 = hxs.select('''//*[@id="-3"]/div[2]/div[1]/div/div[2]/div/div[2]/div[1]/div[1]/div/div/h3/span[1]/text()''').extract()
h3_unicode = "".join(h3)
yield SlyyItem(head=h3_unicode, url=response.url) for url in hxs.select('''//*[@id="$_divTopLink"]/div[1]/a/@href''').extract():
yield Request(url, callback=self.parse)

方法3:

#!/usr/bin/python
# -*- coding: gbk -*-
import time from scrapy.spider import BaseSpider
from scrapy.http import Request
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from slyy.items import SlyyItem class SlyySpider(BaseSpider):
name = "slyy3"
allowed_domains = ["txw1958.blog.163.com"]
start_urls = ["http://txw1958.blog.163.com/blog/static/188725046201262492446552/"] def parse(self, response):
hxs = HtmlXPathSelector(response)
items = [] firspost = hxs.select('''//html/body/div[3]/div[4]/div/div/div/div[2]/div/div/div[2]/div/div/div/a/@href''').extract()[0]
items.extend([self.make_requests_from_url(firspost).replace(callback=self.parse_post)]) url2 = hxs.select('''//html/body/div[3]/div[4]/div/div/div/div[2]/div/div/div[2]/div/div/div/a/@href''').extract()[0]
items.append(self.make_requests_from_url(url2)) return items def parse_post(self, response):
hxs = HtmlXPathSelector(response)
h3 = hxs.select('''//*[@id="-3"]/div[2]/div[1]/div/div[2]/div/div[2]/div[1]/div[1]/div/div/h3/span[1]/text()''').extract()[0]
print h3
item = SlyyItem()
item['url'] = response.url
item['head'] = h3
return item

爬取结果:

{'head': '''《漫步遐想录》之五 Part1''','url': 'http://txw1958.blog.163.com/blog/static/188725046201262492446552/'}
{'head': '''《漫步遐想录》之五 Part2''','url': 'http://txw1958.blog.163.com/blog/static/188725046201262491451433/'}
{'head': '''Steve Jobs addresses on Standford''','url': 'http://txw1958.blog.163.com/blog/static/188725046201262444735654/'}
{'head': '''理想的光亮''','url': 'http://txw1958.blog.163.com/blog/static/188725046201262443426261/'}
{'head': '''实迷途其未远''','url': 'http://txw1958.blog.163.com/blog/static/18872504620126244284851/'}
{'head': '''自我解放 告别“衰世”''','url': 'http://txw1958.blog.163.com/blog/static/18872504620126244213440/'}
{'head': '''Engineering工程学''','url': 'http://txw1958.blog.163.com/blog/static/18872504620126215190395/'}
{'head': '''《南方周末》暑期文科综合自测题''','url': 'http://txw1958.blog.163.com/blog/static/18872504620126206320645/'}
{'head': '''我们选择的不是工作,是生活''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012619115011501/'}
{'head': '''不想言败,大器晚成''','url': 'http://txw1958.blog.163.com/blog/static/18872504620126150217780/'}
{'head': '''降级论''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012696327615/'}
{'head': '''归去来辞''','url': 'http://txw1958.blog.163.com/blog/static/188725046201252610216519/'}
{'head': '''笑''','url': 'http://txw1958.blog.163.com/blog/static/188725046201251722022775/'}
{'head': '''滕王阁序''','url': 'http://txw1958.blog.163.com/blog/static/188725046201251643457132/'}
{'head': '''洛神赋''','url': 'http://txw1958.blog.163.com/blog/static/188725046201251642150903/'}
{'head': '''两都赋''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515115342959/'}
{'head': '''司马相如 子虚赋 上林赋''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515113636367/'}
{'head': '''声律启蒙''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515103852784/'}
{'head': '''论语 尧曰第二十''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515103510294/'}
{'head': '''论语 子张第十九''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515103430915/'}
{'head': '''论语 卫子第十八''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515103356137/'}
{'head': '''论语 阳货第十七''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515103310473/'}
{'head': '''论语 季氏第十六''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515103154999/'}
{'head': '''论语 卫灵公第十五''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515103116471/'}
{'head': '''论语 宪问第十四''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515103044753/'}
{'head': '''论语 子路第十三''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515103010684/'}
{'head': '''论语 颜渊第十二''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515102814253/'}
{'head': '''论语 先进第十一''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515102614558/'}
{'head': '''论语 乡党第十''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515102541840/'}
{'head': '''论语 子罕第九''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515102458274/'}
{'head': '''论语 泰伯第八''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515102351448/'}
{'head': '''论语 述而第七''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515102256153/'}
{'head': '''论语 雍也第六''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012515102225669/'}
{'head': '''论语 公冶长第五''','url': 'http://txw1958.blog.163.com/blog/static/188725046201251510215473/'}
{'head': '''论语 里仁第四''','url': 'http://txw1958.blog.163.com/blog/static/188725046201251510819332/'}
{'head': '''论语 八佾第三''','url': 'http://txw1958.blog.163.com/blog/static/188725046201251510524323/'}
{'head': '''论语 为政第二''','url': 'http://txw1958.blog.163.com/blog/static/188725046201251510356857/'}
{'head': '''论语 学而第一''','url': 'http://txw1958.blog.163.com/blog/static/188725046201251594136620/'}
{'head': '''醉翁亭记''','url': 'http://txw1958.blog.163.com/blog/static/18872504620125152198737/'}
{'head': '''与高司谏书''','url': 'http://txw1958.blog.163.com/blog/static/18872504620125152117770/'}
{'head': '''丁香花开的时候''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012511300679/'}
{'head': '''与山巨源绝交书''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012561000783/'}
{'head': '''高阳作品-胡雪岩系列''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012427102057474/'}
{'head': '''昼信基督夜信佛''','url': 'http://txw1958.blog.163.com/blog/static/188725046201249144336/'}
{'head': '''合理生活''','url': 'http://txw1958.blog.163.com/blog/static/188725046201232603354998/'}
{'head': '''报任少卿书''','url': 'http://txw1958.blog.163.com/blog/static/188725046201222975824567/'}
{'head': '''那些让我们难堪的亲人''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012227101543857/'}
{'head': '''天边与身边''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012221113322802/'}
{'head': '''汜水关温酒斩华雄''','url': 'http://txw1958.blog.163.com/blog/static/18872504620122116030954/'}
{'head': '''在一个不伟大的行业里做一家伟大的公司''','url': 'http://txw1958.blog.163.com/blog/static/18872504620121239562451/'}
{'head': '''最苦与最乐''','url': 'http://txw1958.blog.163.com/blog/static/1887250462012123104147575/'}
{'head': '''扎克伯格公开信''','url': 'http://txw1958.blog.163.com/blog/static/18872504620121353556729/'}
{'head': '''与陌生人交流''','url': 'http://txw1958.blog.163.com/blog/static/188725046201111150300597/'}
{'head': '''掉到井里的人''','url': 'http://txw1958.blog.163.com/blog/static/188725046201111141593794/'}
{'head': '''赵明诚致李清照书''','url': 'http://txw1958.blog.163.com/blog/static/18872504620111129449500/'}
{'head': '''赠卫八处士''','url': 'http://txw1958.blog.163.com/blog/static/18872504620111030527789/'}
{'head': '''科学的宗教''','url': 'http://txw1958.blog.163.com/blog/static/18872504620119210394363/'}
{'head': '''以色列国立国宣言''','url': 'http://txw1958.blog.163.com/blog/static/188725046201191175380/'}
{'head': '''Balfour Declaration''','url': 'http://txw1958.blog.163.com/blog/static/188725046201191155657117/'}
{'head': '''致舞神''','url': 'http://txw1958.blog.163.com/blog/static/188725046201191122718899/'}
{'head': '''实行的悲哀''','url': 'http://txw1958.blog.163.com/blog/static/188725046201171155133182/'}
{'head': '''初冬浴日漫感''','url': 'http://txw1958.blog.163.com/blog/static/18872504620117961622855/'}
{'head': '''最后一次演讲''','url': 'http://txw1958.blog.163.com/blog/static/18872504620116281300287/'}
{'head': '''橘子''','url': 'http://txw1958.blog.163.com/blog/static/1887250462011628100594/'}
{'head': '''蘭亭集序''','url': 'http://txw1958.blog.163.com/blog/static/188725046201162543148949/'}
{'head': '''The Declaration of Geneva''','url': 'http://txw1958.blog.163.com/blog/static/188725046201162541918823/'}
{'head': '''《自深深处》选读3''','url': 'http://txw1958.blog.163.com/blog/static/188725046201162172642631/'}
{'head': '''《自深深处》选读2''','url': 'http://txw1958.blog.163.com/blog/static/18872504620116217219396/'}
{'head': '''《自深深处》选读1''','url': 'http://txw1958.blog.163.com/blog/static/18872504620116212324253/'}
{'head': '''成功需要积累''','url': 'http://txw1958.blog.163.com/blog/static/1887250462011618102449864/'}
{'head': '''秋檐''','url': 'http://txw1958.blog.163.com/blog/static/18872504620116132538465/'}
{'head': '''给未来的自己''','url': 'http://txw1958.blog.163.com/blog/static/1887250462011611483335/'}
{'head': '''晁错论''','url': 'http://txw1958.blog.163.com/blog/static/18872504620116902629774/'}
{'head': '''黄州快哉亭记''','url': 'http://txw1958.blog.163.com/blog/static/188725046201162115640458/'}
{'head': '''We Are on a Journey''','url': 'http://txw1958.blog.163.com/blog/static/188725046201152403433436/'}
{'head': '''Beauty of July''','url': 'http://txw1958.blog.163.com/blog/static/188725046201152402649114/'}
{'head': '''看着你走远''','url': 'http://txw1958.blog.163.com/blog/static/188725046201152201317148/'}
{'head': '''金融行业与独立思考''','url': 'http://txw1958.blog.163.com/blog/static/18872504620115141012240/'}
{'head': '''花园里的小山丘''','url': 'http://txw1958.blog.163.com/blog/static/18872504620115111035458/'}
{'head': '''静虚村记''','url': 'http://txw1958.blog.163.com/blog/static/188725046201151105426272/'}
{'head': '''Two Types of People''','url': 'http://txw1958.blog.163.com/blog/static/188725046201142872910729/'}
{'head': '''音的世界''','url': 'http://txw1958.blog.163.com/blog/static/188725046201142531721621/'}
{'head': '''认识的人,了解的事!''','url': 'http://txw1958.blog.163.com/blog/static/1887250462011425102883/'}
{'head': '''降低幸福沸点''','url': 'http://txw1958.blog.163.com/blog/static/188725046201142595139513/'}
{'head': '''秦国是怎样崛起的?''','url': 'http://txw1958.blog.163.com/blog/static/188725046201141010179210/'}
{'head': '''黄生借书说''','url': 'http://txw1958.blog.163.com/blog/static/18872504620114515437349/'}
{'head': '''沉默''','url': 'http://txw1958.blog.163.com/blog/static/188725046201132623618661/'}
{'head': '''网络森林的寄居者''','url': 'http://txw1958.blog.163.com/blog/static/18872504620113175233830/'}
{'head': '''未来10年中国的道路选择''','url': 'http://txw1958.blog.163.com/blog/static/1887250462011384140181/'}
{'head': '''春天''','url': 'http://txw1958.blog.163.com/blog/static/1887250462011230112856859/'}
{'head': '''Of Studie''','url': 'http://txw1958.blog.163.com/blog/static/188725046201122923749618/'}
{'head': '''限购令与深层经济结构失衡''','url': 'http://txw1958.blog.163.com/blog/static/188725046201122273946612/'}
{'head': '''巷''','url': 'http://txw1958.blog.163.com/blog/static/188725046201122202236607/'}
{'head': '''为什么你们永远不说不?''','url': 'http://txw1958.blog.163.com/blog/static/188725046201122115256782/'}
{'head': '''Inaugural Address of Barack Obama''','url': 'http://txw1958.blog.163.com/blog/static/18872504620111256412605/'}
{'head': '''爱的信笺''','url': 'http://txw1958.blog.163.com/blog/static/18872504620110250394983/'}
{'head': '''我们越来越懒于思考''','url': 'http://txw1958.blog.163.com/blog/static/1887250462011015114249531/'}
{'head': '''国立西南联合大学纪念碑碑文''','url': 'http://txw1958.blog.163.com/blog/static/188725046201011184649177/'}
{'head': '''用“最简单”应对复杂''','url': 'http://txw1958.blog.163.com/blog/static/1887250462010111223656176/'}
{'head': '''The Fringe Benefits of Failure, and the Importance of Imagination''','url': 'http://txw1958.blog.163.com/blog/static/188725046201010191191318/'}
{'head': '''母亲是游子的故乡''','url': 'http://txw1958.blog.163.com/blog/static/188725046201010167590320/'}
{'head': '''桨声灯影里的秦淮河''','url': 'http://txw1958.blog.163.com/blog/static/188725046201092583638364/'}
{'head': '''西湖的雪景''','url': 'http://txw1958.blog.163.com/blog/static/188725046201092582940605/'}
{'head': '''一个王朝的背影''','url': 'http://txw1958.blog.163.com/blog/static/188725046201092561531241/'}
{'head': '''途中''','url': 'http://txw1958.blog.163.com/blog/static/188725046201092410632722/'}
{'head': '''永远的灯光''','url': 'http://txw1958.blog.163.com/blog/static/188725046201092375358375/'}
{'head': '''When the Teacher Becomes the Student''','url': 'http://txw1958.blog.163.com/blog/static/1887250462010915112637126/'}
{'head': '''我的愿望''','url': 'http://txw1958.blog.163.com/blog/static/188725046201099115359953/'}
{'head': '''无二的松子''','url': 'http://txw1958.blog.163.com/blog/static/188725046201096111632705/'}
{'head': '''年轻的旅行者''','url': 'http://txw1958.blog.163.com/blog/static/1887250462010826755588/'}
{'head': '''你愿不愿意父母来看你''','url': 'http://txw1958.blog.163.com/blog/static/18872504620108267447239/'}
{'head': '''价值的真谛''','url': 'http://txw1958.blog.163.com/blog/static/188725046201082672956838/'}
{'head': '''这世界上有另一个你''','url': 'http://txw1958.blog.163.com/blog/static/188725046201082665458671/'}
{'head': '''The careerist: Summer school''','url': 'http://txw1958.blog.163.com/blog/static/18872504620108102216529/'}
{'head': '''如果客户向你要回扣……''','url': 'http://txw1958.blog.163.com/blog/static/188725046201071774741499/'}
{'head': '''Understanding 802.11n wireless antennas''','url': 'http://txw1958.blog.163.com/blog/static/18872504620107531052795/'}
{'head': '''被掠夺的梦想与生活''','url': 'http://txw1958.blog.163.com/blog/static/188725046201061685545392/'}
{'head': '''一个猜数游戏''','url': 'http://txw1958.blog.163.com/blog/static/188725046201061685351769/'}
{'head': '''素书''','url': 'http://txw1958.blog.163.com/blog/static/18872504620105240256875/'}
{'head': '''Self-Contained Underwater Breathing Apparatus''','url': 'http://txw1958.blog.163.com/blog/static/18872504620104294124944/'}
{'head': '''我奋斗了18年不是为了和你一起喝咖啡''','url': 'http://txw1958.blog.163.com/blog/static/188725046201042471937771/'}
{'head': '''我奋斗了18年才和你坐在一起喝咖啡''','url': 'http://txw1958.blog.163.com/blog/static/188725046201042471745840/'}
{'head': '''聆听''','url': 'http://txw1958.blog.163.com/blog/static/18872504620104783126926/'}
{'head': '''美国总统奥巴马在矿难悼念仪式的讲话''','url': 'http://txw1958.blog.163.com/blog/static/1887250462010429843863/'}
{'head': '''致吾女''','url': 'http://txw1958.blog.163.com/blog/static/188725046201032994944149/'}
{'head': '''落叶''','url': 'http://txw1958.blog.163.com/blog/static/188725046201032991950404/'}
{'head': '''房子是囚人的''','url': 'http://txw1958.blog.163.com/blog/static/18872504620103204839426/'}
{'head': '''关键四小时''','url': 'http://txw1958.blog.163.com/blog/static/188725046201031872831936/'}
{'head': '''像流水一样生活''','url': 'http://txw1958.blog.163.com/blog/static/18872504620103383732865/'}
{'head': '''我曾有梦''','url': 'http://txw1958.blog.163.com/blog/static/18872504620101784732546/'}
{'head': '''《唯物论启示录》之一''','url': 'http://txw1958.blog.163.com/blog/static/188725046201017491452/'}
{'head': '''过自己的生活''','url': 'http://txw1958.blog.163.com/blog/static/18872504620100221124895/'}
{'head': '''是我摧垮了经济''','url': 'http://txw1958.blog.163.com/blog/static/1887250462010022105658925/'}
{'head': '''那个被你伤得最深的人''','url': 'http://txw1958.blog.163.com/blog/static/1887250462010022105524302/'}
{'head': '''为徐敬业讨武瞾叫檄''','url': 'http://txw1958.blog.163.com/blog/static/18872504620100765246471/'}
{'head': '''一口闲钟''','url': 'http://txw1958.blog.163.com/blog/static/188725046201006103313590/'}
{'head': '''曹操《让县自明本志令》''','url': 'http://txw1958.blog.163.com/blog/static/1887250462010063939689/'}
{'head': '''再见!蜡笔小新''','url': 'http://txw1958.blog.163.com/blog/static/18872504620091127284351/'}
{'head': '''快乐只需两步''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009112512042484/'}
{'head': '''《莺莺传》节选''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009111311511757/'}
{'head': '''Father Forgets''','url': 'http://txw1958.blog.163.com/blog/static/18872504620091111113751117/'}
{'head': '''一个房奴的精神大字报''','url': 'http://txw1958.blog.163.com/blog/static/18872504620091029104239475/'}
{'head': '''我们每个人,都是某人一生的至爱''','url': 'http://txw1958.blog.163.com/blog/static/188725046200910299309875/'}
{'head': '''幸福只和一件事有关''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009101684230737/'}
{'head': '''种树的牧羊人''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009101572433342/'}
{'head': '''我们老去的青春''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009101485352731/'}
{'head': '''外婆家的月亮''','url': 'http://txw1958.blog.163.com/blog/static/188725046200993034548526/'}
{'head': '''你的温柔给了谁''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009921101824929/'}
{'head': '''小康胜大富''','url': 'http://txw1958.blog.163.com/blog/static/188725046200991004233804/'}
{'head': '''成功的真谛''','url': 'http://txw1958.blog.163.com/blog/static/188725046200991003910682/'}
{'head': '''记住,这是你的工作!''','url': 'http://txw1958.blog.163.com/blog/static/188725046200981692325363/'}
{'head': '''迎迓绿色''','url': 'http://txw1958.blog.163.com/blog/static/188725046200981284336568/'}
{'head': '''最不愿单独面对的人''','url': 'http://txw1958.blog.163.com/blog/static/188725046200972072526871/'}
{'head': '''What is a girl to focus on – looks or brains?''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009750200192/'}
{'head': '''《刺杀肯尼迪》片尾演讲''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009610101932153/'}
{'head': '''千字文''','url': 'http://txw1958.blog.163.com/blog/static/18872504620096675640123/'}
{'head': '''百岁人生''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009656513294/'}
{'head': '''人生的价值''','url': 'http://txw1958.blog.163.com/blog/static/18872504620096564358755/'}
{'head': '''HEAL THE WORLD''','url': 'http://txw1958.blog.163.com/blog/static/188725046200952682113128/'}
{'head': '''读“无用的书”''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009526647816/'}
{'head': '''人这东西''','url': 'http://txw1958.blog.163.com/blog/static/188725046200951263421221/'}
{'head': '''高贵的哑巴''','url': 'http://txw1958.blog.163.com/blog/static/188725046200951262421621/'}
{'head': '''我曾经七次鄙视自己的灵魂''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009430551248/'}
{'head': '''The life I desired''','url': 'http://txw1958.blog.163.com/blog/static/188725046200942603014348/'}
{'head': '''昆明的雨''','url': 'http://txw1958.blog.163.com/blog/static/18872504620094256487520/'}
{'head': '''家''','url': 'http://txw1958.blog.163.com/blog/static/188725046200942064432393/'}
{'head': '''爱是一条双行道''','url': 'http://txw1958.blog.163.com/blog/static/188725046200941892518738/'}
{'head': '''淡定是一种生活状态''','url': 'http://txw1958.blog.163.com/blog/static/18872504620094169114479/'}
{'head': '''有一种错误叫放大痛苦''','url': 'http://txw1958.blog.163.com/blog/static/18872504620094166214155/'}
{'head': '''鲜花总是在远方''','url': 'http://txw1958.blog.163.com/blog/static/188725046200941364458767/'}
{'head': '''Israel in a nutshell''','url': 'http://txw1958.blog.163.com/blog/static/188725046200932003127812/'}
{'head': '''What is success?''','url': 'http://txw1958.blog.163.com/blog/static/18872504620093158165263/'}
{'head': '''落难的王子''','url': 'http://txw1958.blog.163.com/blog/static/18872504620093821440143/'}
{'head': '''What I Have Lived For''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009369314947/'}
{'head': '''Relish the moment''','url': 'http://txw1958.blog.163.com/blog/static/18872504620093692339938/'}
{'head': '''让别人说话''','url': 'http://txw1958.blog.163.com/blog/static/188725046200923003315242/'}
{'head': '''儿子教我“游戏”人生''','url': 'http://txw1958.blog.163.com/blog/static/18872504620092182349535/'}
{'head': '''谁是最忠诚的人''','url': 'http://txw1958.blog.163.com/blog/static/188725046200911881124613/'}
{'head': '''抱怨比赛开始了……''','url': 'http://txw1958.blog.163.com/blog/static/1887250462009115114418867/'}
{'head': '''珍言''','url': 'http://txw1958.blog.163.com/blog/static/18872504620091664937968/'}
{'head': '''丰收的秘密''','url': 'http://txw1958.blog.163.com/blog/static/18872504620091511328984/'}
{'head': '''并非寓言''','url': 'http://txw1958.blog.163.com/blog/static/188725046200915104942870/'}
{'head': '''所谓的选择''','url': 'http://txw1958.blog.163.com/blog/static/18872504620091471219865/'}
{'head': '''为什么不属于自己''','url': 'http://txw1958.blog.163.com/blog/static/188725046200901393155430/'}
{'head': '''总会轮到你''','url': 'http://txw1958.blog.163.com/blog/static/188725046200901392338805/'}
{'head': '''老板娘给我的10个人生教益''','url': 'http://txw1958.blog.163.com/blog/static/18872504620090139239351/'}
{'head': '''逆风的香''','url': 'http://txw1958.blog.163.com/blog/static/188725046200901392236284/'}
{'head': '''最幸福的人不必问人生意义''','url': 'http://txw1958.blog.163.com/blog/static/188725046200901392156142/'}
{'head': '''你离挨饿只有三天''','url': 'http://txw1958.blog.163.com/blog/static/18872504620090571313699/'}
{'head': '''毛-泽东:论持久战(一九三八年五月)''','url': 'http://txw1958.blog.163.com/blog/static/188725046200901111514924/'}
{'head': '''怀才不遇''','url': 'http://txw1958.blog.163.com/blog/static/1887250462008113072216857/'}
{'head': '''“荒谬”的论文''','url': 'http://txw1958.blog.163.com/blog/static/1887250462008111571612574/'}
{'head': '''空瓶子''','url': 'http://txw1958.blog.163.com/blog/static/188725046200811157154603/'}
{'head': '''你在职场第几层''','url': 'http://txw1958.blog.163.com/blog/static/188725046200811672254551/'}
{'head': '''不要去看远处的东西''','url': 'http://txw1958.blog.163.com/blog/static/1887250462008116048950/'}
{'head': '''地上有餐巾''','url': 'http://txw1958.blog.163.com/blog/static/188725046200810279554689/'}
{'head': '''光''','url': 'http://txw1958.blog.163.com/blog/static/188725046200810269913920/'}
{'head': '''乐观就是一桶金''','url': 'http://txw1958.blog.163.com/blog/static/18872504620081024105024331/'}
{'head': '''最苦与最乐''','url': 'http://txw1958.blog.163.com/blog/static/188725046200810197250401/'}
{'head': '''愿你有这样的人生情怀''','url': 'http://txw1958.blog.163.com/blog/static/18872504620089248516116/'}
{'head': '''26岁开始要学会去面对的50件事''','url': 'http://txw1958.blog.163.com/blog/static/188725046200892165816632/'}
{'head': '''草莓''','url': 'http://txw1958.blog.163.com/blog/static/18872504620089192193820/'}
{'head': '''最珍贵的东西是免费的''','url': 'http://txw1958.blog.163.com/blog/static/1887250462008825725571/'}
{'head': '''摆渡自己''','url': 'http://txw1958.blog.163.com/blog/static/18872504620088196533259/'}
{'head': '''人生的三层楼''','url': 'http://txw1958.blog.163.com/blog/static/188725046200881375327976/'}
{'head': '''幸福是什么''','url': 'http://txw1958.blog.163.com/blog/static/188725046200881192236521/'}
{'head': '''人生的解释''','url': 'http://txw1958.blog.163.com/blog/static/18872504620088981453997/'}
{'head': '''活出意义来''','url': 'http://txw1958.blog.163.com/blog/static/1887250462008887812418/'}
{'head': '''每天诞生一次''','url': 'http://txw1958.blog.163.com/blog/static/18872504620087299139706/'}
{'head': '''没人蔑视你,只是忽略你''','url': 'http://txw1958.blog.163.com/blog/static/188725046200872610139641/'}
{'head': '''实现梦想的常识''','url': 'http://txw1958.blog.163.com/blog/static/188725046200872211053815/'}
{'head': '''破碎的美丽''','url': 'http://txw1958.blog.163.com/blog/static/18872504620087131057430/'}
{'head': '''你有没有最珍贵的?''','url': 'http://txw1958.blog.163.com/blog/static/18872504620087603419605/'}
{'head': '''二十分钟''','url': 'http://txw1958.blog.163.com/blog/static/18872504620087511139907/'}
{'head': '''生活需要等待''','url': 'http://txw1958.blog.163.com/blog/static/188725046200874111349524/'}
{'head': '''幸福没有榜样''','url': 'http://txw1958.blog.163.com/blog/static/188725046200863195833216/'}
{'head': '''生活的一种''','url': 'http://txw1958.blog.163.com/blog/static/188725046200863195413567/'}
{'head': '''目标与人生''','url': 'http://txw1958.blog.163.com/blog/static/188725046200861865221832/'}
{'head': '''小职员''','url': 'http://txw1958.blog.163.com/blog/static/188725046200861792821185/'}
{'head': '''15条人生箴言''','url': 'http://txw1958.blog.163.com/blog/static/18872504620086972538957/'}
{'head': '''人性暗箱''','url': 'http://txw1958.blog.163.com/blog/static/18872504620086774530773/'}
{'head': '''瓷器中的哲理''','url': 'http://txw1958.blog.163.com/blog/static/188725046200853085344605/'}
{'head': '''世界的最后一夜''','url': 'http://txw1958.blog.163.com/blog/static/188725046200852510839412/'}
{'head': '''成功是优秀的副产品''','url': 'http://txw1958.blog.163.com/blog/static/188725046200851542924474/'}
{'head': '''灵魂的在场''','url': 'http://txw1958.blog.163.com/blog/static/188725046200851541830355/'}
{'head': '''生死之间''','url': 'http://txw1958.blog.163.com/blog/static/18872504620085153593237/'}
{'head': '''诅咒是一座牢房''','url': 'http://txw1958.blog.163.com/blog/static/18872504620084299852363/'}
{'head': '''人到何时最清醒''','url': 'http://txw1958.blog.163.com/blog/static/188725046200842873142722/'}
{'head': '''四十岁的心情''','url': 'http://txw1958.blog.163.com/blog/static/188725046200842372527468/'}
{'head': '''换个视角''','url': 'http://txw1958.blog.163.com/blog/static/188725046200842074336487/'}
{'head': '''13亿人的哀悼''','url': 'http://txw1958.blog.163.com/blog/static/18872504620084198179228/'}
{'head': '''亲爱的宝贝,如果你能活着,一定要记住我爱你''','url': 'http://txw1958.blog.163.com/blog/static/1887250462008419880523/'}
{'head': '''花钱的事''','url': 'http://txw1958.blog.163.com/blog/static/18872504620084148843231/'}
{'head': '''假如生活把你欺骗''','url': 'http://txw1958.blog.163.com/blog/static/188725046200841282843151/'}
{'head': '''为母亲祈祷''','url': 'http://txw1958.blog.163.com/blog/static/188725046200841195812614/'}
{'head': '''跨越百年的美丽''','url': 'http://txw1958.blog.163.com/blog/static/188725046200841195141557/'}
{'head': '''正确表达你的爱''','url': 'http://txw1958.blog.163.com/blog/static/18872504620084973830759/'}
{'head': '''陋室王侯''','url': 'http://txw1958.blog.163.com/blog/static/1887250462008489359394/'}
{'head': '''沉默的大多数''','url': 'http://txw1958.blog.163.com/blog/static/1887250462008457107348/'}
{'head': '''一天之后,已成往事''','url': 'http://txw1958.blog.163.com/blog/static/18872504620083299402384/'}
{'head': '''人生之不可管理''','url': 'http://txw1958.blog.163.com/blog/static/188725046200832895119848/'}
{'head': '''你最后悔什么?''','url': 'http://txw1958.blog.163.com/blog/static/188725046200832611246367/'}
{'head': '''无怨的青春''','url': 'http://txw1958.blog.163.com/blog/static/188725046200832105949684/'}
{'head': '''“路径依赖”原理''','url': 'http://txw1958.blog.163.com/blog/static/18872504620082287141465/'}
{'head': '''热爱生命''','url': 'http://txw1958.blog.163.com/blog/static/1887250462008212112631238/'}
{'head': '''一个人都没有''','url': 'http://txw1958.blog.163.com/blog/static/188725046200812282614377/'}
{'head': '''光和影的游戏''','url': 'http://txw1958.blog.163.com/blog/static/1887250462008120942233/'}
{'head': '''值得的生活''','url': 'http://txw1958.blog.163.com/blog/static/188725046200811635251604/'}
{'head': '''除了股票人生还有许多重要事情''','url': 'http://txw1958.blog.163.com/blog/static/188725046200811634847472/'}
{'head': '''爱''','url': 'http://txw1958.blog.163.com/blog/static/18872504620078157223842/'}
{'head': '''自我解放 告别“衰世” (三)''','url': 'http://txw1958.blog.163.com/blog/static/188725046200772584925619/'}
{'head': '''自我解放 告别“衰世” (二)''','url': 'http://txw1958.blog.163.com/blog/static/188725046200772584851298/'}
{'head': '''自我解放 告别“衰世” (一)''','url': 'http://txw1958.blog.163.com/blog/static/188725046200772584754334/'}
{'head': '''翠湖心影''','url': 'http://txw1958.blog.163.com/blog/static/18872504620077301651483/'}
{'head': '''爱与孤独''','url': 'http://txw1958.blog.163.com/blog/static/1887250462007720337262/'}
{'head': '''无用之用''','url': 'http://txw1958.blog.163.com/blog/static/188725046200772003150/'}
{'head': '''一只特立独行的猪''','url': 'http://txw1958.blog.163.com/blog/static/188725046200771115049618/'}
{'head': '''小石潭记''','url': 'http://txw1958.blog.163.com/blog/static/18872504620076702313706/'}
{'head': '''小重山''','url': 'http://txw1958.blog.163.com/blog/static/1887250462007133383614/'}
{'head': '''云南雪''','url': 'http://txw1958.blog.163.com/blog/static/18872504620061122111947773/'}
{'head': '''我与地坛''','url': 'http://txw1958.blog.163.com/blog/static/1887250462006112210598127/'}

待解决问题:

1. 保存到json中,仍然是unicode,无法为中文。

2. 从首页开始,得指

scrapy技术进阶-URL路径依赖的更多相关文章

  1. 爬虫系列3:scrapy技术进阶(xpath、rules、shell等)

    本文主要介绍与scrapy应用紧密相关的关键技术,不求很深入,但求能够提取要点.内容包括: 1.xpath选择器:选择页面中想要的内容 2.rules规则:定义爬虫要爬取的域 3.scrapy she ...

  2. 爬虫系列4:scrapy技术进阶之多页面爬取

    多页面爬取有两种形式. 1)从某一个或者多个主页中获取多个子页面的url列表,parse()函数依次爬取列表中的各个子页面. 2)从递归爬取,这个相对简单.在scrapy中只要定义好初始页面以及爬虫规 ...

  3. Scala 深入浅出实战经典 第52讲:Scala中路径依赖代码实战详解

    王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-64讲)完整视频.PPT.代码下载:百度云盘:http://pan.baidu.com/s/1c0noOt6 ...

  4. 服务端技术进阶(六)Ant和Maven的作用是什么?两者之间功能、特点有哪些区别?

    服务端技术进阶(六)Ant和Maven的作用是什么?两者之间功能.特点有哪些区别? Ant和Maven都是基于Java的构建(build)工具.理论上来说,有些类似于(Unix)C中的make ,但没 ...

  5. 双倍NB!字节跳动资深研发花7天肝出的这份286页“Flutter技术进阶”

    前言 截至目前,字节跳动有很多业务落地了 Flutter 技术方案,包括今日头条.西瓜视频.皮皮虾等 20 多个业务在使用 Flutter 开发,有纯 Flutter 工程,也有 Flutter 与 ...

  6. 【LabVIEW技巧】路径依赖解除方法

    前言 LabVIEW程序开发,让我们的程序设计变的简单容易,但是设计过程中也不乏大量的重复性工作,其中最让人头痛的莫过于依赖冲突问题. 事实上,只要你对文件进行了修改或者移动,必不可少的依赖冲突就会产 ...

  7. django url路径与模板中样式相对路径的问题

    static目录下有css和js及image等文件夹,里面放置网站的一些静态文件,static位于网站根目录下,django中配置静态文件这个就细说,网上都有,昨天在添加新内容时发现一个问题,我的ur ...

  8. 第52讲:Scala中路径依赖代码实战详解

    今天学习了scala中的路径依赖,来看一下实战代码 class Outer{  private val x = 10  class Inner{    private val y = x +10  } ...

  9. paip.解决中文url路径的问题图片文件不能显示

    paip.解决中文url路径的问题图片文件不能显示 #现状..中文url路径 图片文件不能显示 <img src="img/QQ截图20140401175433.jpg" w ...

随机推荐

  1. iOS开发RunnLoop学习二:GCD中的定时器

    #import "ViewController.h" @interface ViewController () /** 注释 */ @property (nonatomic, st ...

  2. Loader之二:CursorLoader基本实例 分类: H1_ANDROID 2013-11-16 10:50 5447人阅读 评论(0) 收藏

    参考APIDEMO:sdk\samples\android-19\content\LoaderCursor 1.创建主布局文件,里面只包含一个Fragment. <FrameLayout xml ...

  3. php求和为s的两个数字(多复制上面写的代码,有利于检查错误)(由浅入深,先写简单算法,做题的话够用就行)

    php求和为s的两个数字(多复制上面写的代码,有利于检查错误)(由浅入深,先写简单算法,做题的话够用就行) 一.总结 1.多复制上面写的代码,有利于检查错误 2.一层循环就解决了,前后两个指针,和大了 ...

  4. [Now] Configure secrets and environment variables with Zeit’s Now

    Often your project will require some secret keys or tokens - for instance, API keys or database auth ...

  5. .net下载优酷1080P视频

    事实上流程大致是:调用飞驴下载API+js解析+文件下载+调用flvBind合并这样一个流程而已_(:з」∠)_ 貌似是不用太多的说明..嗯.. 起先的需求是从优酷上下载一些视频 只是网络上的各种软件 ...

  6. [Ramda] Curry and Uncurry Functions with Ramda

    Most of the functions offered by the ramda library are curried by default. Functions you've created ...

  7. 资源载入和页面事件 load, ready, DOMContentLoaded等

    资源载入和页面事件 理想的页面载入方式 解析HTML结构. 载入并解析外部脚本. DOM树构建完成,运行脚本.//DOMInteractive –> DOMContentLoaded 载入图片. ...

  8. 【u021】广义斐波那契数列

    Time Limit: 1 second Memory Limit: 128 MB [问题描述] 广义的斐波那契数列是指形如an=p*an-1+q*an-2的数列.今给定数列的两系数p和q,以及数列的 ...

  9. Linux环境变量具体解释

    设置环境变量 profile和bashrc文件 /etc/profile:在登录时,操作系统定制用户环境时使用的第一个文件.此文件为系统的每一个用户设置环境信息,当用户第一次登录时,该文件被运行. 并 ...

  10. Expression Blend 的点滴(4)--创建类似iPhone屏幕锁控件(下)

    原文:Expression Blend 的点滴(4)--创建类似iPhone屏幕锁控件(下) 接着上篇... 接下去,将一步步演示如果创建当点击checkBox后,其中的按钮由左边滑动到右边,表示处于 ...