pyspider爬取TripAdvisor

 #!/usr/bin/env python

 # -*- encoding: utf-8 -*-

 # Created on 2017-06-11 10:10:53

 # Project: london

 from pyspider.libs.base_handler import *

 import pymongo

 class Handler(BaseHandler):

     crawl_config = {

     }

     client = pymongo.MongoClient('localhost')

     db = client['trip']

     @every(minutes=24 * 60)

     def on_start(self):

         self.crawl('https://www.tripadvisor.cn/Attractions-g186338-Activities-c47-London_England.html', callback=self.index_page)

     @config(age=10 * 24 * 60 * 60)

     def index_page(self, response):

         for each in response.doc('.listing_title > a').items():

             self.crawl(each.attr.href, callback=self.detail_page)

         next_page = response.doc('.pagination .nav.next').attr.href

         self.crawl(next_page,callback = self.index_page)

     @config(priority=2)

     def detail_page(self, response):

         return {

             "name":response.doc('h1').text(),

             "url": response.url,

             'comment':response.doc('.heading_ratings .taLnk').text(),

             'address':response.doc('.addressReset > span.format_address').text(),

             'phone':response.doc('.phoneNumber').text(),

             'duration':response.doc('#MAP_AND_LISTING > div.main_section.listingbar > div > div.above_fold_listing_details > div > div:nth-child(5) > div > div:nth-child(1)').text(),

             'instruction':response.doc('#MAP_AND_LISTING > div.main_section.listingbar > div > div.above_fold_listing_details > div > div:nth-child(6) > div > b').text()

         }

     def on_result(self,result):

         if result:

             self.save_to_mongo(result)

     def save_to_mongo(self,result):

         if self.db['london'].insert(result):

             print('saved to mongo',result)

pyspider爬取TripAdvisor的更多相关文章

使用pyspider爬取巨量淘宝MM图片
具体搭建步骤不再赘述,这里主要使用到了fakeagent,phantomjs和proxy pyspider的爬取相当智能,在不能获取图片的时候会适当的暂停一段时间再试探性的爬取,配合fakeagent ...
网络字体反爬之pyspider爬取起点中文小说
前几天跟同事聊到最近在看什么小说,想起之前看过一篇文章说的是网络十大水文,就想把起点上的小说信息爬一下,搞点可视化数据看看.这段时间正在看爬虫框架-pyspider,觉得这种网站用框架还是很方便的,所 ...
PySpider爬取去哪儿攻略数据项目
1 创建项目点击WEB中的Create创建项目填入相关项目名和其实爬取URL 创建后进入项目首页右边 Handler 是pyspider的主类,整个爬虫一个Handler,其中可定义爬虫的爬取. ...
用pyspider爬取并解析json字符串
获取堆糖网站所有用户的id 昵称及主页地址 #!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2016-06-21 13:57: ...
pyspider爬取数据存入redis--2.测试数据库连通性
直接上代码 #!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2017-10-27 09:56:50 # Project: re ...
pyspider爬取数据存入es--2.测试数据库连通性
写一个简单案例测试能否将数据写入es #!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2017-10-27 08:35:57 ...
pyspider爬取数据存入mysql--2.测试数据库能否连通
做一个简单的测试,看数据能否存入mysql 1 #!/usr/bin/env python 2 # -*- encoding: utf-8 -*- 3 # Created on 2017-10-26 ...
pyspider爬取数据导入mysql--1.安装驱动
接上篇,刚装好的pyspider,我们打算大显身手,抓一批数据到mysql中. 然而,出师未捷,提示我们:ImportError: No module named MySQLdb 这是因为还没有安装M ...
pyspider—爬取视频链接
#!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2015-03-20 09:46:20 # Project: fly_spid ...

随机推荐

Lucene-02:搜索初步
承接上一篇文章. package com.amazing; import java.io.File; import java.io.IOException; import org.apache.luc ...
笔记：MyBatis 其他特性
多行结果集映射成Map 如果你有一个映射语句返回多行记录,并且你想以HashMap的形式存储记录的值,使用记录列名作为key值,而记录对应值或为value值.我们可以使用sqlSession.sele ...
交换排序—快速排序（Quick Sort）
基本思想: 1)选择一个基准元素,通常选择第一个元素或者最后一个元素, 2)通过一趟排序讲待排序的记录分割成独立的两部分,其中一部分记录的元素值均比基准元素值小.另一部分记录的元素值比基准值大. 3 ...
记录一则ASM实例阻塞，rbal进程异常的案例
1.故障现象描述 2.确认故障现象 3.排查ASM层面 4.解决问题 1.故障现象描述环境:AIX 7.1 + Standalone Oracle 11.2.0.4 现象:客户反映某11g版本的AD ...
Java ORM Hibernate 入门笔记
一.下载官网地址:http://hibernate.org/ Hibernate下有ORM(关系型数据库).OGM(NoSQL数据库).Search(对象全文检索).Validator的工具. OR ...
Python中的classmethod与staticmethod
首先,这是一个经典的问题. 我们首先做一个比较: classmethod的第一个参数是cls,即调用的时候要把类传入这意味着我们我们可以在classmethod里使用类的属性,而不是类的实例的属性( ...
Java之排序
1.插入排序假设第一个数已经是排好序的,把第二个根据大小关系插到第一个前面或维持不动,把第三个根据前面两个的大小关系插到对应位置,依次往后. public class InsertSort { pu ...
Beta冲刺随笔集合
Beta冲刺随笔集合项目Beta预备 Beta冲刺第一天 Beta冲刺第二天 Beta冲刺第三天 Beta冲刺第四天 Beta冲刺第五天 Beta冲刺第六天 Beta冲刺第七天用户调查报告 Bet ...
201621123057 《Java程序设计》第13周学习总结
1. 本周学习总结以你喜欢的方式(思维导图.OneNote或其他)归纳总结多网络相关内容. 2. 为你的系统增加网络功能(购物车.图书馆管理.斗地主等)-分组完成为了让你的系统可以被多个用户通过网 ...
201621123031 《Java程序设计》第2周学习总结
Week02-Java基本语法与类库 1. 本周学习总结本周讲了Java的基本数据类型,主要分为八类(byte,short,int,long,double,float,char,boolean),其 ...

pyspider爬取TripAdvisor

pyspider爬取TripAdvisor的更多相关文章

随机推荐

热门专题