python爬虫3之去哪儿网

学习任务

获取去哪儿网的出发地列表

获取旅游景点列表

获取景点产品列表

存储数据

1 获取出发地站点

(1)访问touch.qunar.com

(2)按F12，单击自由行，在自由行页面点击搜索框

(3)单击任意一个城市，切换到headers，查看request URL如下所示。但是需要工具还原编码咋们才能知道这是啥(dep参数表示出发地，query表示目的地)。推荐网站http://www.jsons.cn/urlencode/，解码效果下面图2

3 实现

(1)首先获得出发地站点，因为最终需要获得整个自由行的产品列表。

自由行首页中点击左侧的出发点站点，然后获取目标URL如图二

 import requests

 url="https://touch.dujia.qunar.com/depCities.qunar"

 strhtml=requests.get(url)

 print(strhtml)

 dep_dict=strhtml.json()

 print(dep_dict)

 for dep_item in dep_dict['data']:

     for dep in dep_dict['data'][dep_item]:

         print(dep)

(2)获得目的地。根据上面的分析，json工具解码以后通过拼接可得URL。

             url = 'https://m.dujia.qunar.com/golfz/sight/arriveRecommend?dep={}&exclude=&extensionImg=255,175'.format(urllib.request.quote(dep))

(3)总源码

 import requests

 import urllib

 import time

 #import pymongo

 # client=pymongo.MongoClient('localhost',27017)

 # book_qunar=client['qunar']

 # sheet_qunar_zyx=book_qunar['qunar_zyx']

 #获取产品列表

 def get_list(dep,item):

     url = 'https://touch.dujia.qunar.com/list?modules=list,bookingInfo&dep={}&query={}&mtype=all&ddt=false&mobFunction=%E6%89%A9%E5%B1%95%E8%87%AA%E7%94%B1%E8%A1%8C&cfrom=zyx&it=FreetripTouchin&et=FreetripTouch&date=&configDepNew=&needNoResult=true&originalquery={}&limit=0,20&includeAD=true&qsact=search'.format(

         urllib.request.quote(dep), urllib.request.quote(item), urllib.request.quote(item))

     strhtml = get_json(url)

     try:

         routeCount = int(strhtml['data']['limit']['routeCount'])

     except:

         return

     for limit in range(0, routeCount, 20):

         url = 'https://touch.dujia.qunar.com/list?modules=list,bookingInfo&dep={}&query={}&mtype=all&ddt=false&mobFunction=%E6%89%A9%E5%B1%95%E8%87%AA%E7%94%B1%E8%A1%8C&cfrom=zyx&it=FreetripTouchin&et=FreetripTouch&date=&configDepNew=&needNoResult=true&originalquery={}&limit={},20&includeAD=true&qsact=search'.format(

             urllib.request.quote(dep), urllib.request.quote(item),

             urllib.request.quote(item), limit)

         strhtml = get_json(url)

         result = {

             'date': time.strftime('%Y-%m-%d', time.localtime(time.time())),

             'dep': dep,

             'arrive': item,

             'limit': limit,

             'result': strhtml

         }

         #sheet_qunar_zyx.insert_one(result)

         print(result)

 # def connect_mongo():

 #     client=pymongo.MongoClient('localhost',27017)

 #     book_qunar=client['qunar']

 #     return book_qunar['qunar_zyx']

 def get_json(url):

     strhtml=requests.get(url)

     time.sleep(1)

     return strhtml.json()

 if __name__ == "__main__":

     url='https://touch.dujia.qunar.com/depCities.qunar'

     dep_dict=get_json(url)

     #这里是json格式 dep_dict中内嵌勒一层

     for dep_item in dep_dict['data']:

         for dep in dep_dict['data'][dep_item]:

             a = []#目的地去重

             #经过解码工具可以得到dep表示出发地 query和originalquery表示目的地

             url = 'https://m.dujia.qunar.com/golfz/sight/arriveRecommend?dep={}&exclude=&extensionImg=255,175'.format(urllib.request.quote(dep))

             arrive_dict = get_json(url)

             for arr_item in arrive_dict['data']:

                 for arr_item_1 in arr_item['subModules']:

                     for query in arr_item_1['items']:

                         if query['query'] not in a:

                             a.append(query['query'])

             for item in a:

                 get_list(dep,item)

python爬虫3之去哪儿网的更多相关文章

用python爬虫爬取去哪儿4500个热门景点，看看国庆不能去哪儿
前言:本文建议有一定Python基础和前端(html,js)基础的盆友阅读. 金秋九月,丹桂飘香,在这秋高气爽,阳光灿烂的收获季节里,我们送走了一个个暑假余额耗尽哭着走向校园的孩籽们,又即将迎来一年一 ...
Python爬虫之爬取慕课网课程评分
BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看Beautiful ...
Python爬虫入门教程 34-100 掘金网全站用户爬虫 scrapy
爬前叨叨已经编写了33篇爬虫文章了,如果你按着一个个的实现,你的爬虫技术已经入门,从今天开始慢慢的就要写一些有分析价值的数据了,今天我选了一个<掘金网>,我们去爬取一下他的全站用户数据. ...
Python爬虫入门教程 11-100 行行网电子书多线程爬取
行行网电子书多线程爬取-写在前面最近想找几本电子书看看,就翻啊翻,然后呢,找到了一个叫做周读的网站 ,网站特别好,简单清爽,书籍很多,而且打开都是百度网盘可以直接下载,更新速度也还可以,于是乎, ...
python 爬虫之爬取大街网（思路）
由于需要,本人需要对大街网招聘信息进行分析,故写了个爬虫进行爬取.这里我将记录一下,本人爬取大街网的思路. 附:爬取得数据仅供自己分析所用,并未用作其它用途. 附:本篇适合有一定爬虫基础 crawl ...
python爬虫–爬取煎蛋网妹子图片
前几天刚学了python网络编程,书里没什么实践项目,只好到网上找点东西做. 一直对爬虫很好奇,所以不妨从爬虫先入手吧. Python版本:3.6 这是我看的教程:Python - Jack -Cui ...
Python爬虫入门教程 20-100 慕课网免费课程抓取
写在前面美好的一天又开始了,今天咱继续爬取IT在线教育类网站,慕课网,这个平台的数据量并不是很多,所以爬取起来还是比较简单的准备爬取打开我们要爬取的页面,寻找分页点和查看是否是异步加载的数据. ...
Python爬虫项目--爬取自如网房源信息
本次爬取自如网房源信息所用到的知识点: 1. requests get请求 2. lxml解析html 3. Xpath 4. MongoDB存储正文 1.分析目标站点 1. url: http:/ ...
Python 爬虫爬取煎蛋网图片
今天, 试着爬取了煎蛋网的图片. 用到的包: urllib.request os 分别使用几个函数,来控制下载的图片的页数,获取图片的网页,获取网页页数以及保存图片到本地.过程简单清晰明了直接上源代 ...

随机推荐

mysql 查询今天，昨天，上个月sql语句
今天 select * from 表名 where to_days(时间字段名) = to_days(now()); 昨天Select * FROM 表名 Where TO_DAYS( NOW( ) ...
含-SH的ACE抑制药的青霉胺样反应
关于含-SH的血管紧张素转化酶(ACE)抑制药如卡托普利具有青霉胺样反应.而依那普利则不含-SH. 青霉胺样反应青霉胺样反应,指应用含-SH的ACE抑制药产生的皮疹.嗜酸性粒细胞(E)增多.味觉异 ...
arduino adc数模放大器
http://ardui.co/archives/833 http://henrysbench.capnfatz.com/henrys-bench/arduino-voltage-measuremen ...
[CSS3] Use media query to split css files and Dark mode (prefers-color-scheme: dark)
Dark Mode: :root { --text-color: #000; --background-color: #fff; } body { color: var(--text-color); ...
H5页面中判断是安卓手机还是ios手机的方法；APP页面中嵌套的H5跳转到APP其他页面的方法。
(一).在H5页面中,可以直接利用如下的方法来进行判断是安卓还是ios. var isAndroid = u.indexOf('Android') > -1 || u.indexOf('Linu ...
Minidumps 和 modules匹配
简介调试应用程序时,调试器必须加载可执行模块的符号,以便能够显示有意义的调用堆栈.当前源代码行.变量值等.如果您曾经调试过在另一个系统上创建的小型转储,那么您已经知道除了符号之外,调试器还需要访问创 ...
CLR如何将SEH异常映射到托管异常类型
托管异常处理构建在Windows操作系统的结构化异常处理之上,通常称为SEH.这意味着CLR了解如何在SEH和托管异常系统之间进行互操作,这是一个非常关键的点,因为SEH基于异常代码的概念,而托管异常 ...
zeebe 0.20.0 集群部署试用
zeebe 0.20.0 是生产可用的第一个版本,同时也有好多变动,以下是一个简单集群的运行以及一个简单的运行说明环境准备 docker-compose 文件 version: "3 ...
codevs 2780 ZZWYYQWZHZ
2780 ZZWYYQWZHZ 时间限制: 1 s 空间限制: 32000 KB 题目等级: 青铜 Bronze 题目描述 Description 可爱的小管在玩吹泡泡.忽然,他想到 ...
[HAOI2015]树上染色树状背包 dp
#4033. [HAOI2015]树上染色 Description 有一棵点数为N的树,树边有边权.给你一个在0~N之内的正整数K,你要在这棵树中选择K个点,将其染成黑色,并将其他的N-K个点染成白 ...

python爬虫3之去哪儿网

python爬虫3之去哪儿网的更多相关文章

随机推荐

热门专题