大家好啊,话说好久没有出来活动了,组织上安排写代码写了很久,终于又被放出来写教程了,感谢大家一直的支持和厚爱,我会一如既往的帮助大家完成爬虫工程师从入门到放弃的升华。

好,Previous on  系列教程:

互联网金融爬虫怎么写-第一课 p2p网贷爬虫(XPath入门)

互联网金融爬虫怎么写-第二课 雪球网股票爬虫(正则表达式入门)

工具要求与基础知识:

工具要求:

1).神箭手云爬虫框架--这个是爬虫的基础;

2).Chrome浏览器和Chrome的插件XpathHelper--这个用来测试Xpath写的是否正确;

3).Advanced REST Client--用来模拟提交请求。

基础知识:

本教程中设计到web的一些基础原理,如果不了解的,最好提前做一些功课。

开始ajax分析

咱们废话不多说,接着上一课继续研究雪球网,雪球网通过狂拽的js请求,直接把我们打回原形,辛辛苦苦分析半天的页面前功尽弃,不过不要紧,咱们想爬别人数据,就不能害怕js渲染,前面的课程大多都通过种种方式绕过了js请求的方式来完成爬虫,那么这节课,就通过雪球网,来实实在在的面对一下我们的这个无法回避的敌人--ajax。

首先依然打开chrome的开发者工具,点击network的标签。

注意事项:

1).当你打开一个页面,再点开network标签时是不会有信息的,我们需要在打开的情况下,刷新一下页面;

2).为了防止页面突然的跳转而丢失信息,一定要勾上preserved单选框。

具体设置如下图:

刷新页面之后,选中xhr小标签之后,可以清晰的看到一个ajax请求,我们点开预览看下:

看到这个画面,是不是觉得祖国的天空又蓝了一点?

首先,我们先确保我们可以通过直接访问拿到这个ajax请求,我们先把这个请求的地址复制出来:

http://xueqiu.com/stock/cata/stocklist.json?page=1&size=30&order=desc&orderby=percent&type=11%2C12&_=1469588824728

然后,单独粘贴到浏览器的地址栏中,访问看看效果,为了保证实验的独立性,建议大家打开一个chrome的隐身窗口,这样可以防止之前的cookie的污染。

Oh no~  雪球的码农,我们出来聊一下,我保证不打死你们~

这个时候,很多初学者甚至有一定经验的工程师都方了。不要紧,其实只要不需要登录,我们都还是来得及下班的。

一般来说,限制来自于常见的三个情况:

1).cookie ; 2).referer ; 3).url中的参数

由于2)和3)容易测试,我们一般先测试2)和3),测试方法就是参照我们在浏览器中能正常访问到时的请求,删掉我们可能觉得不重要的参数,逐步测试。这里非常强调的是,我们必须使用控制变量法,首先我们需要重现能够成功获取数据的情况,然后在一个一个变量进行调整,最终将无关的参数全部去除,并找到最核心的参数,这里我们还需要使用一个模拟提交请求的工具。我们这里使用的是chrome的插件Advanced REST Client。同类型的工具很多,大家也可以根据自己的习惯挑选。

我们先将cookie,referer和url完整的复制到请求中去,点击访问看看能不能拿到数据:

下面结果部分被截断了,结果返回的是正常的数据。

那么我们先来确定下2)和3)是否影响,通过删除referer以及url中不相关的参数,重新点击访问我们可以知道,这些参数并不影响返回结果,那这个时候,就只剩下一个可能,就是cookie,当然这个可能是我们最不希望看到了,当然cookie的问题依然分为两种情况:

1).http response返回的cookie设置;2).js对cookie的设置。

如果是1),那还没什么大不了的;如果是2)的话,那估计整个人都要不开心了。

第一件事,我们依然要把cookie中不相关的参数,特别是一些统计代码的cookie删除掉,他们通常很长,很干扰,但是毫无作用。常见的百度统计有这样一些cookie: Hm_Lpvt开头和Hm_lvt开头的,当然一般Hm_开头的大概率百度统计的,其他的大家自己在做的过程中去做总结,这里就不一一解释了。

删除之后发现,只要有xq_a_token这个cookie就可以返回正常的数据,那么我们现在就找找这个cookie是在哪里设置的。

最简单的,先访问一下首页,看看response:

哈哈,可以看到reponse里面的set-cookie中已经有了xq_a_token这个参数,so easy!我们把这个cookie加入到请求中去,顺利的请求到了数据,可见,在爬取这个ajax之前,只需要先访问一下首页就可以获取我们需要的cookie值了。

最后我们再回头看一下ajax的url,经过筛选剩余的url如下:

http://xueqiu.com/stock/cata/stocklist.json?page=1&size=30&order=desc&orderby=percent&type=11%2C12

很高兴的看到了page和size,另外还居然有order和orderby,只能说雪球实在是太贴心,当然最后还有一个type,这个我们多点几个分类就可以看出,这个是沪深一览的分类,相对应的还有美股一览和港股一览。这里我们就不做详细介绍了。

分析就到这里,下一课,我们会开始根据这一课的分析,完成整个代码的编写。

另外对爬虫感兴趣的童鞋可以加qq群讨论:566855261。

互联网金融爬虫怎么写-第三课 雪球网股票爬虫(ajax分析)的更多相关文章

  1. 互联网金融爬虫怎么写-第一课 p2p网贷爬虫(XPath入门)

    版权声明:本文为博主原创文章,未经博主允许不得转载. 相关教程: 手把手教你写电商爬虫-第一课 找个软柿子捏捏 手把手教你写电商爬虫-第二课 实战尚妆网分页商品采集爬虫 手把手教你写电商爬虫-第三课 ...

  2. 手把手教你写电商爬虫-第三课 实战尚妆网AJAX请求处理和内容提取

    版权声明:本文为博主原创文章,未经博主允许不得转载. 系列教程: 手把手教你写电商爬虫-第一课 找个软柿子捏捏 手把手教你写电商爬虫-第二课 实战尚妆网分页商品采集爬虫 看完两篇,相信大家已经从开始的 ...

  3. python爬虫项目-爬取雪球网金融数据(关注、持续更新)

    (一)python金融数据爬虫项目 爬取目标:雪球网(起始url:https://xueqiu.com/hq#exchange=CN&firstName=1&secondName=1_ ...

  4. 5个python爬虫教材,让小白也有爬虫可写,含视频教程!

    认识爬虫   网络爬虫,如果互联网是一张蜘蛛网,网络爬虫既是一个在此网上爬行的蜘蛛,爬了多少路程即获取到多少数据. python写爬虫的优势   其实以上功能很多语言和工具都能做,但是用python爬 ...

  5. CodeIgniter框架入门教程——第三课 URL及ajax

    本文转载自:http://www.softeng.cn/?p=74 这节课讲一下CI框架的路由规则,以及如何在CI框架下实现ajax功能. 首先,先介绍CI框架的路由规则,因为CI框架是在PHP的基础 ...

  6. SQL初级第三课(下)

    我们续用第三课(上)的表 辅助表 Student                   Course               Score                    Teacher Sno ...

  7. 【第三课】ANR和OOM——贪快和贪多的后果(下)

    Out of Mana,法力耗尽. 内存就像法力,耗尽了就什么都不能做了.有时候一个应用程序占用了太大的内存,超过了Android系统为你规定的限制,那么系统就会干掉你,以保证其他app有足够的内存. ...

  8. 【第三课】ANR和OOM——贪快和贪多的后果(上)

    恼人的ANR 早先年用Android的时候,就连很多知名的app也总是莫名其妙崩溃,好像手机快的时候会崩溃,手机卡的时候app会卡死.卡死的时候会弹出来一个框,询问是要结束app还是继续等待.这就是A ...

  9. QCon 2013 上海 -- 互联网金融

    互联网金融应该是最近很火爆的一个领域.由于阿里小贷和余额宝的初步成功,这一块都被视为破除传统金融领域垄断的法宝.大家可能都知道,电商平台.金融和大数据是阿里集团未来的三个重要方面.而关于金融,马云最经 ...

随机推荐

  1. vijosP1115 火星人

    vijosP1115 火星人 链接:https://vijos.org/p/1115 [思路] 排列组合. 题目要求为求第下m个排列. 这里有两种方法,首选的是调用algorithm中的next_pe ...

  2. 使用 Windows PowerShell 管理Windows Azure映像

    你可以使用 Azure PowerShell 模块中的 cmdlet 管理可供你的 Azure 订阅使用的映像.这包括 Azure 提供的映像以及你上载的映像.对于某些映像任务,你还可以使用 Azur ...

  3. 【解决】Django下使用sqlite3的相关问题

    最近在玩Django,想用它写一个很小很小的项目,Django自带数据库sqlite3,本来项目也小,我就用它了. 玩意虽小,东西却不是那么好用的. 首先,在项目中建立模型,一个例子是这样的: cla ...

  4. 【Java基础】Java内部类

    什么是内部类 把类定义在其他类的内部,这个类就被称为内部类. 内部类的分类 内部类分为两种,分别为成员内部类和局部内部类: 成员内部类:和成员变量和成员方法定义在同级 局部内部类:和局部变量定义在同级 ...

  5. 每个android项目都应该使用的android 库

    http://blog.teamtreehouse.com/android-libraries-use-every-project A good developer knows to never re ...

  6. hadoop-2.6.0.tar.gz + spark-1.5.2-bin-hadoop2.6.tgz 的集群搭建(3节点和5节点皆适用)

    本人呕心沥血所写,经过好一段时间反复锤炼和整理修改.感谢所参考的博友们!同时,欢迎前来查阅赏脸的博友们收藏和转载,附上本人的链接.http://www.cnblogs.com/zlslch/p/584 ...

  7. 读FCL源码系列之List<T>---让你知其所以然---内含疑问求大神指点

    序言 在.NET开发中,List<T>是我们经常用到的类型.前段时间看到其他部门小伙伴讨论“两个List(10W个元素)集合求并集,list1.Where(p=>list2.Cont ...

  8. 2014上海全国邀请赛题解 HDOJ 5090-5099

    HDOJ 5090 水题.从小到大排序,能够填充达到符合条件的.先填充好.填充之后进行调整. 传送门:pid=5090">点击打开链接 #include <cstdio> ...

  9. C#获取内存图像数据流的方法

    背景:有的时候我们已经得到一个图像的内存对象,如Bitmap对象,我们想要获取到这个对象的数据流,可以将其序列化到磁盘上,并且也可以反序列化为内存对象,这个时候就有了如题的问题出现,我搜遍全网就是没有 ...

  10. hibernate笔记加强版

    hibernate 一. hibernate介绍 hibernate事实上就是ormapping框架,此框架的作用就是简单话数据库的操作. hibernate就是将用户提交的代码.參照持久化类配置文件 ...