本篇将从实际例子出发,展示如何使用api爬取twitter的数据。


1. 创建APP

进入https://apps.twitter.com/,创建自己的app。只有有了app才可以访问twitter的api并抓取数据。只需创建最简单的app即可,各种信息随意填写,并不需要进一步的认证,我们要的只是app的Consumer Key (API Key), Consumer Secret (API Secret), Access Token 和 Access Token Secret。鉴于单app的爬取次数限制,可以申请很多app来提高总次数。


2. 确定要使用的API

twitter提供多种类型的api,其中常用的有REST APIStreaming API。前者是常见的api类型,后者则可以跟踪监视一个用户或者一个话题。

REST API下面有很多的api,有价值爬取的有以下几个:

  • GET statuses/user_timeline:返回一个用户发的推文。注意twitter里回复也相当于发推文。
  • GET friends/ids:返回一个用户的followees。
  • GET followers/ids:返回一个用户的followers。
  • GET users/show:返回一个用户的信息。

3. 官方类库

下载twitter的类库。说实话,api爬虫好不好写,全看类库提供的功能强不强。twitter提供了多种语言的类库,本文选择java类库。


4. 验证授权

凡是访问api,都需要验证授权,也即:OAuth。一般流程为:以app的id和key,用户的用户名和密码为参数访问授权api,返回一个token(一个字符串),即算是授权完成,之后只需访问其他api时带上这个参数就行了。

当然,不同的网站授权过程各有不同。较为繁琐的比如人人网需要先跳转至回调网页,用户登陆后再返回token。twitter的授权过程也不简单(需要多次http请求),但是幸运的是类库中已经帮我们实现了此过程。

例,twitter的Auth1.1授权,其中需要设置的四个参数在app管理界面就能看到:

  1. ConfigurationBuilder cb = new ConfigurationBuilder();
  2. cb.setOAuthAccessToken(accessToken);
  3. cb.setOAuthAccessTokenSecret(accessTokenSecret);
  4. cb.setOAuthConsumerKey(consumerKey);
  5. cb.setOAuthConsumerSecret(consumerSecret);
  6. OAuthAuthorization auth = new OAuthAuthorization(cb.build());
  7. Twitter twitter = new TwitterFactory().getInstance(auth);

twitter还提供一种无需用户授权(需app授权)的选择,访问某些api时可用次数比Auth1.1授权的要多:

  1. ConfigurationBuilder cb = new ConfigurationBuilder();
  2. cb.setApplicationOnlyAuthEnabled(true);
  3. Twitter twitter = new TwitterFactory(cb.build()).getInstance();
  4. twitter.setOAuthConsumer(consumerKey, consumerSecret);
  5. try {
  6. twitter.getOAuth2Token();
  7. } catch (TwitterException e) {
  8. e.printStackTrace();
  9. }

5. 调用API

授权之后,我们就可以真正地开始爬数据了。

  1. REST API

爬取用户follower,getFollowersIDs方法每次返回最多5000个follower,cursor用户标记从哪开始:

  1. IDs iDs = twitter.getFollowersIDs(uid, cursor);

爬取用户推文:

  1. ResponseList<Status> status = twitter.getUserTimeline(uid, page);
  1. Streaming API

监视一个用户的所有行为,其中UserStreamListener太长了只截取了一部分:

  1. TwitterStream twitterStream;
  2. twitterStream = new TwitterStreamFactory(cb.build()).getInstance();
  3. twitterStream.addListener(listener);
  4. twitterStream.user();
  5. private static final UserStreamListener listener = new UserStreamListener() {
  6. @Override
  7. public void onStatus(Status status) {
  8. System.out.println("onStatus @" + status.getUser().getScreenName() + " - " + status.getText() + status.getCreatedAt());
  9. }
  10. @Override
  11. public void onDeletionNotice(StatusDeletionNotice statusDeletionNotice) {
  12. System.out.println("Got a status deletion notice id:" + statusDeletionNotice.getStatusId());
  13. }
  14. @Override
  15. public void onDeletionNotice(long directMessageId, long userId) {
  16. System.out.println("Got a direct message deletion notice id:" + directMessageId);
  17. }
  18. @Override
  19. public void onTrackLimitationNotice(int numberOfLimitedStatuses) {
  20. System.out.println("Got a track limitation notice:" + numberOfLimitedStatuses);
  21. }
  22. @Override
  23. public void onScrubGeo(long userId, long upToStatusId) {
  24. System.out.println("Got scrub_geo event userId:" + userId + " upToStatusId:" + upToStatusId);
  25. }
  26. ...

6. 如何提速

api都是有访问次数限制的,twitter中不少都是以15分钟为单位的。为了爬取能达到一定的速度,我申请了50个app,只要pc给力,那么我就有50倍于单app的速度了。

那么我是单线程轮流用50个app还是50个线程一起呢?显然50个线程不可行,通常20个线程以上的时候花费在线程同步上的时间就很可观了,并且我们写的是爬虫,50个线程同时写数据库会严重拖慢速度。那么单线程呢?考虑到每个app用完其访问次数是需要一定时间的,特别要是网络状况不好的话次数用完可能会花费数分钟,那么15分钟显然无法让每个app都能访问api,造成了浪费。

所以我选择了线程池。IO密集型任务,一般将线程数设置为cpu的核数的两倍。同时设置两个队列,分别供各个线程读取数据和写数据。n个线程同时跑爬虫,再分一个线程出来维护那两个队列。框架如下:

好了,到这里应该能写twitter的api爬虫了。剩下的就是阅读各个api繁琐的文档,以及和各种bug搏斗的时间了╥﹏╥

API爬虫--Twitter实战的更多相关文章

  1. Python3网络爬虫开发实战PDF高清完整版免费下载|百度云盘

    百度云盘:Python3网络爬虫开发实战高清完整版免费下载 提取码:d03u 内容简介 本书介绍了如何利用Python 3开发网络爬虫,书中首先介绍了环境配置和基础知识,然后讨论了urllib.req ...

  2. 爬虫技术实战 | WooYun知识库

    爬虫技术实战 | WooYun知识库 爬虫技术实战 大数据分析与机器学习领域Python兵器谱-大数据邦-微头条(wtoutiao.com) 大数据分析与机器学习领域Python兵器谱

  3. 崔庆才Python3网络爬虫开发实战电子版书籍分享

    资料下载地址: 链接:https://pan.baidu.com/s/1WV-_XHZvYIedsC1GJ1hOtw 提取码:4o94 <崔庆才Python3网络爬虫开发实战>高清中文版P ...

  4. Restful API设计规范及实战【说的比较清楚了】

    Restful API设计规范及实战   Restful API的概念在此就不费口舌了,博友们网上查哈定义文章很多,直入正题吧: 首先抛出一个问题:判断id为 用户下,名称为 使命召唤14(COD14 ...

  5. 《Python3网络爬虫开发实战》PDF+源代码+《精通Python爬虫框架Scrapy》中英文PDF源代码

    下载:https://pan.baidu.com/s/1oejHek3Vmu0ZYvp4w9ZLsw <Python 3网络爬虫开发实战>中文PDF+源代码 下载:https://pan. ...

  6. Python 3网络爬虫开发实战》中文PDF+源代码+书籍软件包

    Python 3网络爬虫开发实战>中文PDF+源代码+书籍软件包 下载:正在上传请稍后... 本书书籍软件包为本人原创,在这个时间就是金钱的时代,有些软件下起来是很麻烦的,真的可以为你们节省很多 ...

  7. Python 3网络爬虫开发实战中文 书籍软件包(原创)

    Python 3网络爬虫开发实战中文 书籍软件包(原创) 本书书籍软件包为本人原创,想学爬虫的朋友你们的福利来了.软件包包含了该书籍所需的所有软件. 因为软件导致这个文件比较大,所以百度网盘没有加速的 ...

  8. Python 3网络爬虫开发实战中文PDF+源代码+书籍软件包(免费赠送)+崔庆才

    Python 3网络爬虫开发实战中文PDF+源代码+书籍软件包+崔庆才 下载: 链接:https://pan.baidu.com/s/1H-VrvrT7wE9-CW2Dy2p0qA 提取码:35go ...

  9. 《Python 3网络爬虫开发实战中文》超清PDF+源代码+书籍软件包

    <Python 3网络爬虫开发实战中文>PDF+源代码+书籍软件包 下载: 链接:https://pan.baidu.com/s/18yqCr7i9x_vTazuMPzL23Q 提取码:i ...

随机推荐

  1. 第一篇TC界面设计

    TC界面设计方法 第一:确定自己最终界面的大小. 第二:根据功能需要,选择相应的控价. 第三:美化界面,对界面的控件调整布局位置,设置字体颜色设置背景图片等等 脚本代码: function 按钮1_点 ...

  2. android中常见对话框之一AlertDialog

    在Android应用中,有多种对话框:Dialog.AlertDialog.ProgressDialog.时间.日期等对话框. (1)Dialog类,是一切对话框的基类,需要注意的是,Dialog类虽 ...

  3. JS 的线程、事件循环、任务队列简介

    JS 是单线程的,但是却能执行异步任务,这主要是因为 JS 中存在事件循环(Event Loop)和任务队列(Task Queue). 事件循环:JS 会创建一个类似于 while (true) 的循 ...

  4. Compiler ,Interpreter, Linker

    https://en.wikipedia.org/wiki/Interpreter_(computing) https://en.wikipedia.org/wiki/Compiler https:/ ...

  5. Docker基础技术

    http://coolshell.cn/articles/17200.html http://coolshell.cn/articles/17061.html http://coolshell.cn/ ...

  6. [unity3d程序] 颜色渐变效果

    研究了下,颜色变化时遵从RGB圆环(就是说颜色条对接一下成环)路径最小变化原则.举个例子,加入ABCDE四个颜色点,并且A和E在同一点(转了一圈)设定从A变化到C的话,有两种路径,一种ABC,还一种A ...

  7. JQuery高性能最佳实践

    [使用最佳选择器] 使用JQuery时,你可以使用多种选择器,选择同一个元素,各种方法之间的性能是不一样的,有时候差异会特别大. 通常比较常用的选择器有以下几个: ID选择器 $("#id& ...

  8. linux包之diff

    [root@84-monitor ~]# rpm -qf /usr/bin/diffdiffutils-2.8.1-28.el6.x86_64[root@84-monitor ~]# rpm -ql ...

  9. linux概念之进程分析

    http://blog.csdn.net/kevinx_xu/article/details/8178746 /proc 详解 内核线程分析报告 进程层次 [root@109-com1 scripts ...

  10. wikioi 1205 单词倒排

    /*====================================================================== 1205 单词翻转 题目描述 Description ...