twitter api的使用获取关注者的时间线

# -*- coding: utf-8 -*-

from tweepy import OAuthHandler

import datetime

import pandas as pd

import tweepy

import time

import random

import traceback

from dbs.db import *

class Twitter_Spider():

    def __init__(self):

        self.main_tw_url="https://twitter.com/{}/status/{}"

        self.china_time_list = []

        self.twitter_id_list = []

        self.twitter_url_list = []

        self.twitter_text_list = []

        self.twitter_url_list = []

        self.update_time_list = []

        self.twitter_dicts = {}

        self.user_id_list = []

        self.user_name_list = []

        self.crate_time_list=[]

        self.userdicts={}

        self.stopflag=False

    def getapi(self):

        consumer_key = 'IAaj345Xf673kzT2'

        consumer_secret = 'ee9WEQ235555We0gP4peRbOPeeHGX1'

        access_token = '9767625356VEnq7s9ZXOHEI'

        access_secret = 'lyqj2122333o9G4fHta'

        auth = OAuthHandler(consumer_key, consumer_secret)

        auth.set_access_token(access_token, access_secret)

        api = tweepy.API(auth)

        return api

    def start(self):

        api =None

        try:

            api = self.getapi()

        except tweepy.TweepError:

            print('Error! Failed to get access token.')

        nowdate = datetime.datetime.now()

        beforeweek=nowdate-datetime.timedelta(days=7) #一周前

        #只获取关注者id

        # ids = []

        # for page in tweepy.Cursor(api.friends_ids).pages():

        #     ids.extend(page)

        # 获取关注者id和screen_name

        for pages in tweepy.Cursor(api.friends).pages():

            for page in pages:

                userstr = page._json

                self.userdicts.setdefault(userstr.get("id"),userstr.get("screen_name"))

        for  user_id in self.userdicts.keys():

            self.stopflag=False

            self.twitter_dicts.clear()

            for i,statuslist in enumerate(tweepy.Cursor(api.user_timeline, id=user_id).pages()): #获取第一页,一页20个

                if not self.stopflag:

                    print("start page:{}".format(i))

                    for status in statuslist:

                        jsonstr = status._json

                        if  self.getItem(jsonstr,beforeweek,user_id):

                            break

                else:

                     break

                time.sleep(random.randint(2, 6))

            self.twitter_dicts.setdefault("user_id", self.user_id_list)

            self.twitter_dicts.setdefault("user_name", self.user_name_list)

            self.twitter_dicts.setdefault("china_time",self.china_time_list)

            self.twitter_dicts.setdefault("tw_time", self.crate_time_list)

            self.twitter_dicts.setdefault("tw_id", self.twitter_id_list)

            self.twitter_dicts.setdefault("tw_text", self.twitter_text_list)

            self.twitter_dicts.setdefault("tw_url", self.twitter_url_list)

            self.twitter_dicts.setdefault("updatetime", self.update_time_list)

            try:

               SaveData().save_object_data(self.twitter_dicts)

            except:

                print(traceback.format_exc("insert db error"))

    def getItem(self, jsonstr,beforeweek,user_id):

        create_time = jsonstr.get("created_at")

        china_time=""

        try:

           china_time=datetime.datetime.strptime(create_time,"%a %b %d %H:%M:%S +0000 %Y")

           if beforeweek>china_time:

               self.stopflag=True

               return self.stopflag

        except:

            print(traceback.format_exc())

        screen_name=self.userdicts.get(user_id)

        self.china_time_list.append(china_time)

        self.crate_time_list.append(create_time)

        self.user_id_list.append(user_id)

        self.user_name_list.append(screen_name)

        twitter_id = jsonstr.get("id")

        self.twitter_id_list.append(twitter_id)

        self.twitter_url_list.append(self.main_tw_url.format(screen_name,twitter_id))

        twitter_text = jsonstr.get("text")

        print(twitter_text)

        self.twitter_text_list.append(twitter_text)

        self.update_time_list.append(datetime.datetime.now())

        return self.stopflag

if __name__ == "__main__":

    Twitter_Spider().start()

twitter api的使用获取关注者的时间线的更多相关文章

twitter api
1,twurl安装 1.1,安装软件管理包工具,在管理员身份打开的cmd中执行: @"%SystemRoot%\System32\WindowsPowerShell\v1.0\powersh ...
Twitter API 申请key
最近听了一下coursera的python课(https://www.coursera.org/learn/python-network-data/home/welcome),讲的挺简单也挺有意思.其 ...
Twitter API升级至1.1
Twitter API 1.1是至今最大的一次升级,从3月份提出,到6月11日1.0版本已经全面停止调用.关于1.1版本升级特性可访问: https://dev.twitter.com/docs/ap ...
【百度地图API】如何获取行政区域的边界？
原文:[百度地图API]如何获取行政区域的边界? 摘要:以前教过大家如何自行获取行政区域,或者自定义获取一个区域的边界值.今天来教大家直接调用百度地图API1.3(目前最新版本)来获取行政区域的边界值 ...
【百度地图API】自行获取区域经纬度的工具
原文:[百度地图API]自行获取区域经纬度的工具摘要:上一章教大家如何建立自己的行政区域地图.这次为大家提供一个,可视化选择区域,并且能自动生成经纬度代码的工具.工具的源代码完全公开,并且做了详尽的 ...
百度地图API地点搜索-获取经纬度
分享一下地图上的地点搜索和鼠标点击获取地点经纬度,这些都是地图比较基本和实用的代码,其中还包括了根据用户IP进行地图的显示.改变地图上的鼠标样式.启用滚轮缩放等,算是半入门吧,其他的一些可以自己参考百 ...
简单几行代码使用百度地图API接口分页获取信息
首发于: 万能助手扩展开发:使用百度地图API接口分页获取信息_电脑计算机编程入门教程自学 http://jianma123.com/viewthread.aardio?threadid=426 使用 ...
【Azure Developer】Python 获取Micrisoft Graph API资源的Access Token，并调用Microsoft Graph API servicePrincipals接口获取应用ID
问题描述在Azure开发中,我们时常面临获取Authorization问题,需要使用代码获取到Access Token后,在调用对应的API,如servicePrincipals接口. 如果是直接调 ...
设计Twitter 时间线
「design Twitter」是 LeetCode 上第 335 道题目,不仅题目本身很有意思,而且把合并多个有序链表的算法和面向对象设计(OO design)结合起来了,很有实际意义,本文就带大家 ...

随机推荐

OpenPAI：大规模人工智能集群管理平台介绍及任务提交指南
产品渊源: 随着人工智能技术的快速发展,各种深度学习框架层出不穷,为了提高效率,更好地让人工智能快速落地,很多企业都很关注深度学习训练的平台化问题.例如,如何提升GPU等硬件资源的利用率?如何节省硬件 ...
Spark实战练习02--处理分隔符
一.场景 devicestatus.txt 文件包含了来自于不同运营商的移动设备的数据,不同的数据格式,包括设备ID.当前状态.位置等等.注意,该文件中的记录具有不同的字段分隔符:一些使用逗号,一些使 ...
struts2中的action为什么要继承ActionSupport类，不继承也可以，有什么好处？
简单来说,有很多相关的方法都加载进来,你直接调用就行了,而且在安全上和稳定性上做了很好的处理实际上继承ActionSupport之后就等同于实现了很多接口 Action,Validateable, ...
ubutu下source命令问题（复制）
最近一段时间在使用Bash on Ubuntu on Windows做shell脚本调试时发现在脚本中使用source时会报错,上网查了下才了解到原来是在Ubuntu中使用的并不是bash,而是使用 ...
java对数组的操作
1 拷贝数组数组全拷贝数组定位拷贝 2 判断数组是否相等(每个元素都对应相等) 3 数组和集合的相互转化 import java.util.Arrays; import java.util.Lis ...
linux基本操作2
将当前用户目录下的文件清单输出到文件list1.txt(当前用户目录下)中ls -l > list1.txt 利用管道命令将根(/)下所有修改日期在4月16日的文件清单输出到list2.txt( ...
关于配置tomcat多版本同eclipse的配置问题
最近很多同学都在反应tomcat和eclipse关联的问题,其他问题网上搜索下大多都有结果,有比较疑难杂症的,下面贴出: 有的同学之前配置过tomcat6的版本或者在此之前做过配置,现在配置tomca ...
linux tcpdump抓包，wireshark实时解析
转自: http://www.freebuf.com/articles/wireless/6517.html 由于CentOS7上yum安装的wireshark对CoAP的解析支持不太完善,而我w ...
hdu 3648 Median Filter (树状数组)
Median Filter Time Limit: 4000/2000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Tot ...
WIN8 打开图片内置管理员无法激活此应用
1.运行 gpedit.msc 2.计算机配置.windows设置.安全设置.本地策略.安全选项.“用户账户控制用于内置管理员账户的管理员批准模式” 改为已启用 3.重启电脑

twitter api的使用获取关注者的时间线

twitter api的使用获取关注者的时间线的更多相关文章

随机推荐

热门专题