Python 对新浪微博的博文元素 (Word, Screen Name)的频率分析
CODE:
- #!/usr/bin/python
- # -*- coding: utf-8 -*-
- '''
- Created on 2014-7-9
- @author: guaguastd
- @name: weiboFrequencyAnalysis.py
- '''
- if __name__ == '__main__':
- # get weibo_api to access sina api
- from sinaWeiboLogin import sinaWeiboLogin
- sinaWeiboApi = sinaWeiboLogin()
- # import sinaWeibo
- from sinaWeibo import extractWeiboEntities
- # import sinaWeoboStatuses
- from sinaWeiboStatuses import publicTimeline
- # import sinaWeiboFrequency
- from sinaWeiboFrequency import weiboFrequencyAnalysis
- # get the new 5 weibo
- weiboNum = 5
- statuses = publicTimeline(sinaWeiboApi, weiboNum)
- status_texts,screen_names,words = extractWeiboEntities(statuses)
- for label, data in (('Word', words),
- ('Screen Name', screen_names)):
- weiboFrequencyAnalysis(label, data, weiboNum)
RESULT:
- +------------------------------------------+-------+
- | Word | Count |
- +------------------------------------------+-------+
- | http://t.cn/8snKY0S | 1 |
- | [围观]CANNCI千姿百袋2014新款牛皮菱格女包 | 1 |
- | 时尚潮流单肩包 | 1 |
- | 浪漫RI系「喜欢请赞 | 1 |
- | ✲✲✲✲✲✲ | 1 |
- +------------------------------------------+-------+
- +--------------------+-------+
- | Screen Name | Count |
- +--------------------+-------+
- | 马傻强 | 1 |
- | 手机用户2360148561 | 1 |
- | 潮流爆款搭V | 1 |
- | star爱上泡面猫 | 1 |
- | 美容潮搭健康 | 1 |
- +--------------------+-------+
Python 对新浪微博的博文元素 (Word, Screen Name)的频率分析的更多相关文章
- Python 对Twitter tweet的元素 (Word, Screen Name, Hash Tag)的频率分析
CODE: #!/usr/bin/python # -*- coding: utf-8 -*- ''' Created on 2014-7-2 @author: guaguastd @name: tw ...
- Python 对Twitter tweet的元素 (Word, Screen Name, Hash Tag)的词汇多样性分析
CODE: #!/usr/bin/python # -*- coding: utf-8 -*- ''' Created on 2014-7-3 @author: guaguastd @name: tw ...
- Python 新浪微博元素 (Word, Screen Name)词汇多样性
CODE: #!/usr/bin/python # -*- coding: utf-8 -*- ''' Created on 2014-7-10 @author: guaguastd @name: w ...
- 非常全的一份Python爬虫的Xpath博文
非常全的一份Python爬虫的Xpath博文 Xpath 是 python 爬虫过程中非常重要的一个用来定位的一种语法. 一.开始使用 首先我们需要得到一个 HTML 源代码,用来模拟爬取网页中的源代 ...
- python刷取CSDN博文访问量之四
python刷取CSDN博文访问量之四 作者:vpoet #coding:utf-8 import requests import urllib2 import re import time def ...
- python刷取CSDN博文访问量之三
python刷取CSDN博文访问量之三 作者:vpoet 注:这个系列我只贴代码,代码不注释.有兴趣的自己读读就懂了,纯属娱乐,望管理员抬手若有转载一定不要注明来源 #coding=utf-8 i ...
- python刷取CSDN博文访问量之二
python刷取CSDN博文访问量之二 作者:vpoet 注:这个系列我只贴代码,代码不注释.有兴趣的自己读读就懂了,纯属娱乐,望管理员抬手 若有转载一定不要注明来源 #coding=utf ...
- python刷取CSDN博文访问量之一
python刷取CSDN博文访问量之一 作者:vpoet 注:这个系列我只贴代码,代码不注释.有兴趣的自己读读就懂了,纯属娱乐,望管理员抬手 若有转载一定不要注明来源 #coding=utf-8 ...
- 一篇关于Python装饰器的博文
这是一篇关于python装饰器的博文 在学习python的过程中处处受阻,之前的学习中Python的装饰器学习了好几遍也没能真正的弄懂.这一次抓住视频猛啃了一波,就连python大佬讲解装饰器起来也需 ...
随机推荐
- poj 3007 Organize Your Train part II(二叉排序树)
题目:http://poj.org/problem?id=3007 题意:按照图示的改变字符串,问有多少种..字符串.. 思路:分几种排序的方法,,刚开始用map 超时(map效率不高啊..),后来搜 ...
- SCADA软件整体架构
SCADA软件整体框架如下所示: 1.免费版本可以支持的IO容量为2048点,无运行时间限制. 2.免费版本仅支持本地Runtime运行,CLServer服务器只能运行24小时. 3.免费版本支持的驱 ...
- (转载)Let's Play Games!
第1题 Alice和她的同学Bob通过网上聊天商量明天早晨谁去教室打扫卫生的事,Bob说:“我在桌上放了一枚硬币,你猜一下,是正面朝上还是反面朝上?如果猜对了,我去扫地.如果猜错了,嘿嘿….” Al ...
- java中线程队列BlockingQueue的用法
在新增的Concurrent包中,BlockingQueue很好的解决了多线程中,如何高效安全“传输”数据的问题.通过这些高效并且线程安全的队列类,为我们快速搭建高质量的多线程程序带来极大的便利.本文 ...
- Bootstrap 源码解析(转)
1.Bootstrap的作用域 2.Bootstrap的类定义 3.Bootstrap的插件定义 4.Bootstrap的事件代理 5.Bootstrap的对象数据缓存 6.Bootstrap的防冲突 ...
- apache开源项目-- OODT
Apache OODT (Object Oriented Data Technology) OODT 面向对象的数据技术,开发和促进科学数据管理和归档制度,使跨学科和天体物理学之间的互操作性,行星和空 ...
- css的框架——common.css
@charset "utf-8"; /* 字体 */ .n{ font-weight:normal; font-style:normal; } .b{font-weight:bol ...
- 内存映射 madvise mmap
http://linux.die.net/man/2/madvise mmap && madvise的配合使用 mmap和madvise一起使用例子 mmap的作用是将硬盘文件的内容映 ...
- Timus 1746 Hyperrook
题意:在一个n维坐标系中,坐标的范围是0到m - 1,如果两个点坐标只有一个维度的坐标不同则可以相互移动,给出p个点,问任意两个点之间路径为d的个数是多少,答案与p取模. 解法:只需要考虑两个点之间不 ...
- expunge
expunge 擦掉: 除去: 删去: 消除 1. The experience was something he had tried to expunge from his memory. 他曾努力 ...