【Python】统计个人新浪微博词频并给出相应的柱状图

Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门 https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6EmUbbW&id=564564604865 本文介绍如何进行个人新浪微博词频统计,并给出相应的柱状图分析,编程环境为Python 2.7.该文主要包括三个部分:新浪微博API的使用.文本过滤及分词和词频统计. 一.新浪微博API的使用首先在新浪微博开放平台http://open.w…

使用Python 统计nginx日志前十ip访问量并以柱状图显示

脚本内容: import matplotlib.pyplot as plt # nginx_file = '10.6.11.91_access.log-2018-12-27' ip = {} #筛选nginx日志文件中的IP with open(nginx_file) as f: for i in f.readlines(): s = i.strip().split()[0] lengh = len(ip.keys()) #统计每个IP的访问以字典存储 if s in ip.keys(): ip…

python统计文档中词频

python统计文档中词频的小程序 python版本2.7 效果如下: 程序如下,测试文件与完整程序在我的github中 #统计空格数与单词数本函数只返回了空格数需要的可以自己返回多个值 def count_space(path): number_counts = 0 space_counts = 0 number_list = [] with open(path, 'r') as f: for line in f: line = line.strip() space_split_list…

Python词云（词频统计，掩膜显示）

Python2.7 anaconda.安装Wordcloud,网上有许多下载路径,说一下掩模,就是在这个膜的区域才会有东西,当然这个与实际的掩模还有一定区别,这个词频显示是把所有统计的词,显示在这个掩模图片的非白色区域. (接下来就不用看着网上那些小软件很羡慕,其实代码就十行左右,你也可以) from os import path from scipy.misc import imread import matplotlib.pyplot as plt from wordcloud import…

如何用Python统计《论语》中每个字的出现次数？10行代码搞定--用计算机学国学

编者按: 上学时听过山师王志民先生一场讲座,说每个人不论干什么,都应该学习国学(原谅我学了计算机专业)!王先生讲得很是吸引我这个工科男,可能比我的后来的那些同学听课还要认真些,当然一方面是兴趣.一方面是跨了学科听课,内容引人入胜,主要还是我懂得太少了,哈!我记得当时讲座的主题是有关孔子与齐鲁大地的关系,也正是那场讲座让我下决心跨学院选修了<中国古代思想文化史研究>,才让我对于诸子百家思想有了更深的认识,教授们轮番上阵,让我们学习到我们中华民族先贤智慧.也认识了历史学和中国哲学专业的同学,其中还…

Hadoop的改进实验（中文分词词频统计及英文词频统计）（4/4）

声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好).如不清楚配置可看<Hadoop之词频统计小实验初步配置> 3)本文由于过长,无法一次性上传.其相邻相关的博文,可参见<Hadoop的改进实验(中文分词词频统计及英文词频统计) 博文目录结构>,以阅览其余三篇剩余内容文档. (五)单机伪分布的英文词频统计Python&Streamin…

python统计字符串里每个字符的次数

方法一: 推导式 dd="ewq4aewtaSDDSFDTFDSWQrtewtyufashas" print {i:dd.count(i) for i in dd} 方法二: counter import collections dd="ewq4aewtaSDDSFDTFDSWQrtewtyufashas" obj = collections.Counter(dd) print obj 取值: for k,v in obj.items(): print (k,v)…

Python模拟登陆新浪微博

上篇介绍了新浪微博的登陆过程,这节使用Python编写一个模拟登陆的程序.讲解与程序如下: 1.主函数(WeiboMain.py): import urllib2 import cookielib import WeiboEncode import WeiboSearch if __name__ == '__main__': weiboLogin = WeiboLogin('×××@gmail.com', '××××')#邮箱(账号).密码 if weiboLogin.Login() == Tr…

python统计元素重复次数

python统计元素重复次数 # !/usr/bin/python3.4 # -*- coding: utf-8 -*- from collections import Counter arr = ['BAISC', 'Python', 'BASICA', 'GVBASIC', 'GWBASIC', 'Python', 'ETBASIC', 'QBASIC', 'Quick', 'Basic', 'Turbo', 'Basic'] counts = list(Counter(arr).items…

Pig + Ansj 统计中文文本词频

最近特别喜欢用Pig,拥有能满足大部分需求的内置函数(built-in functions),支持自定义函数(user defined functions, UDF),能load 纯文本.avro等格式数据:illustrate看pig执行步骤的结果,describe看alias的schema:以轻量级脚本形式跑MapReduce任务,各种爽爆. 1. Word Count 较于中文,英文比较工整,可以根据空格.标点符号进行分词. A = load '/user/.*/req-temp/text…

简易安装python统计包

PythonCharm简易安装python统计包及本文介绍使用pythonCharm IDE 来安装Python统计包或一些packages的简单过程,基本无任何技术难度,顺便提一提笔者在安装过程中遇到的两个小问题. ================================================================================================================== 1.pythonCharm介绍对于这款IDE的描…

python打印表格式数据，留出正确的空格和段落星号或注释

python打印表格式数据,留出正确的空格,格式化打出代码如下: def printPicnic(itemsDict,leftWidth,rightWidth): print('PICNIC ITEMS'.center(leftWidth + rightWidth,'-')) for k,v in itemsDict.items(): print(k.ljust(leftWidth,'.')+str(v).rjust(rightWidth))picnicItems = {'sandwitche…

Python统计列表中的重复项出现的次数的方法

本文实例展示了Python统计列表中的重复项出现的次数的方法,是一个很实用的功能,适合Python初学者学习借鉴.具体方法如下:对一个列表,比如[1,2,2,2,2,3,3,3,4,4,4,4],现在我们需要统计这个列表里的重复项,并且重复了几次也要统计出来.方法1:mylist = [1,2,2,2,2,3,3,3,4,4,4,4]myset = set(mylist) #myset是另外一个列表,里面的内容是mylist里面的无重复项for item in myset: print("th…

Python统计日志中每个IP出现次数

介绍了Python统计日志中每个IP出现次数的方法,实例分析了Python基于正则表达式解析日志文件的相关技巧,需要的朋友可以参考下本脚本可用于多种日志类型 #-*- coding:utf-8 -*- import re,time def mail_log(file_path): global count log=open(file_path,'r') C=r'\.'.join([r'\d{1,3}']*4) find=re.compile(C) count={} for i in log:…

python 统计时间，写日志

python 统计时间使用time模块,写日志使用logging模块,这两个都是标准模板. 测试socket使用socket模块 # 统计时间 ---------------------- import time start = time.time() end = time.time() stamp = end - start print "耗时", stamp # 日志 ----------------------- import loggingimport datetime cur…

人脸检测及识别python实现系列（2）——识别出人脸

人脸检测及识别python实现系列(2)——识别出人脸 http://www.cnblogs.com/neo-T/p/6430583.html…

python统计文本中每个单词出现的次数

.python统计文本中每个单词出现的次数: #coding=utf-8 __author__ = 'zcg' import collections import os with open('abc.txt') as file1:#打开文本文件 str1=file1.read().split(' ')#将文章按照空格划分开 print "原文本:\n %s"% str1 print "\n各单词出现的次数:\n %s" % collections.Counter(s…

python 统计使用技巧

python 统计使用技巧 # 1.不输入回车获取值注:需要tty模块配合. fd = sys.stdin.fileno() old_settings = termios.tcgetattr(fd) tty.setraw(sys.stdin.fileno()) ch = sys.stdin.read(1) # 值个数 termios.tcsetattr(fd,termios.TCSADRAIN,old_settings) # 2.进度条 int = 0 percent = ("%s%%&quo…

python 统计字符串中指定字符出现次数的方法

python 统计字符串中指定字符出现次数的方法: strs = "They look good and stick good!" count_set = ['look','good'] res=strs.count('good') print(res)…

python统计apache、nginx访问日志IP访问次数并且排序（显示前20条）【转】

前言:python统计apache.nginx访问日志IP访问次数并且排序(显示前20条).其实用awk+sort等命令可以实现,用awk数组也可以实现,这里只是用python尝试下. apache脚本: ips = {} with open("/root/mail_access_log-20180629") as fh: for line in fh: ip = line.split(" ")[0] if 6 < len(ip) <=15: ips…

使用PYTHON统计项目代码行数

目录一使用PYTHON统计项目代码行数二应用实例注:原创不易,转载请务必注明原作者和出处,感谢支持! 一使用PYTHON统计项目代码行数遇到一个非常小的需求:统计一个项目里头的各类源代码共有多少行.像这种小需求,一个简单的shell脚本就能够完成的.但是我不会shell ヾ(.￣□￣)ﾂ゜゜゜.于是求助python,经过一段时间后,写了一个简单的Python脚本如下. # code_analyst.py #!/usr/bin/env python3 # -*- coding: ut…

python统计一个文本中重复行数的方法

python统计一个文本中重复行数的方法这篇文章主要介绍了python统计一个文本中重复行数的方法,涉及针对Python中dict对象的使用及相关本文的操作,具有一定的借鉴价值,需要的朋友可以参考下比如有下面一个文件 2 3 1 2 我们期望得到 2,2 3,1 1,1 解决问题的思路: 出现的文本作为key, 出现的数目作为value,然后按照value排除后输出最好按照value从大到小输出出来,可以参照: 代码如下: in recent Python 2.7, we have new…

Python统计词频的几种方式

语料 text = """My fellow citizens: I stand here today humbled by the task before us, grateful for the trust you've bestowed, mindful of the sacrifices borne by our ancestors. I thank President Bush for his service to our nation -- (applause)…

Python实现简单中文词频统计示例

简单统计一个小说中哪些个汉字出现的频率最高: import codecs import matplotlib.pyplot as plt from pylab import mpl mpl.rcParams['font.sans-serif'] = ['FangSong'] # 指定默认字体 mpl.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题 word = [] counter = {} with codecs.op…

10行代码使用python统计词频

# -*- coding: utf-8 -*- #!/usr/bin/env python import re f = open("C:\\Users\\陶敏\\Documents\\Pyscript\\test.txt") str = f.read() li = re.split(r'[, ;.\n\t]',str) for i in li: if(len(i))==0: li.remove(i) res_world = [] res_count = [] for i in li:…

python 利用jieba库词频统计

1 #统计<三国志>里人物的出现次数 2 3 import jieba 4 text = open('threekingdoms.txt','r',encoding='utf-8').read() 5 excludes = {'将军','却说','二人','不能','如此','荆州','不可','商议','如何','军士','左右','主公','引兵','次日','大喜','军马', 6 '天下','东吴','于是'} 7 #返回列表类型的分词结果 8 words = jieba.lcut(t…

python统计词频

arr = [1,2,3,4,5,6,4,5,2,3,6,8,9,6,5,3,6,2,4]dic={}for item in arr: if item in dic.keys(): dic[item]+=1 else: dic[item]=1dic= sorted(dic.items(), key=lambda d:d[1], reverse = True)…

Python统计excel表格中文本的词频，生成词云图片

import xlrd import jieba import pymysql import matplotlib.pylab as plt from wordcloud import WordCloud from collections import Counter import numpy as np def getExcelData(excel,txt): readbook = xlrd.open_workbook(excel) sheet = readbook.sheet_by_inde…

python抓取新浪微博评论并分析

1,实现效果 watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQveGlhb2xhbnphbw==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" width="320" height="300" alt=""> watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi…

python统计某一个进程名所占用的内存

设计思路: 通过python,执行cmd中tasklist命令,获取要统计的进程的相关信息:通过正则表达式,查找出进程名称.进程pid.内存使用,然后打印出来. 作为pythoner,有时候需要统计python.exe进程所占用的内存,因此在设计时,通过pid,过滤掉统计内存这个脚本所启用的内存的信息,只统计其他的python.exe的信息. 具体实现: #!/usr/bin/env python # -*- coding: utf-8 -*- # coding:gbk import os, r…

【【Python】统计个人新浪微博词频并给出相应的柱状图】的更多相关文章