sentiwordnet的简单使用
# Example line:
# POS ID PosS NegS SynsetTerm#sentimentscore Desc
# a 00009618 0.5 0.25 spartan#4 austere#3 ascetical#2 describe
在sentiwordnet中,一行数据如上所示,第一项是单词的词性;第二项是单词的ID;第三第四项分别是积极得分和消极得分;第五项字符串分别是:单词#语义标号 单词#语义标号,这里列出的单词都是同义词,意思在第六项所描述;第六项描述前面一组同义词的意思。
因为一个单词有很多种意思,比如‘good’,作为名词有4种含义(即会出现在4行里面,下同),作为形容词有21种含义,作为副词有2种含义。当我们要判断‘good’这个词的情感的时候,我们不会去直接判断这个‘good’到底是什么意思,再代入某一行计算,而是先把所有‘good’统计一下,得到一个平均值,用这个平均值代表所有‘good’的情感得分,这个得分的值在-1到1之间。如果得分是正的,就是积极的;如果是负的,就是消极的;如果是0.0,就是中性的。
具体计算公式是:score = ,n是单词的所有含义数
Sum =
最后的得分 = score/sum。
使用的时候,只需传入单词和词性,即可得到大部分情感词的情感得分,从而判断极性。
# author:kou
# date:2014年3月14日 from __future__ import division class SentiWordNet():
def __init__(self,netpath):
self.netpath = netpath
self.dictionary = {} def infoextract(self):
tempdict = {}
templist = []
try:
f = open(self.netpath,"r")
except IOError:
print "failed to open file!"
exit()
print 'start extracting.......' # Example line:
# POS ID PosS NegS SynsetTerm#sensenumber Desc
# a 00009618 0.5 0.25 spartan#4 austere#3 ascetical#2 …… for sor in f.readlines():
if sor.strip().startswith("#"):
pass
else:
data = sor.split("\t")
if len(data) != 6:
print 'invalid data'
break
wordTypeMarker = data[0]
synsetScore = float(data[2]) - float(data[3]) #// Calculate synset score as score = PosS - NegS
synTermsSplit = data[4].split(" ") # word#sentimentscore
for w in synTermsSplit:
synTermAndRank = w.split("#") #
synTerm = synTermAndRank[0] + "#" + wordTypeMarker #单词#词性
synTermRank = int(synTermAndRank[1])
if tempdict.has_key(synTerm):
t = [synTermRank,synsetScore]
tempdict.get(synTerm).append(t)
else:
temp = {synTerm:[]}
t = [synTermRank,synsetScore]
temp.get(synTerm).append(t)
tempdict.update(temp) for key in tempdict.keys():
score = 0.0
ssum = 0.0
for wordlist in tempdict.get(key):
score += wordlist[1]/wordlist[0]
ssum += 1.0/wordlist[0]
score /= ssum
self.dictionary.update({key:score}) def getscore(self,word,pos):
return self.dictionary.get(word + "#" + pos) if __name__ == '__main__':
netpath = "C:\\Users\\Administrator\\Desktop\\SentiWordNet.txt"
swn= SentiWordNet(netpath)
swn.infoextract()
print "good#a "+str(swn.getscore('good','a'))
print "bad#a "+str(swn.getscore('bad','a'))
print "blue#a "+str(swn.getscore('blue','a'))
print "blue#a "+str(swn.getscore('blue','n'))
sentiwordnet的简单使用的更多相关文章
- 【造轮子】打造一个简单的万能Excel读写工具
大家工作或者平时是不是经常遇到要读写一些简单格式的Excel? shit!~很蛋疼,因为之前吹牛,就搞了个这东西,还算是挺实用,和大家分享下. 厌烦了每次搞简单类型的Excel读写?不怕~来,喜欢流式 ...
- Fabio 安装和简单使用
Fabio(Go 语言):https://github.com/eBay/fabio Fabio 是一个快速.现代.zero-conf 负载均衡 HTTP(S) 路由器,用于部署 Consul 管理的 ...
- node.js学习(三)简单的node程序&&模块简单使用&&commonJS规范&&深入理解模块原理
一.一个简单的node程序 1.新建一个txt文件 2.修改后缀 修改之后会弹出这个,点击"是" 3.运行test.js 源文件 使用node.js运行之后的. 如果该路径下没有该 ...
- 哪种缓存效果高?开源一个简单的缓存组件j2cache
背景 现在的web系统已经越来越多的应用缓存技术,而且缓存技术确实是能实足的增强系统性能的.我在项目中也开始接触一些缓存的需求. 开始简单的就用jvm(java托管内存)来做缓存,这样对于单个应用服务 ...
- 在Openfire上弄一个简单的推送系统
推送系统 说是推送系统有点大,其实就是一个消息广播功能吧.作用其实也就是由服务端接收到消息然后推送到订阅的客户端. 思路 对于推送最关键的是服务端向客户端发送数据,客户端向服务端订阅自己想要的消息.这 ...
- 我的MYSQL学习心得(一) 简单语法
我的MYSQL学习心得(一) 简单语法 我的MYSQL学习心得(二) 数据类型宽度 我的MYSQL学习心得(三) 查看字段长度 我的MYSQL学习心得(四) 数据类型 我的MYSQL学习心得(五) 运 ...
- 使用 Nodejs 搭建简单的Web服务器
使用Nodejs搭建Web服务器是学习Node.js比较全面的入门教程,因为要完成一个简单的Web服务器,你需要学习Nodejs中几个比较重要的模块,比如:http协议模块.文件系统.url解析模块. ...
- ASP.NET Aries 入门开发教程2:配置出一个简单的列表页面
前言: 朋友们都期待我稳定地工作,但创业公司若要躺下,也非意念可控. 若人生注定了风雨飘摇,那就雨中前行了. 最机开始看聊新的工作机会,欢迎推荐,创业公司也可! 同时,趁着自由时间,抓紧把这系列教程给 ...
- 简单入门canvas - 通过刮奖效果来学习
一 .前言 一直在做PC端的前端开发,从互联网到行业软件.最近发现移动端已经成为前端必备技能了,真是不能停止学习.HTML5新增的一些东西,canvas是用的比较多也比较复杂的一个,简单的入门了一下, ...
随机推荐
- shell判断文件后缀名是否为特定字符串
如果文件是 .css文件 或 .js文件,则进行处理. if [ "${file##*.}"x = "css"x ]||[ "${file##*.}& ...
- HDU 5988.Coding Contest 最小费用最大流
Coding Contest Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others)To ...
- 无法嵌入互操作类型"ESRI.ArcGIS.Carto.MapDocumentClass".请改用适用的接口
在对地图文档进行操作时,居然出现如下问题: IMapDocument m_MapDocument = new ESRI.ArcGIS.Carto.MapDocumentClass(); 报错: 无法嵌 ...
- windows 与 Linux SOCKET通讯
windows client 端口 // Def_win_client_socket_test.cpp : 定义控制台应用程序的入口点. // #include "stdafx.h" ...
- Max Chunks To Make Sorted II LT768
This question is the same as "Max Chunks to Make Sorted" except the integers of the given ...
- Python3实战系列之三(获取印度售后数据项目)
问题:续接上一篇.说干咱就干呀,勤勤恳恳写程序呀! 目标:实现第一个python程序的“Hello world!” 解决方案:新建一个项目Test,创建一个Test.py文件.在文件中实现打印出“He ...
- Bing Developer Assistant开发随记
Thumb很适合用来做拖动效果的,不会让鼠标轻易跑掉. Combo中的选项是当字符串输入并激发事件后自动加入的,可使用IVsUIShell.SetMRUComboText(GuidList.guidO ...
- mysql主从配置思路
记录一下 原文:http://www.rjfw.com.cn/qamain/prevView.action?id=40482017200000031 mysql主从配置(清晰的思路) mysql主从配 ...
- zabbix实现企业微信监控报警
一.zabbix基本说明 简介:zabbix基于Web界面的分布式系统监控的企业级开源软件.可以监控各种系统与设备,网络参数,保证服务器设备安全运营:提供灵活的通知机制.如果检测到的指标不达标,就实现 ...
- IDEA导入MySQL包
点击[Project Structure] 点击[Modules] 在点击下面的界面 找到自己下载的MySQL包就OK了