# Example line:

# POS     ID     PosS  NegS SynsetTerm#sentimentscore    Desc

# a   00009618  0.5    0.25  spartan#4 austere#3 ascetical#2  describe

在sentiwordnet中,一行数据如上所示,第一项是单词的词性;第二项是单词的ID;第三第四项分别是积极得分和消极得分;第五项字符串分别是:单词#语义标号 单词#语义标号,这里列出的单词都是同义词,意思在第六项所描述;第六项描述前面一组同义词的意思。

因为一个单词有很多种意思,比如‘good’,作为名词有4种含义(即会出现在4行里面,下同),作为形容词有21种含义,作为副词有2种含义。当我们要判断‘good’这个词的情感的时候,我们不会去直接判断这个‘good’到底是什么意思,再代入某一行计算,而是先把所有‘good’统计一下,得到一个平均值,用这个平均值代表所有‘good’的情感得分,这个得分的值在-1到1之间。如果得分是正的,就是积极的;如果是负的,就是消极的;如果是0.0,就是中性的。

具体计算公式是:score = ,n是单词的所有含义数

Sum = 

最后的得分 = score/sum。

使用的时候,只需传入单词和词性,即可得到大部分情感词的情感得分,从而判断极性。

# author:kou
# date:2014年3月14日 from __future__ import division class SentiWordNet():
def __init__(self,netpath):
self.netpath = netpath
self.dictionary = {} def infoextract(self):
tempdict = {}
templist = []
try:
f = open(self.netpath,"r")
except IOError:
print "failed to open file!"
exit()
print 'start extracting.......' # Example line:
# POS ID PosS NegS SynsetTerm#sensenumber Desc
# a 00009618 0.5 0.25 spartan#4 austere#3 ascetical#2 …… for sor in f.readlines():
if sor.strip().startswith("#"):
pass
else:
data = sor.split("\t")
if len(data) != 6:
print 'invalid data'
break
wordTypeMarker = data[0]
synsetScore = float(data[2]) - float(data[3]) #// Calculate synset score as score = PosS - NegS
synTermsSplit = data[4].split(" ") # word#sentimentscore
for w in synTermsSplit:
synTermAndRank = w.split("#") #
synTerm = synTermAndRank[0] + "#" + wordTypeMarker #单词#词性
synTermRank = int(synTermAndRank[1])
if tempdict.has_key(synTerm):
t = [synTermRank,synsetScore]
tempdict.get(synTerm).append(t)
else:
temp = {synTerm:[]}
t = [synTermRank,synsetScore]
temp.get(synTerm).append(t)
tempdict.update(temp) for key in tempdict.keys():
score = 0.0
ssum = 0.0
for wordlist in tempdict.get(key):
score += wordlist[1]/wordlist[0]
ssum += 1.0/wordlist[0]
score /= ssum
self.dictionary.update({key:score}) def getscore(self,word,pos):
return self.dictionary.get(word + "#" + pos) if __name__ == '__main__':
netpath = "C:\\Users\\Administrator\\Desktop\\SentiWordNet.txt"
swn= SentiWordNet(netpath)
swn.infoextract()
print "good#a "+str(swn.getscore('good','a'))
print "bad#a "+str(swn.getscore('bad','a'))
print "blue#a "+str(swn.getscore('blue','a'))
print "blue#a "+str(swn.getscore('blue','n'))

sentiwordnet的简单使用的更多相关文章

  1. 【造轮子】打造一个简单的万能Excel读写工具

    大家工作或者平时是不是经常遇到要读写一些简单格式的Excel? shit!~很蛋疼,因为之前吹牛,就搞了个这东西,还算是挺实用,和大家分享下. 厌烦了每次搞简单类型的Excel读写?不怕~来,喜欢流式 ...

  2. Fabio 安装和简单使用

    Fabio(Go 语言):https://github.com/eBay/fabio Fabio 是一个快速.现代.zero-conf 负载均衡 HTTP(S) 路由器,用于部署 Consul 管理的 ...

  3. node.js学习(三)简单的node程序&&模块简单使用&&commonJS规范&&深入理解模块原理

    一.一个简单的node程序 1.新建一个txt文件 2.修改后缀 修改之后会弹出这个,点击"是" 3.运行test.js 源文件 使用node.js运行之后的. 如果该路径下没有该 ...

  4. 哪种缓存效果高?开源一个简单的缓存组件j2cache

    背景 现在的web系统已经越来越多的应用缓存技术,而且缓存技术确实是能实足的增强系统性能的.我在项目中也开始接触一些缓存的需求. 开始简单的就用jvm(java托管内存)来做缓存,这样对于单个应用服务 ...

  5. 在Openfire上弄一个简单的推送系统

    推送系统 说是推送系统有点大,其实就是一个消息广播功能吧.作用其实也就是由服务端接收到消息然后推送到订阅的客户端. 思路 对于推送最关键的是服务端向客户端发送数据,客户端向服务端订阅自己想要的消息.这 ...

  6. 我的MYSQL学习心得(一) 简单语法

    我的MYSQL学习心得(一) 简单语法 我的MYSQL学习心得(二) 数据类型宽度 我的MYSQL学习心得(三) 查看字段长度 我的MYSQL学习心得(四) 数据类型 我的MYSQL学习心得(五) 运 ...

  7. 使用 Nodejs 搭建简单的Web服务器

    使用Nodejs搭建Web服务器是学习Node.js比较全面的入门教程,因为要完成一个简单的Web服务器,你需要学习Nodejs中几个比较重要的模块,比如:http协议模块.文件系统.url解析模块. ...

  8. ASP.NET Aries 入门开发教程2:配置出一个简单的列表页面

    前言: 朋友们都期待我稳定地工作,但创业公司若要躺下,也非意念可控. 若人生注定了风雨飘摇,那就雨中前行了. 最机开始看聊新的工作机会,欢迎推荐,创业公司也可! 同时,趁着自由时间,抓紧把这系列教程给 ...

  9. 简单入门canvas - 通过刮奖效果来学习

    一 .前言 一直在做PC端的前端开发,从互联网到行业软件.最近发现移动端已经成为前端必备技能了,真是不能停止学习.HTML5新增的一些东西,canvas是用的比较多也比较复杂的一个,简单的入门了一下, ...

随机推荐

  1. shell判断文件后缀名是否为特定字符串

    如果文件是 .css文件 或 .js文件,则进行处理. if [ "${file##*.}"x = "css"x ]||[ "${file##*.}& ...

  2. HDU 5988.Coding Contest 最小费用最大流

    Coding Contest Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 65536/65536 K (Java/Others)To ...

  3. 无法嵌入互操作类型"ESRI.ArcGIS.Carto.MapDocumentClass".请改用适用的接口

    在对地图文档进行操作时,居然出现如下问题: IMapDocument m_MapDocument = new ESRI.ArcGIS.Carto.MapDocumentClass(); 报错: 无法嵌 ...

  4. windows 与 Linux SOCKET通讯

    windows client 端口 // Def_win_client_socket_test.cpp : 定义控制台应用程序的入口点. // #include "stdafx.h" ...

  5. Max Chunks To Make Sorted II LT768

    This question is the same as "Max Chunks to Make Sorted" except the integers of the given ...

  6. Python3实战系列之三(获取印度售后数据项目)

    问题:续接上一篇.说干咱就干呀,勤勤恳恳写程序呀! 目标:实现第一个python程序的“Hello world!” 解决方案:新建一个项目Test,创建一个Test.py文件.在文件中实现打印出“He ...

  7. Bing Developer Assistant开发随记

    Thumb很适合用来做拖动效果的,不会让鼠标轻易跑掉. Combo中的选项是当字符串输入并激发事件后自动加入的,可使用IVsUIShell.SetMRUComboText(GuidList.guidO ...

  8. mysql主从配置思路

    记录一下 原文:http://www.rjfw.com.cn/qamain/prevView.action?id=40482017200000031 mysql主从配置(清晰的思路) mysql主从配 ...

  9. zabbix实现企业微信监控报警

    一.zabbix基本说明 简介:zabbix基于Web界面的分布式系统监控的企业级开源软件.可以监控各种系统与设备,网络参数,保证服务器设备安全运营:提供灵活的通知机制.如果检测到的指标不达标,就实现 ...

  10. IDEA导入MySQL包

    点击[Project Structure] 点击[Modules]   在点击下面的界面   找到自己下载的MySQL包就OK了