本文借助细粒度情感分类技术, 对从网络上抓取大量计算机专业本科教材的评价文本进行情感极性 分析, 从而辅助商家和出版社改进教材的质量、制定 合理的销售策略, 并为潜在消费者的购买决策 供参 考依据.

主要解决了什么问题?

分析、提取对计算机类教材有效的、可靠的评价(当当、京东平台)

1.部分评论有省略号

2.有些评论很简略,没有出现‘书’这个主体对象

主要用到什么方法或技术

流程:

Sep1.去噪

1.1 同一用户针对同一产品发表的多条相同评论、字数多还没有感情色彩的评论、错别字、拼音、英语替换等。

1.2 已去噪的评论数据进行分词和词性 标注

采用技术:

1.1 人工删除等

  

1.2 利用中国科学院计算机所研发的中文分词软件 ICTCLAS2016 对已去噪的评论数据进行分词和词性 标注.

由于 ICTCLAS2016 对一些计算机专业名词、网 络新词等词汇的切分结果不正确, 因此本文自定义了 领域分词词典, 以优化词汇切分效果.

Sep2.构建情感词典

文本选择了基础情感词典, 构建了领域情感词典、网络情感词典和极性修饰情感词典等资源.
  • 公开发表的中文情感词典资源有知网的 HowNet、台湾大学发布的 NTUSD 以及大连理工大学 构建的情感词汇本体库

HowNet 和 NTUSD 仅区分了情感词的极性, 而大连理工大学发布 的情感词典不仅区分了词汇的情感极性, 还 述了词 汇的情感强度.

Sep3.特征词库的构建

需要获取在线评论中用户评价的产品特征.

  产品特征一般是名词和名词性短语, 因此 特征 取则转化为对名词和名词性短语的选取和筛选.

  由于本文选择的分词工具 ICTCLAS2016 仅能标注 出名词, 但不能标注出名词性短语. 为此, 本文在分词 结果的基础上, 制定了以下 3 条规则识别文本中的名词性短语, 这样就能较为完整地选取教材的候选产品特征.

1. “名词+名词”规则
2. “名词+的+名词”规则
3. “动词+名词”规则

Sep4.判断极性

  句法分析工具使用了哈 工大社会计算与信息检索研究中心研发的语言技术平台 (LTP), 通过该平台对优化后的分词结果进行依存关系分析.

  

Sep5.评估本实验所采用的算法的性能

  1. 使用了本文构建的 ***教材评论情感 ***词典, 测试算法在产品特征-情感 述项和产品特征极 性方面的识别结果;
  2. 然后再使用大连理工大学发布的 通用情感词典, 获得相同语料下的识别效果;
  3. 以人工标注结果为基准, 分别计算使用两部情感词典的识别结果的准确率、召回率和 F 值。

NLP论文泛读之《教材在线评论的情感倾向性分析》的更多相关文章

  1. 论文泛读:Click Fraud Detection: Adversarial Pattern Recognition over 5 Years at Microsoft

    这篇论文非常适合工业界的人(比如我)去读,有很多的借鉴意义. 强烈建议自己去读. title:五年微软经验的点击欺诈检测 摘要:1.微软很厉害.2.本文描述了大规模数据挖掘所面临的独特挑战.解决这一问 ...

  2. 论文泛读·Adversarial Learning for Neural Dialogue Generation

    原文翻译 导读 这篇文章的主要工作在于应用了对抗训练(adversarial training)的思路来解决开放式对话生成(open-domain dialogue generation)这样一个无监 ...

  3. 论文泛读 A Novel Ensemble Learning-based Approach for Click Fraud Detection in Mobile Advertising [1/10]

    title:新的基于集成学习的移动广告作弊检测 导语:基于buzzcity数据集,我们提出了对点击欺诈检测是基于一组来自现有属性的新功能的一种新方法.根据所得到的精度.召回率和AUC对所提出的模型进行 ...

  4. Java 垃圾回收(GC) 泛读

    Java 垃圾回收(GC) 泛读 文章地址:https://segmentfault.com/a/1190000008922319 0. 序言 带着问题去看待 垃圾回收(GC) 会比较好,一般来说主要 ...

  5. NLP入门(十)使用LSTM进行文本情感分析

    情感分析简介   文本情感分析(Sentiment Analysis)是自然语言处理(NLP)方法中常见的应用,也是一个有趣的基本任务,尤其是以提炼文本情绪内容为目的的分类.它是对带有情感色彩的主观性 ...

  6. StreamDM:基于Spark Streaming、支持在线学习的流式分析算法引擎

    StreamDM:基于Spark Streaming.支持在线学习的流式分析算法引擎 streamDM:Data Mining for Spark Streaming,华为诺亚方舟实验室开源了业界第一 ...

  7. AQS源码泛读,梳理设计流程(jdk8)

    一.AQS介绍 AQS(AbstractQueuedSynchronizer)抽象队列同步器,属于多线程编程的基本工具:JDK对其定义得很详细,并提供了多种常用的工具类(重入锁,读写锁,信号量,Cyc ...

  8. 【转载】GAN for NLP 论文笔记

    本篇随笔为转载,原贴地址,知乎:GAN for NLP(论文笔记及解读).

  9. ICCV 2019|70 篇论文抢先读,含目标检测/自动驾驶/GCN/等(提供PDF下载)

    虽然ICCV2019已经公布了接收ID名单,但是具体的论文都还没放出来,为了让大家更快得看论文,我们汇总了目前已经公布的大部分ICCV2019 论文,并组织了ICCV2019论文汇总开源项目(http ...

随机推荐

  1. python urllib、urlparse、urllib2、cookielib

    1.urllib模块 1.urllib.urlopen(url[,data[,proxies]]) 打开一个url的方法,返回一个文件对象,然后可以进行类似文件对象的操作.本例试着打开google i ...

  2. Oracle的常用命令之备份和恢复数据库

    1 将数据库TES完全导出,用户名system 密码manager 导出到D:\daochu.dmp中 exp system/manager@TEST file=d:\daochu.dmp 2 将数据 ...

  3. Bash : test 命令

    在 Bash 脚本中我们一般会使用 test 命令来进行条件检查.test 命令的返回值为 0 或 1.0 表示 true, 1 表示 false.简单起见,我们可以直接认为 test 的结果为 tr ...

  4. JavaScript设计模式--桥梁模式--XHR连接队列

    针对该模式的例子现在不是很理解,写下来慢慢熟悉. 们要构建一个队列,队列里存放了很多ajax请求,使用队列(queue)主要是因为要确保先加入的请求先被处理.任何时候,我们可以暂停请求.删除请求.重试 ...

  5. 关于KVO导读

    入门篇 KVO是什么? Key-value observing is a mechanism that allows objects to be notified of changes to spec ...

  6. iOS中单例需要注意的

    单例模式怎么定义的,可能在不同的语言,不同的书中不完全一样,但是概况开来都应该是:一个类有且仅有一个实例,并且自行实例化向整个系统提供. 因此,首先你可能需要确定你是真的需要一个单例类,还是说仅仅是需 ...

  7. 【特效】页面滚动到相应位置运行css3动画

    请到我的个人博客网站上浏览此文章,欢迎评论和建议. 文章链接:http://www.xiaoxianworld.com/archives/87 现在css3动画很常见了,实际项目中经常应用,特别是那种 ...

  8. Appium python自动化测试系列之Android UIAutomator终极定位(七)

    android uiautomator text定位 可能有人不知道为什么说android uiautomator是终极定位,而且android uiautomator和appium有什么关系呢?如果 ...

  9. WPF 如何画出1像素的线

    如何有人告诉你,请你画出1像素的线,是不是觉得很简单,实际上在 WPF 上还是比较难的. 本文告诉大家,如何让画出的线不模糊 画出线的第一个方法,创建一个 Canvas ,添加一个线 界面代码 < ...

  10. Java 递归调用 recursive 给一个参数 返回一大堆

    需求: 需要组装成对象多层嵌套式的 json字符串; 想到使用 递归来完成这个多层嵌套: 憋了四个小时,终于写出来了; 先看效果: 数据库中的数据: 拼装后的效果: [ EmpVO{ ename='孙 ...