调研目的:

了解生成式文本摘要的常用技术和当前的发展趋势,明确当前项目有什么样的摘要需求,判断现有技术能否用于满足当前的需求,进一步明确毕业设计方向及其可行性

调研方向:

  • 项目中需要用到摘要的地方以及区别
  • 数据集(研究用评测集/项目用大规模数据集)
  • 现有技术
    • 分类

      • 有监督
      • 无监督
      • 半监督等(如果有)
    • 效果
    • 优势和缺点
  • 评价现有技术用于当前项目的可行性
  • 扩展:寻找现有技术的研究改进方向

项目中用到摘要的地方

  • 传统新闻摘要任务

    • 单/多文档新闻摘要生成
  • 非传统摘要任务
    • 标题生成
    • 特点
      • 篇幅一般较短
      • 不同位置的内容对摘要没有影响
      • 观点可能包含多种(受限于聚类效果),相当于噪声数据

评价方法

  • 自动评价方法: Rouge

    • 基于N元模型,判断生成的摘要与参考摘要N元组重复比例
    • 自动评价方法本身也是被研究的对象
  • 人工评价方法
    • 由人对摘要内容进行打分,包括可读性、综合质量等。

数据集

  • LCSTS

    • 哈工大中文微博摘要数据集
    • 数据集内容
      • part1: 2.4m训练数据, (短文本,摘要)对
      • part2: 1w标注数据,给摘要和短文本的相关程度打分(1~5),用来去除part1中的噪声数据
      • part3: 1.1k对训练数据,独立于part1&2,由3人对摘要打分,一般保留3分以上的作为摘要训练数据
    • 数据量非常大,噪声非常大
  • DUC2004/Gigaword
    • 抽取式摘要数据集
    • 单句话摘要
  • CNN/Daily Mail
    • 生成式摘要数据集
    • 摘要包含多个句子,但是长度不是太长

思路

  • Seq2seq + Attention(RNN->CNN)
  • Pointer/Generation、CopyNet机制,以及其它的机制
  • Extractor + Abstractor
  • Reinforcement Learning
  • GAN、unsupervised learning

General

  • Category: text-to-text, data-to-text, image/video-to-text
  • Tasks:
    • Content determination 确定生成内容
    • Text structuring 确定生成结构
    • Sentence aggregation 句子聚合
    • Lexicalisation 词法实现
    • Referring expression generation 指代生成
    • Linguistic realisation 语言实现
  • Example:
    • 有一个穿红衣服的小孩子,在雪地里堆雪人。
  • Example:
    • 高铁车票“无纸化”
      近日,中国铁路总公司...
      乘客或可实现“刷手机”、“刷身份证”直接进站乘车,而不需要在乘车之前特意换取纸质车票。...
      最快今年四季度,中国铁路电子客票业务将开展试点运营。
      ...
    • 最快今年四季度,乘客可直接刷手机或身份证直接进站乘坐高铁火车。

Text-to-Text

  • Document Summarization(abstractive)

    • Systems: NeATS, NewsBlaster, NewsInEssence, Summly
    • Evaluation: ROUGE
    • Tasks:
    • Category:
      • single/multi document summarization
    • Seq-to-Seq
      • attention mechanism
      • copying mechanism: 考虑到摘要中的很多字和原文相同,拷贝机制允许直接拷贝输入中的字作为输出,而不是总是通过隐层状态来生成字。
      • Reinforcement Learning: 直接通过Rouge来进行优化比decoder输出的结果的似然函数来优化效果更好
      • limit length
  • Sentence Compression & Fusion
    • few researches
  • Paraphrase Generation
    • few researches

Data-to-Text

Image/Video-to-Text

Natural Language Generation/Abstractive Summarization的更多相关文章

  1. How 5 Natural Language Processing APIs Stack Up

    https://www.programmableweb.com/news/how-5-natural-language-processing-apis-stack/analysis/2014/07/2 ...

  2. Abstractive Summarization

    Sequence-to-sequence Framework A Neural Attention Model for Abstractive Sentence Summarization Alexa ...

  3. 如何将 Cortana 与 Windows Phone 8.1 应用集成 ( Voice command - Natural language recognition )

    随着 Windows Phone 8.1 GDR1 + Cortana 中文版的发布,相信有很多用户或开发者都在调戏 Windows Phone 的语音私人助理 Cortana 吧,在世界杯的时候我亲 ...

  4. Natural language style method declaration and usages in programming languages

    More descriptive way to declare and use a method in programming languages At present, in most progra ...

  5. Natural Language Processing with Python - Chapter 0

    一年之前,我做梦也想不到会来这里写技术总结.误打误撞来到了上海西南某高校,成为了文科专业的工科男,现在每天除了膜ha,就是恶补CS.导师是做计算语言学的,所以当务之急就是先自学计算机自然语言处理,打好 ...

  6. Deep Learning for Natural Language Processing1

    Focus, Follow, and Forward Stanford CS224d 课程笔记 Lecture1 Stanford CS224d 课程笔记 Lecture1 Stanford大学在20 ...

  7. <Natural Language Processing with Python>学习笔记一

    Spoken input (top left) is analyzed, words are recognized, sentences are parsed and interpreted in c ...

  8. spaCy is a library for advanced natural language processing in Python and Cython:spaCy 工业级自然语言处理工具

    spaCy is a library for advanced natural language processing in Python and Cython. spaCy is built on ...

  9. 论文笔记:Dynamic Multimodal Instance Segmentation Guided by Natural Language Queries

    Dynamic Multimodal Instance Segmentation Guided by Natural Language Queries 2018-09-18 09:58:50 Pape ...

随机推荐

  1. Django框架的使用教程--mysql数据库[三]

    Django的数据库 1.在Django_test下的view.py里面model定义模型 from django.db import models # Create your models here ...

  2. MVC设计模式在网站中的应用

    MVC设计模式在网站中的应用 以淘宝的购物车为例 一.结合六个基本质量属性 可修改性 采用MVC设计模式的时候,可以将视图.模型.控制器分析,将用户动作.数据表示.应用数据分离开来,如果用户需要以不同 ...

  3. mysql中case的一个例子

    最近遇到一个问题: year amount num 1991 1 1.1 1991 2 1.2 1991 3 1.3 1992 1 2.1 1992 2 2.2 1992 3 3.3 把上面表格的数据 ...

  4. jQuery 往table添加新内容有以下四个方法:

    Query 添加新内容有以下四个方法: append() - 在被选元素的结尾插入内容 prepend() - 在被选元素的开头插入内容 after() - 在被选元素之后插入内容 before() ...

  5. MySQL性能分析工具之PROFILE

    Mysql Profile 如何开启Profiles功能以及如何简单使用: https://www.cnblogs.com/zengkefu/p/6519010.html MySQL profiles ...

  6. 2190: [SDOI2008]仪仗队

    Description 作为体育委员,C君负责这次运动会仪仗队的训练.仪仗队是由学生组成的N * N的方阵,为了保证队伍在行进中整齐划一,C君会跟在仪仗队的左后方,根据其视线所及的学生人数来判断队伍是 ...

  7. LabelImg 图像图像标注工具

    https://github.com/tzutalin/labelImg windos版本请不要把存放在中文目录下,否则打不开.

  8. asp.net loading 动画

    https://www.cnblogs.com/AnneHan/p/7477761.htmlhttps://blog.csdn.net/qq_33769914/article/details/7115 ...

  9. day14 Python函数之可变长参数

    函数参数 1.形参变量只有在被调用时才分配内存单元,在调用结束时,即刻释放所分配的内存单元.因此,形参只在函数内部有效.函数调用结束返回主调用函数后则不能再使用该形参变量 2.实参可以是常量.变量.表 ...

  10. (转)解决k8s集群提示docker login问题(同样适用于Rancher)

    文章转自 https://blog.liv1020.com/ 参考文档:https://kubernetes.io/docs/concepts/containers/images/#configuri ...