调研目的:

了解生成式文本摘要的常用技术和当前的发展趋势,明确当前项目有什么样的摘要需求,判断现有技术能否用于满足当前的需求,进一步明确毕业设计方向及其可行性

调研方向:

  • 项目中需要用到摘要的地方以及区别
  • 数据集(研究用评测集/项目用大规模数据集)
  • 现有技术
    • 分类

      • 有监督
      • 无监督
      • 半监督等(如果有)
    • 效果
    • 优势和缺点
  • 评价现有技术用于当前项目的可行性
  • 扩展:寻找现有技术的研究改进方向

项目中用到摘要的地方

  • 传统新闻摘要任务

    • 单/多文档新闻摘要生成
  • 非传统摘要任务
    • 标题生成
    • 特点
      • 篇幅一般较短
      • 不同位置的内容对摘要没有影响
      • 观点可能包含多种(受限于聚类效果),相当于噪声数据

评价方法

  • 自动评价方法: Rouge

    • 基于N元模型,判断生成的摘要与参考摘要N元组重复比例
    • 自动评价方法本身也是被研究的对象
  • 人工评价方法
    • 由人对摘要内容进行打分,包括可读性、综合质量等。

数据集

  • LCSTS

    • 哈工大中文微博摘要数据集
    • 数据集内容
      • part1: 2.4m训练数据, (短文本,摘要)对
      • part2: 1w标注数据,给摘要和短文本的相关程度打分(1~5),用来去除part1中的噪声数据
      • part3: 1.1k对训练数据,独立于part1&2,由3人对摘要打分,一般保留3分以上的作为摘要训练数据
    • 数据量非常大,噪声非常大
  • DUC2004/Gigaword
    • 抽取式摘要数据集
    • 单句话摘要
  • CNN/Daily Mail
    • 生成式摘要数据集
    • 摘要包含多个句子,但是长度不是太长

思路

  • Seq2seq + Attention(RNN->CNN)
  • Pointer/Generation、CopyNet机制,以及其它的机制
  • Extractor + Abstractor
  • Reinforcement Learning
  • GAN、unsupervised learning

General

  • Category: text-to-text, data-to-text, image/video-to-text
  • Tasks:
    • Content determination 确定生成内容
    • Text structuring 确定生成结构
    • Sentence aggregation 句子聚合
    • Lexicalisation 词法实现
    • Referring expression generation 指代生成
    • Linguistic realisation 语言实现
  • Example:
    • 有一个穿红衣服的小孩子,在雪地里堆雪人。
  • Example:
    • 高铁车票“无纸化”
      近日,中国铁路总公司...
      乘客或可实现“刷手机”、“刷身份证”直接进站乘车,而不需要在乘车之前特意换取纸质车票。...
      最快今年四季度,中国铁路电子客票业务将开展试点运营。
      ...
    • 最快今年四季度,乘客可直接刷手机或身份证直接进站乘坐高铁火车。

Text-to-Text

  • Document Summarization(abstractive)

    • Systems: NeATS, NewsBlaster, NewsInEssence, Summly
    • Evaluation: ROUGE
    • Tasks:
    • Category:
      • single/multi document summarization
    • Seq-to-Seq
      • attention mechanism
      • copying mechanism: 考虑到摘要中的很多字和原文相同,拷贝机制允许直接拷贝输入中的字作为输出,而不是总是通过隐层状态来生成字。
      • Reinforcement Learning: 直接通过Rouge来进行优化比decoder输出的结果的似然函数来优化效果更好
      • limit length
  • Sentence Compression & Fusion
    • few researches
  • Paraphrase Generation
    • few researches

Data-to-Text

Image/Video-to-Text

Natural Language Generation/Abstractive Summarization的更多相关文章

  1. How 5 Natural Language Processing APIs Stack Up

    https://www.programmableweb.com/news/how-5-natural-language-processing-apis-stack/analysis/2014/07/2 ...

  2. Abstractive Summarization

    Sequence-to-sequence Framework A Neural Attention Model for Abstractive Sentence Summarization Alexa ...

  3. 如何将 Cortana 与 Windows Phone 8.1 应用集成 ( Voice command - Natural language recognition )

    随着 Windows Phone 8.1 GDR1 + Cortana 中文版的发布,相信有很多用户或开发者都在调戏 Windows Phone 的语音私人助理 Cortana 吧,在世界杯的时候我亲 ...

  4. Natural language style method declaration and usages in programming languages

    More descriptive way to declare and use a method in programming languages At present, in most progra ...

  5. Natural Language Processing with Python - Chapter 0

    一年之前,我做梦也想不到会来这里写技术总结.误打误撞来到了上海西南某高校,成为了文科专业的工科男,现在每天除了膜ha,就是恶补CS.导师是做计算语言学的,所以当务之急就是先自学计算机自然语言处理,打好 ...

  6. Deep Learning for Natural Language Processing1

    Focus, Follow, and Forward Stanford CS224d 课程笔记 Lecture1 Stanford CS224d 课程笔记 Lecture1 Stanford大学在20 ...

  7. <Natural Language Processing with Python>学习笔记一

    Spoken input (top left) is analyzed, words are recognized, sentences are parsed and interpreted in c ...

  8. spaCy is a library for advanced natural language processing in Python and Cython:spaCy 工业级自然语言处理工具

    spaCy is a library for advanced natural language processing in Python and Cython. spaCy is built on ...

  9. 论文笔记:Dynamic Multimodal Instance Segmentation Guided by Natural Language Queries

    Dynamic Multimodal Instance Segmentation Guided by Natural Language Queries 2018-09-18 09:58:50 Pape ...

随机推荐

  1. 【PAT】B1077 互评成绩计算(20 分)

    录入成绩,直接将所有同学给的分数相加,排序,减去最大和最小 省去了遍历一次 注意四舍五入 #include<cstdio> #include<string.h> #includ ...

  2. 17LaTeX学习系列之---LaTeX的版面设计

    目录 目录 前言 (一)基础知识 1.纸张大小的设置 2.边距的设置 3.页眉页脚的设置 4.横分割线的设置 5.行间距与段间距 (二)实例 1.源代码 2.输出效果: 目录 本系列是有关LaTeX的 ...

  3. tkinter学习系列之(六)Radiobutton控件

    目录 目录 前言 (一)基本属性 (二)在Frame里布局: 目录 前言 Radiobutton单选框,在一组选框中,只能选中一个. (一)基本属性 (1)特有属性: value 按钮的值 varia ...

  4. SQL Server2008 4064错误

    无法打开用户默认数据库,登录失败,其原因是登录帐户的默认数据库被删除.    解决办法是使用管理员帐户修改此登录帐户的默认数据库.   1.使用管理员帐号登入企业管理器,在"对象资源管理器& ...

  5. HTTP数据组织方式

    HTTP网络传输中的数据组织方式有三种方式: 1.HTML方式 2.XML方式 3.JSON方式     XML介绍:XML称为可扩展标记语言,它与HTML一样,都是SGML(标准通用标记语言) XM ...

  6. Django REST framework 之分页,视图,路由,渲染器

    1.分页 2.视图 3.路由 4.渲染器 1.分页 方法一: from django.shortcuts import render from rest_framework.versioning im ...

  7. ajax 数据类型结构

  8. 痞子衡嵌入式:如果你正在量产i.MX RT产品,不妨试试这款神器RT-Flash

    -- RT产品落满地,客户工厂生产急; 痞子衡出新神器,从此量产不费力! 恩智浦半导体2017年10月正式发布了业内首款跨界处理器-i.MX RT系列,超强的性能.超高的性价比使得i.MX RT系列火 ...

  9. 项目Alpha冲刺 5

    作业描述 课程: 软件工程1916|W(福州大学) 作业要求: 项目Alpha冲刺(团队) 团队名称: 火鸡堂 作业目标: 介绍第五天冲刺的项目进展.问题困难和心得体会 1.团队信息 队名:火鸡堂 队 ...

  10. PHP数组转为树的算法

    一.使用引用 function listToTree($list, $pk = 'id', $pid = 'pid', $child = '_child', $root = 0) { $tree = ...