AUSUM: approach for unsupervised bug report summarization

1. Abstract

  • 解决的bug被归类以便未来参考
  • 缺点是还是需要手动的去细读很多的推荐的关于bug的内容
    • Automatic summarization of bug reports 自动汇总bug报告
    • 之前的研究是基于学习的方法去做bug summarization
      • 需要大量的训练集
      • 倾向于获得模型所产生的数据
  • 运用四种无监督的bug摘要技巧
    • industrial bug reports 不适合
    • 适合于格式良好的文件
    • 提出了一种降低噪声的方法:有助于提高基本技术上的摘要精度
    • 通过降低噪声的方法,两种无监督技术可以运用于大规模的bug报告

2. Introduction

  • 被归类的bug仓库:①帮助更好的理解新bug ②用旧方法解决新bug

  • 还是需要每一条推荐的bug报告并确认是否有有用的信息,花费太多的时间。

    • 一种解决方法是给每条报告提供一个总结summary。但是由于投入巨大的精力而不现实。
  • 提出需要自动汇总错误报告(两种方式)

    • 基于学习的监督方式

      1. 要求用户手动汇总出一个文档
      2. 从这些文档中提取出一组文本特征并训练统计模型
      3. 对一个新文档提取出文本特征并使用模型进行预测产生结果

      note: The practical application of such a supervised technique in any project could be hampered owing to the initial training cost involved. 由于涉及初始培训成本,可能会妨碍这种监督技术在任何项目中的使用。

    • 应用四种无监督的学习方法(Centroid, Maximum Marginal Relevance, Grasshopper, Diverse Rank)

      when the approach was trained on bug reports from the same subject. 有监督的稍微好点

      但是在不同数据集上提供了与监督学习方法同样的精度

      Bug reports resemble conversations, very often with email and chat content pasted.

      所以在处理之前先过滤掉这些noise。这个提前处理提高了无监督算法的精度

      本文的主要贡献:

      1. 一个经典的bug报告模式和新颖的noise过滤
      2. 实验性的评估了四种无监督学习算法,结果证明无监督方法和有监督的一样好
      3. 通过过滤noise产生了更好的summaries

3. Conclusion

  • For both the subjects, the efficacy of the unsupervised techniques improved by applying noise identifier and filtering out sentences classified as Useless and Code. 分为代码和无用

  • direction

    • auto-extract Frequently Asked Questions from a bug repository.
    • if the text summarization approaches mentioned in this paper can be used for code summarization.本文中提到的文本摘要方法是否可用于代码摘要

Approach for Unsupervised Bug Report Summarization 无监督bug报告汇总方法的更多相关文章

  1. 学习笔记CB008:词义消歧、有监督、无监督、语义角色标注、信息检索、TF-IDF、隐含语义索引模型

    词义消歧,句子.篇章语义理解基础,必须解决.语言都有大量多种含义词汇.词义消歧,可通过机器学习方法解决.词义消歧有监督机器学习分类算法,判断词义所属分类.词义消歧无监督机器学习聚类算法,把词义聚成多类 ...

  2. kaggle信用卡欺诈看异常检测算法——无监督的方法包括: 基于统计的技术,如BACON *离群检测 多变量异常值检测 基于聚类的技术;监督方法: 神经网络 SVM 逻辑回归

    使用google翻译自:https://software.seek.intel.com/dealing-with-outliers 数据分析中的一项具有挑战性但非常重要的任务是处理异常值.我们通常将异 ...

  3. 【MMT】ICLR 2020: MMT(Mutual Mean-Teaching)方法,无监督域适应在Person Re-ID上性能再创新高

    原文链接 小样本学习与智能前沿 . 在这个公众号后台回复"200708",即可获得课件电子资源. 为了减轻噪音伪标签的影响,文章提出了一种无监督的MMT(Mutual Mean-T ...

  4. CVPR2020:三维点云无监督表示学习的全局局部双向推理

    CVPR2020:三维点云无监督表示学习的全局局部双向推理 Global-Local Bidirectional Reasoning for Unsupervised Representation L ...

  5. 将句子表示为向量(上):无监督句子表示学习(sentence embedding)

    1. 引言 word embedding技术如word2vec,glove等已经广泛应用于NLP,极大地推动了NLP的发展.既然词可以embedding,句子也应该可以(其实,万物皆可embeddin ...

  6. sklearn—无监督最近邻

    无监督最近邻 NearestNeighbors (最近邻)实现了 unsupervised nearest neighbors learning(无监督的最近邻学习). 它为三种不同的最近邻算法提供统 ...

  7. 图片质量评估论文 | 无监督SER-FIQ | CVPR2020

    文章转自:同作者微信公主号[机器学习炼丹术].欢迎交流,共同进步. 论文名称:SER-FIQ: Unsupervised Estimation of Face Image Quality Based ...

  8. 无监督域对抗算法:ICCV2019论文解析

    无监督域对抗算法:ICCV2019论文解析 Drop to Adapt: Learning Discriminative Features for Unsupervised Domain Adapta ...

  9. 解读ICDE'22论文:基于鲁棒和可解释自编码器的无监督时间序列离群点检测算法

    摘要:本文提出了两个用于无监督的具备可解释性和鲁棒性时间序列离群点检测的自动编码器框架. 本文分享自华为云社区<解读ICDE'22论文:基于鲁棒和可解释自编码器的无监督时间序列离群点检测算法&g ...

随机推荐

  1. Nodepad++ 没有TextFX Characters插件

    Nodepad++ 没有TextFX Characters插件 原因:从6.5以上的某个版本开始,就没有了默认的这个插件. 我试了最新的版本下载插件也不行,只好下载一个6.4.5的版本,再更新插件管理 ...

  2. 七、git学习之——使用GitHub、自定义Git、

    原文来自 一.使用GitHub 我们一直用GitHub作为免费的远程仓库,如果是个人的开源项目,放到GitHub上是完全没有问题的.其实GitHub还是一个开源协作社区,通过GitHub,既可以让别人 ...

  3. 1.微博回调接口 和绑定user接口

    1.1 oauth/views.py 中添加试图函数 http://192.168.56.100:8888/oauth/weibo/callback/ # 通过vue前端传入的code,微博身份验证c ...

  4. rman删除归档日志无法释放

    背景 当Oracle 归档日志满了后,将无法正常登入oracle,需要删除一部分归档日志才能正常登入ORACLE.最近遇到一个问题,一套Oracle 11g数据库使用RMAN删除了归档日志,但是仍然无 ...

  5. Mycat安全配置

    1. Mycat相关文章   Linux安装Mycat1.6.7.4并实现Mysql数据库读写分离简单配置   Linux安装Mysql8.0.20并配置主从复制(一主一从,双主双从)   Docke ...

  6. Missing Private key解决方案——IOS证书 .cer 以p12文件以及配置方案

    一个苹果证书怎么多次使用--导出p12文件 为什么要导出.p12文件 因为苹果规定 .cer证书只能存在于一台机器上,因此 如果另一台电脑想要用的话,需要导出为.p12 file ,安装到另一台没有安 ...

  7. 怎样用Java 8优雅的开发业务

    怎样用Java 8优雅的开发业务 目录 怎样用Java 8优雅的开发业务 函数式编程 流式编程 基本原理 案例 优雅的空处理 新的并发工具类CompletableFuture 单机批处理多线程执行模型 ...

  8. MySQL数据归档小工具推荐--mysql_archiver

    一.主要概述 MySQL数据库归档历史数据主要可以分为三种方式:一.创建编写SP.设置Event:二.通过dump导入导出:三.通过pt-archiver工具进行归档.第一种方式往往受限于同实例要求, ...

  9. 每日CSS_实时时钟效果

    每日CSS_实时时钟效果 2020_12_22 源码链接 1. 代码解析 1.1 html 代码片段 <div class="clock"> <div class ...

  10. 简单的堆排序-python

    AA = raw_input().strip().split(' ') A = [] ###############初始化大堆############### def fixUp(A): k = len ...