实验室例会,上到一半之后发现今天下午第二节课是Android,上次两节Android都没跟中秋碰头,这次又不能碰头了,然 后就赶紧给中秋发了个短信,说我在开会,晚上约个时间再谈。正好也称这一下午加一晚上的时间把那三篇论文温习一遍,然后把CRF、MRF再看看,不过果然 还是没于看懂,晚上吃完饭回来打算找学长问,不过学长吃饭去了还没有回来,就自己看那篇综述。
 
等学
瑞吉师兄回来之后就跟师兄到会议室讨MRF还有这个题目。其实之前对MRF一直存在误解,这是主要障碍,以前一直以为每个节点都代表一种lable
configuration,这样不同的Y之间会有概率关系,而且满足马尔科夫性,不过越想越不对劲。后来师兄告诉我,我才明白,原来整个图才是
Lable
configuration,每一个Y不是向量,是一个Configuration的一个标签,这样不用标签之间存在着相互决定相互影响的关系,比如说对
于NER来说,上一个标签是B_xx,下一个标签一定(或很有可能)就是I_xx或者E_xx,如果上一个状态是I_xx,那么下一个状态一定(或很有可
能)就是I_xx或者E_xx,这样就都说通了。随机场的运行机制跟高中物理中的静电场差不多,顺着场强最大的方向一直走,带电粒子就会获得最大的能量,
对我们来说也就是得到了最大的概率。这个概率一路走来所经过的路径,就是最佳路径,就是我们说的最可能的Label
Configuration。学习的过程就是根据观测数据,用最大似然估计等估计方法来猜测,能让我看到这套观测数据的最可能Label
Configuration是什么样的。
 
然后我们开始讨论KDD的那个问题,感觉姜还是老的辣,我
自己抠了好几天大脑都没什么突破,结果跟瑞吉师兄一讨论就感觉清澈很多了,而且瑞吉师兄帮助我对于识别atomic
cluster的方法进行了扩展,之前一直都在同一篇paper里面转悠,看怎么能从一篇paper里面识别出co-author的信息来,之前的想法是
如果一个歧义协作者跟其他某一个无歧义协作者的机构相同就认定一定是这个歧意作者写的,不过这个方法很有限,这种恰好的情况数量比较少。然后师兄的这种方
法进行了扩展,用多篇有作者起义的文章进行相互校验。比如当前这篇文章有无歧义作者,那么在其他文章中搜看这个无歧义作者有没有跟其中某个尤其以作者合作
过,如果找到这样的纪录那么就果断认为是这个无歧义作者写的。
 
最后又为我提出了一个可行度比较高的
方案,就是利用标注扩展的原理,找出文章之间的相似度,然后以作者为标签进行标注。通过上面的方法找出准确率比较高的某篇文章的标注没后通过相似度矩阵进
行反复迭代,最后就会沉淀出来的格局就是结果。不过这样所有文章一起算的话运算会有点大,毕竟作者数量还很多,而且标注向量太稀疏,所以打算首先对每个待
消歧作者的所有待消文章进行标签扩展,如果效果不好的话再想别的办法。
 
感觉今天很有收获,晚上十一点多才到公寓,然后给中求发短信问他是不是十一点老地方,他说已经睡下了,改天吧。我说恩,好吧。
 
夜里在自习室继续看那篇综述看到两点多,感觉现在非常清醒。

2013.5.21 - KDD第三十三天的更多相关文章

  1. 2013.5.23 - KDD第三十五天

    看完睡不觉得世间有点虚度,然后就构思了一下带带回儿去找中秋要跟她说的事情,大概就是这样的:   我 打算用paper来计算人与人之间的距离,比如说我跟郑茂和写过一篇文章,然后郑茂根韩冰和写过一篇文章, ...

  2. FreeSql (三十三)CodeFirst 类型映射

    前面有介绍过几篇 CodeFirst 内容文章,有 <(二)自动迁移实体>(https://www.cnblogs.com/FreeSql/p/11531301.html) <(三) ...

  3. 第三十三个知识点:Bellcore攻击是如何攻击使用CRT的RSA的?

    第三十三个知识点:Bellcore攻击是如何攻击使用CRT的RSA的? 注意:这篇博客是由follow论密码计算中消除错误的重要性(On the importance of Eliminating E ...

  4. COJ967 WZJ的数据结构(负三十三)

    WZJ的数据结构(负三十三) 难度级别:C: 运行时间限制:7000ms: 运行空间限制:262144KB: 代码长度限制:2000000B 试题描述 请你设计一个数据结构,完成以下功能: 给定一个大 ...

  5. NeHe OpenGL教程 第三十三课:TGA文件

    转自[翻译]NeHe OpenGL 教程 前言 声明,此 NeHe OpenGL教程系列文章由51博客yarin翻译(2010-08-19),本博客为转载并稍加整理与修改.对NeHe的OpenGL管线 ...

  6. COJ 0967 WZJ的数据结构(负三十三)

    WZJ的数据结构(负三十三) 难度级别:E: 运行时间限制:7000ms: 运行空间限制:262144KB: 代码长度限制:2000000B 试题描述 请你设计一个数据结构,完成以下功能: 给定一个大 ...

  7. 三十三、Java图形化界面设计——布局管理器之null布局(空布局)

    摘自http://blog.csdn.net/liujun13579/article/details/7774267 三十三.Java图形化界面设计--布局管理器之null布局(空布局) 一般容器都有 ...

  8. JAVA之旅(三十三)——TCP传输,互相(伤害)传输,复制文件,上传图片,多并发上传,多并发登录

    JAVA之旅(三十三)--TCP传输,互相(伤害)传输,复制文件,上传图片,多并发上传,多并发登录 我们继续网络编程 一.TCP 说完UDP,我们就来说下我们应该重点掌握的TCP了 TCP传输 Soc ...

  9. Gradle 1.12用户指南翻译——第三十三章. PMD 插件

    本文由CSDN博客万一博主翻译,其他章节的翻译请参见: http://blog.csdn.net/column/details/gradle-translation.html 翻译项目请关注Githu ...

随机推荐

  1. plsql 的三种循环

    set serveroutput on declare pnum ; begin loop dbms_output.put_line(pnum); pnum :; end loop; end; / s ...

  2. python自动化测试之连接几组测试包实例

    python自动化测试之连接几组测试包实例 本文实例讲述了python自动化测试之连接几组测试包的方法,分享给大家供大家参考.具体方法如下: 具体代码如下:     class RomanNumera ...

  3. [LeetCode] 59. Spiral Matrix II 螺旋矩阵 II

    Given an integer n, generate a square matrix filled with elements from 1 to n^2 in spiral order. For ...

  4. 【SSH进阶之路】Spring的IOC逐层深入——Spring的IOC原理[通俗解释一下](三)

    1. IoC理论的背景我们都知道,在采用面向对象方法设计的软件系统中,它的底层实现都是由N个对象组成的,所有的对象通过彼此的合作,最终实现系统的业务逻辑. 图1:软件系统中耦合的对象 如果我们打开机械 ...

  5. Kubernates之从pod中拷贝文件到宿主机

    想从k8s的pod中拷贝文件到宿主机,kubectl 的cp命令,但是网上搜索了下,感觉有点乱,自己记录下. hadoop这个namespace下,有个hadoop-hadoop-yarn-rm-0的 ...

  6. robot:当用例失败时执行关键字(发送短信)

    使用场景: 当用例失败时需要通知对应人员,则需要在Teardown中,使用关键字Run Keyword If Test Failed Send Message关键字为自定义关键字,${content} ...

  7. c++基础(七)——面向对象程序设计

    面向对象程序设计(Object-oriented programming)的核心思想是数据抽象,继承,和动态绑定. 1. 继承 在C++语言中,基类将类型相关的函数与派生类不做改变直接继承的函数区分对 ...

  8. python学习-62 类属性的增 删 该 查

    类属性 1.类属性 类属性又称为静态变量,或者是静态数据.这些数据是与它们所属的类对象绑定的,不依赖于任何类实例. 2.增 删 改 查 class zoo: country = 'china' def ...

  9. DSP未来五大发展趋势

    在4G无线通信领域,数据吞吐量已经达到了3G时代的100到1000倍;在多媒体处理器领域,每天都有新的标准涌现出来;在更多其它DSP应用领域,密集的数据处理器需求不断给处理器设计团队带来新的挑战.随着 ...

  10. Python字符串格式化方式之format

    format方式是在Python3引入了一个新的字符串格式化的方法,并且随后支持了Python2.7.这个新的字符串格式化方法摆脱了%操作符并且使得字符串格式化的语法更规范了.现在时候通过调用字符串对 ...