2013.5.21 - KDD第三十三天
瑞吉师兄回来之后就跟师兄到会议室讨MRF还有这个题目。其实之前对MRF一直存在误解,这是主要障碍,以前一直以为每个节点都代表一种lable
configuration,这样不同的Y之间会有概率关系,而且满足马尔科夫性,不过越想越不对劲。后来师兄告诉我,我才明白,原来整个图才是
Lable
configuration,每一个Y不是向量,是一个Configuration的一个标签,这样不用标签之间存在着相互决定相互影响的关系,比如说对
于NER来说,上一个标签是B_xx,下一个标签一定(或很有可能)就是I_xx或者E_xx,如果上一个状态是I_xx,那么下一个状态一定(或很有可
能)就是I_xx或者E_xx,这样就都说通了。随机场的运行机制跟高中物理中的静电场差不多,顺着场强最大的方向一直走,带电粒子就会获得最大的能量,
对我们来说也就是得到了最大的概率。这个概率一路走来所经过的路径,就是最佳路径,就是我们说的最可能的Label
Configuration。学习的过程就是根据观测数据,用最大似然估计等估计方法来猜测,能让我看到这套观测数据的最可能Label
Configuration是什么样的。
自己抠了好几天大脑都没什么突破,结果跟瑞吉师兄一讨论就感觉清澈很多了,而且瑞吉师兄帮助我对于识别atomic
cluster的方法进行了扩展,之前一直都在同一篇paper里面转悠,看怎么能从一篇paper里面识别出co-author的信息来,之前的想法是
如果一个歧义协作者跟其他某一个无歧义协作者的机构相同就认定一定是这个歧意作者写的,不过这个方法很有限,这种恰好的情况数量比较少。然后师兄的这种方
法进行了扩展,用多篇有作者起义的文章进行相互校验。比如当前这篇文章有无歧义作者,那么在其他文章中搜看这个无歧义作者有没有跟其中某个尤其以作者合作
过,如果找到这样的纪录那么就果断认为是这个无歧义作者写的。
方案,就是利用标注扩展的原理,找出文章之间的相似度,然后以作者为标签进行标注。通过上面的方法找出准确率比较高的某篇文章的标注没后通过相似度矩阵进
行反复迭代,最后就会沉淀出来的格局就是结果。不过这样所有文章一起算的话运算会有点大,毕竟作者数量还很多,而且标注向量太稀疏,所以打算首先对每个待
消歧作者的所有待消文章进行标签扩展,如果效果不好的话再想别的办法。
2013.5.21 - KDD第三十三天的更多相关文章
- 2013.5.23 - KDD第三十五天
看完睡不觉得世间有点虚度,然后就构思了一下带带回儿去找中秋要跟她说的事情,大概就是这样的: 我 打算用paper来计算人与人之间的距离,比如说我跟郑茂和写过一篇文章,然后郑茂根韩冰和写过一篇文章, ...
- FreeSql (三十三)CodeFirst 类型映射
前面有介绍过几篇 CodeFirst 内容文章,有 <(二)自动迁移实体>(https://www.cnblogs.com/FreeSql/p/11531301.html) <(三) ...
- 第三十三个知识点:Bellcore攻击是如何攻击使用CRT的RSA的?
第三十三个知识点:Bellcore攻击是如何攻击使用CRT的RSA的? 注意:这篇博客是由follow论密码计算中消除错误的重要性(On the importance of Eliminating E ...
- COJ967 WZJ的数据结构(负三十三)
WZJ的数据结构(负三十三) 难度级别:C: 运行时间限制:7000ms: 运行空间限制:262144KB: 代码长度限制:2000000B 试题描述 请你设计一个数据结构,完成以下功能: 给定一个大 ...
- NeHe OpenGL教程 第三十三课:TGA文件
转自[翻译]NeHe OpenGL 教程 前言 声明,此 NeHe OpenGL教程系列文章由51博客yarin翻译(2010-08-19),本博客为转载并稍加整理与修改.对NeHe的OpenGL管线 ...
- COJ 0967 WZJ的数据结构(负三十三)
WZJ的数据结构(负三十三) 难度级别:E: 运行时间限制:7000ms: 运行空间限制:262144KB: 代码长度限制:2000000B 试题描述 请你设计一个数据结构,完成以下功能: 给定一个大 ...
- 三十三、Java图形化界面设计——布局管理器之null布局(空布局)
摘自http://blog.csdn.net/liujun13579/article/details/7774267 三十三.Java图形化界面设计--布局管理器之null布局(空布局) 一般容器都有 ...
- JAVA之旅(三十三)——TCP传输,互相(伤害)传输,复制文件,上传图片,多并发上传,多并发登录
JAVA之旅(三十三)--TCP传输,互相(伤害)传输,复制文件,上传图片,多并发上传,多并发登录 我们继续网络编程 一.TCP 说完UDP,我们就来说下我们应该重点掌握的TCP了 TCP传输 Soc ...
- Gradle 1.12用户指南翻译——第三十三章. PMD 插件
本文由CSDN博客万一博主翻译,其他章节的翻译请参见: http://blog.csdn.net/column/details/gradle-translation.html 翻译项目请关注Githu ...
随机推荐
- springboot统一返回json数据格式并配置系统异常拦截
本文链接:https://blog.csdn.net/syystx/article/details/82870217通常进行前后端分离开发时我们需要定义统一的json数据交互格式并对系统未处理异常进行 ...
- Float在内存中的存储方式及IEC61131处理
Float在内存中的存储方式及IEC61131处理 1,fp32(32bits float)类型数据在存储器中占用4Bytes存储,且遵循IEEE-754标准: 一个浮点数分三部分组成: 符号位s(1 ...
- 02_四大组件之Activity
四大组件之Activity 1. 理论概述 1.1 Activity的理解 Servlet的理解回顾 狭义 Servlet是一个interface,我们的Servlet类都必须是此接口的实现类 广义 ...
- [转帖]AMD Zen霄龙中国版:海光x86拿下加解密全球第一
AMD Zen霄龙中国版:海光x86拿下加解密全球第一 http://www.eetop.cn/cpu_soc/6946203.html 其实技术发展都是先模仿 剽窃 再自我创新的 要加以鼓励 总比 ...
- Mybatis @Many注解一对多关联映射
@Many注解:fetchType属性用于配置是否延迟加载
- go 学习笔记(3) 基础结构
package main import ( "fmt" ) const NAME string = "imooc" var a string = "慕 ...
- Linux实现MYSQl数据库的定时备份
今天给大家分享一下如何在Linux下实现MYSQl数据库的定时备份. 前提需要保证你的Linux服务器已经安装了MYSQl数据库服务. 1.创建shell脚本 vim backupdb.sh 创建脚本 ...
- 浏览器输入 URL 之后的链路
视频 [序章]要找到B站有多难?秃头警告 脑图 一次完整的 Http 事务 文章 技术普及帖:你刚才在淘宝上买了一件东西 Github-从URL输入到页面展现到底发生什么? 总结的非常全 前端面试题: ...
- 【一起学源码-微服务】Netflix Eureka 源码一:Netflix Eureka 源码初探,我们为什么要读源码?
前言 最近发现 网上好多自己的博客,很多朋友转载了文章却不加下 原载地址,本文欢迎转载一起学习,请在目录出加上原出处,感谢.转载来自:博客(一枝花算不算浪漫) 看了前面几篇文章的小伙伴知道,前几天在学 ...
- JavaScript_01-script
编译和解释 var a = 0; console.log(a); var b = "abc"; 编译: 一次性把代码转换成 CPU 可以看懂的语言,一行一行执行: 解释:一行一行解 ...