2013.4.30 - KDD第十二天
早上来实验室,本来打算向秦师兄要文献的,不过秦师兄上午不在,所以就没有联系他。于是就开始调试郑茂的代码,发现原来那个itoa函数不是标准库里面 的,所以可能只有windows上可以用。然后我就在打电脑上变异了一下果然就是可以。不过运行结果最有一行有一个大大的ERROR,还在调试中。
下午开例会的时候,上面汇报工作,我就在下面想KDD怎么用CoAuthor,一般开会的时候灵感特别丰富,于是果然就有了一个点子。大概是这样的:
先样例程序那个最后一个特征粒度不够,我可以细化这个特征,就用社会挖掘。方法的核心是这样的,比如我跟郑茂都是新手,如果用最后一个特征来看,我俩共同
发表的文章很可能就会被判定为不是我写的,你为我跟他从没合作过,但我俩其实有潜在的和所关系,因为我跟秦老师发表过一篇文章,他也之前跟秦老师发表过一
篇文章,这样我俩相当于合作发表过半篇文章,或者其他的记数方式,就是即在我俩的潜在合作程度、潜在合作倾向。然后例会之后,我就把这个想法给中秋发了过
去,然后就去跟TM组聚餐了。
回实验室后就看到了中秋给我发来邮件,意思是要紧急召见我商量,
我觉得可能有很大进展,我觉得
中秋很少这么紧急过,然后也没说二话,直接拿着口香糖,然后在楼下超市买了瓶蜂蜜,直接奔Nclab杀过去了,那时已经是九点多了,到那里的时候发现果然
KDD出了问题,中秋告诉我之前的想法有错误,下午的时候他又仔细看了一下数据库,发现好像题意又理解错了。
现在中秋认为数据库的含义是这样的,就是问题主要在Paper-Author上面,一个paper的真实情况是四个人写的,比如就是“黄靖文”和“王中秋”和“唐佳伟”和“张成宇”,但是在数据库里面查询的话却能查询出来六个条目:
------------------------------------------------------
PaperId | AuthorId | Affiliation
------------------------------------------------------
------------------------------------------------------
4444 | 88 (王中秋) | 哈尔滨工业大学
------------------------------------------------------
4444 | 77 (王中秋) | 香港大学
------------------------------------------------------
4444 | 66 (王中秋) | 浙江大学
------------------------------------------------------
4444 | 89 (黄靖文) | 哈尔滨工业大学
------------------------------------------------------
4444 | 90 (唐佳伟) | 哈尔滨工业大学
------------------------------------------------------
4444 | 91 (张成宇) | 哈尔滨工业大学
------------------------------------------------------
也
就是他在爬下来数据之后为了某种完整性就对paper和相同的作者名对作者和paper做过笛卡尔乘积。我们的工作就是给出88这个id,然后对每个这样
有作者歧义的paperid,确认88是不是写这篇文章的那个王中秋。而如果给你66这个id,你就应该识别出来这篇文章(4444)不是66这个王中秋
写的,就是说虽然数据库里面记载了,但经过我们的计算他没有写过这篇文章,4444这篇文章不是77写的。本质上还是个消歧问题。
之
前的想法就是以为Paper-Author是普通噪声,可以使用,所以我想了上面那个社交关系的解法,不过现在不能直接从PaperAuthor上面直接
挖掘社交关系了,现在就很难办,因为我们Paper是联系Paper与Author的关联表,没有他信息是断开的,这回题一下子就变得很难。目前我们俩的
想法就是从特殊情况,也就是可以确定的情况上入手,比如在上面这个有作者歧义的paper中,我发现有三个作者都是,没有歧义的,而这三个无歧义作者的机
构都是“哈尔滨工业大学”,所以我就认为88这个王中秋是写这篇文章的王中秋,因为这几个王中秋只有他的机构也是“哈尔滨工业大学”,在这一步就是相当用
同文章的无歧义作者来判定有歧义作者。然后就知道了88这个王中秋的一个研究方向,就是用当前这个paper来topic
model,得出这一个topic
model向量,对数据库所有与88有关的paper都做这样的处理,拿到所有可以确定是他写的文章,以及算出这些确定是他写的paper topic
model向量。得到这些可确定topic之后用这些topic向量算出他的研究领域的正太分布。然后对那些分不出来是不是他写的文章进行跟这个正态分布
比较,如果差的太远就认为不是这个88的王中秋写的,就判为反例,但如果在这个正态分布之下,那么就认为这篇文章也是他写的,那么就把这篇文章加入到确定
是他写的文章集合里,然后重新计算正态分布。知道所有用88这个id查出来的文章都被分完。
这是我们晚上在Nclab和路上还有在厨房角讨论的结果。接下来的任务是对这个思想进行细化:
如何利用Train集做些什么,因为这里面的信息都是非常确定了,肯定有大用途。
1、对于那些小众的人,就是不怎么写文章,名字却很大众化的人怎么办。
2.1、对于悲催一点的情况,一篇文章对应着几个作者,然而这几个作者都有歧义,怎么办。我现在的想法是如果有两个歧义中的作者拥有共同机构,就判定就是他俩写的:
------------------------------------------------------
PaperId | AuthorId | Affiliation
------------------------------------------------------
------------------------------------------------------
4444 | 88 (王中秋) | 哈尔滨工业大学 <- 机构连连看
------------------------------------------------------
4444 | 77 (王中秋) | 香港大学
------------------------------------------------------
4444 | 66 (王中秋) | 浙江大学
------------------------------------------------------
4444 | 89 (黄靖文) | 哈尔滨工业大学 <- 机构连连看
------------------------------------------------------
4444 | 90 (黄靖文) | 复旦大学
------------------------------------------------------
4444 | 91 (黄靖文) | 北京大学
------------------------------------------------------
2.2、不过也不排除更悲催一点的情况就是有两组共同机构的歧义作者:
------------------------------------------------------
PaperId | AuthorId | Affiliation
------------------------------------------------------
------------------------------------------------------
4444 | 88 (王中秋) | 哈尔滨工业大学
------------------------------------------------------
4444 | 77 (王中秋) | 香港大学
------------------------------------------------------
4444 | 66 (王中秋) | 浙江大学
------------------------------------------------------
4444 | 89 (黄靖文) | 哈尔滨工业大学
------------------------------------------------------
4444 | 90 (黄靖文) | 香港大学
------------------------------------------------------
4444 | 91 (黄靖文) | 浙江大学
------------------------------------------------------
3、
对于更悲催的情况,一篇只有一个作者却有作者歧义的paper怎么办。就是说一篇文章就是陈磊写的,但是这个paper却对应很多陈磊不确定,没有其他
coauthor用来消歧。这种情况只能先看一看其他同名作者能不能认领这篇文章,如果已经被其他同名者认领走了那就就不用再判断了,不是这个陈磊写的
了。
2013.4.30 - KDD第十二天的更多相关文章
- 2013.6.28 - KDD最后一天
今天收到中秋的邮件.KDD结果出来了,Zhongqiu Wang & Jingwen Huang 15th/561.
- 2013.5.21 - KDD第三十三天
实验室例会,上到一半之后发现今天下午第二节课是Android,上次两节Android都没跟中秋碰头,这次又不能碰头了,然 后就赶紧给中秋发了个短信,说我在开会,晚上约个时间再谈.正好也称这一下午加一晚 ...
- 2013.5.3 - KDD第十五天
今天上午把昨天的想法给中秋发过去了,然后我就开始科普随机森林: 随机森林是一种比较新的机器学习模型.经典的机器学习模型是神经网络,有半个多世纪的历史了.神经网络预测精确,但是计算量很大.上世纪八十年代 ...
- 2013.4.29 - KDD第十一天
今天上午在图书馆写FIrst集,真心没写出来,算法是昨天找好的,不过实现的话还是需要很大的代码量,然后就打算用郑茂或者韩冰的代码了. 晚上图书馆快关门的时候开始思考KDD的问题, 我一开始打算给中秋发 ...
- 2013.4.23 - KDD第五天
今天晚上郭宇航师兄从外面回来问我那天找他什么事,然后我们就开始讨论KDD的第一个题目,其实第一个题目跟郭师兄的课题不太相关,本来想问他关于语义消 岐的那道题(第二道),不过第二题的内容我给忘了,然后我 ...
- 2013.4.19 - KDD第一天
其实昨天KDD就开始了,不过今天算是我跟KDD的第一天. 昨天夜里就短信跟中秋聊了一会儿,然后中秋说他一天都在弄数据库,连不上怒了.然后我跟他说明天我来.于是今天就在图书馆弄KDD,数据是用数据库 ...
- Cheatsheet: 2013 06.23 ~ 06.30, Farewell GoogleReader(2008.07.20~2013.06.30)
Mobile Resources for Mac and iOS Developers- Introduction to Objective-C Modules Other 10 Principles ...
- 2013.5.23 - KDD第三十五天
看完睡不觉得世间有点虚度,然后就构思了一下带带回儿去找中秋要跟她说的事情,大概就是这样的: 我 打算用paper来计算人与人之间的距离,比如说我跟郑茂和写过一篇文章,然后郑茂根韩冰和写过一篇文章, ...
- 2013.5.8 - KDD第二十天
下午去上刘杨老师的机器学习课,今天讲的"朴素被噎死",他本想当场举个例子,结果读了好半天才吧关系都拼凑上,他说明天给我们带来个精彩的,回去之后夜里把朴素贝叶斯自己又脑补了一下,发现贝叶斯原理(后验)就 ...
随机推荐
- .Net Core控制台应用程序使用依赖注入、配置文件等
.Net Core作为一门新语言,资料实在是太少了,并且国内学习的人也不多,虽然性能还行也跨平台了但是生态圈不发展起来也不行 刚出来的时候用 .Net Core + Dapper + Mysql 弄了 ...
- 【VS开发】MFC CListCtrl列表控件的消息响应
MFC里的CListCtrl选中一行,消息是哪个.实在想不起来了.找了一篇文章,比较有用: http://www.cnblogs.com/hongfei/archive/2012/12/25/2832 ...
- 在ObjectARX中创建OPM项目的时候出现 MIDL1012: argument illegal for switch / header错误的解决方式
修改为 这样新建的带有MIDL项目就不会提示错误这个错误了. 如果你已经建立好项目,可以尝试修改MIDL的配置,头文件可能是.h没有文件名,所以出现MIDL1012错误,修改为项目名称的.h即可,保持 ...
- celery无法启动的问题 SyntaxError: invalid syntax
遇到了celery无法启动的问题,报错:SyntaxError: invalid syntax ,这是因为我使用的python版本为最新3.7.3 ,而async已经作为关键字而存在了 在 celer ...
- 细数那些Java程序员最容易犯那些错
java作为最受欢迎程度榜榜首语言,自然是广大开发者使用最多的语言.正因为有如此广泛的使用性,java开发中发生异常也比比皆是,接下来我们就来看看那些java开发中最容易出现的那些错误. 1.重复造轮 ...
- Windows常用命令的使用
3.Tracert Tracert命令用来显示数据包到达目标主机所经过的路径,并显示到达每个节点的时间.该诊断实用程序将包含不同生存时间 (TTL) 值的 Internet 控制消息协议 (ICMP) ...
- java File源码理解,探索File路径
1.方法: new File(path); 我们知道根据输入的路径path的不同 ,File可以根据path的不同格式,来访问文件.那么,path的形式有几种呢? 根据源码 可以知道,输入的路径pat ...
- FineUI window弹层设置
需在页面先设置 <f:Window ID="Window1" runat="server" Height="600px" Widt ...
- [转帖]Introduction to Linux monitoring and alerting
Introduction to Linux monitoring and alerting https://www.redhat.com/sysadmin/linux-monitoring-and-a ...
- Linux学习-软件包管理安装
rpm RPM是Red-Hat Package Manager(RPM软件包管理器)的缩写 软件包类型 二进制包:已经使用GCC编辑后的 tar源码包:需要编译 rpm包获取方式 1,系统镜像 需 ...