2013.4.30 - KDD第十二天】的更多相关文章

早上来实验室,本来打算向秦师兄要文献的,不过秦师兄上午不在,所以就没有联系他.于是就开始调试郑茂的代码,发现原来那个itoa函数不是标准库里面 的,所以可能只有windows上可以用.然后我就在打电脑上变异了一下果然就是可以.不过运行结果最有一行有一个大大的ERROR,还在调试中. 下午开例会的时候,上面汇报工作,我就在下面想KDD怎么用CoAuthor,一般开会的时候灵感特别丰富,于是果然就有了一个点子.大概是这样的:   首 先样例程序那个最后一个特征粒度不够,我可以细化这个特征,就用社会挖…
今天收到中秋的邮件.KDD结果出来了,Zhongqiu Wang & Jingwen Huang 15th/561.  …
实验室例会,上到一半之后发现今天下午第二节课是Android,上次两节Android都没跟中秋碰头,这次又不能碰头了,然 后就赶紧给中秋发了个短信,说我在开会,晚上约个时间再谈.正好也称这一下午加一晚上的时间把那三篇论文温习一遍,然后把CRF.MRF再看看,不过果然 还是没于看懂,晚上吃完饭回来打算找学长问,不过学长吃饭去了还没有回来,就自己看那篇综述.   等学 瑞吉师兄回来之后就跟师兄到会议室讨MRF还有这个题目.其实之前对MRF一直存在误解,这是主要障碍,以前一直以为每个节点都代表一种la…
今天上午把昨天的想法给中秋发过去了,然后我就开始科普随机森林: 随机森林是一种比较新的机器学习模型.经典的机器学习模型是神经网络,有半个多世纪的历史了.神经网络预测精确,但是计算量很大.上世纪八十年代Breiman等人发明分类树的算法(年Breiman把分类树组合成随机森林(Breiman 2001a),即在变量(列)的使用和数据(行)的使用上进行随机化,生成很多分类树,再汇总分类树的结果.随机森林在运算量没有显著提高的前提下提高了预测精度.随机森林对多元公线性不敏感,结果对缺失数据和非平衡的数…
今天上午在图书馆写FIrst集,真心没写出来,算法是昨天找好的,不过实现的话还是需要很大的代码量,然后就打算用郑茂或者韩冰的代码了. 晚上图书馆快关门的时候开始思考KDD的问题, 我一开始打算给中秋发邮件来着,因为我开始觉得他给我的Co-Author好像跟“与当前文章合作的Co-Authro的历来合作的文章总数”那个SQL特征没什么改进,大概就是一样的,只不过可能粒度小. 不过在发邮件之前我还是有打算再调研调研,于是就上网搜了一下社会计算.DBscan...没什么头绪. 晚上回寝室之后,继续到自…
今天晚上郭宇航师兄从外面回来问我那天找他什么事,然后我们就开始讨论KDD的第一个题目,其实第一个题目跟郭师兄的课题不太相关,本来想问他关于语义消 岐的那道题(第二道),不过第二题的内容我给忘了,然后我们就开始讨论第一道题,第一道题的内容说清楚了,然后师兄要看一下示例代码,但是关键的地 方,SQL语句抽出来的特征分别代表什么被我忘记了,非常尴尬.讨论的结果大概是这样的: 可以test驱动那种,但是别太过火,容易过拟合,当前榜上排前几名都已靖97%的那几个队有可能就已经过拟合了,因为他们尝试的次数太…
其实昨天KDD就开始了,不过今天算是我跟KDD的第一天.   昨天夜里就短信跟中秋聊了一会儿,然后中秋说他一天都在弄数据库,连不上怒了.然后我跟他说明天我来.于是今天就在图书馆弄KDD,数据是用数据库存储的而 不是文件,数据库用的PostgreSQL,然后就在Linux上搭建PostgreSQL,没什么问题.就是最后在载入样例数据备份的时候数据一直下载 不下来,然后就到中秋哪里拿数据.   在中秋那里看了一下他的错误,其实没解决,我的感觉还是他的安装包的问题,貌似PostgreSQL对Windo…
Mobile Resources for Mac and iOS Developers- Introduction to Objective-C Modules Other 10 Principles of Good Mobile Library Design Build Hadoop Eclipse Plug-in Jar From Source Code And Install That Plug-in In Eclipse IDE Mobile Web Problems and How t…
看完睡不觉得世间有点虚度,然后就构思了一下带带回儿去找中秋要跟她说的事情,大概就是这样的:   我 打算用paper来计算人与人之间的距离,比如说我跟郑茂和写过一篇文章,然后郑茂根韩冰和写过一篇文章,这样我跟韩冰的距离比较近,这样如果我在一篇文 章中跟其他两个id有名称歧义的话而且其中韩冰又是其中一个无歧义作者,那没看我这个id跟韩冰这么近,肯定是我写的文章.   晚 上八点多快九点的时候给中求发短信,然后他说现在可以过去,我就过去了.过去之后我跟她说了这个想法没他说有问题,具体问题就是我是我们…
下午去上刘杨老师的机器学习课,今天讲的"朴素被噎死",他本想当场举个例子,结果读了好半天才吧关系都拼凑上,他说明天给我们带来个精彩的,回去之后夜里把朴素贝叶斯自己又脑补了一下,发现贝叶斯原理(后验)就是个很简单的因果现象.   正常的因果现象是,给你一个起因,可能会有不同的结果,而每种结果的概率是P(果|因).   而所谓的"后验过程"就是当你看到结果是这样的时候,问最可能是哪种原因造成现在这个结果.   这 里我想到了一年前理学院的王勇老师给他们学上讲课的时候用过的一个例子:说你是某工厂的厂长…
昨天下午的时候中秋给我发短信"待会儿上课吧?上课讨论下?",然后我回复"嗯,好的."然后上课的时候中秋说那个方案也许不太好执行,因为他后来看数据了,数据库里面这种"可以从从协同作者进行判断"的例子并不多.所以不能只靠那个.   然后今天早上还 在床上没起来,就接到了瑞吉师兄打来的电话,才发现今天我们约好一起写NER的,结果被我忘了,是在非常囧.然后就跑过去了,然后找出之前写好的 代码,过一会儿师兄就过来了,跟我一起看代码,师兄的意思是在上面直接该,不过我的想法是还是重写吧,我说用状态机重写,因为…
今天早上来了之后就处理语料,然后发现处理好后的gbk编码的语料在HPC上没法训,而utf8在上面训练可以.后来就让它在上面训着,学长还没来. 学长回来之后问他怎么回事,他说不应该,然后我们看了一下第一条的gbk语料,发现可以,然后学长说认为是我处理出来的语料还是有问题,还需要在继续检查. 下午回来之后,就看到了秋哥的邮件: 差不多是这个意思,第三点需要注意的.不仅仅是建立哈工大的高文的这一类,还需要建立中科院的高文的一类,或者另外一个高文的一类. 思路跟附件中Name Disambiguatio…
今天把昨天的思路整理了一下,给中秋发过去了,还没回我. 然后就全天看代码了,把NER跟LTP的接口又过了一下.晚上师兄跟我约好这周六一起把LTP写完,到时候我们俩都早点过来. 这之前需要做的有: 1.处理预料.之前用的语料不知道放哪了,打算重新训练语料.2.训练模型.这回用HPC训练预料,估计会比台式机或者笔记本快一些.3.找代码.之前LTP的代码不知道放哪里去了,需要找到之前写好的逻辑. 然后晚上就一直在处理语料了,洗了好久,最后还是有问题,打算明天早上来了继续洗,明天是周四,我的班.…
下午上Android课,我看中秋也选这个课了,然后在上半节的时候速补了一下秦海龙师兄的那篇文章.中间休息的时候窜到了中秋那里,然后讨论了半节课现在的情况. 现在的情况是这样的: 中 秋开始是没有进行主题建模,直接用跟样例相同的特征训练了四个分类器,分别是LVM.LR.RF.GBDT,然后对这四个分类器进行组合,不过效果不是很 理想,LVM.LR.RF这三个分类器单独工作的时候不如GBDT,而且这四个组合起来的效果还不如GBDT单独的效果,所以他还在研究. 另 一方面他现在在写主题建模的程序,基本…
今天早上,中秋给我发了一个压缩包,里面有战德臣的课件,昨天我说我SQL没学好,他说给我发战徳臣课件,然后说我SQL不会的话可以看这个,还有两篇文 章<LDA数学八卦>以及<A Note on EM Algorithm and PLSA>,分别是讲LDA和PLSA的. 让我看说明: 1.有个文件里面有专门讲sql的:2.LDA 和PLSA的文件,可以看一下,大概了解下输入输出,算法过程.我建议你现在想想共同作者或者机构的问题,了解下主题模型可能会有帮助,找出作者的 topic这个我正…
http://www.lifeonplanetgroove.com/adding-and-deploying-generic-handlers-ashx-to-a-sharepoint-2010-visual-studio-project/ Adding And Deploying Generic Handlers (.Ashx) To A SharePoint 2010 Visual Studio Project ASP.NET, SHAREPOINT, TECHNOLOGY by ADAM…
兼职人员信息管理系统源码  2013-8-2 [VS2008]2013.8.2更新内容:修改了一级菜单不能修改的bug.功能介绍:兼职人员信息管理:添加,修改,删除,查询,支持数据导出Excel,按多种条件查询.兼职管理:兼职人员  定点人员.职员管理:部门管理 员工管理.系统设置:菜单维护 角色维护 系统日志. 基于JQuery EasyUI的通用管理系统源码  2013-8-2 [VS2010]源码描述:基于JqueryEasyUI的通用系统后台,可以很方便的扩展成CRM,OA,MIS系统,…
请管理员移至新闻版块,谢谢! 来源:http://www.sec.gov/ 财务报表下载↓ 此文仅作参考分析. 10-K 1 goog2013123110-k.htm FORM 10-K   UNITED STATES SECURITIES AND EXCHANGE COMMISSION Washington, D.C. 20549         FORM 10-K   (Mark One)       ý ANNUAL REPORT PURSUANT TO SECTION 13 OR 15(…
首页 资讯 小组 资源 注册 登录       首页 最新文章 业界 开发 IT技术 设计 创业 IT职场 访谈 在国外 经典回顾 更多 > - 导航条 - 首页 最新文章 业界 - Google - Facebook - Apple - Twitter - 微软 开发 - Web开发 -- Javascript -- CSS -- HTML5 -- jQuery -- NodeJS - iOS - Android - Python - Java - C - C++ - PHP - Ruby -…
一.border-radius border-radius用于添加圆角边框,用处非常广泛. 1)一个值,代表了四个角 .radius-one { /* Safari 3-4, iOS 1-3.2, Android 1.6- */ -webkit-border-radius: 12px; /* Firefox 1-3.6 */ -moz-border-radius: 12px; /* Opera 10.5, IE 9, Safari 5, Chrome, Firefox 4, iOS 4, And…
从0开始搭建SQL Server AlwaysOn 第二篇(配置故障转移集群) 第一篇http://www.cnblogs.com/lyhabc/p/4678330.html第二篇http://www.cnblogs.com/lyhabc/p/4682028.html第三篇http://www.cnblogs.com/lyhabc/p/4682986.html第四篇http://www.cnblogs.com/lyhabc/p/6136227.html 这一篇是从0开始搭建SQL Server…
从0开始搭建SQL Server AlwaysOn 第三篇(配置AlwaysOn) 第一篇http://www.cnblogs.com/lyhabc/p/4678330.html第二篇http://www.cnblogs.com/lyhabc/p/4682028.html第三篇http://www.cnblogs.com/lyhabc/p/4682986.html第四篇http://www.cnblogs.com/lyhabc/p/6136227.html 这一篇是从0开始搭建SQL Serve…
将通用的序列号生成器库 从SQL Server迁移到Mysql 遇到的一个问题,就是TimeStamp/RowVersion并发控制类型在非Microsoft SQL Server数据库中的实现.SQL Server timestamp 数据类型与时间和日期无关.SQL Server timestamp 是二进制数字,它表明数据库中数据修改发生的相对顺序.实现 timestamp 数据类型最初是为了支持 SQL Server 恢复算法.每次修改页时,都会使用当前的 @@DBTS 值对其做一次标记…
原文地址: http://www.cnblogs.com/lyhabc/p/4682986.html 这一篇是从0开始搭建SQL Server AlwaysOn 的第三篇,这一篇才真正开始搭建AlwaysOn,前两篇是为搭建AlwaysOn 做准备的 步骤 这一篇依然使用step by step的方式介绍怎麽搭建AlwaysOn 请先使用本地用户Administrator登录这两个集群节点并执行下面的操作,先不要用域用户DCADMIN登录 1.两个集群节点都需先安装.NET Framework…
前言: CNN作为DL中最成功的模型之一,有必要对其更进一步研究它.虽然在前面的博文Stacked CNN简单介绍中有大概介绍过CNN的使用,不过那是有个前提的:CNN中的参数必须已提前学习好.而本文的主要目的是介绍CNN参数在使用bp算法时该怎么训练,毕竟CNN中有卷积层和下采样层,虽然和MLP的bp算法本质上相同,但形式上还是有些区别的,很显然在完成CNN反向传播前了解bp算法是必须的.本文的实验部分是参考斯坦福UFLDL新教程UFLDL:Exercise: Convolutional Ne…
这篇文章主要是综合网上关于web.xml的一些介绍,希望对大家有所帮助,也欢迎大家一起讨论. ---题记 一.            Web.xml详解: (一)  web.xml加载过程(步骤) 首先简单说一下,web.xml的加载过程. 当我们去启动一个WEB项目时,容器包括(JBoss.Tomcat等)首先会读取项目web.xml配置文件里的配置,当这一步骤没有出错并且完成之后,项目才能正常地被启动起来. l  启动WEB项目的时候,容器首先会去它的配置文件web.xml读取两个节点: …
http://www.2cto.com/kf/201606/513980.html https://developer.apple.com/library/ios/technotes/tn2224/_index.html 这个是 Apple 为了提高流播效率开发的技术,特点是将流媒体切分为若干 TS 片段(比如每10秒一段),然后通过一个扩展的 m3u 列表文件将这些TS 片段集中起来供客户端播放器接收. 这样做相比使用 RTSP 协议的好处在于,一旦切分完成,之后的分发过程完全不需要额外使用任…
http://www.cnblogs.com/sunzhenchao/archive/2013/01/30/2883289.htmlhttp://blog.csdn.net/pein_zero/article/details/52597615 前言      在安装之前,我想说明一下本文的目的,jenkins的一款持续集成工具,      它可以做的事情很多,其中一个主要的功能就是简化部署流程          回想一下我们的发布流程:           1.本地把项目打包          …
https://www.ibm.com/developerworks/cn/linux/l-cn-screen/ http://www.cnblogs.com/mchina/archive/2013/01/30/2880680.html http://unix.stackexchange.com/questions/162133/run-script-in-a-screen 问题: http://blog.sina.com.cn/s/blog_704836f401010osn.html Cann…
db2日期和时间常用汇总 1.db2可以通过SYSIBM.SYSDUMMY1.SYSIBM.DUAL获取寄存器中的值,也可以通过VALUES关键字获取寄存器中的值. SELECT 'HELLO DB2' FROM SYSIBM.SYSDUMMY1;--HELLO DB2 SELECT 'HELLO DB2' FROM SYSIBM.DUAL;--HELLO DB2 VALUES 'HELLO DB2';--HELLO DB2 2.CURRENT DATE获取当前日期:CURRENT TIME获取…