昨天下午的时候中秋给我发短信"待会儿上课吧?上课讨论下?",然后我回复"嗯,好的。"然后上课的时候中秋说那个方案也许不太好执行,因为他后来看数据了,数据库里面这种"可以从从协同作者进行判断"的例子并不多。所以不能只靠那个。
 
然后今天早上
在床上没起来,就接到了瑞吉师兄打来的电话,才发现今天我们约好一起写NER的,结果被我忘了,是在非常囧。然后就跑过去了,然后找出之前写好的
代码,过一会儿师兄就过来了,跟我一起看代码,师兄的意思是在上面直接该,不过我的想法是还是重写吧,我说用状态机重写,因为之前的那个代码实在写得太搓
了,才三个多月之前写的代码,今天看起来竟然那么的不堪入目。我觉得这应该是侧面看出来我在进化吧,不过那代码看上去真是憋屈。不C++不C的,因为当时
印象中好像因为转码还有宽字符的问题在网上找了好多别人的代码段,然后拼得支离破碎的,今天实在是不好拿来见人了。不过现在情况不同了,幸好师兄对我科普
了一下,说gbk的话即使在char数组也可以有效操作。因为gbk的宽字符第一个都是负的,也就是第一字节的最高位为一。然后我就想用状态机实现,不过
一佳路过的时候听说我要用自动计就建议我最好别用自动机,因为会不好维护,我想确实也是,不过我觉得如果我把自动机画出来方仓库里应该还好。而且我觉得,
写代码最重要的是把你的心意放进去,前两天刚感写过此法分析,觉得些自动计挺简单的,而且感觉比if...else要科学些,然后就还是坚持写成自动机。
后来我就设计了一个自动计,写出来了。
 
晚上给师兄看,他说让我测试一下,测试了十几个语句,感觉没
什么问题,师兄叫我可以提交一下了,他说下一步的工作就是把预语料中的数字和字母从全角换成半角,然后再重训练一个模型。现在的训练模型的语料里面,语言
部分都是全角的,所以针对半角的输入精度会下降,因为正常我们今天输入的数字和字母都是半角的了。晚上把代码push上就走了,没办法,这个工程本身就是
很大,服务器上push一个代码都三十几k,不过今天有一点很失策就是把模型文件还有生成文件没clean就都推上去了,我还没敢跟一佳说呢,明天还得想
办法把那个扯下来。
 
所以明天的任务就是:
 
1、把纯代码提交上去;
2、把开发性注释去掉提交release版代码;
3、写脚本替换语料中全角数字和字母;
4、研究编译器代码,准备周二检查。。。

2013.5.4 - KDD第十六天的更多相关文章

  1. 2013.5.3 - KDD第十五天

    今天上午把昨天的想法给中秋发过去了,然后我就开始科普随机森林: 随机森林是一种比较新的机器学习模型.经典的机器学习模型是神经网络,有半个多世纪的历史了.神经网络预测精确,但是计算量很大.上世纪八十年代 ...

  2. 2013.5.2 - KDD第十四天

    今天早上来了之后就处理语料,然后发现处理好后的gbk编码的语料在HPC上没法训,而utf8在上面训练可以.后来就让它在上面训着,学长还没来. 学长回来之后问他怎么回事,他说不应该,然后我们看了一下第一 ...

  3. 孤荷凌寒自学python第八十六天对selenium模块进行较详细的了解

    孤荷凌寒自学python第八十六天对selenium模块进行较详细的了解 (今天由于文中所阐述的原因没有进行屏幕录屏,见谅) 为了能够使用selenium模块进行真正的操作,今天主要大范围搜索资料进行 ...

  4. Dynamic CRM 2013学习笔记(四十六)简单审批流的实现

    前面介绍过自定义审批流: Dynamic CRM 2013学习笔记(十九)自定义审批流1 - 效果演示 Dynamic CRM 2013学习笔记(二十一)自定义审批流2 - 配置按钮 Dynamic ...

  5. javaSE第二十六天

    第二十六天    414 1:网络编程(理解)    414 (1)网络编程:用Java语言实现计算机间数据的信息传递和资源共享    414 (2)网络编程模型    414 (3)网络编程的三要素 ...

  6. javaSE第十六天

    第十六天    140 1:List的子类(掌握)    140 (1)List的子类特点    140 (2)ArrayList    141 A:没有特有功能需要学习    141 B:案例    ...

  7. 第三百五十六天 how can I 坚持

    一年了,三百五十六天.写个算法算下对不对. 今天突然想买辆自行车了.云马智行车,还是捷安特,好想买一辆. 网好卡.貌似少记了一天呢,357了.好快. 睡觉了,还没锻炼呢,太晚了. 1458748800 ...

  8. IT第二十六天 - Swing、上周总结

    IT第二十六天 上午 Swing 1.对于方法的参数如果是int数值类型,应该直接调用该类中的常量属性,而不应该直接填入数字 2.Toolkit类中定义的方法是可以直接访问本地计算机(操作系统)信息的 ...

  9. Python第二十六天 python装饰器

    Python第二十六天 python装饰器 装饰器Python 2.4 开始提供了装饰器( decorator ),装饰器作为修改函数的一种便捷方式,为工程师编写程序提供了便利性和灵活性装饰器本质上就 ...

随机推荐

  1. [LeetCode] 133. Clone Graph 克隆无向图

    Clone an undirected graph. Each node in the graph contains a label and a list of its neighbors. OJ's ...

  2. [LeetCode] 218. The Skyline Problem 天际线问题

    A city's skyline is the outer contour of the silhouette formed by all the buildings in that city whe ...

  3. Dynamic Property Wizard 添加类提示 ATL类只能添加到MFC EXE 和MFC规则DLL项目或完全支持ATL的项目 错误提示解决方式

    在重新打开OPM项目添加ATL动态属性向导Dynamic Property Wizard提示错误 ATL类只能添加到MFC EXE 和MFC规则DLL项目或完全支持ATL的项目. 有效的解决方式,右键 ...

  4. 十、Spring的@Profile注解

    首先我们来看看spring官方文档对这个注解的解释: The @Profile annotation allows you to indicate that a component is eligib ...

  5. Windows常用命令的使用

    3.Tracert Tracert命令用来显示数据包到达目标主机所经过的路径,并显示到达每个节点的时间.该诊断实用程序将包含不同生存时间 (TTL) 值的 Internet 控制消息协议 (ICMP) ...

  6. FineUI window弹层设置

    需在页面先设置   <f:Window ID="Window1" runat="server" Height="600px" Widt ...

  7. Fiddler如何切换hosts以及切换hosts的另一个神器SwithcHosts

  8. python 之网络编程(基于TCP协议Socket通信的粘包问题及解决)

    8.4 粘包问题 粘包问题发生的原因: 1.发送端需要等缓冲区满才发送出去,造成粘包(发送数据时间间隔很短,数据了很小,会合到一起,产生粘包),这样接收端,就难于分辨出来了,必须提供科学的拆包机制. ...

  9. MySQL 总结篇 [在Oracle基础上学习的MySQL]

    一.学习环境 MySQL 5.7社区版 Navicat for MySQL 百度网盘下载链接:https://pan.baidu.com/s/1yGnznwoZ8CaMgrCsDBhKAQ 二.MyS ...

  10. 解决unzip解压中文乱码问题

    使用 unzip XXX.zip 方式解压的时候会出现中文乱码 很多人推荐以下方式: 在windows执行命令,可显示字符集数字一般为936: # chcp // 解压时加上-O cp936,xxx为 ...