(标题长一点就能让外行人感觉到高大上) 直接切入主题好了,这个比赛还必须一个神经网络才可以 所以我们结合主题,打算写一个神经网络的中文分词 这里主要写一下数据的收集和处理,网络的设计,代码的编写和模型测试 数据问题 这个模型的数据,我们打算分三类来: 用msr, pku, as, cityu的语料作数据 这些是人工分词的数据,作为数据是最合适的 虽然数据量确实不小(共158999行),但我们有几个另外的想法 用已有的多个中文分词工具,对小说.新闻.法律等进行分词,作为数据 很多分词工具的分词结果…
因为intel杯创新软件比赛过程中,并没有任何记录.现在用一点时间把全过程重演一次用作记录. 学习 pytorch 一段时间后,intel比赛突然不让用 pytoch 了,于是打算转战intel caffe. ArchLinux 安装intel caffe 失败 首先安装caffe依赖,安装intel mkl,最后编译安装intel caffe # yaourt -S caffe-git 这句话就可以直接安装caffe,但看起来不是intel caffe git clone http://git…
放弃使用pytorch,学习caffe 本文仅记录个人观点,不免存在许多错误 Caffe 学习 caffe模型生成需要如下步骤 编写network.prototxt 编写solver.prototxt caffe train -solver=solver.prototxt network.prototxt编写 在caffe中,Net由Layer构成,其中数据由Blob进行传递 network编写就是组织layer 关于layer如何编写,参考caffe.proto 这里写出layer一般形式 l…
咱这个项目最主要的就是这个了 贝叶斯分类器用于做可以统计概率的二元分类 典型的例子就是垃圾邮件过滤 理论基础 对于贝叶斯算法,这里附上两个链接,便于理解: 朴素贝叶斯分类器的应用-阮一峰的网络日志 基于朴素贝叶斯到中文垃圾邮件分类器 朴素贝叶斯分类器和一般的贝叶斯分类器有什么区别?-知乎 这里我们用朴素贝叶斯分类,假设所有特征都彼此独立,贝叶斯公式是这样 \[ P(A|B)=\frac{P(B|A)P(A)}{P(B)}=\frac{P(B|A)P(A)}{P(B|A)+P(B|\bar{A})…
现在在训练模型,闲着来写一篇 顺着这篇文章,顺利安装上intel chainer 再次感谢 大黄老鼠 intel chainer 使用 头一次使用chainer,本以为又入了一个大坑,实际尝试感觉非常兴奋 chainer的使用十分顺畅,开发起来特别友好 可能是跟pytorch相似的原因,特喜欢chainer 网络结构编写 这里如果用过pytorch,就会发现代码几乎没变,写起来就会非常顺手 在chainer中layers被视为links,Module被叫做Chain, chainer的意思由此可…
postgres中的中文分词zhparser postgres中的中文分词方法 基本查了下网络,postgres的中文分词大概有两种方法: Bamboo zhparser 其中的Bamboo安装和使用都比较复杂,所以我选择的是zhparser zhparse基于scws scws是简易中文分词系统的缩写,它的原理其实很简单,基于词典,将文本中的内容按照词典进行分词,提取关键字等.github上的地址在这里.它是xunsearch的核心分词系统. 而zhparser是基于scws来做的postgr…
原文:SQL Server 字段类型 decimal(18,6)小数点前是几位?记一次数据库SP的BUG处理 SQL Server 字段类型 decimal(18,6)小数点前是几位? 不可否认,这是一个很低级的问题.... 为什么会问这么低级的问题? 由于这个问题,导致一个数据导入的SP执行失败....以至于困扰了我好几个小时.... 事情是这样的... 公司总部上了一套Oracle的ERP,我们系统中有些数据要从里面取,比如Supplier,Product等. Oracle会导出数据文件,我…
HTML5学堂 那些盒模型在IE6中的BUG们,工程狮的你可曾遇到过? IE6已经渐渐的开始退出浏览器的历史舞台.虽然当年IE6作为微软的一款利器击败网景,但之后也因为版本的持续不更新而被火狐和谷歌三分天下.可谓成在IE6,亦败在IE6啊~ 说到前端开发,不得不说,在所有前端工程师的心中,IE6是曾经永远的痛~ 在这里,小编总结罗列了一下IE6的问题,跟大家分享一下.今天就先从盒模型入手啦~ 盒模型基本概念 盒模型指css布局中html中的每个元素在浏览器中的解析都可以被看作一个盒子,拥有盒子一…
网页开发要面对各种各样的浏览器,让人很头疼,而移动开发中,你不但要面对浏览器,还要面对各种版本的手机,iOS好一点,而安卓就五花八门了,你可能在开发中也被它们折磨过,或者正在被它们折磨,我在这里说几个我在开发中遇到的比较难缠问题,和解决方案,给其他朋友提个醒,因为一旦碰到了这些bug,虽然解决方法不难,但是你可能要花上几个小时,几天,甚至更长时间才能解决它们,遇到这些bug的话要注意,以后发现其他bug也会继续补充,也希望你也可以把你遇到的bug或者解决方案回复给我,我会一起补充到文章里,帮助其…
遭遇 bug 的时候,理性的程序员会说:这个 bug 能复现吗? 自负型:这不可能,在我这是好好的. 经验型:不应该,以前怎么没问题? 幻想型:可能是数据有问题. 无辜型:我好几个星期都没碰这块代码了! 乐观型:只需要改一行代码,不会影响其它程序的. 实践型:你重启一下服务试试. 无论你是哪种类型的程序员,遭遇 bug,内心都是崩溃的,尤其是产品经理或测试人员在使用或测试产品的过程中抓到你的一个 bug 之后那种如获至宝的表情和欢呼声,会让我们的心情久久不能平静.于情于理,防患于未然,减少编程中…
第一次参加,天池大数据竞赛(血糖预测),初赛排名1%.因为自己对python不熟悉,所以记录一下在比赛中用到的一些python方法的使用(比较基础细节,大佬绕道): 1.数据初探 data.info() data.describe() 使用上面两行代码,可以初步的看到整个数据的分布.缺失等情况 2.数据中存在性别是字符串表示的,使用map方法,将他数字化,当然也可以使用onehot.(python把字符串数据转变成数字) data['性别'] = data['性别'].map({'男' :1,'…
[CTF 攻略]CTF比赛中关于zip的总结   分享到: --> 本文首发于安全客,建议到原地址阅读,地址:http://bobao.360.cn/ctf/detail/203.html 前言 在CTF比赛的MISC和CRYPTO中,经常要和zip压缩包打交道,这里做一个zip方面的总结. 本文中用到的所有文件和工具都可在这个网盘中找到http://pan.baidu.com/s/1bWQxyA 目录 隐写篇 0x01. 通过进制转换隐藏信息 0x02. 在图片中隐藏压缩包(图种) 加密篇 0…
一.将字符串转化为字符数组: toCharArray返回一个字符数组. char[] a=J.toCharArray(); 二.字符串的长度 字符串的长度和字符数组的长度是不一'样'的. 字符串长度(字符串中的字符个数): String J="HELLO"; J.length(); 字符串的长度为5,且是一个方法length(); 字符数组的长度: String J="HELLO"; char a=J.toCharArray(); System.out.printl…
C 编译器优化过程中的 Bug 一个朋友向我指出一个最近他们发现的 GCC 编译器优化过程(加上 -O3 选项)里的 bug,导致他们的产品出现非常诡异的行为.这使我想起以前见过的一个 GCC bug.当时很多人死活认为那种做法是正确的,跟他们说不清楚.简言之,这种有问题的优化,喜欢利用 C 语言的“未定义行为”(undefined behavior)进行推断,最后得到奇怪的结果. 这类优化过程的推理方式都很类似,他们使用一种看似严密而巧妙的推理,例如:“现在有一个整数 x,我们不知道它是多少.…
[转]http://macshuo.com/?p=1361 怎么减少编程中的 bug? Posted on 2016 年 2 月 17 日 为什么要编程?因为代码没在那里.创造一个世界是如此让人着迷,Linux 的创始者 Linus 这样表述对编程的喜爱之情: 对于喜爱编程的人来说,编程是世界上最有趣的事,比下棋有趣得多!因为你可以自己制订游戏规则,而你制定什么样的规则,也就会随之出现与此规则相符合的结果. 在电脑世界中,你就是创世者,你对所发生的一切拥有最终的控制. 你可以建筑一个这样的房子,…
cocos2d-html5学习笔记(六)--alpha2中cc.Sequence.create中的bug http://blog.csdn.net/allenice1/article/details/7747425 分类: javascript cocos2d-html52012-07-14 20:08 3005人阅读 评论(0) 收藏 举报 actionfunctionnullobject 今天学习了action,可是练习cc.Sequence.create的时候.发现了问题. cc.Sequ…
PHP 日常开发过程中的bug集合(持续更新中...) 在日常php开发过程中,会遇到一些意想不到的bug,所以想着把这些bug记录下来,以免再犯! 1.字符串 '0.00'.'0.0'.'0'  是否为空的问题 bug:'0.00'和'0.0'都为真,只有'0'才为假.如果想判断是否为真,可以使用float()转换为浮点数即可 $a = '0.00'; $b = '0.0'; $c = '0'; //判断字符串'0.00'是否为真 if ($a) { echo '字符串'.$a.'为真<br>…
记一次UICollectionView中visibleCells的坑 项目的要求是这样的 其实也是一个轮播图,而已,所以依照轮播图的实现原理,这里觉得也很简单,还是利用UICollectionView,只不过自定义一个布局能够让cell自动吸附在最中间. 第一个坑 在下面的数组中取出当前出现在界面可视范围内的NSIndexPath, NSArray *arr = [self.TFCollectionView indexPathsForVisibleItems]; 然后遍历,取出最中间的NSInd…
Repost: https://www.leiphone.com/news/201508/bbCUJqS2M3glCY3m.html 编者按: 今年的IDF上,Intel 再次强调了3DxPoint闪存技术,准备在中国投入35亿美金.而在IDF前夕,北京-Intel公司就曾宣布,将其与美光合资开发的最新非易失性存储技术引入中国,并在大连工厂制造.本文是去年Intel 对外宣布引入3DxPoint闪存技术时雷锋网(公众号:雷锋网)对此作出的技术解读,从技术角度,或许你会更加理解,Intel在中国重…
从公司实际沟通中-得知bug的描述与为什么要bug留痕 最近在做的一个实际项目.下图为我们的聊天记录,仔细看图,领悟: 从中预期可以学习到的: 1)实际公司--Bug描述的另一个方法: 2)实际公司-为什么Bug要留痕处理: 3)在此场景下,我又该如何去做? 这也是为什么我给已经入职学生反复强调的,无论bug大小,一定要留痕的原因!!!当然记录也是有技巧的….…
在web测试过程中,经常会遇到页面中内容或数据显示错误,甚至不显示,第一反应就是BUG,进一步了解这个BUG的问题出在那里,是测试人员需要掌握的,可以简单的使用浏览器自带开发者工具.数据库工具配合去排查. bug定位常用工具 Firefox——firebug.web developer.live http headers.http fox IE插件——httpwatch 第三方工具——fiddler 慢速网模拟工具——firefox throttle 前台错误 前台的bug通常是功能.界面和兼容…
NOIP比赛中如何加速c++的输入输出 在竞赛中,遇到大数据时,往往需要更快的读取方式.由于比赛中输出一般规模较小,本文只讨论输入如何加速. 现在我们生成1000000个随机数,构成1000*1000的矩阵,然后输入比较时间(Win 10系统) #include<iostream> #include<stdlib.h> #include<ctime> using namespace std; int main(){ srand((unsigned)time(NULL))…
最近MFC写了个程序,生成release版,原来正常,后来删掉了些控件再编译运行,结果竟然报内存读写错误,debug却是正常的.后来将“Project   Settings”   中   “C++/C    ”   项目下优化选项改为Disbale(Debug),就又能正常运行了. DEBUG和RELEASE   版本差异及调试相关问题[转]                                                                              …
开源软件包 SENNA 和 word2vec 中都用到了词向量(distributed word representation),当时我就在想,对于我们的中文,是不是也类似地有字向量(distributed character representation)的概念呢? 最近恰好读到复旦大学郑骁庆博士等人的文章 [1]<Deep Learning for Chinese Word Segmentation and POS tagging>.这篇文章利用文 [3] 作者提出的神经网络框架,针对中文…
以下内容来源:https://www.cnblogs.com/rgjycs/p/9254332.html 在程序调试时的debug和release 网上有如下的描述:Debug 通常称为调试版本,它包含调试信息,并且不作任何优化,便于程序员调试程序.Release 称为发布版本,它往往是进行了各种优化,使得程序在代码大小和运行速度上都是最优的,以便用户很好地使用. C#中的项目文件夹debug 和release的区别 首先说一下C#解决方案下不同文件 Bin 目录用来存放编译的结果,bin是二进…
昨天已经在Tomcat容器中成功的部署了solr全文检索引擎系统的服务:今天来分享一下solr服务在海量数据的网站中是如何实现数据的检索. 在solr服务中集成IKAnalyzer中文分词器的步骤: 1.下载IKAnalyzer分词器的压缩包并解压: 2.将IKAnalyzer压缩包中的jar包复制到Tomcat容器中已经部署的solr项目中的WEB-INF/lib目录下: 3.在Tomcat容器的solr项目中的WEB-INF/目录创建一个classes目录(默认该目录是不存在的,需手动创建)…
这篇文章主要介绍了C#中的两种debug方法介绍,本文讲解了代码用 #if DEBUG 包裹.利用宏定义两种方法,需要的朋友可以参考下   第一种:需要把调试方法改成debug代码用 #if DEBUG 包裹 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 using System; using System.Collections.Generic; using System.Tex…
log4j中Spring控制台输出Debug级信息过多解决方法 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>. 蕃薯耀 2015年9月6日 16:13:50 星期日 http://fanshuy…
版权声明:本文为博主原创文章,转载请注明本文地址.http://www.cnblogs.com/o0Iris0o/p/5813856.html 内容介绍: 真分布式SolrCloud+Zookeeper+tomcat搭建.索引Mysql数据库.IK中文分词器配置以及web项目中solr的应用(1)[本文内容] 1.搭建单机solr 2.搭建zookeeper 3.配置solrcloud 真分布式SolrCloud+Zookeeper+tomcat搭建.索引Mysql数据库.IK中文分词器配置以及…
英文分词的第三方库NLTK不错,中文分词工具也有很多(盘古分词.Yaha分词.Jieba分词等).但是从加载自定义字典.多线程.自动匹配新词等方面来看. 大jieba确实是中文分词中的战斗机. 请随意观看表演 安装 分词 自定义词典 延迟加载 关键词提取 词性标注 词语定位 内部算法 安装 使用pip包傻瓜安装:py -3 -m pip install jieba / pip install jiba(windows下推荐第一种,可以分别安装python2和3对应jieba) pypi下载地址…