文章相关度匹配的一些思路---"压缩"预料库,即提取用特征词或词频,量化后以“列向量”形式保存到数据库:按前N组词拼为向量组供查询使用,即组合为1到N字的组合,量化后以“行向量”形式保存到数据库(目前是用MYSQL),计算和查询相似度的时候先提取特征,然后量化,再查询各Long型数值字段,速度应该会较一般查询要快一些. 应用举例:[这些都是推测,实际希望会有比较好的结果] 假设查询以下特征 Dictionary<string, int> words = new Dictio…
需求,最近实现了文章的原创度检测功能,处理思路一是分词之后做搜索引擎匹配飘红,另一方面是量化词组,按文章.段落.句子做数据库查询,功能基本满足实际需求. 接下来,还需要在海量大数据中快速的查找到与一句或者一段话最相关的文章.段落. 上一篇随笔里记录有当时的一些想法,今天下午按想法具体实现并测试了一次,速度比直接分组查询肯定快了很多很多,回顾下我的实现步骤: 压缩"语料库,即提取特征词或词频,做量化处理之后以“列向量”形式保存到数据库:然后按前N组词拼为向量组,以供查询使用,即组合为1到N字的组合…
记录下,在上2回的数据基础之上,附带一个互信息(MI,Mutual Information)可以计算词之间的相关度 标准互信息 MI(X,Y)=log2p(x,y)/p(x)p(y) 值越大于0 则趋于更相关,反之则互补. 通过查询得到词的数据,以及词组的共现数量,然后到Matlabe里计算下. 我选择了其中一个总词量为30993453的库做为源 通过查询可知以下内容, 北京(词数)=40998 喜爱(词数)=878 联合(共现数)=75 相关度计算结果 log10(30993453/40998…
(一)索引失效的原因分析: <>或者单独的>,<,(有时会用到,有时不会) 有时间范围查询:oracle 时间条件值范围越大就不走索引 like "%_" 百分号在前. 表没分析(统计信息最好定期收集,以业务的不同确定不同的收集周期,在新增的索引有可能没有收集 ,那么就会导致索引失效) 解决方法: 分析方法有一下几种: analyze table t1 compute statistics fortable; --针对表收集信息 analyze table t2…
--Sql Server 允许脏读查询sqlselect * from category with(nolock) --MySql 允许脏读查询sql Mysql没有语法糖,需要原生的sqlSET SESSION TRANSACTION ISOLATION LEVEL READ UNCOMMITTED ;select * from category ;COMMIT ; 注意Session是指允许当前会话脏读,如果没有是是整个MySql实例允许脏读…
1.   直接用limit start, count分页语句, 也是我程序中用的方法: select * from product limit start, count当起始页较小时,查询没有性能问题,我们分别看下从10, 100, 1000, 10000开始分页的执行时间(每页取20条), 如下: select * from product limit 10, 20   0.016秒select * from product limit 100, 20   0.016秒select * fro…
数据表结构 CREATE TABLE `ad_keyword` ( `id` int(11) NOT NULL AUTO_INCREMENT, `plan_goods_id` int(11) DEFAULT NULL, `impr_num` int(11) DEFAULT NULL, `click_num` int(11) DEFAULT NULL, `total_spend` int(11) DEFAULT NULL, `pay_gmv` int(11) DEFAULT NULL, `orde…
前置要求: 1)Building Spark using Maven requires Maven 3.3.9 or newer and Java 7+ 2)export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m"   mvn编译命令: ./build/mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.0 -DskipTests clean package     前提:需要对maven有…
转自:https://www.cnblogs.com/reed/p/7730338.html 今天做题,其中一道是 请简要描述一下Hadoop, Spark, MPI三种计算框架的特点以及分别适用于什么样的场景. 一直想对这些大数据计算框架总结一下,只可惜太懒,一直拖着.今天就借这个机会好好学习一下. 一张表 名称 发起者 语言 简介 特点 适用场景 Hadoop Yahoo工程师,Apache基金会 Java MapReduce分布式计算框架+HDFS分布式文件系统(GFS)+HBase数据存…
Laxcus是Laxcus大数据实验室历时五年,全体系自主设计研发的国内首套大数据管理系统.能够支撑百万台级计算机节点,提供EB量级存储和计算能力,兼容SQL和关系数据库.最新的2.x版本已经实现对当前大数据主流技术和功能的完整覆盖和集成,并投入到国内多个超算项目中使用.Laxcus同时保持了使用和部署的极简性,这将使所有人都能很容易学习和掌握它.下面演示在一台Linux计算机上部署Laxcus demo系统的过程.根据我们的测试,这个部署过程大约需要三分钟,或者您熟悉Linux系统 ,也许不需…