https://www.jianshu.com/p/4140be00d4e3 题目描述 建模方法 特征工程 我的几次提升方法 从其他队伍那里学习到的提升方法 总结和感想 神经网络方法的一点思考 大数据量与分布式计算的一点思考 参加比赛和学习知识的对比 最后的感受 趣事 写在前面 我是一个之前PhD做分布式计算.虚拟机调度,毕业之后年初才转ML的家伙,自恃有点学习开发能力和混迹ICPC竞赛的底子,对数据还有些敏感度,有那么几个可以跟着学习的人,斗胆在5月底开始利用业余时间玩一玩. 最后的成绩是预赛…
港真,自己一直非常希望做算法工程师,所以自己现在开始对现在常用的大数据算法进行不断地学习,今天了解到的算法,就是我们生活中无处不在的推荐系统算法. 其实,向别人推荐商品是一个很常见的现象,比如我用了一个好的商品,向朋友安利之类的.在以前广告系统不发达的时候,我们也是靠口口相传来进行商品的推广.那么为什么,现在推荐系统变的非常重要了呢?,在以前,我们的商品不像现在的物品一样琳琅满目,我们有时间,可以把商品都浏览一遍在进行选择,因为我们都想选择所有商品中最好的,而现在,由于资源的众多,我们不会用大把…
topN算法,spark实现 package com.kangaroo.studio.algorithms.topn; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.api.java.function.FlatMapFu…
\一.kNN算法概述 kNN是k-Nearest Neighbour的缩写,这是一种非常简单且易于理解的分类算法.回想我们从小到大在认知事物的过程当中,我们是如何判断一种事物是属于哪种类别的?通常的一种思路就是,分析当前这个事物与我们之前所知道的类别特征进行比对,找出最接近的一类,然后就可以把这个东西归属于这一个类别.kNN算法大致就是这么一个思路,直接通过测量不同特征值之间的距离来达到分类的目的. kNN中的k是指在分类过程中,我们选择样本数据中前k个最相似的数据,以出现次数最多的分类,作为新…
左外链接(leftOuterJoin) spark实现 package com.kangaroo.studio.algorithms.join; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.api.java.funct…
2013年12月5日-6日参加了为期两天的2013中国大数据技术大会(Big Data Technology Conference, BDTC2013),本期会议主题是:“应用驱动的架构与技术 ”.大数据概念最近真是火得不行,从大会多达7个的“大数据架构与系统”.“大数据技术”.“大数据应用”.“大数据研究与发展”.“大数据基准测试”“智能交通与大数据”以及“传统行业如何驾驭大数据”主题论坛,再到现场爆棚的人群,可见大家拥抱大数据的高涨热情. 在9月份读完了一本<大数据时代>,后面又听大学老师…
互联网创造了大数据应用的规模化环境,大数据应用成功的案例大都是在互联网上发生的, 互联网业务提供了数据,互联网企业开发了处理软件,互联网企业的创新带来了大数据应用 的活跃,没有互联网便没有今天的大数据产业.没有互联网.云计算.物联网.移动终端与 人工智能组合的环境大数据也没那么重要.大数据的价值并非与生俱来而是应用创新之结果 ,价值是由技术组合创新涌现出来的.离开环境的支持大数据毫无价值,就像离开了身体的 手不再有手的功能一样.   随着2017年大数据各种应用的发展,大数据的价值得以充分的发挥…
zw版足彩大数据&报价 ::zw增强版足彩大数据,文件名后缀是'.dat' ::文件格式是标准文本格式,逗号分隔 ::zw增强版,在标准版赔率基础上,增加了倒数.比率两组归一化数据 ::zw版2010-2015年,近6万场足彩实盘数据,包含:官方数据,欧平,立博.bet365,澳门.伟德.SNAI.威廉等欧赔.亚赔数据包: ::zw版足彩大数据索引文件,目前是免费提供的, ps:: 有时间 再整理一套股票版本的大数据包 股票数据,目前我只有9x年开盘到2012的  2012以后的要重新采集,12…
<零起点,python大数据与量化交易>,这应该是国内第一部,关于python量化交易的书籍. 有出版社约稿,写本量化交易与大数据的书籍,因为好几年没写书了,再加上近期"前海智库·zw大数据"项目,刚刚启动. 因为时间紧,只花了半天时间,整理框架和目录. 说是v0.1版,但核心框架已经ok:从项目角度而言,完成度,已经超过70%,剩下的只是体力活. 完成全本书,需要半年以上连续时间,本人没空,大家不要再问:"什么时间可以完成." 配合zwPython,这…
​ 这两天小编去了解了下大数据开发相关职位的薪资,主要有hadoop工程师,数据挖掘工程师.大数据算法工程师等,从平均薪资来看,目前大数据相关岗位的月薪均在2万以上,随着项目经验的增长工资会越来越高. 那么对于新手来说,应该如何开始学习,才能够早日的实现月薪2万多的目标.就小编了解的来说,新手一般需要一年以上的时间才能够达到2万以上的薪资,目前很多人选择参加培训然后快速进入工作岗位,积累经验,客观的讲在目前的情况下,不失为一种方法.另外一种就是自学,优点是如果能够坚持下来,所积累的东西更多,后期…