Mongo-Hadoop】的更多相关文章

Hadoop集成   长期以来,我每开个系列,只有兴趣写一篇,很难持之与恒.为了克服这个长久以来的性格弱点,以及梳理工作半年的积累.最近一个月会写两篇关于Mongo在地理大数据方面的实践和应用,一篇关于推荐系统的初期准备过程,一篇用户行为矩阵的可视化.希望能够立言为证,自我监督. 1.驱动准备 言归正传,前文MongoDB集群部署完毕之后,CRUD就是主要需求.NoSQL与普通关系数据库不同的是,避免采用ORM框架对数据库做操作,这样会带来明显的性能下降[1].使用原生的Driver是一个较为合…
长期以来,我每开个系列,只有兴趣写一篇,很难持之与恒.为了克服这个长久以来的性格弱点,以及梳理工作半年的积累.最近一个月会写两篇关于Mongo在地理大数据方面的实践和应用,一篇关于推荐系统的初期准备过程,一篇用户行为矩阵的可视化.希望能够立言为证,自我监督. 1.驱动准备 言归正传,前文MongoDB集群部署完毕之后,CRUD就是主要需求.NoSQL与普通关系数据库不同的是,避免采用ORM框架对数据库做操作,这样会带来明显的性能下降[1].使用原生的Driver是一个较为合理的选择,Mongo支…
1.StackOverflowError 问题:简单代码记录 : for (day <- days){ rdd = rdd.union(sc.textFile(/path/to/day) .... ) } 大概场景就是我想把数量比较多的文件合并成一个大rdd,从而导致了栈溢出: 解决:很明显是方法递归调用太多,我之后改成了几个小任务进行了合并:这里union也可能会造成最终rdd分区数过多 2.java.io.FileNotFoundException: /tmp/spark-90507c1d-…
1,下载: http://www.mongodb.org/downloads 2.4.5版:http://www.mongodb.org/dr/fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.4.5.tgz/download 2,解压: hadoop@hadoopmaster:~/nosql$ tar zxvf mongodb-linux-x86_64-2.4.5\ \(1\).tgz mongodb-linux-x86_64-2.4.5/READ…
Spark介绍 按照官方的定义,Spark 是一个通用,快速,适用于大规模数据的处理引擎. 通用性:我们可以使用Spark SQL来执行常规分析, Spark Streaming 来流数据处理, 以及用Mlib来执行机器学习等.Java,python,scala及R语言的支持也是其通用性的表现之一. 快速: 这个可能是Spark成功的最初原因之一,主要归功于其基于内存的运算方式.当需要处理的数据需要反复迭代时,Spark可以直接在内存中暂存数据,而无需像Map Reduce一样需要把数据写回磁盘…
MongoDB上海的活动已经结束快1个月了,我们再来回顾一下TJ在大会上进行的精彩分享吧~ MongoDB + Spark: 完整的大数据计算解决方案. Spark介绍 按照官方的定义,Spark 是一个通用,快速,适用于大规模数据的处理引擎. 通用性:我们可以使用Spark SQL来执行常规分析, Spark Streaming 来流数据处理, 以及用Mlib来执行机器学习等.Java,python,scala及R语言的支持也是其通用性的表现之一. 快速: 这个可能是Spark成功的最初原因之…
启动hadoop cd /usr/local/hadoop/hadoop $hadoop namenode -format # 启动前格式化namenode $./sbin/start-all.sh 检查是否启动成功 [hadoop@hadoop1 hadoop]$ jps 16855 NodeManager 16999 Jps 16090 NameNode 16570 ResourceManager 16396 SecondaryNameNode [hadoop@hadoop1 hadoop]…
背景: 公司核心业务库现存在MongoDB中,分布在6台MongoDB节点.现面临如下问题: 1.最大的一张表有10多个G,MongoDB在查询方面尚能胜任,但是涉及到复杂计算时会比较吃力. 2.MongoDB中有三张表,分别记录了最终用户在三个不同系统(电话,游戏,桌牌等)的行为,需要按用户汇聚成一张表. 考虑到MongoDB集成Hadoop来获得计算能力,先要让hadoop能访问到MongoDB中数据,下面讨论各个方案: 一)一个不安全的方案--MongoDB-connector for h…
1.  环境准备: Maven Eclipse Java Spring 版本 3..2.9 2. Maven  pom.xml配置 <!-- Spring hadoop --> <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> <version>0.96.1.1-hadoop2</version…
计划学习几个hadoop相关的开源项目: 1.spring hadoop 2.spring batch 3.spring redis 4.spring mongo 相关项目样例:https://github.com/spring-projects/spring-hadoop-samples…