shopkeep/spark Dockerfile示例】的更多相关文章

FROM java:openjdk- ENV HADOOP_HOME /opt/spark/hadoop- ENV MESOS_NATIVE_LIBRARY /opt/libmesos-.so ENV SBT_VERSION ENV SCALA_VERSION RUN mkdir /opt/spark WORKDIR /opt/spark # Install Scala RUN \ cd /root && \ curl -o scala-$SCALA_VERSION.tgz http://…
1. Java代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with * this work for additional information regarding copyright ownership. * The ASF licenses this fil…
Dockerfile FROM debian:jessie MAINTAINER "Konrad Kleine" USER root ############################################################ # Setup environment variables ############################################################ ENV WWW_DIR /var/www/html…
我们有这样两个文件 任务:找出用户评分平均值大于4的电影. 我们看两个文件结果,第一个文件有电影的ID和名字,第二个文件有电影的ID和所有用户的评分 对于任务结果所需要的数据为电影ID,电影名字,平均评分.平均评分用所有用户评分总和/用户数来求出 1.我们先计算电影的评分 (1)先读取电影评分文件 (2)取数据 我们看到每行的数据是通过::来进行连接的,然后我们需要的是第二列的电影ID以及第二列的评分. 我们把两个有用的数据取出来,组成键值对的形式. 为什么要组成键值对的形式? 数据中每个用户的…
我们有这样一个文件          首先我们的思路是把输入文件数据转化成键值对的形式进行比较不就好了嘛! 但是你要明白这一点,我们平时所使用的键值对是不具有比较意义的,也就说他们没法拿来直接比较. 我们可以通过sortByKey,sortBy(pair._2)来进行单列的排序,但是没法进行两列的同时排序. 那么我们该如何做呢? 我们可以自定义一个键值对的比较类来实现比较, 类似于JAVA中自定义类实现可比较性实现comparable接口. 我们需要继承Ordered和Serializable特…
我们有这样的数据 1.建立SparkContext读取数据 (1)建立sc (2)通过sc.textFile()读取数据创建Rdd 2.过滤数据 通过filter(line => line.trim.length>0)过滤掉无效数据 3.转换数据类型以及转换成键值对的形式 我们要把String类型的数据换成Int类型的,并且要转化成为("key",Int)类型的键值对 每条数据都有相同的Key,然后我们通过groupByKey()方法将所有的值收集到一个集合中. 有同学会问…
我们有这样的两个文件 第一个数字为行号,后边为三列数据.我们来求第二列数据的Top(N) (1)我们先读取数据,创建Rdd (2)过滤数据,取第二列数据. 我们用filter()来过滤数据 line.trim().length是除去行末尾的空格然后计算长度,长度大于0,并且分能用逗号切分为4个子数据的数据为有效数据. 然后我们来切分取出第二列数据,即arr(2),arr(0)为行号 line.map(_.split(",")(2)) (3)数据类型转换并修改成键值对的形式 我们通过.m…
首先,我先定义一个文件,hello.txt,里面的内容如下: hello sparkhello hadoophello flinkhello storm Scala方式 scala版本是2.11.8. 配置maven文件,三个依赖: <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.6.…
阅读前提:有一定的机器学习基础, 本文重点面向的是应用,至于机器学习的相关复杂理论和优化理论,还是多多看论文,初学者推荐Ng的公开课 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with * this work for additional information r…
1.  背景描述和需求 数据分析程序部署在Docker中,有一些分析计算需要使用Spark计算,需要把任务提交到Spark集群计算. 接收程序部署在Docker中,主机不在Hadoop集群上.与Spark集群网络互通. 需求如下 1.在Docker中可程序化向Spark集群提交任务 2.在Docker中可对Spark任务管理,状态查询和结束 2.  解决方案 在Docker中搭建一套Spark.Hadoop环境.任务通过spark-submit --master yarn --deploy-mo…