idea显示toDF() 没有这个函数,显示错误: Error:(82, 8) value toDF is not a member of org.apache.spark.rdd.RDD[com.didichuxing.scala.BaseIndex] possible cause: maybe a semicolon is missing before `value toDF'? }).toDF() 解决: 增加一行: import sqlContext.implicits._ http:/…
解决上述办法有两点: 1.两个import 需要放在 hiveCtx之后. val hiveCtx: SparkSession = SparkSession.builder.config(conf).enableHiveSupport().getOrCreate() import hiveCtx.sql import hiveCtx.implicits._ 2.case class 类(param1:type1 )需要放在函数外面,作为成员变量.…
sbt编译spark程序提示value toDF is not a member of Seq() 前提 使用Scala编写的Spark程序,在sbt编译打包的时候提示value toDF is not a member of Seq(),出问题的代码如下: val urlDS = Seq(STU(age, count)).toDS() 其中STU是一个定义的case class,定义如下: case class STU(age: Int, count: Int) 查找原因 开始以为是toDS(…
Attempting to run http://spark.apache.org/docs/latest/quick-start.html#a-standalone-app-in-scala from source. This line val wordCounts = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_+_) reports compile valu…
协同过滤 显示vs隐式反馈 参数调整 实例 教程 协同过滤 协同过滤是推荐系统的常用方法.可以填充user-item相关矩阵中的缺失值.MLlib支持基于模型的协同过滤,即使用能够预测缺失值的一个隐藏因素集合来表示用户和产品.MLlib使用交替做小二乘法(alternating least squares, ALS)学习隐藏因子.MLlib算法中的参数如下: numBlocks   并行计算的block数(-1为自动配置) rank   模型中隐藏因子数 iterations   算法迭代次数…
为了让Scala运行起来还是很麻烦,为了大家方便,还是记录下来: 1.首先我下载的是IDEA的社区版本,版本号为15. 2.下载安装scala插件: 2.1 进入设置菜单. 2.2 点击安装JetBrains plugin 2.3 输入scala查询插件,点击安装 说明:我的IDEA已经安装,所以这里面没有显示出来安装按钮,否则右边有显示绿色按钮. 3.新建Scala工程 3.1 新建工程 通过菜单:File---->New Project 选择Scala工程. 并且设置项目基本信息,如下图:…
Spark编译有两种处理方式,第一种是通过SBT,第二种是通过Maven.作过Java工作的一般对于Maven工具会比较熟悉,这边也是选用Maven的方式来处理Spark源码编译工作. 在开始编译工作前应当在自己的系统中配置Maven环境 参考Linux上安装Maven方案: http://www.runoob.com/maven/maven-setup.html 编译的对象也有两种选择,第一个是下载的Apache Spark版本,这种情况不用对Maven的默认配置进行修改即可直接编译成功:第二…

RDD

scala> val rdd1=sc.parallelize(Array("coffe","coffe","hellp","hellp","pandas","mokey") )rdd1: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[8] at parallelize at <console>:24 s…
在2.0版本之前,使用Spark必须先创建SparkConf和SparkContext catalog:目录 Spark2.0中引入了SparkSession的概念,SparkConf.SparkContext 和 SQLContext 都已经被封装在 SparkSession 当中,并且可以通过 builder 的方式创建:可以通过 SparkSession 创建并操作 Dataset 和 DataFrame SparkSession  The entry point to programmi…
对于新司机,可能看到sc与spark不知道是什么,看图知意 *************************************************************************************************************************************** DataFrame.map(_.split("::"))报错 error: value split is not a member of org.apache…
[rdd 惰性执行] 为了提高计算效率 spark 采用了哪些机制 1-rdd 基于分布式内存数据集进行运算 2-lazy evaluation  :惰性执行,即rdd的变换操作并不是在运行该代码时立即执行,而仅记录下转换操作的对象:只有当运行到一个行动代码时,变换操作的计算逻辑才真正执行. http://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds [ rd…
我们走过的每一步路,都会留下印记,越坚实,越清晰. 近日,Apache 软件基金会(ASF)官方 Blog 宣布全球新增 40 位 Apache Member,张乎兴有幸成为其中一位. 目前,全球共有771位 ASF Member,中国仅13位.本文将分享作者从0基础的开源小白,一路走来的感触,希望把期间的经历分享出来,让更多的人看到,世界开源舞台的中国力量.只要有持续的付出,总会有所收获. 初次参与开源 2014年,我加入阿里巴巴中间件团队,开始接手集团应用容器的维护工作.当时集团的应用容器绝…
Spark程序编译报错: [INFO] Compiling 2 source files to E:\Develop\IDEAWorkspace\spark\target\classes at 1567004370534[ERROR] E:\Develop\IDEAWorkspace\spark\src\main\scala\cn\itcast\wordCount\WordCount.scala:3: error: object apache is not a member of package…
Geode member发现机制 Apache Geode 为集群和客户端服务器间提供了多种member 发现机制,具体如下: Peer Member Discovery Standalone Member Client Discovery of Servers Peer Member Discovery 对等成员发现定义了一个集群. 使用相同设置进行对等发现的所有应用程序和缓存服务器都是同一集群的成员. 每个系统成员都有唯一的身份,并且知道其他成员的身份. 一个成员某一时刻只能属于一个集群.…
初识spark,需要对其API有熟悉的了解才能方便开发上层应用.本文用图形的方式直观表达相关API的工作特点,并提供了解新的API接口使用的方法.例子代码全部使用python实现. 1. 数据源准备 准备输入文件: $ cat /tmp/in apple bag bag cat cat cat 启动pyspark: $ ./spark/bin/pyspark 使用textFile创建RDD: >>> txt = sc.textFile("file:///tmp/in"…
Awesome系列的Java资源整理.awesome-java 就是akullpp发起维护的Java资源列表,内容包括:构建工具.数据库.框架.模板.安全.代码分析.日志.第三方库.书籍.Java 站点等等. 经典的工具与库 (Ancients) In existence since the beginning of time and which will continue being used long after the hype has waned. Apache Ant - Build…
#Spark SQL 之 Data Sources 转载请注明出处:http://www.cnblogs.com/BYRans/ 数据源(Data Source) Spark SQL的DataFrame接口支持多种数据源的操作.一个DataFrame可以进行RDDs方式的操作,也可以被注册为临时表.把DataFrame注册为临时表之后,就可以对该DataFrame执行SQL查询.Data Sources这部分首先描述了对Spark的数据源执行加载和保存的常用方法,然后对内置数据源进行深入介绍.…
Spark版本:1.6.2 概览 Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完成特殊优化.可以通过SQL.DataFrames API.Datasets API与Spark SQL进行交互,无论使用何种方式,SparkSQL使用统一的执行引擎记性处理.用户可以根据自己喜好,在不同API中选择合适的进行处理.本章中所有用例均可以在spark-shell.pyspark shel…
DataFrame写入hive API: registerTempTable函数是创建spark临时表 insertInto函数是向表中写入数据,可以看出此函数不能指定数据库和分区等信息,不可以直接进行写入. 向hive数据仓库写入数据必须指定数据库,hive数据表建立可以在hive上建立,或者使用hiveContext.sql(“create table ....") case class Person(name:String,col1:Int,col2:String) def main(ar…
背景: 接到任务,需要在一个一天数据量在460亿条记录的hive表中,筛选出某些host为特定的值时才解析该条记录的http_content中的经纬度: 解析规则譬如: 需要解析host: api.map.baidu.com 需要解析的规则:"result":{"location":{"lng":120.25088311933617,"lat":30.310684375444877}, "confidence&quo…
Spark SQL 官方文档-中文翻译 Spark版本:Spark 1.5.2 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 DataFrames 2.1 入口:SQLContext(Starting Point: SQLContext) 2.2 创建DataFrames(Creating DataFrames) 2.3 DataFrame操作(DataFrame Operations) 2.4 运行SQL查询程序(Running…
Learning Spark: Lightning-Fast Big Data Analysis 中文翻译行为纯属个人对于Spark的兴趣,仅供学习. 如果我的翻译行为侵犯您的版权,请您告知,我将停止对此书的开源翻译. Translation the book of Learning Spark: Lightning-Fast Big Data Analysis is only for spark developer educational purposes. If I violated you…
本文介绍的是使用tomcat内置的集群功能.跟官方文档的区别是没有使用广播,而是使用了static membership的方式. 需要修改server.xml 放在哪个元素下来的,是Host还是啥记不清了 <Cluster className="org.apache.catalina.ha.tcp.SimpleTcpCluster" channelSendOptions="8" channelStartOptions="3"> <…
一.环境介绍 二.安装配置后端服务器 三.安装配置前端服务器 四.配置Tomcat服务器实现session共享 五.构建网上商城系统 一.环境介绍 系统版本:CentOS 6.4_x86_64 Mysql版本:mysql-5.1.66-2.el6_3.x86_64 Apache版本:httpd-2.2.15-26.el6 Tomcat版本:apache-tomcat-7.0.33 点此下载 Jdk版本: jdk-7u40-linux-x64 点此下载 Tomcat-commectors版本:to…
Spark is a compelling multi-purpose platform for use cases that span investigative, as well as operational, analytics. Data science is a broad church. I am a data scientist — or so I’ve been told — but what I do is actually quite different from what…
Build Tool Tools which handle the buildcycle of an application. Apache Maven - Declarative build and dependency management which favors convention over configuration. It's preferable to Apache Ant which uses a rather procedural approach and can be di…
最好的参考是Mongo官网的地址 https://docs.mongodb.com/spark-connector/getting-started/ 需要截图所示的包 代码地址 https://github.com/mongodb/mongo-hadoop/wiki/Spark-Usage import org.apache.hadoop.conf.Configuration import org.apache.spark.{SparkContext, SparkConf} import org…
/** * Created by songcl on 2016/6/24. */ import java.sql.DriverManager //val sqlContext = new org.apache.spark.sql.SQLContext(sc) import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} object insertmysql { def main(a…
大会召开前期,特别梳理了历届大会亮点以记录中国大数据技术领域发展历程,并立足当下生态圈现状对即将召开的BDTC 2014进行展望: 追本溯源,悉大数据六大技术变迁 伴随着大数据技术大会的发展,我们亲历了中国大数据技术与应用时代的到来,也见证了整个大数据生态圈技术的发展与衍变: 1. 计算资源的分布化——从网格计算到云计算. 回顾历届BDTC大会,我们不难发现,自2009年,资源的组织和调度方式已逐渐从跨域分布的网格计算向本地分布的云计算转变.而时至今日,云计算已成为大数据资源保障的不二平台. 2…
自2013年3月面世以来,Spark SQL已经成为除Spark Core以外最大的Spark组件.除了接过Shark的接力棒,继续为Spark用户提供高性能的SQL on Hadoop解决方案之外,它还为Spark带来了通用.高效.多元一体的结构化数据处理能力.在刚刚发布的1.3.0版中,Spark SQL的两大升级被诠释得淋漓尽致. DataFrame 就易用性而言,对比传统的MapReduce API,说Spark的RDD API有了数量级的飞跃并不为过.然而,对于没有MapReduce和…