spark学习记录-1

【spark学习记录-1】的更多相关文章

spark学习记录-2

spark编程模型 ====== spark如何工作的? 1.user应用产生RDD,操作变形,运行action操作 2.操作的结果在有向无环图DAG中 3.DAG被编译到stages阶段中 4.每一阶段作为任务的一部分被执行(一个task对应一个partition分块) ======== narrow transformation和wide transformation 1, narrow transformation, map() filter() 2,wide transformati…

mapreduce的限制适合“一趟”计算操作很难组合和嵌套操作符号无法表示迭代操作 ======== 由于复制.序列化和磁盘IO导致mapreduce慢复杂的应用.流计算.内部查询都因为maprecude缺少有效的数据共享而变慢 ====== 迭代操作每一次复制都需要磁盘IO 内部查询和在线处理都需要磁盘IO ========spark的目标在内存中保存更多的数据来提升性能扩展maprecude模型来更好支持两个常见的分析应用:1,迭代算法(机器学习.图)2,内部数据挖掘增强可编码…

Spark学习记录

SpringStrongGuo Hadoop与Spark Hadoop主要解决,海量数据的存储和海量数据的分析计算. Spark主要解决海量数据的分析计算. Spark运行模式 1)Local:运行在一台机器上. 测试用. 2)Standalone:是Spark自身的一个调度系统. 对集群性能要求非常高时用.国内很少使用. 3)Yarn:采用Hadoop的资源调度器. 国内大量使用. 4)Mesos:国内很少使用. Spark常用端口号 1)4040 spark-shell任务端口 2)7077…

spark学习笔记总结-spark入门资料精化

Spark学习笔记 Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用.减少了延时处理,提高性能效率实用灵活性.也可以与hadoop切实相互结合. spark核心部分分为RDD.Spark SQL.Spark Streaming.MLlib.GraphX.Spark R等核心组件解决了很多的大数据问题,其完美的框架日受欢迎.其相应的生态环境包括zepplin等可视化方面…

[转]Spark学习之路（三）Spark之RDD

Spark学习之路 (三)Spark之RDD https://www.cnblogs.com/qingyunzong/p/8899715.html 目录一.RDD的概述 1.1 什么是RDD? 1.2 RDD的属性 1.3 WordCount粗图解RDD 二.RDD的创建方式 2.1 通过读取文件生成的 2.2 通过并行化的方式创建RDD 2.3 其他方式三.RDD编程API 3.1 Transformation 3.2 Action 3.3 Spark WordCount代码编写 3.…

【转载】Spark学习——入门

要学习分布式以及数据分析.机器学习之类的,觉得可以通过一些实际的编码项目入手.最近Spark很火,也有不少招聘需要Spark,而且与传统的Hadoop相比,Spark貌似有一些优势.所以就以Spark来学习下. 安装部署等可以参考之前的文章:http://www.cnblogs.com/charlesblc/p/6014158.html 貌似主从Spark都部署在了 m42n05 机器上.看后续是否需要增加其他slave. 首先看了知乎这篇文章,了解了一些基础(link) 在2010年开源,目前…

Spark学习之Spark SQL（8）

Spark学习之Spark SQL(8) 1. Spark用来操作结构化和半结构化数据的接口--Spark SQL. 2. Spark SQL的三大功能 2.1 Spark SQL可以从各种结构化数据(例如JSON.Hive.Parquet等)中读取数据. 2.2 Spark SQL不仅支持在Spark程序内使用SQL语句进行查询,也支持从类似商业智能软件Tableau这样的外部工具中通过标准数据库连接器(JDBC/ODBC)连接Spark SQL进行查询. 2.3 当在Spark程序内使用Sp…