一.执行Spark任务: 客户端 1.Spark Submit工具:提交Spark的任务(jar文件) (*)spark提供的用于提交Spark任务工具 (*)example:/root/training/spark-2.1.0-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.1.0.jar (*)SparkPi.scala 例子:蒙特卡罗求PI bin/spark-submit --master spark://bigdata11:7077…
Spark SQL:类似Hive ======================================================= 一.Spark SQL基础 1.什么是Spark SQL? (*) Spark SQL is Apache Spark's module for working with structured data. (*) 处理结构化数据的引擎 (*) 底层:依赖RDD,把SQL语句转换成一个个RDD,运行在不同的Worker节点上 (*) 特点: (1)容易集…
之前已经介绍了$location服务的基本用法:angular学习笔记(三十一)-$location(1). 这篇是上一篇的进阶,介绍$location的配置,兼容各版本浏览器,等. *注意,这里介绍的是基于angular-1.3.2版本的,低版本的$location可能会有问题. hashbang模式和history api创建单页应用 首先,$location是用在单页应用里的...(废话,angular就是用在单页的)...所以,$location处理的是url改变,但是不刷新页面的情况.…
本篇介绍angular中的$location服务的基本用法,下一篇介绍它的复杂的用法. $location服务的主要作用是用于获取当前url以及改变当前的url,并且存入历史记录. 一. 获取url的相关方法: 以 'http://localhost/$location/21.1%20$location.html#/foo?name=bunny#myhash' 这个路径为例: 1. 获取当前完整的url路径: $location.absUrl():// http://localhost/$loc…
记录学习<Hadoop+Spark大数据巨量分析与机器学习整合开发>这本书. 第五章 Hadoop Multi Node Cluster windows利用虚拟机实现模拟多节点集群构建 5.2-5.3 设置VirtualBox网卡,设置data1服务器 1. 设置网卡 网卡1设为网络地址转换(NAT) 网卡2设为仅主机(Host-Only)适配器 2. 编辑网络配置文件设置固定IP sudo gedit /etc/network/interfaces # NAT interface auto…
三.集成:数据源 1.Apache Kafka:一种高吞吐量的分布式发布订阅消息系统 (1) (*)消息的类型 Topic:主题(相当于:广播) Queue:队列(相当于:点对点) (*)常见的消息系统 Kafka.Redis -----> 只支持Topic JMS(Java Messaging Service标准):Topic.Queue -----> Weblogic (*)角色:生产者:产生消息 消费者:接收消息(处理消息) (2)Kafka的消息系统的体系结构 (3)搭建Kafka的环…
一.大数据的5个特征(IBM提出): Volume(大量) Velocity(高速) Variety(多样) Value(价值) Varacity(真实性) 二.OLTP与OLAP 1.OLTP:联机事务处理过程,也称面向交易的处理过程,是对用户操作快速响应的方式之一.OLTP是传统的关系型数据库的主要应用,主要是基本的.日常的事务处理,例如银行交易:     开启事务——>从转出账号中扣钱——>往转入账号中加钱——>提交事务 2.OLAP:联机分析处理过程,是数据仓库系统的主要应用,支…
老规矩,学习新东西先上官网瞅瞅Apache Flume Flume是什么 Flume是一个分布式.可靠的大规模高效日志收集.汇聚和传输的这么一个服务.它的架构基于流式数据,配置简单灵活.它具备可调节的可靠性机制和很多失败恢复机制,这让它具有健壮性和容错性.它采用简单可扩展的数据模型为在线分析应用提供支持. Flume架构 没见过这么简单的架构图,这说明了flume用起来并不复杂.它通过Source从数据源把日志拿过来放到Channel里面存一下,再通过sink写入到持久化存储里. 咋一看,这玩意…
前面几篇文章把Hadoop常用的模块都学习了,剩下一个新模块Ozone,截止到今天最新版本是0.5.0Beta,还没出正式版.好在官方网站有文档,还是中文版的,但是中文版资料没有翻译完整,我试着把它都翻译一下.参考 <Apache Hadoop Ozone>. 什么是Ozone Ozone 是 Hadoop 的分布式对象存储系统,具有易扩展和冗余存储的特点. Ozone 不仅能存储数十亿个不同大小的对象,还支持在容器化环境(比如 Kubernetes)中运行. Apache Spark.Hiv…
​ 这次来聊聊Hadoop中使用广泛的分布式计算方案--MapReduce.MapReduce是一种编程模型,还是一个分布式计算框架. MapReduce作为一种编程模型功能强大,使用简单.运算内容不只是常见的数据运算,几乎大数据中常见的计算需求都可以通过它来实现.使用的时候仅仅需要通过实现Map和Reduce接口的方式来完成计算逻辑,其中Map的输入是一对<Key, Value>,经过计算后输出一对<Key, Value>:然后将相同Key合并,形成<Key, Value&…