Spark笔记——技术点汇总】的更多相关文章

目录 概况 手工搭建集群 引言 安装Scala 配置文件 启动与测试 应用部署 部署架构 应用程序部署 核心原理 RDD概念 RDD核心组成 RDD依赖关系 DAG图 RDD故障恢复机制 Standalone模式的Spark架构 YARN模式的Spark架构 应用程序资源构建 API WordCount示例 RDD构建 RDD缓存与持久化 RDD分区数 共享变量 RDD Operation RDD Operation隐式转换 RDD[T]分区Operation RDD[T]常用聚合Operati…
目录 概述 原理 组成 执行流程 性能 API 应用程序模板 通用读写方法 RDD转为DataFrame Parquet文件数据源 JSON文件数据源 Hive数据源 数据库JDBC数据源 DataFrame Operation 性能调优 缓存数据 参数调优 案例 数据准备 查询部门职工数 查询各部门职工工资总数,并排序 查询各部门职工考勤信息 概述 Spark SQL是Spark的结构化数据处理模块. Spark SQL特点 数据兼容:可从Hive表.外部数据库(JDBC).RDD.Parqu…
目录 目录 概况 原理 API DStream WordCount示例 Input DStream Transformation Operation Output Operation 缓存与持久化 Checkpoint 性能调优 降低批次处理时间 设置合理批次时间间隔 内存调优 概况 Spark Streaming支持实时数据流的可扩展(scalable).高吞吐(high-throughput).容错(fault-tolerant)的流处理(stream processing). 架构图 特性…
目录 · 概况 · Hadoop · 云计算 · 大数据 · 数据挖掘 · 手工搭建集群 · 引言 · 配置机器名 · 调整时间 · 创建用户 · 安装JDK · 配置文件 · 启动与测试 · Cloudera Manager · 原理 · Hadoop架构 · 性能调优 · 硬件选型 · 操作系统调优 概况 Hadoop 1. ASF(Apache软件基金会)给出定义:Hadoop软件库是一个框架,允许在集群中使用简单的编程模型对大规模数据集进行分布式计算. 2. Hadoop生态圈 a) H…
目录 概况 手工搭建集群 引言 安装Python 配置文件 启动与测试 应用部署 参数配置 Storm命令 原理 Storm架构 Storm组件 Stream Grouping 守护进程容错性(Daemon Fault Tolerance) 数据可靠性(Guaranteeing Message Processing) 消息传输机制 API WordCount示例 应用部署方式 组件接口 组件实现类 数据连接方式 常用Topology模式 日志(集群模式) 并行度设置 tick定时机制 序列化 与…
目录 · 初步认识 · Java里程碑(关键部分) · 理解虚拟机 · Java虚拟机种类 · Java语言规范 · Java虚拟机规范 · 基本结构 · Java堆(Heap) · Java栈(Stacks) · 方法区(Method Area) · 直接内存(Direct Memory) · 本地方法栈(Native Method Stacks) · 常用参数 · 设置参数 · 查看参数 · 跟踪垃圾回收 · 跟踪类加载/卸载 · 设置初始堆和最大堆 · 设置堆分布 · 处理堆溢出 · 配置…
目录 · Linux网络IO模型 · 文件描述符 · 阻塞IO模型 · 非阻塞IO模型 · IO复用模型 · 信号驱动IO模型 · 异步IO模型 · BIO编程 · 伪异步IO编程 · NIO编程 · Buffer和Channel · 深入Buffer · Selector · AIO编程 · 四种IO编程对比及选择Netty的原因 · Netty入门 · 开发与部署 · Hello World · 粘包/拆包问题 · 问题及其解决 · LineBasedFrameDecoder · Delim…
目录 · 线程安全 · 线程安全的实现方法 · 互斥同步 · 非阻塞同步 · 无同步 · volatile关键字 · 线程间通信 · Object.wait()方法 · Object.notify()方法 · 编写线程间通信代码的套路 · 面试题:子线程.主线程交替循环 · 生产者-消费者问题 · 哲学家进餐问题 · 读者-写者问题 · 线程内共享 · 定时器 · JDK5新功能 · 线程池 · Callable和Future · ReentrantLock · ReadWriteLock · …
Table of contents Table of contents Overview Introduction Use cases Manual setup Assumption Configuration Startup & test Principle Topic Distribution Producer Consumer Operation Adding topics Modifying topics Removing a topic Graceful shutdown Balanc…
目录 · 概况 · 原理 · HDFS 架构 · 块 · NameNode · SecondaryNameNode · fsimage与edits合并 · DataNode · 数据读写 · 容错机制 · 数据完整性 · NameNode HA · NameNode Federation · HDFS Snapshots · 操作 · API 概况 1. 文件系统抽象类FileSystem a) 源码 public abstract class FileSystem extends Config…