一:学shuffle原理的必要性 1.说明 学习shuffle的作用是可以对程序进行优化. 在shuffle这个部分有三个部分需要注意: 分区 排序 分组 这个可以进行优化. 二:分区的实践 1.说明 在shuffle中有一行程序job.setPartitionerClass(partition.class); 所以,可以书写一个分区规则. 2.程序 package com.senior.bigdata; import org.apache.hadoop.io.IntWritable; impo…
前言 在介绍交换分区之前,我们先了解一下 mysql 分区. 数据库的分区有两种:水平分区和垂直分区.而MySQL暂时不支持垂直分区,因此接下来说的都是水平分区.水平分区即:以行为单位对表进行分区.比如:按照时间分区,每一年一个分区等. 在MySQL中,分区是可以交换的,可以将一个分区表中的一个分区和一个普通表中的数据互换. 交换分区的实现 1.交换分区的语法 alter table pt exchange partition p with table nt; 解释: 将 分区表pt 的 分区p…
SHOW PLUGINS; sql 可以查看partition的Status 是否是ACTIVE的 使用mydatetime 进行水平分区案例: CREATE TABLE test_users ( `id` INT (10) NOT NULL AUTO_INCREMENT, `mydatetime` datetime NOT NULL, `email` VARCHAR (255) NOT NULL, UNIQUE INDEX (`email`), PRIMARY KEY (`id`) ); --…
现在我们简单地来定制二个 ServiceInstanceListSupplier, 都是zone-preference的变种. 为了方便, 我重新调整了一下项目的结构, 把一些公用的类移动到hello-pubtool 模块, 这样网关项目和Feign项目就能复用一样的类了. A. main和beta互不相通, 绝对隔离 (资源相对充裕) 回到最开始的目的, 我们先实现这个A方案 package com.cnscud.betazone.pub.samezone; import com.cnscud…
此文是一个完整的例子, 包含可运行起来的源码. 此例子包含以下部分: 网关层实现自定义LoadBalancer, 根据Header选取实例 服务中的Feign使用拦截器, 读取Header Feign的LoadBalancer也是用网关一样的实现 使用Web Filter来统一设置header变量, 于业务解耦 自定义LoadBalancer, 读取Header 首先创建一个新模块 hello-mybalancerbyheader, pom文件如下 <?xml version="1.0&q…
上面看到直接通过网关访问微服务是可以实现按区域调用的, 那么微服务之间调用是否也能按区域划分哪? 下面我们使用FeignClient来调用微服务, 就可以配合LoadBalancer实现按区域调用. 首先我们新建一个微服务模块 hello-nameservice, 用来调用 hello-remotename服务. 模块需要使用Feign, 还要开启Feign的负载均衡, pom.xml文件如下: <?xml version="1.0" encoding="UTF-8&q…
注意: 因为涉及到配置测试切换, 中间环节需按此文章操作体验, 代码仓库里面的只有最后一步的代码 准备好了微服务, 那我们就来看看网关+负载均衡如何一起工作 新建一个模块hello-gateway, 开启gateway和loadbalancer, pom部分如下: <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0…
我们准备一下用于查询姓名的微服务. 首先定义一下服务的接口, 新建一个空的Maven模块hello-remotename-core, 里面新建一个类: public interface RemoteNameService { String readName(int id) ; } 接下来的微服务都实现这个简单的接口作为示范. 然后创建一个服务模块hello-remotename, 依然使用 Spring Initializr, 选择 "Spring Web", "Eureka…
最近研究了一下Spring Cloud里面的灰度发布, 看到各种各样的使用方式, 真是纷繁复杂, 眼花缭乱, 不同的场景需要不同的解决思路. 那我们也来实践一下最简单的场景: 区域划分: 服务分为beta(线上预发布环境)和main主生产环境 区域隔离情况 试情况可能有三种选择: A. main和beta互不相通, 绝对隔离 (资源相对充裕) B. main和beta正常情况下不通, 缺少实例时互通 (比较简单, 但可能无法区分异常服务, 不知道访问的是那个区域) C. beta绝对隔离, ma…
一.分区原理 1.为什么要分区?(这个借用别人的一段话来阐述.) 为了减少网络传输,需要增加cpu计算负载.数据分区,在分布式集群里,网络通信的代价很大,减少网络传输可以极大提升性能.mapreduce框架的性能开支主要在io和网络传输,io因为要大量读写文件,它是不可避免的,但是网络传输是可以避免的,把大文件压缩变小文件, 从而减少网络传输,但是增加了cpu的计算负载. Spark里面io也是不可避免的,但是网络传输spark里面进行了优化.spark把rdd进行分区(分片),放在集群上并行计…