阿里开源 KT Connnect,轻量级云原生测试环境治理平台来啦!
作者| 阿里云技术专家 郑云龙(砧木)
目前越来越多的开发者开始采纳 Kubernetes 管理基础设施环境,并通过 Kubernetes 完成日常的开发,测试以及生产发布活动,为了能够有效的帮助开发者提升在 Kubernetes 场景下的本地开发测试效率,阿里巴巴研发效能云效团队面向原生 Kubernetes 开源了一款轻量级的开发者工具 KT Connect。
1. KT Connect 是什么
KT Connect(Kubernetes Developer Tool) 是轻量级的面向 Kubernetes 用户的开发测试环境治理辅助工具。其核心是通过建立本地到集群以及集群到本地的双向通道,从而提升在持续交付生命周期中开发环节的效率问题以及开发测试环境的复用问题:
KT Connect 包含一组用于快速实现本地与集群联调的 Cli 命令集: connect, exchange, mesh 以及一个集中式的可视化 Dashboard。
- connect: 在 kubectl 的基础上基于 SSH 协议构建本地到 Kubernetes 集群的 VPN 网络,使得用户本地能够直接访问 Kubernetes 集群的内部网络如 PodIP, ClusterIP。同时基于内置的 DNS 服务,开发者本地可以直接访问集群内的 Service DNS 地址。
- exchange: 通过部署代理容器接管集群内对特定应用的全部流量并转发到开发者本地端口,从而帮助开发者将本地服务加入到集群中从而实现联调测试。
- mesh: 与 exchange 类似,区别在于 mesh 不会完全接管所有流量,而是在 Service 后部署一个带有特定版本号的 Pod 实例,配合 Istio 的流量管理规则,从而可以将特定流量转发到开发者本地。
通过 KT Connect 提供的上述能力,开发者可以从传统的“开发-构建-部署”的场景中解脱,直接实现本地开发本地联调,从而可以极大的提升开发效率。同时通过 Mesh 提供混合能力,通过复用测试环境减少在基础设施层面的资源投入。
2. KT Connect 的优势
KT Connect 源于阿里巴巴研发效能在测试规模化环境治理上的丰富经验,同时受启发于像 Azure Dev Spaces 和 Telepresence 这样的开发者工具,而形成的一套面向原生 Kubernetes 用户的测试环境治理以及本地联调解决方案:
- 原生 Kubernetes 支持:兼容任意 Kubernetes 集群,同时支持以 kubectl 插件的方式运行;
- 轻量级:基于 Go 实现,且只在 connect 的 VPN 网络能力方面主要依赖 SSHUttle 工具,无其它任何第三方依赖;用户可以在任意能正常运行 kubectl 的环境中使用 KT Connect;
- 多种应用场景:通过与原生 Istio 的集成,支持用户独占式或者共享开发测试环境;
- 可视化:基于同一的 Dashboard 以及可视化能力,让用户更直观的了解测试环境的使用情况。
- 可扩展性: KT Connect 中提供了详细的元数据信息,用户可以快速基于 Kubernetes API 扩展 Dashboard 以及功能;
3. KT Connect 的由来
经过这么些年持续交付理念不断的深入人心以及相关实践的不断完善,发布已经成了一键可以完成的事情。整个持续交付过程越来越自动化,质量以及基础设施定义等活动不断左移,研发最大时间投入回归到代码本身。
时至今日在团队协作的模式下,无论软件研发模式或者架构这么些年来发生了多大的变化,影响软件开发效率最大的问题依然是集成的问题。
3.1 阿里巴巴解决之道
一般来说在DevOps中我们会通过持续交付流水线的方式不断的对软件进行集成,越到后面的阶段越接近生产环境,集成的验证结果也越让研发人员有信心,代码能够在生产环境上正常运行:
在理想情况下,我们希望通过自动化流水线来完成持续集成验证,各阶段环境部署。并且在这些环节上完成各角色的协作:
- “谁又把日常搞挂了!!!”
- “改一行代码部署十分钟……”
这些都是研发团队实践持续交付流水线后的真实心声。我们都知道本地开发本地联调是效率最高的,但是持续交付流水线本身并不解决这些问题。而幸好集团有 Aone 以及强大的中间件能力。基于中间件的隔离能力以及集团大环境下办公网络与日常环境网络是直接连通的。在真正提交集成之前,开发者可以在本地使用独立的测试环境进行联调测试:
除了独立使用的项目环境以外,为了提升日常环境的问题性,阿里 Aone 中还引入了主干环境的模式来提升集成环境的稳定性。在前面已经介绍过在集团内集成联调测试能够如此高效,是有一些前置条件的:
- 第一是集团能够有多余的基础设施来给开发人员独占式的使用
- 第二是集团网络环境办公网络与日常环境是直接打通的
- 第三是强大的中间件隔离能力,从而能够让流量能够按照开发者的规划流转
3.2 KT Connect 的解决方案
3.2.1 Connect 连接:
快速建立本地到集群的 VPN 网络,同时将 Kubernetes 集群的 DNS 解析能力整合到本地,让用户可以直接通过 PodIP, ClusterIP 以及 DNS 域名访问到集群内的服务:
通过建立本地到集群的通道,让开发者可以快速的与集群内的其它服务进行联调测试。同时由于兼容了 Kubernetes 的 DNS 能力,因此可以使得本地的代码仿佛是直接运行在集群中一样。
3.2.2 Exchange 交换:
那集群内的流量如何打到开发者的本地进程? Exchange 提供了这样的能力,Exhange 命令通过在集群内部署代理容器,替换集群内的原有应用,并将所有对代理容器的请求直接转发到本地端口:
通过 Connect 和 Exchange 两个命令分别负责:本地到集群,以及集群到本地的通路。通过组合使用配合 Kubernetes 的 Namespace 隔离, Kubernetes 原生开发者可以在独占的测试环境上完成本地到集群以及集群到本地的联调与集成需求。
3.2.3 Mesh 混合:
那我们再思考一个问题:我们真的需要独占的"项目测试环境吗"?
项目环境在集团内之所以有存在的意义,归根结低还是因为环境不稳定。导致开发集成效率被直接拉低。那在 Kubernetes 下有没有办法解决呢?既然说到了这,那就证明肯定是有的。接下来就是要介绍了 KT Connect 的第三个能力: Mesh
Mesh 与 Exchange 的能力其实非常类似,在调用之后都会在集群内启动一个代理容器,并且继承原应用的标签。 但是最大的差异在于 Exhange 会将原应用的 Replicas 直接降到 0,完全结果集群内所有对原应用的流量。 而 Mesh 则是在保持原有应用 Pod 不变的前提下,创建一个新的代理容器并且继承原应用的所有标签,但是会新增加一个随机的 version 标签。
说到这里,读者可能在想就增加了一个 version 而已,好像并没有太大的变化。但是当配合 Service Mesh 之后就可以产生新的化学反应。由于原应用存在依然存在,Mesh 是以应用新版本的形式部署到 Kubernetes 集群内,配合 Istio 的流量规则,可以让所有正常流量依然保持对原应用的访问,而只对一些有特殊标记的的请求转发到本地。从而可以实现在一套公用测试环境的基础上各自独立的完成本地的集成联调。
3.2.4 Dashboard 可视化:
Cli 工具从客户端的角度为研发人员提供了相对便捷的方式能够让研发能够在本地快速完成联调测试,而站在测试环境管理的维度上,我们需要了解测试环境的状态,例如,当前有多少服务是被 Exchange 到了开发人员本地,服务一共 Mesh 了多少个本地版本? 这部分内容在 KT Connect 中通过一个集中式的 Dashboard 提供相关的能力支撑,我们可以清楚的了解当前服务下运行了容器实例,同时是否有本地环境接入,从而可以更好的支撑多人协作的场景。
4. KT Connect 的应用场景
4.1 本地联调测试
在阿里内部,开发人员可以为每一个变更单独创建一个开发测试环境并且与本地程序进行联调,在 Kubernetes 环境中通过分配单独的命名空间,并配合 connect 和 exchange 命令的组合,可以让开发人员在独占的开发测试环境中进行联调测试。
4.2 共享开发测试环境
除了独占式的开发测试环境以外,结合 Istio 并组合 connext 和 mesh 命令,一组开发人员可以同时在一个共享的开发测试环境中完成本地的联调测试。从而可以大大节省基础设施资源的投入。
4.3 持续交付流水线
在阿里内部,我们通常会有一个单独的主干环境,每一次变更发布到正式并合并到主干代码之后,都会走动触发主干环境的部署,那意味着主干环境是默认稳定的一个环境。那在基于 Kubernetes 的持续交付流水线中,我们也可以非常方便的模拟一个主干环境,并且默认通过主干环境来进行本地的联调测试,从而避免日常环境不稳定导致无法有效的开展本地联调测试的任务。
5. RoadMap
我们计划平均一个月一个 Release 版本,当前规划:
可视化与测试环境管理
- 提供测试环境模板和基线管理帮助用户一键拉起测试环境;
- Namespace 保护机制,集群中即包含测试环境又包含生产环境的集群提供 Namespace 保护机制,避免客户端接管生产环境流量;
- 可视化能力增强集群整体可视化拓扑;
- Istio 可视化管理,通过 Dashboard 可视化或者自动化生成流量规则;
性能和稳定性优化
- 优化代理容器大小以及启动速度,提升启动效率;
- Cli 优化进程管理能力;
- Cli 中 Istio 能力增强,在 Cli 中定义流量转发规则
6. 更多资料
- 项目地址: https://github.com/alibaba/kt-connect
- 帮助和使用文档: https://alibaba.github.io/kt-connect/#/
- 问题和反馈: https://github.com/alibaba/kt-connect/issues
阿里开源 KT Connnect,轻量级云原生测试环境治理平台来啦!的更多相关文章
- 直播预告 | 开源的云原生开发环境 —— Nocalhost
直播来啦!本次云原生学院邀请到腾讯云 CODING DevOps 后端工程师王炜为大家分享<开源的云原生开发环境 -- Nocalhost>. 直播信息 讲师:王炜 - 腾讯云 CODIN ...
- 云原生时代的DevOps平台设计之道
开发人员与运维人员是 IT 领域很重要的两大人群,他们都会参与到各种业务系统的建设过程中去.DevOps 是近年间火爆起来的一种新理念,这种理念被很多人错误的解读为"由开发人员(Dev)学习 ...
- Nocalhost 为 KubeSphere 提供更强大的云原生开发环境
作者简介 张海立(驭势科技云平台研发总监):开源爱好者,云原生社区上海站 PMC 成员,KubeSphere Ambassador:日常云原生领域工作涉及 Kubernetes.DevOps.可观察性 ...
- 专访 KubeVela 核心团队:如何简化云原生复杂环境下的应用交付和管理
作者 | Infoq Tina 背景 12 月 9 日,在 2021 年 KubeCon 云原生技术峰会上,CNCF 开源项目 KubeVela 宣布推出了 1.2 版本. KubeVela 是一个简 ...
- 基于Drone+Gogs流水线-全面认识轻量级云原生CI引擎Drone
1. 介绍 Drone by Harness 是一个基于Docker容器技术的可扩展的持续集成引擎,用于自动化测试.构建.发布.每个构建都在一个临时的Docker容器中执行,使开发人员能够完全控制其构 ...
- 从 Hadoop 到云原生, 大数据平台如何做存算分离
Hadoop 的诞生改变了企业对数据的存储.处理和分析的过程,加速了大数据的发展,受到广泛的应用,给整个行业带来了变革意义的改变:随着云计算时代的到来, 存算分离的架构受到青睐,企业开开始对 Hado ...
- OpenKruise - 云原生应用自动化引擎正式开源
2019 年 6 月 24 日至 26 日, 由 Cloud Native Computing Foundation (CNCF) 主办的云原生技术大会 KubeCon + CloudNativeCo ...
- 规模化落地云原生,阿里云即将重磅亮相 KubeCon China
2019 年 6 月 24 日至 26 日, 由 Cloud Native Computing Foundation (CNCF) 主办的云原生技术大会 KubeCon + CloudNativeCo ...
- DTCC 2020 | 阿里云李飞飞:云原生分布式数据库与数据仓库系统点亮数据上云之路
简介: 数据库将面临怎样的变革?云原生数据库与数据仓库有哪些独特优势?在日前的 DTCC 2020大会上,阿里巴巴集团副总裁.阿里云数据库产品事业部总裁.ACM杰出科学家李飞飞就<云原生分布式数 ...
随机推荐
- 黄聪:wordpress调试过程只显示500错误,不显示错误内容
在functions.php文件添加如下代码: add_filter('wp_die_handler', 'get_my_custom_die_handler'); function get_my_c ...
- AppBoxFuture(九): 组织结构与权限体系
权限体系是用于约束用户访问或操作资源的权利,这里的"资源"可以指数据,也可以指特定的功能(如审核订单).通常的权限体系设计是基于角色的访问控制方式,用户通过角色与权限进行关联. ...
- django7-cookie与session
1.有状态服务与无状态服务 服务实例存储了客户端的数据 ,那么这就是个有状态服务 服务实例不存储客户端数据 ,让其他缓存存储客户端数据 ,这就是无状态服务 ,http就是无状态的 2.什么是cooki ...
- 初识HTML_表单
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title> ...
- Spring 注解配置Bean
一.使用注解配置Bean 1.注解 在类定义.方法定义.成员变量定义前使用.其简化<bean>标签,功能同<bean>标签.格式为: @注解标记名. 2.组件扫描 Spring ...
- 作用域,作用域链,垃圾收集,js解析
变量中包含基本数据类型和引用数据类型,基本类型指简单的数据值,引用类型由多个值构成的对象. 引用类型可以为其添加属性和方法,也可以改变和删除属性和方法. 复制变量值: 基本类型:一个变量向另一 ...
- Android 安全攻防(三): SEAndroid Zygote
转自:http://blog.csdn.net/yiyaaixuexi/article/details/8495695 在Android系统中,所有的应用程序进程,以及系统服务进程SystemServ ...
- UITableViewStyleGrouped 类型 tableView sectionHeader 高度问题
UITableViewStyleGrouped 类型的 tableView 在适配的时候出现很大的问题.记录一下 按照之前的方法,只需要执行以下的代码就能够很好的解决 section == 0 的时候 ...
- [b0004] Hadoop 版hello word mapreduce wordcount 运行
目的: 初步感受一下hadoop mapreduce 环境: hadoop 2.6.4 1 准备输入文件 paper.txt 内容一般为英文文章,随便弄点什么进去 hadoop@ssmaster:~$ ...
- C学习笔记(3)---作用域,数组, (少量指针入门)
1. 作用域(scope):任何一种编程中,作用域是程序中定义的变量所存在的区域,超过该区域变量就不能被访问.C 语言中有三个地方可以声明变量. a. 在函数或块内部的局部变量 - 在某个函数或块的内 ...