简介: 本文主要介绍Jaeger最新的插件化后端的接口以及开发方法,让大家能够一步步的根据文章完成一个Jaeger插件的开发。此外SLS也推出了对于Jaeger的支持,欢迎大家试用。

随着云原生 + 微服务的推广和落地,服务监控也变得越来越重要了。中等规模的微服务场景下,运维同学已经无法通过日志还原请求的调用轨迹和请求所经过服务的执行耗时,更不用说去定位和分析服务异常根因,研发运维同学需要一个服务监控工具,它可以还原每次请求的服务调用轨迹以及服务执行时间,并以图的形式展现出来。分布式链路追踪系统孕育而生。

近些年市面上有大量优秀的商业产品,这些商业产品通常也叫APM(应用性能监控);比如国内商业公司有阿里云ARMS,听云,博瑞,云智慧等等,国外优秀的商业公司有AppDynamic,DynaTrace等等,它们在产品方面做非常完善,能够适配各种场景。同样地,开源也有非常优秀的解决方案。比如说 CNCF Jaeger,Apache SkyWalking,Cat, Pinpoint等。Jaeger作为CNCF毕业的顶级项目, 在云原生场景下,通常会成为运维同学首选监控解决方案。

Jaeger项目是Uber 在 2015 年开发的。2017 年,Jaeger 纳入云原生计算基金会(CNCF)的孵化项目,2019 年,Jaeger 正式毕业。下图是Jaeger架构图。图中包含两中架构模式,两种架构上大体一样,区别在于添加了Kafka作为缓冲,以解决峰值流量过载的问题。Jaeger Jaeger组件包括 :Client,Agent,Collector,DB,UI等组件,另外Jaeger支持还多种后端存储,其中包括:内存,Badger,Cassandra,ElasticSearch,gRPC插件。

今天我们就来说一说gRPC插件,这个强大且容易被人遗忘的功能。简单点来说,gRPC插件提供了一种能够将Trace数据从Jaeger系统中导出的能力。通过这个能力,开发同学可以很轻松的将Trace对接到一个具备Trace存储和分析的后端服务,这些服务可以对Trace进行二次分析加工,比如说异常根因分析,异常检测和告警等,帮助运维和开发同学更好的发现和定位系统潜在的问题

jaeger插件开发流程

为了更好的了解jaeger插件开发,需要先补充gRPC插件的底层实现原理,Jaeger gRPC插件是使用HashiCorp/go-plugin框架实现的。接下我们将介绍Go Plugin以及插件的开发流程。

Go Plugin由HashiCorp公司开源,它遵循设计模式中的开闭原则,通过接口固定上层业务逻辑,通过改变调用不同的RPC服务接口来改实现对业务的扩展。 目前Go Plugin包含两类插件:RPC Plugin和 GRPCPlugin,两类插件Client的底层调用不一样。一个通过net/rpc调用,一个是grpc服务调用,两个插件都提供了两个方法,Server和Client方法。Service方法的完成的功能是充当服务端的stub,服务端接受到请求后,调用接口服务端接口的实现。Client方法充当了一个工厂方法,为客户端生成接口的实现对象。

Go Plugin在启动过程中会启动一个子进程,让子进程开启RPC/gRPC服务,主进程直接通过RPC/gRPC接口达到插件的方式,它支持多版本服务(后面会讲到)并存,它本身并不提供服务的高可用相关的解决方案,这块需要用户自己去提供。讲了这么多,接下来简单的介绍Go Plugin的开发的过程

插件开发

下面介绍Go Plugin中的Example下的KV例子,KV例子定义了两个方法,Put和 Get方法,KV例子包含多个协议版本,本文以gRPC为例。

定义服务接口

type KV interface {
// KV接口是KV插件定义的接口
Put(key string, value []byte) error
Get(key string) ([]byte, error)
}

实现接口客户端

// KV接口客户端实现,
type GRPCClient struct{
// 接口的客户端封装了gRPC服务
client proto.KVClient
} func (m *GRPCClient) Put(key string, value []byte) error {
// 调用gRPC服务接口
_, err := m.client.Put(context.Background(), &proto.PutRequest{
...
})
return err
} func (m *GRPCClient) Get(key string) ([]byte, error) {
// 本身调用KV的gRPC服务
resp, err := m.client.Get(context.Background(), &proto.GetRequest{
...
})
....
return resp.Value, nil

实现接口服务端

type GRPCServer struct {
Impl KV
} // 实现KV gRPC服务
func (m *GRPCServer) Put(ctx context.Context,req *proto.PutRequest) (*proto.Empty, error) {
// 接受到请求后,便会调用接口的服务端实现
return &proto.Empty{}, m.Impl.Put(req.Key, req.Value)
} func (m *GRPCServer) Get(ctx context.Context, req *proto.GetRequest) (*proto.GetResponse, error) {
// 接受到请求后,便会调用接口的服务端实现
v, err := m.Impl.Get(req.Key)
return &proto.GetResponse{Value: v}, err
} type KV struct{} func (KV) Put(key string, value []byte) error {
// 具体业务实现
} func (KV) Get(key string) ([]byte, error) {
// 具体业务实现
}

实现go plugin插件接口

// 实现GrpcPlugin接口
type KVGRPCPlugin struct {
plugin.Plugin
Impl KV //KV接口的实现,
} func (p KVGRPCPlugin) GRPCClient(ctx context.Context, broker plugin.GRPCBroker, c *grpc.ClientConn) (interface{}, error) {
// 注意返回为接口客户端实现
return &GRPCClient{client: proto.NewKVClient(c)}, nil
} func (p KVGRPCPlugin) GRPCServer(broker plugin.GRPCBroker, s *grpc.Server) error {
// 注册gRpc服务
proto.RegisterKVServer(s, &GRPCServer{Impl: p.Impl})
return nil
}

插件使用

上面介绍了插件的开发,这部分将介绍插件是如何使用的,插件使用分为两个部分,插件服务端和插件的客户端部分

插件服务端

上面部分提到,go plugin启动时会启动在本地一个子进程,这里的子进程指的就是插件的服务端,插件服务端需要是一个包含main方法的可执行文件。下面介绍开始简单介绍插件服务端使用

  1. 编写一个main函数,并将插件的客户端实现注册到go-plugin中,如下:
plugin.Serve(&plugin.ServeConfig{
// shakeConfig包含查件版本和认证信息
HandshakeConfig: shared.Handshake,
Plugins: map[string]plugin.Plugin{
// 插件名字
"kv_grpc": &shared.KVGRPCPlugin{Impl: &KV{}},
},
GRPCServer: plugin.DefaultGRPCServer,
})
  1. 使用go build 编译成可执行文件

插件客户端

插件客户端流程主要包括,创建插件的Client,启动插件服务端,获取插件的接口实现,调用服务接口

client := plugin.NewClient(&plugin.ClientConfig{
// shakeConfig包含查件版本和认证信息
HandshakeConfig: shared.Handshake,
//插件名字和插件的实例的映射关系
Plugins: shared.PluginMap,
// 这里填写插件可执行文件的路径
Cmd: exec.Command("sh", "-c", os.Getenv("KV_PLUGIN")),
// 插件支持的协议。
AllowedProtocols: []plugin.Protocol{plugin.ProtocolGRPC, plugin.ProtocolNetRPC},
}),
// 获取插件的client端,在这步,go plugin通过Cmd穿过来的参数启动子进程,同时做插件版本和认证信息的校验
rpcClient, err := client.Client()
// 获取接口客户端的对象
raw, err := rpcClient.Dispense("kv_grpc")
kv := raw.(shared.KV)
// 执行命令
result, err := kv.Get(os.Args[1])

jaeger插件接口规范

通过上面的介绍,我们已经可以了解到,Jaeger已经帮我们实现了插件的客户端&服务端和接口的客户端,我们只需完成接口的服务端开发,一个gRPC插件的开发完成了。Jaeger在gRPC插件预留了2个插件接口,StorePlugin和ArchiveStorePlugin,两者区别在于StorePlugin比ArchiveStorePlugin多了DependencyReader接口的定义,DependencyReader接口用来查询服务间依赖关系。同时这两个插件接口都暴露了SpanReader和SpanWriter接口,用于Trace/Span的读写操作。

SpanReader

// 读取所有的operation Name
func GetOperations(ctx context.Context, query spanstore.OperationQueryParameters) ([]spanstore.Operation, error)
// 读取所有的应用名称
func GetServices(ctx context.Context) ([]string, error)
// 通过符合条件的Trace
func FindTraces(ctx context.Context, query *spanstore.TraceQueryParameters) ([]*model.Trace, error)
// 通过符合条件的Trace ID
func FindTraceIDs(ctx context.Context, query *spanstore.TraceQueryParameters) ([]model.TraceID, error)
// 通过Trace ID获取具体Trace详情
func GetTrace(ctx context.Context, traceID model.TraceID) (*model.Trace, error)

SpanWriter

// 写入Trace
func WriteSpan(ctx context.Context, span *model.Span) error

DependencyReader

// 读取应用之间的依赖关系,用于绘应用拓扑图和DAG图
func GetDependencies(ctx context.Context, endTs time.Time, lookback time.Duration) ([]model.DependencyLink, error)

开发SLS Jaeger插件

SLS现已推出分布式链路追踪(Trace)的统一存储和分析方案,目前支持接入Jaeger,Apache SkyWalking,OpenTelemetry,Zipkin等多种追踪数据接入。感兴趣的可以点击查看Demo

SLS的Jaeger插件里的代码逻辑这里就不赘述。目前插件代码现在已经开源,GitHub地址:https://github.com/aliyun/aliyun-log-jaeger 欢迎大家加️拍砖,仓库也提供了一个一键Run的Demo示例,欢迎使用,使用方面的文档已经在Github上提供,下面给大家演示一下效果以及开发Jaeger插件开发背后的意义。

插件背后的思考

整个插件至此开发完成,同时,我们也需要思考一下插件的背后给我们带来了什么。用户利用trace所带来的信息价值,Trace数据采集上来仅仅只是系统监控的开始,挖掘Trace隐藏的信息是构建监控系统最重要的能力。同样的,再利用Trace所带来的的信息价值同时,如何持续地保障这种能力也是我们思考的重心

“海恩法则”指出:每一起严重事故的背后,必然有29次轻微事故和300起未遂先兆以及1000起事故隐患。 “海恩法则”告诉我们这样一个道理:每一起安全事故的背后看似偶然,其实都是各种因素积累到一定程度的必然结果, 业务系统每天都再生产大量的Trace数据,这些Trace数据用人的肉眼是无法了解系统运行的状态的信息,更别去发现系统一些隐藏起来的问题。这时就需要系统提供大数据场景下的分析的能力。SLS做日志起家,每天处理数PB级别的日志量,另外也提供一堆的日志分析的算子,加工处理的工具,为用户分析系统背后的故事。Trace我们可以理解为是一种特定的日志,只是这个日志带了关联的上下文(TraceID,parentSpanID,SpanID),相信SLS在处理Trace日志的也会游刃有余,

作为Jaeger作为一个可观察性/监控系统的组成部分,是定位和发现业务系统问题的重要数据来源,我们需要保证监控系统比业务系统活的更久。一旦监控系统先于业务系统down掉,此时的监控可以说是完全没有意义。而Jaeger作为一个开源项目,它本身只提供解决方案,并不会提供部署规模的评估方案和服务如何保证高可用的方案,这种情况下怎么去提供高可用和高性能的后端服务?谁去为监控系统提供最后一层保障? SLS作为一个云服务,其最大的一个特点就是高性能、弹性和免运维,让用户轻松应对激增流量或者规模评估不准确的问题,SLS服务本身提供99.9%的可用性以及11个9的数据可靠性。

总结

构建完备的监控体系体系,不仅要保证监控系统的可用性,还需要强大的分析能力。分析能力帮助运维同学快速的定位和发现故障,提高系统的可用性。而Jaeger插件为我们提供接入多种分析系统的扩展能力,这样的扩展能力能够让专业的分析团队提供专业的分析能力,让运维和开发团队的更加专注业务运维。

原文链接

本文为阿里云原创内容,未经允许不得转载。

Jaeger插件开发及背后的思考的更多相关文章

  1. 必胜宅急送Web app设计背后的思考

    O2O模式是餐饮业在移动消费趋势下主动拥抱互联网的方向,迎合餐饮消费者从以往经验判断为主转变为依靠移动设备.lbs.社交网络进行立体决策的过程.继App客户端之后,手机web app也逐渐成为O2O中 ...

  2. Google Closure Compiler 高级模式及更多思考(转)

    前言 Google Closure Compiler 是 Google Closure Tools 的一员,在 2009 年底被 Google 释出,早先,有 玉伯 的 Closure Compile ...

  3. ENode框架Conference案例分析系列之 - 事件溯源如何处理重构问题

    前言 本文可能对大多数不太了解ENode的朋友来说,理解起来比较费劲,这篇文章主要讲思路,而不是一上来就讲结果.我写文章,总是希望能把自己的思考过程尽量能表达出来,能让大家知道每一个设计背后的思考的东 ...

  4. u-boot FIT image介绍_转自“蜗窝科技”

    转自:http://www.wowotech.net/u-boot/fit_image_overview.html 1. 前言 Linux kernel在ARM架构中引入设备树device tree( ...

  5. [转]面向过程的分析(POA),和面向对象的分析(OOA)

    欢迎转载本文,转载地址: http://www.juliantec.info/articles/basic-concept/poa-and-ooa.html 软件开发方法论概述 在60年代的软件开发行 ...

  6. 大型网站系统与Java中间件实践

    大型网站系统与Java中间件实践(贯通分布式高并发高数据高访问量网站架构与实现之权威著作,九大一线互联网公司CTO联合推荐) 曾宪杰 著   ISBN 978-7-121-22761-5 2014年4 ...

  7. DDD:建模原语 之 四象图(转载的神文)

    “模型.状态和行为特征.场景”和“四象图”,建模观的命名与立象. 建模原语:四象图 作者:achieveidea@gmail.com 命名:模型.结构特征.行为特征.场景(及其规约). 释义:模型,描 ...

  8. IT人的自我导向型学习:学习的4个层次

    谈起软件开发一定会想到用什么技术.采用什么框架,然而在盛行的敏捷之下,人的问题逐渐凸显出来.不少企业请人来培训敏捷开发技术,却发现并不能真正运用起来,其中一个主要原因就是大家还没有很好的学习能力.没有 ...

  9. u-boot启动流程分析(2)_板级(board)部分

    转自:http://www.wowotech.net/u-boot/boot_flow_2.html 目录: 1. 前言 2. Generic Board 3. _main 4. global dat ...

  10. Don't Starve,好脚本,好欢乐

    最近玩了shank系列的开发公司新出的游戏饥荒(Don't Starve),容量很小,200MB左右,所以可以归类为小游戏..但是游戏性却是相当的高,游戏中各物件的交互出奇的丰富和复杂,我相信该游戏9 ...

随机推荐

  1. Linux快速入门(六)Linux网络管理

    ping ping命令用于测试两台主机之间是否可以通信,一般情况下会使用ping www.baidu.com来测试网络连通性,如果不指定发送包的个数默认是一直发送数据包,可以使用Ctrl+C停止.网络 ...

  2. web前端工程化合集

    这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 一.Git 1. git 和 svn 的区别 git 和 svn 最大的区别在于 git 是分布式的,而 svn 是集中式的.因此我们不能 ...

  3. 记录--vue打印插件

    这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 网页实现打印 可以选择性的打印某一部分 的vue组件 1.引入 把print.js 下载到本地,然后放在src 下面添加文件夹里. pri ...

  4. 记一次 .NET某游戏后端API服务 CPU爆高分析

    一:背景 1. 讲故事 前几天有位朋友找到我,说他们的API服务程序跑着跑着CPU满了降不下去,让我帮忙看下怎么回事,现在貌似民间只有我一个人专注dump分析,还是申明一下我dump分析是免费的,如果 ...

  5. Dll堆栈问题(Dll的静态变量与全局变量、vs的MT与MD)

    问题引入:dll有一个导出函数,函数参数是string&,string在函数内部被=赋值.在exe动态加载此dll,调用此导出函数后,会崩溃. 原因:如果任何STL类的实现中使用了静态变量(我 ...

  6. C++ Concurrency in Action 读书笔记一:thread的管理

    为避免混淆,用thread表示std::thread及其对象实例,用线程表示操作系统概念下的线程 Chapter 2 thread的管理 2.1 thread的创建(构造函数) a. 默认构造函数 d ...

  7. [Java]基本数据类型与引用类型赋值的底层分析的小结

    [版权声明]未经博主同意,谢绝转载!(请尊重原创,博主保留追究权) https://www.cnblogs.com/cnb-yuchen/p/17969159 出自[进步*于辰的博客] 目录 1.关于 ...

  8. 替换Spring容器中已经存在的Bean

    一.背景 我们在开发的过程中,经常会引入别人写的jar包实现某些功能.而别人的jar包一般都自动注入Spring容器中,假设别人都是通过@Bean或@Component注入的,并且没有加入@Condi ...

  9. js实现多列排序-存在问题

    js实现多列排序 根据业务逻辑调整 sortData 的数据. 排序的规则是按照第一列排序,第一列相同按照第二列排序,依次类推 // 要排序的数据 const array = [{ name: '甲' ...

  10. #二进制拆分,矩阵乘法#洛谷 6569 [NOI Online #3 提高组] 魔法值

    题目 分析 考虑一个点的权值能被统计到答案当且仅当其到1号点的路径条数为奇数条. 那么设 \(dp[i][x][y]\) 表示从 \(x\) 到 \(y\) 走 \(i\) 步路径条数的奇偶性, 这个 ...