在上一篇文章中我实现了一个支持Debug、Info、Error等多个级别的日志库,并将日志写到了磁盘文件中,代码比较简单,适合练手。有兴趣的可以通过这个链接前往:https://github.com/bosima/ylog/releases/tag/v1.0.1

工程实践中,我们往往还需要对日志进行采集,将日志归集到一起,然后用于各种处理分析,比如生产环境上的错误分析、异常告警等等。在日志消息系统领域,Kafka久负盛名,这篇文章就以将日志发送到Kafka来实现日志的采集;同时考虑到日志分析时对结构化数据的需求,这篇文章还会提供一种输出Json格式日志的方法。

这个升级版的日志库还要保持向前兼容,即还能够使用普通文本格式,以及写日志到磁盘文件,这两个特性和要新增的两个功能分别属于同类处理,因此我这里对它们进行抽象,形成两个接口:格式化接口、写日志接口。

格式化接口

所谓格式化,就是日志的格式处理。这个日志库目前要支持两种格式:普通文本和Json。

为了在不同格式之上提供一个统一的抽象,ylog中定义 logEntry 来代表一条日志:

  1. type logEntry struct {
  2. Ts time.Time `json:"ts"`
  3. File string `json:"file"`
  4. Line int `json:"line"`
  5. Level LogLevel `json:"level"`
  6. Msg string `json:"msg"`
  7. }

格式化接口的能力就是将日志从logEntry格式转化为其它某种数据格式。ylog中对它的定义是:

  1. type LoggerFormatter interface {
  2. Format(*logEntry, *[]byte) error
  3. }

第1个参数是一个logEntry实例,也就是要被格式化的日志,第2个参数是日志格式化之后要写入的容器。

普通文本格式化器

其实现是这样的:

  1. type textFormatter struct {
  2. }
  3. func NewTextFormatter() *textFormatter {
  4. return &textFormatter{}
  5. }
  6. func (f *textFormatter) Format(entry *logEntry, buf *[]byte) error {
  7. formatTime(buf, entry.Ts)
  8. *buf = append(*buf, ' ')
  9. file := toShort(entry.File)
  10. *buf = append(*buf, file...)
  11. *buf = append(*buf, ':')
  12. itoa(buf, entry.Line, -1)
  13. *buf = append(*buf, ' ')
  14. *buf = append(*buf, levelNames[entry.Level]...)
  15. *buf = append(*buf, ' ')
  16. *buf = append(*buf, entry.Msg...)
  17. return nil
  18. }

可以看到它的主要功能就是将logEntry中的各个字段按照某种顺序平铺开来,中间用空格分隔。

其中的很多数据处理方法参考了Golang标准日志库中的数据格式化处理代码,有兴趣的可以去Github中详细查看。

这里对日期时间格式化为字符串做了特别的优化,在标准日志库中为了将年、月、日、时、分、秒、毫秒、微秒等格式化指定长度的字符串,使用了一个函数:

  1. func itoa(buf *[]byte, i int, wid int) {
  2. // Assemble decimal in reverse order.
  3. var b [20]byte
  4. bp := len(b) - 1
  5. for i >= 10 || wid > 1 {
  6. wid--
  7. q := i / 10
  8. b[bp] = byte('0' + i - q*10)
  9. bp--
  10. i = q
  11. }
  12. // i < 10
  13. b[bp] = byte('0' + i)
  14. *buf = append(*buf, b[bp:]...)
  15. }

其逻辑大概就是将数字中的每一位转换为字符并存入byte中,注意这里初始化byte数组的时候是20位,这是int64最大的数字位数。

其实时间字符串中的每个部分位数都是固定的,比如年是4位、月日时分秒都是2位,根本不需要20位,所以这个空间可以节省;还有这里用了循环,这对于CPU的分支预测可能有那么点影响,所以我这里分别对不同位数写了专门的格式化方法,以2位数为例:

  1. func itoa2(buf *[]byte, i int) {
  2. q := i / 10
  3. s := byte('0' + i - q*10)
  4. f := byte('0' + q)
  5. *buf = append(*buf, f, s)
  6. }

Json文本格式化器

其实现是这样的:

  1. type jsonFormatter struct {
  2. }
  3. func NewJsonFormatter() *jsonFormatter {
  4. return &jsonFormatter{}
  5. }
  6. func (f *jsonFormatter) Format(entry *logEntry, buf *[]byte) (err error) {
  7. entry.File = toShortFile(entry.File)
  8. jsonBuf, err := json.Marshal(entry)
  9. *buf = append(*buf, jsonBuf...)
  10. return
  11. }

代码也很简单,使用标准库的json序列化方法将logEntry实例转化为Json格式的数据。

对于Json格式,后续考虑支持用户自定义Json字段,这里暂时先简单处理。

写日志接口

写日志就是将日志输出到别的目标,比如ylog要支持的输出到磁盘文件、输出到Kafka等。

前边格式化接口将格式化后的数据封装到了 []byte 中,写日志接口就是将格式化处理的输出 []byte 写到某种输出目标中。参考Golang中各种Writer的定义,ylog中对它的定义是:

  1. type LoggerWriter interface {
  2. Ensure(*logEntry) error
  3. Write([]byte) error
  4. Sync() error
  5. Close() error
  6. }

这里有4个方法:

  • Ensure 确保输出目标已经准备好接收数据,比如打开要写入的文件、创建Kafka连接等等。
  • Write 向输出目标写数据。
  • Sync 要求输出目标将缓存持久化,比如写数据到磁盘时,操作系统会有缓存,通过这个方法要求缓存数据写入磁盘。
  • Close 写日志结束,关闭输出目标。

写日志到文件

这里定义一个名为fileWriter的类型,它需要实现LoggerWriter的接口。

先看类型的定义:

  1. type fileWriter struct {
  2. file *os.File
  3. lastHour int64
  4. Path string
  5. }

包含四个字段:

  • file 要输出的文件对象。
  • lastHour 按照小时创建文件的需要。
  • Path 日志文件的根路径。

再看其实现的接口:

  1. func (w *fileWriter) Ensure(entry *logEntry) (err error) {
  2. if w.file == nil {
  3. f, err := w.createFile(w.Path, entry.Ts)
  4. if err != nil {
  5. return err
  6. }
  7. w.lastHour = w.getTimeHour(entry.Ts)
  8. w.file = f
  9. return nil
  10. }
  11. currentHour := w.getTimeHour(entry.Ts)
  12. if w.lastHour != currentHour {
  13. _ = w.file.Close()
  14. f, err := w.createFile(w.Path, entry.Ts)
  15. if err != nil {
  16. return err
  17. }
  18. w.lastHour = currentHour
  19. w.file = f
  20. }
  21. return
  22. }
  23. func (w *fileWriter) Write(buf []byte) (err error) {
  24. buf = append(buf, '\n')
  25. _, err = w.file.Write(buf)
  26. return
  27. }
  28. func (w *fileWriter) Sync() error {
  29. return w.file.Sync()
  30. }
  31. func (w *fileWriter) Close() error {
  32. return w.file.Close()
  33. }

Ensure 中的主要逻辑是创建当前要写入的文件对象,如果小时数变了,先把之前的关闭,再创建一个新的文件。

Write 把数据写入到文件对象,这里加了一个换行符,也就是说对于文件日志,其每条日志最后都会有一个换行符,这样比较方便阅读。

Sync 调用文件对象的Sync方法,将日志从操作系统缓存刷到磁盘。

Close 关闭当前文件对象。

写日志到Kafka

这里定义一个名为kafkaWriter的类型,它也需要实现LoggerWriter的接口。

先看其结构体定义:

  1. type kafkaWriter struct {
  2. Topic string
  3. Address string
  4. writer *kafka.Writer
  5. batchSize int
  6. }

这里包含四个字段:

Topic 写Kafka时需要一个主题,这里默认当前Logger中所有日志使用同一个主题。

Address Kafka的访问地址。

writer 向Kafka写数据时使用的Writer,这里集成的是:github.com/segmentio/kafka-go,支持自动重试和重连。

batchSize Kafka写日志的批次大小,批量写可以提高日志的写效率。

再看其实现的接口:

  1. func (w *kafkaWriter) Ensure(curTime time.Time) (err error) {
  2. if w.writer == nil {
  3. w.writer = &kafka.Writer{
  4. Addr: kafka.TCP(w.Address),
  5. Topic: w.Topic,
  6. BatchSize: w.batchSize,
  7. Async: true,
  8. }
  9. }
  10. return
  11. }
  12. func (w *kafkaWriter) Write(buf []byte) (err error) {
  13. // buf will be reused by ylog when this method return,
  14. // with aysnc write, we need copy data to a new slice
  15. kbuf := append([]byte(nil), buf...)
  16. err = w.writer.WriteMessages(context.Background(),
  17. kafka.Message{Value: kbuf},
  18. )
  19. return
  20. }
  21. func (w *kafkaWriter) Sync() error {
  22. return nil
  23. }
  24. func (w *kafkaWriter) Close() error {
  25. return w.writer.Close()
  26. }

这里采用的是异步发送到Kafka的方式,WriteMessages方法不会阻塞,因为传入的buf要被ylog重用,所以这里copy了一下。异步还会存在的一个问题就是不会返回错误,可能丢失数据,不过对于日志这种数据,没有那么严格的要求,也可以接受。

如果采用同步发送,因为批量发送比较有效率,这里可以攒几条再发,但日志比较稀疏时,可能短时间很难攒够,就会出现长时间等不到日志的情况,所以还要有个超时机制,这有点麻烦,不过我也写了一个版本,有兴趣的可以去看看:https://github.com/bosima/ylog/blob/main/examples/kafka-writer.go

接口的组装

有了格式化接口和写日志接口,下一步就是将它们组装起来,以实现相应的处理能力。

首先是创建它们,因为我这里也没有动态配置的需求,所以就放到创建Logger实例的时候了,这样比较简单。

  1. func NewYesLogger(opts ...Option) (logger *YesLogger) {
  2. logger = &YesLogger{}
  3. ...
  4. logger.writer = NewFileWriter("logs")
  5. logger.formatter = NewTextFormatter()
  6. for _, opt := range opts {
  7. opt(logger)
  8. }
  9. ...
  10. return
  11. }

可以看到默认的formatter是textFormatter,默认的writer是fileWriter。这个函数传入的Option其实是个函数,在下边的opt(logger)中会执行它们,所以使用其它的Formatter或者Writer可以这样做:

  1. logger := ylog.NewYesLogger(
  2. ...
  3. ylog.Writer(ylog.NewKafkaWriter(address, topic, writeBatchSize)),
  4. ylog.Formatter(ylog.NewJsonFormatter()),
  5. )

这里 ylog.Writer 和 ylog.Formatter 就是符合Option类型的函数,调用它们可以设置不同的Formatter和Writer。

然后怎么使用它们呢?

  1. ...
  2. l.formatter.Format(entry, &buf)
  3. l.writer.Ensure(entry)
  4. err := l.writer.Write(buf)
  5. ...

当 logEntry 进入消息处理环节后,首先调用formatter的Format方法格式化logEntry;然后调用了writer的Ensure方法确保writer已经准备好,最后调用writer的Write方法将格式化之后的数据输出到对应的目标。

为什么不将Ensure方法放到Write中呢?这是因为目前写文本日志的时候需要根据logEntry中的日志时间创建日志文件,这样就需要给Writer传递两个参数,有点别扭,所以这里将它们分开了。

如何提高日志处理的吞吐量

Kafka的吞吐量是很高的,那么如果放到ylog自身来说,如何提高它的吞吐量呢?

首先想到的就是Channel,可以使用有缓冲的Channel模拟一个队列,生产者不停的向Channel发送数据,如果Writer可以一直在缓冲被填满之前将数据取走,那么理论上说生产者就是非阻塞的,相比同步输出到某个Writer,没有直接磁盘IO、网络IO,日志处理的吞吐量必将大幅提升。

定义一个Channel,其容量默认为当前机器逻辑处理器的数量:

  1. logger.pipe = make(chan *logEntry, runtime.NumCPU())

发送数据的代码:

  1. entry := &logEntry{
  2. Level: level,
  3. Msg: s,
  4. File: file,
  5. Line: line,
  6. Ts: now,
  7. }
  8. l.pipe <- entry

接收数据的代码:

  1. for {
  2. select {
  3. case entry := <-l.pipe:
  4. // reuse the slice memory
  5. buf = buf[:0]
  6. l.formatter.Format(entry, &buf)
  7. l.writer.Ensure(entry.Ts)
  8. err := l.writer.Write(buf)
  9. ...
  10. }
  11. }

实际效果怎么样呢?看下Benchmark:

  1. goos: darwin
  2. goarch: amd64
  3. pkg: github.com/bosima/ylog
  4. cpu: Intel(R) Core(TM) i5-8259U CPU @ 2.30GHz
  5. BenchmarkInfo-8 1332333 871.6 ns/op 328 B/op 4 allocs/op

这个结果可以和zerolog、zap等高性能日志库一较高下了,当然目前可以做的事情要比它们简单很多。

如果对Java有所了解的同学应该听说过log4j,在log4j2中引入了一个名为Disruptor的组件,它让日志处理飞快了起来,受到很多Java开发者的追捧。Disruptor之所以这么厉害,是因为它使用了无锁并发、环形队列、缓存行填充等多种高级技术。

相比之下,Golang的Channel虽然也使用了环形缓冲,但是还是使用了锁,作为队列来说性能并不是最优的。

Golang中有没有类似的东西呢?最近出来的ZenQ可能是一个不错的选择,不过看似还不太稳定,过段时间再尝试下。有兴趣的可以去看看:https://github.com/alphadose/ZenQ


好了,以上就是本文的主要内容。关于ylog的介绍也告一段落了,后续会在Github上持续更新,增加更多有用的功能,并不断优化处理性能,欢迎关注:https://github.com/bosima/ylog

收获更多架构知识,请关注微信公众号 萤火架构。原创内容,转载请注明出处。

Golang:将日志以Json格式输出到Kafka的更多相关文章

  1. ELK之nginx日志使用json格式输出

    json Nginx默认日志输出格式为文本非json格式,修改配置文件即可输出json格式便于收集以及绘图 修改nginx配置文件添加配置,增加一个json输出格式的日志格式 log_format a ...

  2. 【转载】JsonLayout log4j2 json格式输出日志

    JsonLayout log4j2 json格式输出日志 如果日志输出时,想改变日志的输出形式为Json格式,可以在log4j2.xml中使用JsonLayout标签,使日志输出格式为Json格式. ...

  3. slf4j-logback 日志以json格式导入ELK

    同事整理的,在此分享.logback,log4j2 等slf4j的日志实现都可以以json格式输出日志, 这里采用的是logback.当然也可以以文本行的格式输出,然后在logstash里通过grok ...

  4. JsonLayout log4j2 json格式输出日志

    如果日志输出时,想改变日志的输出形式为Json格式,可以在log4j2.xml中使用JsonLayout标签,使日志输出格式为Json格式. 前提需要Jackson的包,保证项目中包含jackson的 ...

  5. 使用json格式输出

    /** * json输出 * * @param unknown_type $info */ public function json_out ($info) { header('Content-typ ...

  6. python 把数据 json格式输出

    有个要求需要在python的标准输出时候显示json格式数据,如果缩进显示查看数据效果会很好,这里使用json的包会有很多操作 import json date = {u'versions': [{u ...

  7. xml和json格式输出

    <?php   class Response{     const JSON ='json';       /*     * 按综合方式输出通信数据     * @param integer $ ...

  8. 如何将查出的日期Data类型以Json格式输出到前端

    方法一 在返回的实体的属性中加上注解 // 创建时间    @DateTimeFormat(pattern = "yyyy-MM-dd HH:mm:ss")    private ...

  9. golang: 把sql结果集以json格式输出

    func getJSON(sqlString string) (string, error) { stmt, err := db.Prepare(sqlString) if err != nil { ...

随机推荐

  1. SpringDataJpa备忘录

    单向多对一关系 //产品类型 一的一方 @Entity public class ProductDir { @Id @GeneratedValue private Long id; private S ...

  2. IDEA学习之"插件安装位置"

    进入设置 找到Plugin,就是插件安装位置了

  3. ctfhub web 前置技能(请求方式、302跳转、Cookie)

    第一题:请求方式 打开环境分析题目发现当前请求方式为GET 查看源码发现需要将请求方式改为CTFHUB就可以 使用bp抓包 发送到repeater模块修改请求方式 即可得到flag 第二题:302跳转 ...

  4. Brunch:入门上手

    在 Phoenix 项目中遇到关于 Branch 这个 HTML5 构建工具的问题, 在这里为了剥离问题的复杂度, 独立创建一个 Branch 前端项目来探索如何使用 Brunch 这个全新的前端构建 ...

  5. canvas写个简单的小游戏

    之前在HTML5 Canvas属性和方法汇总一文中,介绍过Canvas的各种属性以及方法的说明,并列举了自己写的一些Canvas demo,接下来开始写一个简单的小游戏吧,有多简单,这么说吧,代码不到 ...

  6. ASP.NET WebAPI解决跨域问题

    跨域是个很蛋疼的问题...随笔记录一下... 一.安装nuget包:Microsoft.AspNet.WebApi.Core 二.在Application_Start方法中启用跨域 1 protect ...

  7. java中如果我老是少捕获什么异常,如何处理?

    马克-to-win:程序又一次在出现问题的情况下,优雅结束了.上例中蓝色部分是多重捕获catch.马克-to-win:观察上面三个例子,结论就是即使你已经捕获了很多异常,但是假如你还是少捕获了什么异常 ...

  8. jboss7学习2-jboss7入门(端口和访问的ip问题)

    1.下载地址: http://www.jboss.org/jbossas/downloads ,下载Certified Java EE 6 Full Profile版本. 2.解压 jboss-as- ...

  9. FastAPI(六十八)实战开发《在线课程学习系统》接口开发--用户 个人信息接口开发

    在之前的文章:FastAPI(六十七)实战开发<在线课程学习系统>接口开发--用户登陆接口开发,今天实战:用户 个人信息接口开发. 在开发个人信息接口的时候,我们要注意了,因为我们不一样的 ...

  10. 【版本2020.03】使用idea导入maven项目

    心得1:不同版本的idea,一些选项的名称稍微有点不同,比如以前导入项目的选项名称都是import Project,但是我使用的版本是2020.03 导入项目的名称是 import Settings ...