看代码突然想到一个问题:字符串在内存中是怎么表示的?花了大半天才理清,这里记录梳理下。

1. 字符

提到字符串需要先了解字符,没有字符哪能串起来呢。不像 int,float 这种直接在内存中以位数表示的类型,字符需要经过编码才能存在内存中。如字符 'A' 的 ASCII 编码为二进制 0100 0001,十进制 65,内存中存储的就是二进制码。

ASCII 编码用八个二进制位表示字符,这种编码方式只能表示英文字符,对于汉语等语言就明显不够用了,于是一种叫做 UTF-8 的编码方式就应运而生了,它实现了编码方式的大一统,从而得到广泛运用。

UTF-8 编码,当字符为 ASCII 码时占用一个字节,其它字符则占用 2-4 个字符。

详细了解编码可参看这里:字符编码笔记:ASCII,Unicode 和 UTF-8

2. 字符串

字符串是 UTF-8 字符的一个序列,如:

func main() {
var name string = "xia帅帅" lens := len(name)
n := []byte(name) fmt.Printf("len name: %d, %v\n", lens, n) } # result
len name: 9, [120 105 97 229 184 133 229 184 133]

字符串的长度是 9,其中,'帅' 字被编码为 3 个字节的十进制数 229,184,133。

使用 unsafe 查看字符串的字节数:

bytes := unsafe.Sizeof(name)
fmt.Printf("size name: %d\n", bytes) # result
size name: 16

奇怪这里为什么是 16 呢,查看 string 的定义发现,string 也是一种类型,一种结构体类型,它的结构表示为:

type StringHeader struct {
Data uintptr
Len int
}

可以看到,字符串结构由两部分组成:一,字符串指向的底层字节数组;二,字符串的字节长度。查看底层字节数组的所占字节:

bytes := unsafe.Sizeof(name)
fmt.Printf("string len: %d, size len: %d\n", bytes, (*reflect.StringHeader)(unsafe.Pointer(&name)).Len) # result:
string len: 16, size len: 9 // 底层数组所占字节大小是 9

3. 字符串拼接

字符串拼接有多种实现,这里分别介绍了每种实现的性能比较,详细了解可看这里:字符串拼接性能及原理

3.1 '+' 拼接字符串

func plusContact(n int, s string) string {
var joinString string
for i := 0; i < n; i++ {
joinString += s
}
return joinString
} func BenchmarkPlusContact(b *testing.B) {
for i := 0; i < b.N; i++ {
plusContact(1000, testString)
}
}

3.2 Sprintf 拼接字符串

func sprintContact(n int, s string) string {
var joinString string
for i := 0; i < n; i++ {
joinString = fmt.Sprintf("%s%s", joinString, s)
}
return joinString
} func BenchmarkSprintContact(b *testing.B) {
for i := 0; i < b.N; i++ {
sprintContact(1000, testString)
}
}

3.3 []byte 字节切片拼接字符串

func byteContact(n int, s string) string {
b := make([]byte, 0)
for i := 0; i < n; i++ {
b = append(b, s...) // 变长参数分配
}
return string(b)
} func BenchmarkByteContact(b *testing.B) {
for i := 0; i < b.N; i++ {
byteContact(1000, testString)
}
}

3.4 bytes.Buffer 拼接字符串

func bufferContact(n int, s string) string {
b := new(bytes.Buffer)
for i := 0; i < n; i++ {
b.WriteString(s)
}
return b.String()
} func BenchmarkBufferContact(b *testing.B) {
for i := 0; i < b.N; i++ {
bufferContact(1000, testString)
}
}

3.5 strings.Builder 拼接字符串

func builderContact(n int, s string) string {
var sb strings.Builder
for i := 0; i < n; i++ {
sb.WriteString(s)
}
return sb.String()
} func BenchmarkBuilderContact(b *testing.B) {
for i := 0; i < b.N; i++ {
builderContact(1000, testString)
}
}

3.6 预分配切片容量

在知道拼接的容量情况下也可以对切片容量进行预分配:

## string.Builder 预分配切片容量
func preBuilderContact(n int, s string) string {
var sb = new(strings.Builder)
sb.Grow(n * len(testString)) for i := 0; i < n; i++ {
sb.WriteString(s)
} return sb.String()
} # []byte 预分配切片容量
func preByteContact(n int, s string) string {
b := make([]byte, 0, n*len(letterBytes))
for i := 0; i < n; i++ {
b = append(b, s...)
}
return string(b)
}

使用 Benchmark 基准测试,测试各组实现方式的性能:

[root@chunqiu stringcontact]$ go test -run="none" -v -bench . -benchmem -cpu=2,4
goos: linux
goarch: amd64
pkg: stringcontact
BenchmarkPlusContact-2 247 4765499 ns/op 34526785 B/op 999 allocs/op
BenchmarkPlusContact-4 250 4801224 ns/op 34526794 B/op 999 allocs/op
BenchmarkSprintContact-2 198 6050137 ns/op 34660487 B/op 3021 allocs/op
BenchmarkSprintContact-4 195 6159586 ns/op 34780286 B/op 3027 allocs/op
BenchmarkByteContact-2 20110 59817 ns/op 350144 B/op 21 allocs/op
BenchmarkByteContact-4 19981 60303 ns/op 350144 B/op 21 allocs/op
BenchmarkBufferContact-2 28652 41743 ns/op 196288 B/op 11 allocs/op
BenchmarkBufferContact-4 28664 42712 ns/op 196288 B/op 11 allocs/op
BenchmarkPreByteContact-2 41622 29007 ns/op 188416 B/op 3 allocs/op
BenchmarkPreByteContact-4 39409 31205 ns/op 188416 B/op 3 allocs/op
BenchmarkBuilderContact-2 23012 53037 ns/op 284608 B/op 20 allocs/op
BenchmarkBuilderContact-4 22238 53029 ns/op 284608 B/op 20 allocs/op
BenchmarkPreBuilderContact-2 78255 15835 ns/op 65536 B/op 1 allocs/op
BenchmarkPreBuilderContact-4 76986 16251 ns/op 65536 B/op 1 allocs/op
PASS
ok stringcontact 23.194s

关于性能分析和原理,可参看这篇 文章,这里不再赘述。唯一的疑惑是相比于 Buffer,Builder 的性能要低,而不是如文章所言略快 10%,存疑。


GoLang 高性能编程之字符串拼接的更多相关文章

  1. golang的字符串拼接

    常用拼接方法 字符串拼接在日常开发中是很常见的需求,目前有两种普遍做法: 一种是直接用 += 来拼接 s1 := "Hello" s2 := "World" s ...

  2. golang中的字符串拼接

    go语言中支持的字符串拼接的方法有很多种,这里就来罗列一下 常用的字符串拼接方法 1.最常用的方法肯定是 + 连接两个字符串.这与python类似,不过由于golang中的字符串是不可变的类型,因此用 ...

  3. [Golang]字符串拼接方式的性能分析

    本文100%由本人(Haoxiang Ma)原创,如需转载请注明出处. 本文写于2019/02/16,基于Go 1.11.至于其他版本的Go SDK,如有出入请自行查阅其他资料. Overview 写 ...

  4. Golang拼接字符串的5种方法及其效率_Chrispink-CSDN博客_golang 字符串拼接效率 https://blog.csdn.net/m0_37422289/article/details/103362740

    Different ways to concatenate two strings in Golang - GeeksforGeeks https://www.geeksforgeeks.org/di ...

  5. golang字符串拼接

    四种拼接方案: 1,直接用 += 操作符, 直接将多个字符串拼接. 最直观的方法, 不过当数据量非常大时用这种拼接访求是非常低效的. 2,直接用 + 操作符,这个和+=其实一个意思了. 3,用字符串切 ...

  6. golang字符串拼接性能对比

    对比 +(运算符).strings.Join.sprintf.bytes.Buffer对字符串拼接的性能 package main import ( "bytes" "f ...

  7. 从字符串拼接看JS优化原则

    来自知乎的问题:JavaScript 怎样高效拼接字符串? 请把以下用于连接字符串的JavaScript代码修改为更高效的方式: var htmlString ='< div class=”co ...

  8. Netty高性能编程备忘录(下)

    估计很快就要被拍砖然后修改,因此转载请保持原文链接,否则视为侵权... http://calvin1978.blogcn.com/articles/netty-performance.html 前文再 ...

  9. Golang核心编程

    源码地址: https://github.com/mikeygithub/GoCode 第1章 1Golang 的学习方向 Go 语言,我们可以简单的写成 Golang 1.2Golang 的应用领域 ...

  10. Javascript字符串拼接小技巧

    在Javascript中经常会遇到字符串的问题,但是如果要拼接的字符串过长就比较麻烦了. 如果是在一行的,可读性差不说,如果要换行的,会直接报错. 在此介绍几种Javascript拼接字符串的技巧. ...

随机推荐

  1. npm install 报-4048错误

    报错原因: 有缓存 权限不够 有三种解决方法: 第一种:找到.npmrc文件并删除 在 C:\Users\自己用户的文件夹\ 下找到 .npmrc 文件并删除 注意:这个文件是隐藏的,需要显示隐藏才能 ...

  2. 构建 dotnet&vue 应用镜像->推送到 Nexus 仓库->部署为 k8s 服务实践

    前言 前面分享了 k8s 的部署安装,本篇来点实操,将会把一个 .net core + vue 的项目(zhontai),打包构建成 docker 镜像,推送到 nexus 镜像仓库,并部署到 k8s ...

  3. MySQL|MySQL事物以及隔离级别

    MySQL 事务主要用于处理操作量大,复杂度高的数据.比如开单,需要添加给订单表增加记录,还需要增加订单的各种相关明细,操作复杂度高,这些操作语句需要构成一个事务.在 MySQL 命令行的默认设置下, ...

  4. 使用WPF开发自定义用户控件,以及实现相关自定义事件的处理

    在前面随笔<使用Winform开发自定义用户控件,以及实现相关自定义事件的处理>中介绍了Winform用户自定义控件的处理,对于Winform自定义的用户控件来说,它的呈现方式主要就是基于 ...

  5. 华为云HBase冷热分离最佳实践

    本文分享自华为云社区<华为云HBase 冷热分离最佳实践>,作者:pippo. HBase介绍 HBase是Hadoop Database的简称,是建立在Hadoop文件系统之上的分布式面 ...

  6. AI贺新年,开发者的虎年这样过才有意思

    摘要:祝所有的开发者们新春快乐,万事如意迎新年,如虎添翼旺全年! 普通人拜年,发一个祝福微信.程序员拜年,运行一串代码,制作独一无二的拜年短视频. 普通人送祝福,新年快乐.程序员送祝福,信手捏来一首拜 ...

  7. “数”驰天下,华为云DRS 高效支撑T3出行平稳迁移

    摘要:华为云DRS成功助力T3出行在规定时间内完成数十TB级全量数据的迁移. 数字化潮流浩浩汤汤,企业上云如火如荼,网约车行业也借助这一股东风展现出了蓬勃的生命力,因为它的高效便捷,吸引了越来越多的都 ...

  8. 从“概念”到“应用”,字节跳动基于 DataLeap 的 DataOps 实践

    更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 近日,火山引擎数智平台 VeDI Meetup「超话数据」在深圳举办,来自火山引擎的产品专家分享了字节跳动基于 D ...

  9. 火山引擎DataLeap的Catalog系统搜索实践(三):Learning to rank与后续工作

    Learning to rank Learning to rank主要分为数据收集,离线训练和在线预测三个部分.搜索系统是一个Data-driven system,因此火山引擎DataLeap的Cat ...

  10. Solon Web 开发:二、开发知识准备

    1.约定 //资源路径约定(不用配置:也不能配置) resources/app.yml( 或 app.properties ) #为应用配置文件 resources/WEB-INF/static/ 或 ...