参考:https://studygolang.com/pkgdoc

导入方式:

  1. import "regexp"

regexp包实现了正则表达式搜索。

正则表达式采用RE2语法(除了\c、\C),和Perl、Python等语言的正则基本一致。

参见http://code.google.com/p/re2/wiki/Syntax

1)判断是否匹配

下面的三个函数都实现了同一个功能,就是判断pattern是否和输入源匹配,匹配就返回true,如果解析正则出错则返回error。三者的区别在于输入源不同

func Match

  1. func Match(pattern string, b []byte) (matched bool, err error)

Match检查b中是否存在匹配pattern的子序列。更复杂的用法请使用Compile函数和Regexp对象。

func MatchString

  1. func MatchString(pattern string, s string) (matched bool, err error)

MatchString类似Match,但匹配对象是字符串。

func MatchReader

  1. func MatchReader(pattern string, r io.RuneReader) (matched bool, err error)

MatchReader类似Match,但匹配对象是io.RuneReader。

举例:

  1. package main
  2. import(
  3. "fmt"
  4. "regexp"
  5. )
  6.  
  7. func main() {
  8. matched, err := regexp.MatchString("foo.*", "seafood")
  9. fmt.Println(matched, err)
  10. matched, err = regexp.MatchString("bar.*", "seafood")
  11. fmt.Println(matched, err)
  12. matched, err = regexp.MatchString("a(b", "seafood")
  13. fmt.Println(matched, err)
  14. }

返回:

  1. userdeMBP:go-learning user$ go run test.go
  2. true
  3. false
  4. userdeMBP:go-learning user$ go run test.go
  5. true <nil>
  6. false <nil>
  7. false error parsing regexp: missing closing ): `a(b`

当然你也可以使用下面的函数,结果是等价的:

type Regexp

  1. type Regexp struct {
  2. // 内含隐藏或非导出字段
  3. }

Regexp代表一个编译好的正则表达式。Regexp可以被多线程安全地同时使用。

func (*Regexp) Match

  1. func (re *Regexp) Match(b []byte) bool

Match检查b中是否存在匹配pattern的子序列。

func (*Regexp) MatchString

  1. func (re *Regexp) MatchString(s string) bool

MatchString类似Match,但匹配对象是字符串。

举例:

  1. package main
  2. import(
  3. "fmt"
  4. "regexp"
  5. )
  6.  
  7. func main() {
  8. var validID = regexp.MustCompile(`^[a-z]+\[[0-9]+\]$`)
  9. fmt.Println(validID.MatchString("adam[23]")) //true
  10. fmt.Println(validID.MatchString("Job[48]")) //false
  11. fmt.Println(validID.MatchString("snakey")) //false
  12. }

func (*Regexp) MatchReader

  1. func (re *Regexp) MatchReader(r io.RuneReader) bool

MatchReader类似Match,但匹配对象是io.RuneReader。

2)通过正则获取内容

Match模式只能用来对字符串的判断,如果想要截取部分字符串、过滤字符串或者提取出符合条件的一批字符串,就应该使用更复杂的方法

1》解析正则表达式的方法有:

func Compile

  1. func Compile(expr string) (*Regexp, error)

Compile解析并返回一个正则表达式。如果成功返回,该Regexp就可用于匹配文本。

在匹配文本时,该正则表达式会尽可能早的开始匹配,并且在匹配过程中选择回溯搜索到的第一个匹配结果。这种模式被称为“leftmost-first”,Perl、Python和其他实现都采用了这种模式,但本包的实现没有回溯的损耗。对POSIX的“leftmost-longest”模式,参见CompilePOSIX。

func CompilePOSIX

  1. func CompilePOSIX(expr string) (*Regexp, error)

类似Compile但会将语法约束到POSIX ERE(egrep)语法,并将匹配模式设置为leftmost-longest。

在匹配文本时,该正则表达式会尽可能早的开始匹配,并且在匹配过程中选择搜索到的最长的匹配结果。这种模式被称为“leftmost-longest”,POSIX采用了这种模式(早期正则的DFA自动机模式)。

然而,可能会有多个“leftmost-longest”匹配,每个都有不同的组匹配状态,本包在这里和POSIX不同。在所有可能的“leftmost-longest”匹配里,本包选择回溯搜索时第一个找到的,而POSIX会选择候选结果中第一个组匹配最长的(可能有多个),然后再从中选出第二个组匹配最长的,依次类推。POSIX规则计算困难,甚至没有良好定义。

参见http://swtch.com/~rsc/regexp/regexp2.html#posix获取细节。

func MustCompile

  1. func MustCompile(str string) *Regexp

MustCompile类似Compile但会在解析失败时panic,主要用于全局正则表达式变量的安全初始化。

func MustCompilePOSIX

  1. func MustCompilePOSIX(str string) *Regexp

MustCompilePOSIX类似CompilePOSIX但会在解析失败时panic,主要用于全局正则表达式变量的安全初始化。

上面的函数用于解析正则表达式是否合法,如果正确,则会返回一个Regexp,然后就能够利用该对象在任意字符串上执行需要的操作

带POSIX后缀的不同点在于其使用POSIX语法,该语法使用最长最左方式搜索,而不带该后缀的方法是采用最左方式搜索(如[a-z]{2,4}这样的正则表达式,应用于"aa09aaa88aaaa"这个文本串时,带POSIX后缀的将返回aaaa,不带后缀的则返回aa)。

前缀有Must的函数表示在解析正则表达式时,如果匹配模式串不满足正确的语法则直接panic,而不加Must前缀的将只是返回错误

2》解析完正则表达式后能够进行的操作有

1〉查找操作——即前缀带有Find的函数

func (*Regexp) Find

  1. func (re *Regexp) Find(b []byte) []byte

Find返回保管正则表达式re在b中的最左侧的一个匹配结果的[]byte切片。如果没有匹配到,会返回nil。

func (*Regexp) FindString

  1. func (re *Regexp) FindString(s string) string

Find返回保管正则表达式re在b中的最左侧的一个匹配结果的字符串。如果没有匹配到,会返回"";但如果正则表达式成功匹配了一个空字符串,也会返回""。如果需要区分这种情况,请使用FindStringIndex 或FindStringSubmatch

举例:

  1. package main
  2. import(
  3. "fmt"
  4. "regexp"
  5. )
  6.  
  7. func main() {
  8.   re := regexp.MustCompile("fo.?")
  9.   fmt.Printf("%q\n", re.FindString("seafood")) //"foo"
  10.   fmt.Printf("%q\n", re.Find([]byte("seafood"))) //"foo"
  11. }

下面两个函数跟上面的两个函数的差别在与能够使用第二个参数来决定返回几个匹配结果:

func (*Regexp) FindAll

  1. func (re *Regexp) FindAll(b []byte, n int) [][]byte

Find返回保管正则表达式re在b中的所有不重叠的匹配结果的[][]byte切片。如果没有匹配到,会返回nil。

func (*Regexp) FindAllString

  1. func (re *Regexp) FindAllString(s string, n int) []string

Find返回保管正则表达式re在b中的所有不重叠的匹配结果的[]string切片。如果没有匹配到,会返回nil。

 举例:
  1. package main
  2. import(
  3. "fmt"
  4. "regexp"
  5. )
  6.  
  7. func main() {
  8. re := regexp.MustCompile("a.")
  9. fmt.Println(re.FindAllString("paranormal", -1)) //-1表示返回所有匹配的值,[ar an al]
  10. fmt.Println(re.FindAllString("paranormal", 2)) //2表示返回2个匹配的值,[ar an]
  11. fmt.Println(re.FindAllString("paranormal", 1)) //1表示返回1个匹配的值,[ar]
  12. fmt.Println(re.FindAllString("paranormal", 0)) //0表示返回0个匹配的值,[]
  13. fmt.Println(re.FindAllString("graal", -1)) //[aa]
  14. fmt.Println(re.FindAllString("none", -1)) //[]
  15. }

下面三个函数的作用是查找索引:

func (*Regexp) FindIndex

  1. func (re *Regexp) FindIndex(b []byte) (loc []int)

Find返回保管正则表达式re在b中的最左侧的一个匹配结果的起止位置的切片(显然len(loc)==2)。匹配结果可以通过起止位置对b做切片操作得到:b[loc[0]:loc[1]]。如果没有匹配到,会返回nil。

func (*Regexp) FindStringIndex

  1. func (re *Regexp) FindStringIndex(s string) (loc []int)

Find返回保管正则表达式re在b中的最左侧的一个匹配结果的起止位置的切片(显然len(loc)==2)。匹配结果可以通过起止位置对b做切片操作得到:b[loc[0]:loc[1]]。如果没有匹配到,会返回nil。

func (*Regexp) FindReaderIndex

  1. func (re *Regexp) FindReaderIndex(r io.RuneReader) (loc []int)

Find返回保管正则表达式re在b中的最左侧的一个匹配结果的起止位置的切片(显然len(loc)==2)。匹配结果可以在输入流r的字节偏移量loc[0]到loc[1]-1(包括二者)位置找到。如果没有匹配到,会返回nil。

举例:

  1. package main
  2. import(
  3. "fmt"
  4. "regexp"
  5. )
  6.  
  7. func main() {
  8. re := regexp.MustCompile("ab?")
  9. fmt.Println(re.FindStringIndex("tablett")) //[1 3],表示匹配到的字符在"tablett"的[1,3]切片处
  10. fmt.Println(re.FindStringIndex("foo") == nil) //没有匹配到会返回nil
  11. fmt.Println(re.FindIndex([]byte("tablett"))) //[1 3],表示匹配到的字符在"tablett"的[1,3]切片处
  12. fmt.Println(re.FindIndex([]byte("foo")) == nil) //没有匹配到会返回nil
  13. }

下面两个函数和上面的函数的区别在与能够使用第二个参数决定返回匹配的数量:

func (*Regexp) FindAllIndex

  1. func (re *Regexp) FindAllIndex(b []byte, n int) [][]int

Find返回保管正则表达式re在b中的所有不重叠的匹配结果的起止位置的切片。如果没有匹配到,会返回nil。

func (*Regexp) FindAllStringIndex

  1. func (re *Regexp) FindAllStringIndex(s string, n int) [][]int

Find返回保管正则表达式re在b中的所有不重叠的匹配结果的起止位置的切片。如果没有匹配到,会返回nil。

举例:

  1. package main
  2. import(
  3. "fmt"
  4. "regexp"
  5. )
  6.  
  7. func main() {
  8. re := regexp.MustCompile("a.")
  9. fmt.Println(re.FindAllStringIndex("paranormal", -)) //[[1 3] [3 5] [8 10]],-1表示匹配全部
  10. fmt.Println(re.FindAllStringIndex("paranormal", )) //[[1 3] [3 5]] ,2表示返回匹配的两个的索引切片
  11. fmt.Println(re.FindAllStringIndex("paranormal", )) //[[1 3]] ,1表示返回匹配的一个的索引切片
  12. fmt.Println(re.FindAllIndex([]byte("paranormal"), -)) //[[1 3] [3 5] [8 10]]
  13. fmt.Println(re.FindAllIndex([]byte("paranormal"), )) //[[1 3] [3 5]]
  14. fmt.Println(re.FindAllIndex([]byte("paranormal"), )) //[[1 3]]
  15. }

下面两个函数使用在正则表达式有分组时,切片中的第一个索引值为整个输入字符串满足正则表达式的输出,后面的索引值则为满足分组的字符串:

func (*Regexp) FindSubmatch

  1. func (re *Regexp) FindSubmatch(b []byte) [][]byte

Find返回一个保管正则表达式re在b中的最左侧的一个匹配结果以及(可能有的)分组匹配的结果的[][]byte切片。如果没有匹配到,会返回nil。

func (*Regexp) FindStringSubmatch

  1. func (re *Regexp) FindStringSubmatch(s string) []string

Find返回一个保管正则表达式re在b中的最左侧的一个匹配结果以及(可能有的)分组匹配的结果的[]string切片。如果没有匹配到,会返回nil。

举例:

  1. package main
  2. import(
  3. "fmt"
  4. "regexp"
  5. )
  6.  
  7. func main() {
  8. re := regexp.MustCompile("a(x*)b(y|z)c")
  9. fmt.Printf("%q\n", re.FindSubmatch([]byte("-axxxbyc-"))) //["axxxbyc" "xxx" "y"]
  10. fmt.Printf("%q\n", re.FindSubmatch([]byte("-abzc-"))) //["abzc" "" "z"]
  11. fmt.Printf("%q\n", re.FindSubmatch([]byte("-aczc-"))) //[],整个都不匹配,更没有分组匹配,将返回空数组
  12. fmt.Printf("%q\n", re.FindStringSubmatch("-axxxbyc-")) //["axxxbyc" "xxx" "y"]
  13. fmt.Printf("%q\n", re.FindStringSubmatch("-abzc-")) //["abzc" "" "z"]
  14. fmt.Printf("%q\n", re.FindStringSubmatch("-aczc-")) //[],整个都不匹配,更没有分组匹配,将返回空数组
  15. }

下面两个函数和上面两个函数的区别在与能够使用第二个参数决定返回匹配的数量:

func (*Regexp) FindAllSubmatch

  1. func (re *Regexp) FindAllSubmatch(b []byte, n int) [][][]byte

Find返回一个保管正则表达式re在b中的所有不重叠的匹配结果及其对应的(可能有的)分组匹配的结果的[][][]byte切片。如果没有匹配到,会返回nil。

func (*Regexp) FindAllStringSubmatch

  1. func (re *Regexp) FindAllStringSubmatch(s string, n int) [][]string

Find返回一个保管正则表达式re在b中的所有不重叠的匹配结果及其对应的(可能有的)分组匹配的结果的[][]string切片。如果没有匹配到,会返回nil。

举例:

  1. package main
  2. import(
  3. "fmt"
  4. "regexp"
  5. )
  6.  
  7. func main() {
  8. re := regexp.MustCompile("a(x*)b(y|z)c")
  9. fmt.Printf("%q\n", re.FindAllSubmatch([]byte("-axxxbyc-axxbyc-axbyc-"), -)) //[["axxxbyc" "xxx" "y"] ["axxbyc" "xx" "y"] ["axbyc" "x" "y"]]
  10. fmt.Printf("%q\n", re.FindAllSubmatch([]byte("-axxxbyc-axxbyc-axbyc-"), )) //[["axxxbyc" "xxx" "y"] ["axxbyc" "xx" "y"]]
  11. fmt.Printf("%q\n", re.FindAllSubmatch([]byte("-axxxbyc-axxbyc-axbyc-"), )) //[["axxxbyc" "xxx" "y"]]
  12. fmt.Printf("%q\n", re.FindAllSubmatch([]byte("-abzc-abzc-"), -)) //[["abzc" "" "z"] ["abzc" "" "z"]]
  13. fmt.Printf("%q\n", re.FindAllSubmatch([]byte("-abzc-abzc-"), )) //[["abzc" "" "z"]]
  14. fmt.Printf("%q\n", re.FindAllSubmatch([]byte("-aczc-"), -)) //[],整个都不匹配,更没有分组匹配,将返回空数组
  15.  
  16. fmt.Printf("%q\n", re.FindAllStringSubmatch("-axxxbyc-axxbyc-axbyc-", -)) //[["axxxbyc" "xxx" "y"] ["axxbyc" "xx" "y"] ["axbyc" "x" "y"]]
  17. fmt.Printf("%q\n", re.FindAllStringSubmatch("-axxxbyc-axxbyc-axbyc-", )) //[["axxxbyc" "xxx" "y"] ["axxbyc" "xx" "y"]]
  18. fmt.Printf("%q\n", re.FindAllStringSubmatch("-axxxbyc-axxbyc-axbyc-", )) //[["axxxbyc" "xxx" "y"]]
  19. fmt.Printf("%q\n", re.FindAllStringSubmatch("-abzc-abzc-", -)) //[["abzc" "" "z"] ["abzc" "" "z"]]
  20. fmt.Printf("%q\n", re.FindAllStringSubmatch("-abzc-abzc-", )) //[["abzc" "" "z"]]
  21. fmt.Printf("%q\n", re.FindAllStringSubmatch("-aczc-", -)) //[],整个都不匹配,更没有分组匹配,将返回空数组
  22. }

下面三个函数实现分组匹配查找索引:

func (*Regexp) FindSubmatchIndex

  1. func (re *Regexp) FindSubmatchIndex(b []byte) []int

Find返回一个保管正则表达式re在b中的最左侧的一个匹配结果以及(可能有的)分组匹配的结果的起止位置的切片。匹配结果和分组匹配结果可以通过起止位置对b做切片操作得到:b[loc[2*n]:loc[2*n+1]]。如果没有匹配到,会返回nil。

func (*Regexp) FindStringSubmatchIndex

  1. func (re *Regexp) FindStringSubmatchIndex(s string) []int

Find返回一个保管正则表达式re在b中的最左侧的一个匹配结果以及(可能有的)分组匹配的结果的起止位置的切片。匹配结果和分组匹配结果可以通过起止位置对b做切片操作得到:b[loc[2*n]:loc[2*n+1]]。如果没有匹配到,会返回nil。

func (*Regexp) FindReaderSubmatchIndex

  1. func (re *Regexp) FindReaderSubmatchIndex(r io.RuneReader) []int

Find返回一个保管正则表达式re在b中的最左侧的一个匹配结果以及(可能有的)分组匹配的结果的起止位置的切片。匹配结果和分组匹配结果可以在输入流r的字节偏移量loc[0]到loc[1]-1(包括二者)位置找到。如果没有匹配到,会返回nil。

举例:

  1. package main
  2. import(
  3. "fmt"
  4. "regexp"
  5. )
  6.  
  7. func main() {
  8. re := regexp.MustCompile("a(x*)b(y|z)c")
  9. fmt.Println(re.FindSubmatchIndex([]byte("-axxxbyc-"))) //[1 8 2 5 6 7],即整体匹配字符串"-axxxbyc-"的[1,8]切片,分组1匹配[2,5],分组2匹配[6,7]切片
  10. fmt.Println(re.FindSubmatchIndex([]byte("-abzc-"))) //[1 5 2 2 3 4]
  11. fmt.Println(re.FindSubmatchIndex([]byte("-aczc-"))) //[],整个都不匹配,更没有分组匹配,将返回空数组
  12. fmt.Println(re.FindStringSubmatchIndex("-axxxbyc-")) //[1 8 2 5 6 7]
  13. fmt.Println(re.FindStringSubmatchIndex("-abzc-")) //[1 5 2 2 3 4]
  14. fmt.Println(re.FindStringSubmatchIndex("-aczc-")) //[],整个都不匹配,更没有分组匹配,将返回空数组
  15. }

下面两个函数和上面三个函数的区别在与能够使用第二个参数决定返回匹配的数量:

func (*Regexp) FindAllSubmatchIndex

  1. func (re *Regexp) FindAllSubmatchIndex(b []byte, n int) [][]int

Find返回一个保管正则表达式re在b中的所有不重叠的匹配结果及其对应的(可能有的)分组匹配的结果的起止位置的切片(第一层表示第几个匹配结果,完整匹配和分组匹配的起止位置对在第二层)。如果没有匹配到,会返回nil。

func (*Regexp) FindAllStringSubmatchIndex

  1. func (re *Regexp) FindAllStringSubmatchIndex(s string, n int) [][]int

Find返回一个保管正则表达式re在b中的所有不重叠的匹配结果及其对应的(可能有的)分组匹配的结果的起止位置的切片(第一层表示第几个匹配结果,完整匹配和分组匹配的起止位置对在第二层)。如果没有匹配到,会返回nil。

 举例:
  1. package main
  2. import(
  3. "fmt"
  4. "regexp"
  5. )
  6.  
  7. func main() {
  8. re := regexp.MustCompile("a(x*)b(y|z)c")
  9. fmt.Println(re.FindAllSubmatchIndex([]byte("-axxxbyc-axxbyc-axbyc-"), -)) //[[1 8 2 5 6 7] [9 15 10 12 13 14] [16 21 17 18 19 20]]
  10. fmt.Println(re.FindAllSubmatchIndex([]byte("-axxxbyc-axxbyc-axbyc-"), )) //[[1 8 2 5 6 7] [9 15 10 12 13 14]]
  11. fmt.Println(re.FindAllSubmatchIndex([]byte("-axxxbyc-axxbyc-axbyc-"), )) //[[1 8 2 5 6 7]]
  12. fmt.Println(re.FindAllSubmatchIndex([]byte("-abzc-abzc-"), -)) //[[1 5 2 2 3 4] [6 10 7 7 8 9]]
  13. fmt.Println(re.FindAllSubmatchIndex([]byte("-abzc-abzc-"), )) //[[1 5 2 2 3 4]]
  14. fmt.Println(re.FindAllSubmatchIndex([]byte("-aczc-"), -)) //[],整个都不匹配,更没有分组匹配,将返回空数组
  15.  
  16. fmt.Println(re.FindAllStringSubmatchIndex("-axxxbyc-axxbyc-axbyc-", -)) //[[1 8 2 5 6 7] [9 15 10 12 13 14] [16 21 17 18 19 20]]
  17. fmt.Println(re.FindAllStringSubmatchIndex("-axxxbyc-axxbyc-axbyc-", )) //[[1 8 2 5 6 7] [9 15 10 12 13 14]]
  18. fmt.Println(re.FindAllStringSubmatchIndex("-axxxbyc-axxbyc-axbyc-", )) //[[1 8 2 5 6 7]]
  19. fmt.Println(re.FindAllStringSubmatchIndex("-abzc-abzc-", -)) //[[1 5 2 2 3 4] [6 10 7 7 8 9]]
  20. fmt.Println(re.FindAllStringSubmatchIndex("-abzc-abzc-", )) //[[1 5 2 2 3 4]]
  21. fmt.Println(re.FindAllStringSubmatchIndex("-aczc-", -)) //[],整个都不匹配,更没有分组匹配,将返回空数组
  22. }

2)替换操作-即前缀带有Replace的函数

func (*Regexp) ReplaceAllLiteral

  1. func (re *Regexp) ReplaceAllLiteral(src, repl []byte) []byte

ReplaceAllLiteral返回src的一个拷贝,将src中所有re的匹配结果都替换为repl。repl参数被直接使用,不会使用Expand进行扩展。

func (*Regexp) ReplaceAllLiteralString

  1. func (re *Regexp) ReplaceAllLiteralString(src, repl string) string

ReplaceAllLiteralString返回src的一个拷贝,将src中所有re的匹配结果都替换为repl。repl参数被直接使用,不会使用Expand进行扩展。

 举例:
  1. package main
  2. import(
  3. "fmt"
  4. "regexp"
  5. )
  6.  
  7. func main() {
  8. re := regexp.MustCompile("a(x*)b") //进行最左最长匹配
  9. fmt.Println(re.ReplaceAllLiteralString("-ab-axxb-", "T"))
  10. fmt.Println(re.ReplaceAllLiteralString("-ab-axxb-", "$1"))
  11. fmt.Println(re.ReplaceAllLiteralString("-ab-axxb-", "${1}"))
  12. }

返回:

  1. userdeMBP:go-learning user$ go run test.go
  2. -T-T-
  3. -$-$-
  4. -${}-${}-

 下面两个函数和上面的区别在与当使用$时,不会再将其当作一个简单的字符,而是进行规则替换。了解规则可去看下面的Expand函数

func (*Regexp) ReplaceAll

  1. func (re *Regexp) ReplaceAll(src, repl []byte) []byte

ReplaceAllLiteral返回src的一个拷贝,将src中所有re的匹配结果都替换为repl。在替换时,repl中的'$'符号会按照Expand方法的规则进行解释和替换,例如$1会被替换为第一个分组匹配结果。

func (*Regexp) ReplaceAllString

  1. func (re *Regexp) ReplaceAllString(src, repl string) string

ReplaceAllLiteral返回src的一个拷贝,将src中所有re的匹配结果都替换为repl。在替换时,repl中的'$'符号会按照Expand方法的规则进行解释和替换,例如$1会被替换为第一个分组匹配结果。

举例:

  1. package main
  2. import(
  3. "fmt"
  4. "regexp"
  5. )
  6.  
  7. func main() {
  8. re := regexp.MustCompile("a(x*)b")
  9. fmt.Println(re.ReplaceAllString("-ab-axxb-", "T")) //-T-T-
  10.  
  11. //这里$1表示的是每一个匹配的第一个分组匹配结果
  12. //这里第一个匹配的第一个分组匹配为空,即将匹配的ab换为空值;
  13. //第二个匹配的第一个分组匹配为xx,即将匹配的axxb换为xx
  14. fmt.Println(re.ReplaceAllString("-ab-axxb-", "$1")) //--xx-
  15. fmt.Println(re.ReplaceAllString("-ab-axxb-", "${1}w"))//-w-xxw-
  16.  
  17. //因为这个例子每个匹配的第二个分组匹配都为空,所以将所有匹配字符串都替换成了空值
  18. fmt.Println(re.ReplaceAllString("-ab-axxb-", "${2}"))//---
  19. }

func (*Regexp) ReplaceAllFunc

  1. func (re *Regexp) ReplaceAllFunc(src []byte, repl func([]byte) []byte) []byte

ReplaceAllLiteral返回src的一个拷贝,将src中所有re的匹配结果(设为matched)都替换为repl(matched)。repl返回的切片被直接使用,不会使用Expand进行扩展。

func (*Regexp) ReplaceAllStringFunc

  1. func (re *Regexp) ReplaceAllStringFunc(src string, repl func(string) string) string

ReplaceAllLiteral返回src的一个拷贝,将src中所有re的匹配结果(设为matched)都替换为repl(matched)。repl返回的字符串被直接使用,不会使用Expand进行扩展。

举例:

服务端为:

  1. package main
  2. import(
  3. "fmt"
  4. "net/http"
  5. "log"
  6. "html/template"
  7. )
  8.  
  9. func index(w http.ResponseWriter, r *http.Request){
  10. fmt.Fprintf(w, "hello world") //将html写到w中,w中的内容将会输出到客户端中
  11. }
  12.  
  13. func login(w http.ResponseWriter, r *http.Request){
  14. fmt.Println("method", r.Method) //获得请求的方法
  15. r.ParseForm()
  16. if r.Method == "GET"{
  17. html := `<html>
  18. <HEAD>
  19. <title></title>
  20. </HEAD>
  21. <body>
  22.  
  23. <form action="http://localhost:9090/login" method="post">
  24. username: <input type="text" name="username">
  25. password: <input type="text" name="password">
  26. <input type="submit" value="login">
  27. {{.}}
  28. </form>
  29.  
  30. </body>
  31. </html>`
  32. t := template.Must(template.New("test").Parse(html))
  33. w.Header().Set("Content-Type", "text/html")
  34. t.Execute(w, nil)
  35. }
  36. }
  37.  
  38. func main() {
  39. http.HandleFunc("/", index) //设置访问的路由
  40. http.HandleFunc("/login", login) //设置访问的路由
  41. err := http.ListenAndServe(":9090", nil) //设置监听的端口
  42. if err != nil{
  43. log.Fatal("ListenAndServe : ", err)
  44. }
  45. }

客户端

  1. package main
  2. import(
  3. "fmt"
  4. "regexp"
  5. "net/http"
  6. "strings"
  7. "io/ioutil"
  8. )
  9.  
  10. func main() {
  11. resp, err := http.Get("http://localhost:9090/login")
  12. if err != nil{
  13. fmt.Println("http get err")
  14. }
  15. defer resp.Body.Close()
  16.  
  17. body, err := ioutil.ReadAll(resp.Body)
  18. if err != nil{
  19. fmt.Println("http read err")
  20. return
  21. }
  22. src := string(body)
  23. fmt.Println("--------begin--------")
  24. fmt.Println(src)
  25.  
  26. //将HTML标签都转成小写
  27. re, _ := regexp.Compile("\\<[\\S\\s]+?\\>")
  28. src = re.ReplaceAllStringFunc(src, strings.ToLower)
  29. fmt.Println("--------one--------")
  30. fmt.Println(src)
  31.  
  32. //去除head
  33. re, _ = regexp.Compile("\\<head[\\S\\s]+?\\</head\\>")
  34. src = re.ReplaceAllString(src, "")
  35. fmt.Println("--------two--------")
  36. fmt.Println(src)
  37.  
  38. //去除所有尖括号内的HTML代码,并换成换行符
  39. re, _ = regexp.Compile("\\<[\\S\\s]+?\\>")
  40. src = re.ReplaceAllString(src, "\n")
  41. fmt.Println("--------three--------")
  42. fmt.Println(src)
  43.  
  44. //去除连续的换行符
  45. re, _ = regexp.Compile("\\s{2,}")
  46. src = re.ReplaceAllString(src, "\n")
  47. fmt.Println("--------four--------")
  48. fmt.Println(src)
  49. //去掉空行
  50. fmt.Println("--------five--------")
  51. fmt.Println(strings.TrimSpace(src)) //
  52. }

返回:

  1. userdeMacBook-Pro:go-learning user$ go run test.go
  2. --------begin--------
  3. <html>
  4. <HEAD>
  5. <title></title>
  6. </HEAD>
  7. <body>
  8.  
  9. <form action="http://localhost:9090/login" method="post">
  10. username: <input type="text" name="username">
  11. password: <input type="text" name="password">
  12. <input type="submit" value="login">
  13.  
  14. </form>
  15.  
  16. </body>
  17. </html>
  18. --------one--------
  19. <html>
  20. <head>
  21. <title></title>
  22. </head>
  23. <body>
  24.  
  25. <form action="http://localhost:9090/login" method="post">
  26. username: <input type="text" name="username">
  27. password: <input type="text" name="password">
  28. <input type="submit" value="login">
  29.  
  30. </form>
  31.  
  32. </body>
  33. </html>
  34. --------two--------
  35. <html>
  36.  
  37. <body>
  38.  
  39. <form action="http://localhost:9090/login" method="post">
  40. username: <input type="text" name="username">
  41. password: <input type="text" name="password">
  42. <input type="submit" value="login">
  43.  
  44. </form>
  45.  
  46. </body>
  47. </html>
  48. --------three--------
  49.  
  50. username:
  51.  
  52. password:
  53.  
  54. --------four--------
  55.  
  56. username:
  57. password:
  58.  
  59. --------five--------
  60. username:
  61. password:

3)前缀为Expand的函数

func (*Regexp) Expand

  1. func (re *Regexp) Expand(dst []byte, template []byte, src []byte, match []int) []byte

Expand返回新生成的将template添加到dst后面的切片。在添加时,Expand会将template中的变量替换为从src匹配的结果。match应该是被FindSubmatchIndex返回的匹配结果起止位置索引。(通常就是匹配src,除非你要将匹配得到的位置用于另一个[]byte)

在template参数里,一个变量表示为格式如:$name或${name}的字符串,其中name是长度>0的字母、数字和下划线的序列。一个单纯的数字字符名如$1会作为捕获分组的数字索引;其他的名字对应(?P<name>...)语法产生的命名捕获分组的名字,即可以在使用Compile解析正则表达式的时候使用(?P<name>...)语法命名匹配到的内容,然后之后能够使用$name或${name}表示匹配到的值。

超出范围的数字索引、索引对应的分组未匹配到文本、正则表达式中未出现的分组名,都会被替换为空切片。

$name格式的变量名,name会尽可能取最长序列:$1x等价于${1x}而非${1}x,$10等价于${10}而非${1}0。因此$name适用在后跟空格/换行等字符的情况,${name}适用所有情况。

如果要在输出中插入一个字面值'$',在template里可以使用$$。

func (*Regexp) ExpandString

  1. func (re *Regexp) ExpandString(dst []byte, template string, src string, match []int) []byte

ExpandString类似Expand,但template和src参数为字符串。它将替换结果添加到切片并返回切片,以便让调用代码控制内存申请。

举例:

  1. package main
  2. import(
  3. "fmt"
  4. "regexp"
  5.  
  6. )
  7.  
  8. func main() {
  9. src := []byte(`
  10. call hello alice
  11. hello bob
  12. call hello eve
  13. `)
  14. pat := regexp.MustCompile(`(?m)(call)\s+(?P<cmd>\w+)\s+(?P<arg>.+)\s*$`)
  15. res := []byte{}
  16. for _, s := range pat.FindAllSubmatchIndex(src, -){
  17. res = pat.Expand(res, []byte("$cmd('$arg')\n"), src, s)
  18. }
  19. fmt.Println(string(res))
  20. }

返回:

  1. userdeMacBook-Pro:go-learning user$ go run test.go
  2. hello('alice') //
  3. hello('eve')
  4.  
  5. userdeMacBook-Pro:go-learning user$

上面例子使用到的正则表达式语法为

分组:

  1. (re) 编号的捕获分组
  2. (?P<name>re) 命名并编号的捕获分组
  3. (?:re) 不捕获的分组
  4. (?flags) 设置当前所在分组的标志,不捕获也不匹配
  5. (?flags:re) 设置re段的标志,不捕获的分组

flags的语法为xyz(设置)、-xyz(清楚)、xy-z(设置xy,清楚z),标志如下:

  1. I 大小写敏感(默认关闭)
  2. m ^和$在匹配文本开始和结尾之外,还可以匹配行首和行尾(默认开启)
  3. s 让.可以匹配\n(默认关闭)
  4. U 非贪婪的:交换x*和x*?、x+和x+?……的含义(默认关闭)

因此

  • (?m)表示行首
  • (?P<cmd>\w+)表示将符合\w+(\w== [0-9A-Za-z_])正则表达式的值命名为name,之后再使用函数时可以使用$name来表达

其他函数:

func (*Regexp) Split

  1. func (re *Regexp) Split(s string, n int) []string

Split将re在s中匹配到的结果作为分隔符将s分割成多个字符串,并返回这些正则匹配结果之间的字符串的切片。

返回的切片不会包含正则匹配的结果,只包含匹配结果之间的片段。当正则表达式re中不含正则元字符时,本方法等价于strings.SplitN。

参数n绝对返回的子字符串的数量:

  1. n > : 返回最多n个子字符串,最后一个子字符串是剩余未进行分割的部分。
  2. n == : 返回nil (zero substrings)
  3. n < : 返回所有子字符串

举例:

  1. package main
  2. import(
  3. "fmt"
  4. "regexp"
  5.  
  6. )
  7.  
  8. func main() {
  9. s1 := regexp.MustCompile("a*").Split("abaabaccadaaae", -) //返回所有值
  10. fmt.Println(s1) //[ b b c c d e]
  11. s2 := regexp.MustCompile("a*").Split("abaabaccadaaae", ) //返回5个值,剩余的值都写在最后一个值中
  12. fmt.Println(s2) //[ b b c cadaaae]
  13. }

func QuoteMeta

  1. func QuoteMeta(s string) string

QuoteMeta返回将s中所有正则表达式元字符都进行转义后字符串。该字符串可以用在正则表达式中匹配字面值s。例如,QuoteMeta(`[foo]`)会返回`\[foo\]`。

特殊字符有:\.+*?()|[]{}^$ ,这些字符用于实现正则语法,所以当作普通字符使用时需要转换

func (*Regexp) String

  1. func (re *Regexp) String() string

String返回用于编译成正则表达式的字符串

func (*Regexp) NumSubexp

  1. func (re *Regexp) NumSubexp() int

NumSubexp返回该正则表达式中捕获分组的数量。

func (*Regexp) SubexpNames

  1. func (re *Regexp) SubexpNames() []string

SubexpNames返回该正则表达式中捕获分组的名字。第一个分组的名字是names[1],因此,如果m是一个组匹配切片,m[i]的名字是SubexpNames()[i]。因为整个正则表达式是无法被命名的,names[0]必然是空字符串。该切片不应被修改。

举例:

  1. package main
  2. import(
  3. "fmt"
  4. "regexp"
  5.  
  6. )
  7.  
  8. func main() {
  9. re := regexp.MustCompile("(?P<first>[a-zA-Z]+) (?P<last>[a-zA-Z]+)")
  10. fmt.Println(re.String()) //(?P<first>[a-zA-Z]+) (?P<last>[a-zA-Z]+)
  11. fmt.Println(re.NumSubexp()) //
  12.  
  13. fmt.Println(re.MatchString("Alan Turing")) //true
  14. fmt.Printf("%q\n", re.SubexpNames()) //["" "first" "last"],分组从索引[1]开始,[0]为空字符串
  15. reversed := fmt.Sprintf("${%s} ${%s}", re.SubexpNames()[], re.SubexpNames()[])
  16. fmt.Println(reversed) //${last} ${first}
  17. fmt.Println(re.ReplaceAllString("Alan Turing", reversed)) //Turing Alan,实现前后转换
  18. }

func (*Regexp) LiteralPrefix -返回所有匹配项都共同拥有的前缀(去除可变元素)

  1. func (re *Regexp) LiteralPrefix() (prefix string, complete bool)

LiteralPrefix返回一个字符串字面值prefix,任何匹配本正则表达式的字符串都会以prefix起始。 如果该字符串字面值包含整个正则表达式,返回值complete会设为真。

complete:如果 prefix 就是正则表达式本身,则返回 true,否则返回 false

举例:

  1. package main
  2. import(
  3. "fmt"
  4. "regexp"
  5.  
  6. )
  7.  
  8. func main() {
  9. reg := regexp.MustCompile("(?P<first>[a-zA-Z]+) (?P<last>[a-zA-Z]+)")
  10. prefix, complete := reg.LiteralPrefix()
  11. fmt.Println(prefix) //匹配项为空,因为 从头开始就是可变元素
  12. fmt.Println(complete)
  13.  
  14. reg = regexp.MustCompile(`Hello[\w\s]+`)
  15. fmt.Println(reg.LiteralPrefix()) //任何字符串要匹配该正则表达式时其必须有前缀Hello,因为前缀不是整个正则,所以为false
  16. // Hello false
  17. reg = regexp.MustCompile(`Hello`)//因为前缀为整个正则,所以返回true
  18. fmt.Println(reg.LiteralPrefix())
  19. // Hello true
  20. }

go标准库的学习-regexp的更多相关文章

  1. go标准库的学习-net/http

    参考:https://studygolang.com/pkgdoc 概念解释: request:用户请求的信息,用来解析用户的请求信息,包括post.get.cookie.url等信息 respons ...

  2. go标准库的学习-database/sql

    参考:https://studygolang.com/pkgdoc 导入方式: import "database/sql" sql包提供了保证SQL或类SQL数据库的泛用接口. 使 ...

  3. go标准库的学习-crypto/md5

    参考:https://studygolang.com/pkgdoc 导入方式: import "crypto/md5" md5包实现了MD5哈希算法,参见RFC 1321. Con ...

  4. go标准库的学习-crypto/sha1

    参考:https://studygolang.com/pkgdoc 导入方式: import "crypto/sha1" sha1包实现了SHA1哈希算法,参见RFC 3174. ...

  5. go标准库的学习-crypto/sha256

    参考:https://studygolang.com/pkgdoc 导入方式: import "crypto/sha256" sha256包实现了SHA224和SHA256哈希算法 ...

  6. python 标准库基础学习之开发工具部分1学习

    #2个标准库模块放一起学习,这样减少占用地方和空间#标准库之compileall字节编译源文件import compileall,re,sys#作用是查找到python文件,并把它们编译成字节码表示, ...

  7. python calendar标准库基础学习

    # -*- coding: utf-8 -*-# 作者:新手__author__ = 'Administrator'#标准库:日期时间基础学习:calendar:处理日期#例1import calen ...

  8. 《C标准库》学习笔记整理

    简介 <C标准库>书中对 C 标准库中的 15 个头文件的内容进行了详细的介绍,包括各头文件设计的背景知识.头文件中的内容.头文件中定义的函数和变量的使用.实现.测试等. 我学习此书的目的 ...

  9. python linecache标准库基础学习

    #python标准库基础之:linecacge:高效读取文本文件#说明与作用"""可以从文件或者导入python模块获取文件,维护一个结果缓存,从而可以更高效地从相同文件 ...

随机推荐

  1. ajax读取txt文本时乱码的解决方案

    前言:第一次学习使用 ajax 就是用来读取文本 先给出现乱码的代码<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional/ ...

  2. Linux中ssh介绍与ssh+key密钥登陆部署

    环境内核信息: [root@zabbix- ~]# uname -a Linux zabbix- -.el6.x86_64 # SMP Tue Mar :: UTC x86_64 x86_64 x86 ...

  3. [PHP]算法- 二叉树的深度的PHP实现

    二叉树的深度: 输入一棵二叉树,求该树的深度.从根结点到叶结点依次经过的结点(含根.叶结点)形成树的一条路径,最长路径的长度为树的深度. 思路: 1.非递归层序遍历 2.使用辅助队列,根结点先入队列 ...

  4. Docker 安装redis(四)

    Docker 安装redis 1.搜索docker镜像(可以看到搜索的结果,这个结果是按照一定的星级评价规则排序的) docker search redis 2.拉取docker的mysql镜像(如果 ...

  5. elasticsearch6.7 05. Document APIs(6)UPDATE API

    5. UPDATE API 更新操作可以使用脚本来更新.更新的时候会先从索引中获取文档数据(在每个分片中的集合),然后运行脚本(使用可选的脚本语言和参数),再果进行索引(还允许删除或忽略该操作).它使 ...

  6. 如何在表单中使用Ajax

    1.HTML就是一个简单表单验证,有登录按钮,点击登录会发送Ajax, 这里就是简单如果用户名为:zhouzhiruo,密码为:123456,就是登录成功,否则登录失败 应该在发送请求之前对input ...

  7. html 字符串 生成 pdf 完美解决中文不显示

    //maven <dependency> <groupId>com.itextpdf</groupId> <artifactId>itextpdf< ...

  8. 图的遍历(bfs+dfs)模板

    bfs #include<iostream> #include<queue> #include<cstdio> using namespace std; queue ...

  9. wepy里面两种不同的写回调函数的方法

    方案一const getHelpCenter = createAction(GET_HELP_CENTER, () => request('api/hisense/article/menu/li ...

  10. 语义分割的简单指南 A Simple Guide to Semantic Segmentation

    语义分割是将标签分配给图像中的每个像素的过程.这与分类形成鲜明对比,其中单个标签被分配给整个图片.语义分段将同一类的多个对象视为单个实体.另一方面,实例分段将同一类的多个对象视为不同的单个对象(或实例 ...