获取文本的章节,首先要确定章节的开始标准,一般中文的章节都是以“第”开头,第一章.第二章等.所以使用“^”字符来确定首位,但是很多时候章节前面会有空白字符,所有以“第”作为章节的开始,进行以下的匹配 ^\\s*第 “\s”表示空白字符,加上“*”表示0到多个空白字符,“^”表示是以空白字符加上“第作为开始的”.如果需要匹配的字符串不是在段落的开始,把“^”去掉即可. 章节的序号格式不统一,有可能是阿拉伯数字,也有可能是中文,长度一般不会超过9位,所以以任意字符来匹配 .{1,9} “.”表示任意