Bert预训练源码 主要代码 地址:https://github.com/google-research/bert create_pretraning_data.py:原始文件转换为训练数据格式 tokenization.py:汉字,单词切分,复合词处理,create_pretraning_data中调用 modeling.py: 模型结构 run_pretraing.py: 运行预训练 tokenization.py 作用:句子切分,特殊符号处理. 主要类:BasicTokenizer, Wo…