NLP-transformer-分词库用法

参考文档： https://blog.csdn.net/orangerfun/article/details/124089467

1 pip install transformer

2 下载专有的vocab.txt词典

　　这个词典用于把单词-> id -> 词向量

　　https://github.com/google-research/bert

3 实例化分词实例

1 from transformers import BertTokenizer

2 import torch

3

4 token = r"vocab.txt"

5

6 bert_tokenizer = BertTokenizer(vocab_file=token)

4 分词任务

# 1 分词任务

res = bert_tokenizer.tokenize("山海关总兵官吴三桂")

print(res)

['山', '海', '关', '总', '兵', '官', '吴', '三', '桂']

5 转为id

# 2 转化为id
# 接受一个词或字列表
idres = bert_tokenizer.convert_tokens_to_ids("山海关总兵官吴三桂")
print(idres)
idres = bert_tokenizer.convert_tokens_to_ids(res)
print(idres)
# 一个字时候是否是准的？ 准确id
idres = bert_tokenizer.convert_tokens_to_ids("山")
print(idres)

6 转文字

# id转字

wordres = bert_tokenizer.convert_ids_to_tokens([2255, 3862, 1068, 2600, 1070, 2135, 1426, 676, 3424])

# 可以成功转为对应汉字

print(wordres)

# 来看看 前面误操作的 100 能转为什么

wordres = bert_tokenizer.convert_ids_to_tokens(100)

print(wordres)

7 使用回调函数实现批量等工程级别操作

text: 需要被编码的文本，可以是一维或二维list 最好是一维的
padding: 是否需要padding，可选如下几个值
truncation: 是否要进行截断
True or 'longest_first'，保留由max_length指定的长度，或者当max_length没有指定时，截取保留模型最大能接受的长度，对于sentence pair，截取长度最大的句子
False or 'do_not_truncate (default) 不截取
only_first，截取到max_length, 但是只截取sentence pair中的第一个句子
'only_second'，同理，只截取pair中第二个句子
max_length，句子最大长度，和padding及truncation相关

合理动态padding问题

注意：因为需要添加句子头和尾

['[CLS]', '我', '爱', '北', '京', '天', '[SEP]']

[101, 2769, 4263, 1266,  776, 1921,  102]
所以如果最大长度max_length，句子最大长度 设置为7的话，  注意5个位置来存实际的内容。

当max_length=10时候，填充为

{'input_ids': tensor([[ 101, 2769, 4263, 1266, 776, 1921, 2128, 7305, 102, 0],
[ 101, 2408, 1767, 1391, 4156, 7883, 102, 0, 0, 0]])，在标志位后面添加000

本质：输出为输入model的长度词列表。

最大长度max_length即输入model的最大长度。

examples = [["我爱北京天安门", "广场吃炸鸡"],["苏德战争","俄罗"]]

res = bert_tokenizer(examples,

                padding="max_length",

                truncation=True,

                max_length=10,

                return_tensors="pt",

                return_length=True)

print(res)

{'input_ids': tensor([[ 101, 2769, 4263, 1266,  776,  102, 2408, 1767, 1391,  102],

        [ 101, 5722, 2548, 2773,  751,  102,  915, 5384,  102,    0]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 1, 1, 1, 1],

        [0, 0, 0, 0, 0, 0, 1, 1, 1, 0]]), 'length': tensor([10,  9]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1],

        [1, 1, 1, 1, 1, 1, 1, 1, 1, 0]])}

NLP-transformer-分词库用法的更多相关文章

[NLP]Transformer模型解析
简介[2] Attention Is All You Need是2017年google提出来的一篇论文,论文里提出了一个新的模型,叫Transformer,这个结构广泛应用于NLP各大领域,是目前比较 ...
13.深度学习(词嵌入)与自然语言处理--HanLP实现
笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP 13. 深度学习与自然语言处理 13.1 传统方法的局限前面已经讲过了隐马尔可夫 ...
[NLP] 相对位置编码(一) Relative Position Representatitons (RPR) - Transformer
对于Transformer模型的positional encoding,最初在Attention is all you need的文章中提出的是进行绝对位置编码,之后Shaw在2018年的文章中提出了 ...
NLP学习(5)----attention/ self-attention/ seq2seq/ transformer
目录: 1. 前提 2. attention (1)为什么使用attention (2)attention的定义以及四种相似度计算方式 (3)attention类型(scaled dot-produc ...
NLP与深度学习（四）Transformer模型
1. Transformer模型在Attention机制被提出后的第3年,2017年又有一篇影响力巨大的论文由Google提出,它就是著名的Attention Is All You Need[1]. ...
中文分词库及NLP介绍，jieba，gensim的一些介绍
六款中文分词软件介绍: https://blog.csdn.net/u010883226/article/details/80731583 里面有jieba, pyltp什么的.另外下面这个博客有不少 ...
[NLP] REFORMER: THE EFFICIENT TRANSFORMER
1.现状 (1) 模型层数加深 (2) 模型参数量变大 (3) 难以训练 (4) 难以fine-tune 2. 单层参数量和占用内存分析层参数设置参数量与占用内存 1 layer 0.5Bill ...
NLP入门学习中关于分词库HanLP导入使用教程
大家好,时隔多年再次打开我的博客园写下自己的经验和学习总结,开园三年多,文章数少得可怜,一方面自己技术水平局限,另一方面是自己确实想放弃写博客.由于毕业工作的原因,经常性的加班以及仅剩下少的可怜的休息 ...
NLP之基于Transformer的句子翻译
Transformer 目录 Transformer 1.理论 1.1 Model Structure 1.2 Multi-Head Attention & Scaled Dot-Produc ...
[NLP] The Annotated Transformer 代码修正
1. RuntimeError: "exp" not implemented for 'torch.LongTensor' class PositionalEncoding(nn. ...

随机推荐

题解 P1627 [CQOI2009] 中位数
傻逼题但是被自己的傻逼操作爆了好几次零(悲愤 .... 没什么好讲的,一眼题... //SIXIANG #include <iostream> #define int long long ...
通过Rsync实现文件远程备份
转载:博客园 https://www.cnblogs.com/huligong1234/p/13513395.html
C# 时间各种格式
1.1 取当前年月日时分秒 currentTime=System.DateTime.Now; 1.2 取当前年 int 年=currentTime.Year; 1.3 取当前月 int 月=curre ...
CF884F - Anti-Palindromize
我们发现这个题的数据范围."字符和位置匹配"再加上一条奇怪的限制,长得就很网络流,那么就考虑如何用网络流做. 考虑重新解释一下这个题面,其实就是:给定一个字符集和 \(n\) 个位 ...
elasticsearch-8.6.1集群安装部署
elk官方下载地址:https://www.elastic.co/cn/downloads/ 1.创建普通用户及用户组 groupadd elasticsearch useradd elasticse ...
C#判断一个字符串是否为整数
判断一个字符串是否为数字使用int.TryParse()方法利用int类型自带的TryParse(string, ou int) 方法可以解决问题,此方法通过对应的输入内容string,如果是 ...
Mysql习题系列（二）：多表查询（一篇学会做Mysql多表查询题，超详细~）
Mysql8.0习题系列软件下载地址提取码:7v7u 数据下载地址提取码:e6p9 文章目录 Mysql8.0习题系列 1.多表查询1 1.1题目 1.2答案 1.显示所有员工的姓名,部门号和部 ...
rancher 修改域名
rancher 修改域名 rancher 修改ingress.nginx 对应的域名后 cattle-system 名称空间下的pod 依然是连接旧环境的rancher 域名解决办法 1. 需要登录 ...
CAN 接线参考
汽车CAN总线详解 - 汽车人大空翼 - 博客园 (cnblogs.com) 汽车CAN总线 - helloWorld017 - 博客园 (cnblogs.com) CAN总线布线规范 - 不明白就去 ...
c++练习272题：金币
*272题原题传送门:http://oj.tfls.net/p/272 题解:(遍历,60分) #include<bits/stdc++.h>using namespace std;lo ...

NLP-transformer-分词库用法

NLP-transformer-分词库用法

NLP-transformer-分词库用法的更多相关文章

随机推荐

热门专题