基于Huggingface使用BERT进行文本分类的fine-tuning

随着BERT大火之后，很多BERT的变种，这里借用Huggingface工具来简单实现一个文本分类，从而进一步通过Huggingface来认识BERT的工程上的实现方法。

1、load data

train_df = pd.read_csv('../data/train.tsv',delimiter='\t',names=['text','label'])

print(train_df.shape)

train_df.head()

sentences = list(train_df['text'])

targets =train_df['label'].values

2、token encodding

#如果token要封装到自定义model类中的话，则需要指定max_len

tokenizer=BertTokenizer.from_pretrained('bert-base-uncased')

max_length=32

sentences_tokened=tokenizer(sentences,padding=True,truncation=True,max_length=max_length,return_tensors='pt')

targets=torch.tensor(targets)

3、encoding data

# from torchvision import transforms,datasets

from torch.utils.data import Dataset,DataLoader,random_split

class DataToDataset(Dataset):

    def __init__(self,encoding,labels):

        self.encoding=encoding

        self.labels=labels

    def __len__(self):

        return len(self.labels)

    def __getitem__(self,index):

        return self.encoding['input_ids'][index],self.encoding['attention_mask'][index],self.labels[index]

#封装数据

datasets=DataToDataset(sentences_tokened,targets)

train_size=int(len(datasets)*0.8)

test_size=len(datasets)-train_size

print([train_size,test_size])

train_dataset,val_dataset=random_split(dataset=datasets,lengths=[train_size,test_size])

BATCH_SIZE=64

#这里的num_workers要大于0

train_loader=DataLoader(dataset=train_dataset,batch_size=BATCH_SIZE,shuffle=True,num_workers=5)

val_loader=DataLoader(dataset=val_dataset,batch_size=BATCH_SIZE,shuffle=True,num_workers=5)#

4、create model

class BertTextClassficationModel(nn.Module):

    def __init__(self):

        super(BertTextClassficationModel,self).__init__()

        self.bert=BertModel.from_pretrained('bert-base-uncased')

        self.dense=nn.Linear(768,2)  #768 input, 2 output

    def forward(self,ids,mask):

        out,_=self.bert(input_ids=ids,attention_mask=mask)

        out=self.dense(out[:,0,:])

        return out

mymodel=BertTextClassficationModel()

#获取gpu和cpu的设备信息

device=torch.device("cuda" if torch.cuda.is_available() else "cpu")

print("device=",device)

if torch.cuda.device_count()>1:

    print("Let's use ",torch.cuda.device_count(),"GPUs!")

    mymodel=nn.DataParallel(mymodel)

mymodel.to(device)

5、train model

loss_func=nn.CrossEntropyLoss()

optimizer=optim.Adam(mymodel.parameters(),lr=0.0001)

from sklearn.metrics import accuracy_score

def flat_accuracy(preds,labels):

    pred_flat=np.argmax(preds,axis=1).flatten()

    labels_flat=labels.flatten()

    return accuracy_score(labels_flat,pred_flat)

epochs=3

for epoch in range(epochs):

    train_loss = 0.0

    train_acc=0.0

    for i,data in enumerate(train_loader):

        input_ids,attention_mask,labels=[elem.to(device) for elem in data]

        #优化器置零

        optimizer.zero_grad()

        #得到模型的结果

        out=mymodel(input_ids,attention_mask)

        #计算误差

        loss=loss_func(out,labels)

        train_loss += loss.item()

        #误差反向传播

        loss.backward()

        #更新模型参数

        optimizer.step()

        #计算acc

        out=out.detach().numpy()

        labels=labels.detach().numpy()

        train_acc+=flat_accuracy(out,labels)

    print("train %d/%d epochs Loss:%f, Acc:%f" %(epoch,epochs,train_loss/(i+1),train_acc/(i+1)))

6、evaluate

print("evaluate...")

val_loss=0

val_acc=0

mymodel.eval()

for j,batch in enumerate(val_loader):

    val_input_ids,val_attention_mask,val_labels=[elem.to(device) for elem in batch]

    with torch.no_grad():

        pred=mymodel(val_input_ids,val_attention_mask)

        val_loss+=loss_func(pred,val_labels)

        pred=pred.detach().cpu().numpy()

        val_labels=val_labels.detach().cpu().numpy()

        val_acc+=flat_accuracy(pred,val_labels)

print("evaluate loss:%d, Acc:%d" %(val_loss/len(val_loader),val_acc/len(val_loader)))

基于Huggingface使用BERT进行文本分类的fine-tuning的更多相关文章

Chinese-Text-Classification，用卷积神经网络基于 Tensorflow 实现的中文文本分类。
用卷积神经网络基于 Tensorflow 实现的中文文本分类项目地址: https://github.com/fendouai/Chinese-Text-Classification 欢迎提问:ht ...
基于Text-CNN模型的中文文本分类实战流川枫发表于AI星球订阅
Text-CNN 1.文本分类转眼学生生涯就结束了,在家待就业期间正好有一段空闲期,可以对曾经感兴趣的一些知识点进行总结. 本文介绍NLP中文本分类任务中核心流程进行了系统的介绍,文末给出一个基于T ...
基于Text-CNN模型的中文文本分类实战
Text-CNN 1.文本分类转眼学生生涯就结束了,在家待就业期间正好有一段空闲期,可以对曾经感兴趣的一些知识点进行总结. 本文介绍NLP中文本分类任务中核心流程进行了系统的介绍,文末给出一个基于T ...
基于Naive Bayes算法的文本分类
理论什么是朴素贝叶斯算法? 朴素贝叶斯分类器是一种基于贝叶斯定理的弱分类器,所有朴素贝叶斯分类器都假定样本每个特征与其他特征都不相关.举个例子,如果一种水果其具有红,圆,直径大概3英寸等特征,该水果 ...
基于keras中IMDB的文本分类 demo
本次demo主题是使用keras对IMDB影评进行文本分类: import tensorflow as tf from tensorflow import keras import numpy a ...
文本分类实战（十）—— BERT 预训练模型
1 大纲概述文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类.总共有以下系列: word2vec预训练词向量 te ...
Pytorch——BERT 预训练模型及文本分类
BERT 预训练模型及文本分类介绍如果你关注自然语言处理技术的发展,那你一定听说过 BERT,它的诞生对自然语言处理领域具有着里程碑式的意义.本次试验将介绍 BERT 的模型结构,以及将其应用于文 ...
文本分类实战（九）—— ELMO 预训练模型
1 大纲概述文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类.总共有以下系列: word2vec预训练词向量 te ...
文本分类实战（八）—— Transformer模型
1 大纲概述文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类.总共有以下系列: word2vec预训练词向量 te ...

随机推荐

分分钟玩转UI自动化测试
有没有那么一刻,看到自动模拟用户操作界面感觉好神奇. 关于什么叫 UI 自动化测试就不解释了,基本上是你刚才脑海里想到什么就是什么. 在分层自动化测试中包括:UI 测试.集成/接口测试.单元测试.大神 ...
Fitness - 05.22
终于到了连续熬夜,感觉身心俱疲的年纪了. 今天休息一天,瑜伽暂停. 调整作息时间,12点睡觉,5点起床学习~
分布式ID方案SnowFlake雪花算法分析
1.算法 SnowFlake算法生成的数据组成结构如下: 在java中用long类型标识,共64位(每部分用-分开): 0 - 0000000000 0000000000 0000000000 000 ...
python-opencv 图像捕捉多个不规则轮廓，与轮廓内接区域(圆/矩形)思路-持续更新编辑中(会附上详细的思路解释和图片)
整体思路: 1.原图灰度化 2.灰度图截取mask区域 3.mask区域二值化 4.二值化图像运算(开运算) 5.原灰图轮廓提取 6.不规则轮廓校准(外接矩形/内接矩形) 注:代码依次头尾连接哦! 0 ...
JVM学习第三天(JVM的执行子系统)之类加载机制
好几天没有学习了,前几天因为导出的事情,一直在忙,今天继续学习, 其实今天我也遇到了一个问题,如果有会的兄弟可以评论留给我谢谢; 问题:fastJSON中JSONObject.parseObject做 ...
JsonAnalyzer 源码下载
下载地址:https://files.cnblogs.com/files/heyang78/JsonAnalyzer20200518-01.zip 测试用例:https://www.cnblogs.c ...
Zookeeper协议篇-Paxos算法与ZAB协议
前言可以自行去学习一下Zookeeper中的系统模型,节点特性,权限认证以及事件通知Watcher机制相关知识,本篇主要学习Zookeeper一致性算法和满足分布式协调的Zab协议 Paxos算法 ...
【Java】一句话获得你的IP地址
System.out.println(java.net.InetAddress.getLocalHost().getHostAddress());
Nginx之https配置
14.1. 对称加密安全隐患:钥匙除我之外,还有多个人拥有.泄露风险较大,钥匙传递的过程风险较大 14.2. 非对称加密优缺点:私钥很安全.但是非对称算法开销很大,大批量应用于业务,会导致性能成本 ...
5.AVStream和AVCodecParameters
AVStream和AVCodecParameters 说明: AVStream 结构表示当前媒体流的上下文,着重于所有媒体流共有的属性(并且是在程序运行时才能确定其值)和关联其他结构的字段. 其中co ...

基于Huggingface使用BERT进行文本分类的fine-tuning

基于Huggingface使用BERT进行文本分类的fine-tuning的更多相关文章

随机推荐

热门专题