微调baichuan2-7b遇到的显存坑

问题描述：

微调baichuan2-7b模型，验证一轮后继续训练第一个iteration显存大幅增加

项目链接：

https://github.com/wp931120/baichuan_sft_lora

具体描述：

由于某些原因，笔者是在transformers4.30.2、torch2.0.1，accelerate==0.22版本上进行实验。

在训练过程中，发现显存溢出，考虑是句子长度问题，将1024设置为512。

然而训练还是显存溢出，通过调试分析，在评估验证集之前，显存大概占用11G左右，在评估过程中，显存依然保持11G左右，然而评估一结束，继续训练时，显存大幅增加，变为20G左右，后面不管怎么训练和评估，显存基本上都维持在20G。

然而根据项目作者的实验，明明12G左右的显存就够。

为此，后经群里大佬提示，考虑释放torch缓存或者更新transformers版本。

1、尝试各种方式在评估之后释放显存依然无效。

2、由于某些原因无法更新transformers版本，暂无法验证。

由于作者在原始代码上的更改并不多，遂怀疑是否是由于基座大模型（baichuan2-7b）的原因导致显存增加，因此将基座大模型换成chatglm2-6b，将数据处理的代码稍作修改后进行实验，发现模型在评估后继续训练显存没有大幅增加。

至此，虽然不清楚为什么baichuan-7b在当前环境无法正常训练，可能的原因是当前版本的transformers不太足够支持baichuan-7b的训练，对chatglm2-6b训练是足够的。

注释：

卡2是chatglm2-6b在qlora训练模式下的显存占用，卡3是baichuan2-7b在qlora训练模式下的显存占用。

微调baichuan2-7b遇到的显存坑的更多相关文章

我的Keras使用总结（5）——Keras指定显卡且限制显存用量，常见函数的用法及其习题练习
Keras 是一个高层神经网络API,Keras是由纯Python编写而成并基于TensorFlow,Theano以及CNTK后端.Keras为支持快速实验而生,能够将我们的idea迅速转换为结果.好 ...
分页型Memory LCD显存管理与emWin移植
上一篇随笔整理了一下逐行扫描型Memory LCD的显存管理与emWin移植,这篇就整理一下分页型Memory LCD显存管理与emWin移植. //此处以SSD1306作为实例 //OLED的显存/ ...
逐行扫描型Memory LCD显存管理与emWin移植
因为Memory LCD 的特性,不能设置像素坐标,只能用缓存整体刷新. 所以对于Memory LCD来说,emWin移植仅与打点函数有关,这里用Sharp Memory LCD(ls013b7dh0 ...
Cpu Gpu 内存显存数据流
[精]从CPU架构和技术的演变看GPU未来发展 http://www.pcpop.com/doc/0/521/521832_all.shtml 显存与纹理内存详解 http://blog.csdn.n ...
OpenGL8-直接分配显存-极速绘制（2）
视频教程请关注 http://edu.csdn.net/lecturer/lecturer_detail?lecturer_id=440/*** OpenGL8-直接分配显存-极速绘制(Opengl1 ...
OpenGL8-直接分配显存-极速绘制（Opengl1.5版本才有)
视频教程请关注 http://edu.csdn.net/lecturer/lecturer_detail?lecturer_id=440 /** * 这个例子介绍如何使用显卡内存进行绘制下载地址 : ...
Nvidia显卡怎样查看显存大小及硬件相关信息
在电脑上安装Nvidia显卡驱动,平时也会通过Nvidia控制面板来查看显示显存位宽及宽带.显示显存容量和显示显存芯片信息等等,那么该如何查看Nvidia显存大小以及Nvidia硬件相关信息呢? 1. ...
gpu显存（全局内存）在使用时数据对齐的问题
全局存储器,即普通的显存,整个网格中的随意线程都能读写全局存储器的任何位置. 存取延时为400-600 clock cycles 很easy成为性能瓶颈. 訪问显存时,读取和存储必须对齐,宽度为4B ...
[自制操作系统] 图形界面&VBE工具&MMIO显存&图形库/字库
本文记录了在JOS(或在任意OS)上实现图形界面的方法与一些图形库的实现. 本文中支持的新特性: 支持基本图形显示支持中英文显示(中英文点阵字库) 相关:VBE VESA MMIO 点阵字库 Git ...
[置顶] 基于FPGA的VGA简易显存设计&NIOS ii软核接入
项目简介本项目基于Altera公司的Cyclone IV型芯片,利用NIOS II软核,2-port RAM与时序控制模块,实现64*48分辨率的显存(再大的显存板载资源m9k不够用) 实现效果如下 ...

随机推荐

springboot整合seata1.5.2+nacos2.1.1
一.前言 Seata出现前,大部分公司使用的都是TCC或者MQ(RocketMq)等来解决分布式事务的问题,TCC代码编写复杂,每个业务均需要实现三个入口,侵入性强,RocketMQ保证的是最终一致性 ...
jenkins更换国内插件源
sed -i 's/https:\/\/updates.jenkins.io\/download/https:\/\/mirrors.tuna.tsinghua.edu.cn\/jenkins/g' ...
centos7.6 安装Jenkins
一.安装java环境 yum install -y java-11-openjdk* 三.将Jenkins存储库添加到yum repos wget -O /etc/yum.repos.d/jenkin ...
RPM软件包：Red HatPackage Manager，RPM
RPM软件包是按照GPL条款发行在各个linux版本上使用. 用途可以安装.删除.升级.刷新和管理RPM软件包通过RPM软件包管理能知道软件包包含哪些文件,也能知道系统中的某个文件属于哪个RPM软 ...
Insert a scratch project into a ppt (MSPowerPoinT file)在powerpoint中播放Scratch动画
Insert a scratch project into a ppt (MSPowerPoinT file)在powerpoint中播放Scratch动画 Contributed by liu pe ...
Python+Softmax+MNIST
# -*- coding: utf-8 -*- """ 用神经网络搭建的softmax线性分离器 Softmax是用于分类过程,用来实现多分类的,简单来说,它把一些输出的 ...
归并排序 nO(lgn) 审核中
大家好,我是蓝胖子,我一直相信编程是一门实践性的技术,其中算法也不例外,初学者可能往往对它可望而不可及,觉得很难,学了又忘,忘其实是由于没有真正搞懂算法的应用场景,所以我准备出一个系列,囊括我们在日常 ...
手撕Vue-编译指令数据
经过上一篇的分析,完成了查找指令和模板的功能,接下来就是编译指令的数据了. 所以本章节主要处理的方法则是 buildElement 方法,我们先分析一下我们所拿到的数据在进行编码,这样会更加清晰一些. ...
docker入门加实战—部署Java和前端项目
docker入门加实战-部署Java和前端项目部署之前,先删除nginx,和自己创建的dd两个容器: docker rm -f nginx dd 部署Java项目作为演示,我们的Java项目比较简 ...
如何用CAN-EYE获取植被参数数据？
本文介绍植被冠层参数计算软件CAN-EYE的具体使用方法. 在文章下载.安装CAN-EYE植被参数工具中,我们介绍了CAN-EYE软件的下载.安装方法:本文就对该软件的具体使用方法进行介绍. ...

微调baichuan2-7b遇到的显存坑

微调baichuan2-7b遇到的显存坑的更多相关文章

随机推荐

热门专题