在矩池云使用Llama2-7B的方法

矩池云 2024-02-28 13:40:46 原文

今天给大家分享如何在矩池云服务器使用 Llama2-7b模型。

硬件要求

矩池云已经配置好了 Llama 2 Web UI 环境，显存需要大于 8G，可以选择 A4000、P100、3090 以及更高配置的等显卡。

租用机器

在矩池云主机市场：https://matpool.com/host-market/gpu ，选择显存大于 8G 的机器，比如 A4000 显卡，然后点击租用按钮（选择其他满足显存要求的显卡也行）。

租用页面，搜索 Llama 2 Web UI，并选择该镜像，再点击租用即可。

预装：Ubuntu20.04, Python 3.9, Pytorch 2.0, Llama-2-7b-chat-hf, Llama2-webui, CUDA 11.7, cuDNN 8, NVCC(默认开启 LOAD_IN_8BIT，仅支持显存 8G 以上显卡，开机自启Llama2-webui 服务在 7860 端口)

Llama2-webui 来自开源项目：https://github.com/liltom-eth/llama2-webui

机器租用成功后，可以看到 7860 端口的对应链接，这是 Llama2-webui 默认的端口，镜像已经设置了开机自启，也就是说你现在可以直接访问这个链接，开始使用 Llama2-7B啦。

使用 Llama2-webui

点击租用页面中的 7860 端口对应链接即可访问相关服务。

在页面中的Advanced options中我们可以进行一些设置，比如：系统角色、回复内容的最长长度等。

在上面的问题中我们可以发现，即使给他设置了中文回复，但回复结果仍然用的英文，另外他确实理解了我的问题，并接受了设置的角色。

关闭 LOAD_IN_8BIT，推理更快

这个镜像自启服务中默认开启了 LOAD_IN_8BIT ，这样可以使推理时占用更少的显存，但也会花费更长的时间，所以，如果你租用的是 13G 以上显存机器，可以按以下方法关闭 LOAD_IN_8BIT 重新运行服务，以获得更快的推理速度。

点击租用页面：JupyterLab 链接。

新建一个 terminal，输入ps aux | grep app.py查看相关服务进程id，并使用kill指令结束进程。

JupyterLab 左侧目录导航栏打开llama2-webui项目文件夹下的envfile文件，将里面的LOAD_IN_8BIT = True改成LOAD_IN_8BIT = False，然后按 ctrl+s 保存文件。

回到 terminal，输入以下指令重新启动 Llama2-webui 服务。

cd /llama2-webui/

nohup python -u app.py > /llama2-webui/run_log.log 2>&1 &

# 查看程序运行日志

tail -f run_log.log

等模型加载完成，即可再次访问租用页面 7860 端口连接，使用服务了。

中文迭代效果依然有限，不过迭代速度和效果好了不少。

在矩池云使用Llama2-7B的方法的更多相关文章

矩池云上使用nvidia-smi命令教程
简介 nvidia-smi全称是NVIDIA System Management Interface ,它是一个基于NVIDIA Management Library(NVML)构建的命令行实用工具, ...
矩池云里查看cuda版本
可以用下面的命令查看 cat /usr/local/cuda/version.txt 如果想用nvcc来查看可以用下面的命令 nvcc -V 如果环境内没有nvcc可以安装一下,教程是矩池云上如何安装 ...
在矩池云上复现 CVPR 2018 LearningToCompare_FSL 环境
这是 CVPR 2018 的一篇少样本学习论文:Learning to Compare: Relation Network for Few-Shot Learning 源码地址:https://git ...
矩池云上安装yolov4 darknet教程
这里我是用PyTorch 1.8.1来安装的拉取仓库官方仓库 git clone https://github.com/AlexeyAB/darknet 镜像仓库 git clone https: ...
用端口映射的办法使用矩池云隐藏的vnc功能
矩池云隐藏了很多高级功能待用户去挖掘. 租用机器进入jupyterlab 设置vnc密码 VNC_PASSWD="userpasswd" ./root/vnc_startup.s ...
矩池云上安装ikatago及远程链接教程
https://github.com/kinfkong/ikatago-resources/tree/master/dockerfiles 从作者的库中可以看到,该程序支持cuda9.2.cuda10 ...
矩池云上编译安装dlib库
方法一(简单) 矩池云上的k80因为内存问题,请用其他版本的GPU去进行编译,保存环境后再在k80上用. 准备工作下载dlib的源文件进入python的官网,点击PyPi选项,搜索dilb,再点击 ...
如何在矩池云上运行FinRL-Libray股票交易策略框架
FinRL-Libray 项目:https://github.com/AI4Finance-LLC/FinRL-Library 选择FinRL镜像在矩池云-主机市场选择合适的机器,并选择FinRL- ...
使用 MobaXterm 连接矩池云 GPU服务器
Host Name(主机名):hz.matpool.com 或 hz-t2.matpool.com,请以您 SSH 中给定的域名为准. Port(端口号):矩池云租用记录里 SSH 链接里冒号后的几位 ...
矩池云上TensorBoard/TensorBoardX配置说明
Tensorflow用户使用TensorBoard 矩池云现在为带有Tensorflow的镜像默认开启了6006端口,那么只需要在租用后使用命令启动即可 tensorboard --logdir lo ...

随机推荐

ContextSwitch 学习与使用
ContextSwitch 学习与使用说明 github上面有一个简单的测试系统调用以及上下文切换的工具. contextswitch. 下载之后直接make就可以进行简单的测试需要注意的是部分 ...
[转帖]ls命令
ls(list) 命令可以说是Linux下最常用的命令之一 #ls -l;列出文件的详细信息 #ll 以上两个命令一样,ll是ls -l的简写 #ls -al;列出目录下的所有文件,包括以 . 开头的 ...
[转帖]【JVM】线程安全与锁优化
线程安全 1.定义当多个线程访问一个对象时,如果不用考虑这些线程在运行时环境下的调度和交替行,也不需要进行额外的同步,或者在调用方进行任何其他的协调操作,调用这个对象的行为都可以获得正确的结果 2. ...
Spring 应用合并之路（一）：摸石头过河 | 京东云技术团队
公司在推进降本增效,在尝多种手段之后,发现应用太多,每个应用都做跨机房容灾部署,则最少需要 4 台机器(称为容器更合适).那么,将相近应用做一个合并,减少维护项目,提高机器利用率就是一个可选方案. 经 ...
浅谈kafka
作者:京东科技徐拥入门 1.什么是kafka? apache Kafka is a distributed streaming platform. What exactly dose that m ...
Vue双向数据绑定原理-上
Vue响应式的原理(数据改变界面就会改变)是什么? 时时监听数据变化, 一旦数据发生变化就更新界面, 这就是Vue响应式的原理. Vue是如何实现时时监听数据变化的通过原生JS的defineProp ...
LeetCode贪心算法习题讲解
实验室的算法课程,今天轮到我给师弟师妹们讲贪心算法,顺便也复习一下. 贪心算法这个名字听起来唬人,其实通常是比较简单的.虽然通常贪心算法的实现非常容易,但是,一个问题是否能够使用贪心算法,是一定要小心 ...
5.1 Windows驱动开发：判断驱动加载状态
在驱动开发中我们有时需要得到驱动自身是否被加载成功的状态,这个功能看似没啥用实际上在某些特殊场景中还是需要的,如下代码实现了判断当前驱动是否加载成功,如果加载成功, 则输出该驱动的详细路径信息. 该功 ...
如何在 macOS Sonoma 虚拟机中安装 VMware Tools
vmware-tools VMware Tools 简介 VMware Tools 中包含一系列服务和模块,可在 VMware 产品中实现多种功能,从而使用户能够更好地管理客户机操作系统,以及与客户机 ...
宝塔 websocket连接wss配置
https要使用wss连接,wss://xxxxx.com/wss 就转发到了服务器内的127.0.0.1:2346服务. 具体转发可以放在文件配置或者伪静态里面建议放在伪静态里面容易管理 n ...