先说背景:实验室新配了一台Dell T640服务器,双3090, 512G内存, 5 x 8T硬盘(RAID5),2 x 1T固态(RAID1),配置很够用但就是搭建运维踩了很多坑,以下是主要完成的几个工作:

  1. 安装Ubuntu22.04系统
1) 下载ubuntu22镜像文件
2) Rufus制作系统启动盘(最好大于8G)
3) 插入主机,启动按下F11进入 one-shot UEFI Boot Menu选中U盘进行安装
4) 分配空间选择其他选项,留好一个EFI主分区和一个/boot逻辑分区,都给1G,swap和内存一样给512G,其他的4T给/,18T给/home(RAID冗余隐藏了2个机械1个固态,逻辑分区都选Ext4文件系统)
5) 换源,联网情况下启动软件与更新,在Ubuntu Software页面选择Download from -> other -> select Bset Server -> choose server 自动替换当前地区最快的镜像源地址,然后apt update, apt upgrade
  1. 安装3090显卡驱动
 踩坑: 第一次安装的时候我是从NVIDIA官网上下载的最新驱动,好像是525版本的,再按照其他教程上所说的屏蔽nouveau,结果重启就黑屏了,只有一个鼠标在左上角闪,进入tty尝试无果,只能重装一次系Orz
1) 第二次安装选择一个无脑的方法,进入ubuntu自带的软件与更新界面,点击Additional Drivers,等待加载一会会出现NVIDIA相关可以选择的驱动
2) 有了第一次失败的经验,我在想是不是因为驱动版本太高了,所以选择了515版本的安装,结果下载完安装在最后会直接退出,但是不会导致黑屏XD,再尝试510版本,然后就可以了,输入nvidia-smi可以看到显卡信息,重启也是正常的
  1. 配置内外网双网卡,走线拉通局域网,外网frp穿透
 踩坑:这块是花时间最长的,主要是这个局域网问题,检查了几个小时结果是中继路由器的问题,换个路由器就好了-,-
1) 外网由于是直接从外网路由器分过来的,不需要拨号,直接走线连起来就行
2) 需要注意的是主机重启之后刚开始网是好的,过10多分钟网就没了,ping能ping通就是浏览器,todesk这些软件没网,后来找到问题是因为DNS变成了127.0.0.1,即本机回送地址
3) 解决方案是修改/etc/resolvconf/resolv.conf.d/head文件加入nameserver 8.8.8.8,重启照样生效
4)内网网口的话是直接将其设为固定IP,填一下掩码以及网关,以及将DNS设置为8.8.8.8 (注意服务器主主机与其他局域网客户机之间需要一个路由器中转,尝试了一个简单的交换机是不行的,另外不知道是不是华为路由器wan/lan都是共用的问题,连上就是用不了局域网,换了个wan/lan区分的路由器就好了)
  1. 物理机vnc自启动

    (步骤参考:https://blog.csdn.net/ZhrXg/article/details/126831072)
  踩坑:
1)桌面系统不要乱动,因为vnc启动黑屏的问题我自己卸载再重装了一个gnome桌面系统,结果开机就无限启动鬼畜了,只能再重新装一个系统重来一次。另外奇奇怪怪的问题还有开机之后过几分钟就打不开file和terminal了,右键和应用都不行,一直在转圈然后就无了,有帖子给的说法是因为注册地址和用户设置语言不一致,需要在设置中切换一下会自动log out在登入就好了,亲身实践重启之后又不行了。我的解决方法是先安装一个gdm3会提示切换,切换到gdm3,然后再安装lightdm切换回来,突然就好了。
2)另一个奇葩问题是我下载的是tigerVnc,启动之后不会自动xstart启动桌面系统,vnc远程连接起来是黑屏什么都没有,中间尝试了很多办法都没用,最后试了两种方法可行,一种是不用tigerVnc改用x11vnc,但是无法多用户只能舍弃,另一种方法是改用xfce4启动远程桌面系统,就完美解决了,唯一缺点是不太习惯这个UI
  1. 由于某些原因需要使用虚拟机,进行虚拟机内存,硬盘扩容挂载,增大交换内存,设置内网静态IP,配置虚拟机vnc

    (Centos7设置静态IP:https://blog.csdn.net/Fly_hps/article/details/122241747)

    (Centos7 swap扩容:https://www.cnblogs.com/saltiest/p/11187994.html)
  1) 下载vmware 17 pro,导入虚拟机镜像文件
如果启动vmware 报gnu缺少的错误运行下面这三条命令:
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt-get update
sudo apt-get install build-essential
2) 因为要实现的目标是虚拟机只能局域网访问,所以先得用root权限修改虚拟机网络(顺便设置一下虚拟机容量上限),添加一个桥接模式直接桥接到物理机内网网卡,然后再在虚拟机网络设置那选择桥接->用户指定的内网
3) 因为虚拟机需要的内存和硬盘资源很高,但是vmware 17 pro能够设置的容量上限内存只有128G,必须给他拉满,直接进入虚拟机目录,找到.vmx文件,修改memsize为307200,即300G,修改完启动会有一个warning,不管,后面增大swap空间就行
4)虚拟机安装的Centos7系统网络通信默认是dhcp协议,这样有个问题就是每次重启虚拟机IP地址是变的,但我们需要直接在虚拟机中启动vnc,要保证IP不变,所以将其设置为静态IP,设置完之后尝试能不能在局域网下ping通虚拟机
5) 接下来是最麻烦的,存储空间需要扩容,一个是根目录"/"初始只有56G,多用户肯定不够,另一个问题是"/home"没有挂载,在vmware设置添加一个新的硬盘容量6T,并将初始硬盘扩容到2T,扩容之后不是自动分配的,还需要进入虚拟机进行挂载
6)首先挂载第二个硬盘到"/home",因为是新添加的硬盘不需要取消挂载,大于2T,不能用fdisk,需要用parted,然后挂载到/home,好了现在/home有6T空间
7) 然后扩充根目录,原先"/"是挂载在/dev/sda3下,并且我的逻辑卷管理器不是LVM(确认一下,不然LVM相关命令无法操作),fdisk /dev/sda操作,d 删除sda3分区(原先"/"目录下文件还在),n,p,3,默认扇区头扇出尾,w(因为我的是2T,按理说fdisk无法处理,我写入的时候确实也报错了,但是最终结果还是分出来2T的空间,神奇),partprobe /dev/sda3刷新分区表,xfs_growfs /dev/sda3,好了现在"/"也扩容到了2T,够造了!
8) 内存交换扩容,因为分配了300G的内存而默认swap只有2G,为了避免之后奇奇怪怪的错误,对swap进行扩容,详见第二个参考链接
9) 设置vnc多用户启动,没有桌面系统的错误这次就比在物理机上轻松很多了
10)为了防止之后再出什么系统问题,先弄一个虚拟机快照以备不时之需:)

OK!终于完成了历时一周的踩坑之旅!

实验室服务器运维踩坑o.0的更多相关文章

  1. 线上Linux服务器运维安全策略经验分享

    线上Linux服务器运维安全策略经验分享 https://mp.weixin.qq.com/s?__biz=MjM5NTU2MTQwNA==&mid=402022683&idx=1&a ...

  2. Linux服务器运维安全策略经验分享

    http://jxtm.jzu.cn/?p=3692 大家好,我是南非蚂蚁,今天跟大家分享的主题是:线上Linux服务器运维安全策略经验.安全是IT行业一个老生常谈的话题了,从之前的“棱镜门”事件中折 ...

  3. 工作中常用Linux命令--服务器运维

    工作中常用Linux命令--服务器运维 lsof查看端口使用情况 lsof -i:8080更多lsof命令使用说明:http://www.cnblogs.com/peida/archive/2013/ ...

  4. 【微学堂】线上Linux服务器运维安全策略经验分享

      技术转载:https://mp.weixin.qq.com/s?__biz=MjM5NTU2MTQwNA==&mid=402022683&idx=1&sn=6d403ab4 ...

  5. 谈谈我的windows服务器运维管理

    我们开发的页游General War(http://gw.gamebox.com)上线运营也有半年多了,服务器的开发到运维基本都由我一手包办,在服务器上线之后我们又招了一个程序员接手后续功能的开发,而 ...

  6. 《DevOps故障排除:Linux服务器运维最佳实践》读书笔记

    首先,这本书是Linux.CN赠送的,多谢啦~ http://linux.cn/thread-12733-1-1.html http://linux.cn/thread-12754-1-1.html ...

  7. 【转载】网站服务器运维记实:阿里云1核2G突发性能t5服务器突然变得卡顿

    阿里云突发性能服务器1核2G的t5服务器在高资源利用率的情况下运行一段时间后,发现服务器反应变得很慢,通过windows远程桌面连接上服务器后查看到CPU性能一直在90%到100%之间,无法降下来.前 ...

  8. CentOS服务器运维监控Nagios(一)

    CentOS下搭建Nagios 王尚 2014.11.09 操作系统:CentOS-6.5-i386-bin-DVD1.iso 安装在VM中进行测试的. 本章需要的软件链接: php-5.3.2.ta ...

  9. 智和网管平台SugarNMS助力网络安全运维等保2.0建设

    智和信通智和网管平台SugarNMS结合<信息安全技术 网络安全等级保护基本要求>(GB/T 22239-2019)等国家标准文件以及用户提出的网络安全管理需求进行产品设计,推出“监控+展 ...

  10. Kafka运维填坑(转)

    前提: 只针对Kafka 0.9.0.1版本; 说是运维,其实偏重于问题解决; 大部分解决方案都是google而来, 我只是作了次搬运工; 有些问题的解决方案未必一定是通用的, 若应用到线上请慎重; ...

随机推荐

  1. oracle快速将表缓存到内存

    共有2种方法: 1) alter table fisher cache; 2) alter table fisher storage(buffer_pool keep); --取消缓存 1) alte ...

  2. Python:Excel自动化实践入门篇 乙【送图书活动继续】

    *以下内容为本人的学习笔记,如需要转载,请声明原文链接微信公众号「englyf」https://mp.weixin.qq.com/s/y-npGelPJwmx3iNvHaXRTg 本文上接<Py ...

  3. 问题集锦 ~ javascript

    #使用PHP输出json数据给js变量 SyntaxError: unexpected token: identifier const data = <?php echo json_encode ...

  4. python cls方法_关于类方法中的cls

    title: python cls方法_关于类方法中的cls author: 杨晓东 permalink: python cls方法_关于类方法中的cls date: 2021-10-02 11:27 ...

  5. javascript的布尔运算符

    布尔运算符分为四种: 取反运算符(!) 且运算符(&&) 或运算符(||) 三元运算符( ? 表达式1 : 表达式2 ) 取反运算符(!) 用于将任何值转换为布尔值后再变为相反值,即t ...

  6. TensorFlow中的Session

    这一次我们会讲到 Tensorflow 中的 Session, Session 是 Tensorflow 为了控制,和输出文件的执行的语句. 运行 session.run() 可以获得你要得知的运算结 ...

  7. Windows 设置当前路径 临时环境变量 查看、修改、删除与添加

    需求 有些程序依赖的Python版本不同,安装了Python2.7和Python3.10(3.x没有向下兼容),需要设置当前路径的 python 版本(指定使用2或3). 也不止Python,类似的情 ...

  8. (app笔记)Memory Fill内存填充

    Memory Fill 是实现app内存填充工具(运行内存,物理内存,网络空间内存) Used:已用内存 filled:未回收内存 Free:自由内存 1.Ram(Total Ram):手机运行内存 ...

  9. Kubernetes 安装网络插件(calico)

    简介 Calico是Kubernetes生态系统中另一种流行的网络选择.虽然Flannel被公认为是最简单的选择,但Calico以其性能.灵活性而闻名.Calico的功能更为全面,不仅提供主机和pod ...

  10. 在Excel中创建随机数据集

    1.随机小数0-1之间 =RAND() 2.随机整数1-100之间 =RANDBETWEEN(1,100) 3.生成一定比例的随机数0或1 =IF(RAND()>=0.8,1,0) 4.生成一定 ...