More than code

More Than Code
The efficiency of your iteration of reading, practicing and thinking decides your understanding of the world.
  1. 首页
  2. 未分类
  3. 正文

推理服务器折腾记录

2024年7月28日 340点热度 1人点赞 0条评论

从淘宝上搞得超微7048GR X99 双电源。
* 这里我以为是多一个电源可以多2000w,多更多的线。但实际上服务器发过来才发现这两个电源貌似是为容灾设计的,比如一个电源跪了,可以在不停机的情况下,动态切换新的电源。然后电源出来的接口还是那些。所以如果想搞4个8 + 8pin的显卡的话,还是需要自己搞6pin转8pin的转接线,然后每一个显卡都用一个8pin,一个6转8。

CPU是挑的便宜的,E5-2680 V4 两个

内存是三星32G DDR4 4个共计128G。后面估计还会拓展到256G
* 插内存的时候记得是隔一个插一个,别搞混了。

服务器本身没有M2的硬盘接口,所以单独买了一个PCIE转M2的转接卡,然后接的自己之前的一个固态硬盘。这里按照自己多余的PCIE来买就行。我看这个主板上有一堆PCIE x4的,应该也够用。

然后是显卡,这里我先搞了2个2080TI魔改22G,以及一个NVLINK。倒是没啥特殊的,买的话买有保修的就行。

然后说一下可能踩的坑,目前还没有完全点亮,所以估计后面还会补一些:
* 默认的视频输出是用的集成显卡,有一个VGA的口输出,所以就算把自己的板载显卡搞上去也没用。这个试了好几次2080TI也没有输出视频信号。
* VGA的口需要用VGA的直连显示器,自己转接的是不行的,一般是1024 x 768的分辨率,我搞了个小一点的屏幕试试效果。

目前还在等显示器阶段,就先简单记这点。

显示器到了,这里记录一下后面的折腾记录,结论是目前已经成功work了,不过道路比较曲折:
* 接上显示器后可以正常输出视频信号了,然后就是装系统。这里装系统用了一些时间,遇到的坑点是装系统最后发现盘坏了,装失败了,多次格式化也不管用,最后是换了一个u盘重新装ubuntu解决了。
* 系统装好后,需要联网,发现我买的无线网卡不支持linux,所以又重新买了一个新的网卡。虽然网卡说是免驱动的,但是在ubuntu上貌似没有对应的驱动(为此我还重新装了一遍正常版本的ubuntu,之前是最小集合版本)。这里我首先去客服给的官网里下载驱动并编译,遇到的问题是编译需要gcc/make,ubuntu本身是不带的,但是又没有网络,所以也下载不了。解决方法是ubuntu自带的系统盘里,有一个pool/main,里面有一些必要的package,包括gcc等,安装成功后,编译驱动的时候发现缺少一些内核相关的头文件,又失败了。最后在网上搜了一个新版本的驱动,并且在ubuntu 22,对应linux 5.15版本测试过的驱动,安装了一下成功了。此时联网是正常的了。
* 联网正常后,需要下载nvidia的驱动,来驱动GPU。这里我下载好后发现我虽然插了2个2080,但是只检测到一个。于是开始debug,先通过lspci看探测到的pci设备,避免是驱动问题。发现GPU没有探测到,开始怀疑是主板的问题。这里的方法是用所有的显卡单独试验所有的pcie插槽,最后发现有一个插槽有问题。但是因为服务器只有5个pcie x 16插槽,我想用4个GPU,如果坏了一个就没办法用nvme ssd了,这里的方案是服务器还有几个pcie x 4的插槽,买了pcie x4转m2的转接,接上SSD,然后剩下的pcie x 16用来插GPU

标签: 暂无
最后更新:2024年8月3日

sheep

think again

点赞
< 上一篇
下一篇 >

文章评论

取消回复

COPYRIGHT © 2021 heavensheep.xyz. ALL RIGHTS RESERVED.

THEME KRATOS MADE BY VTROIS