首頁(yè) > 技術(shù)資料 > 技術(shù)方案

VMware vSphere 下 NVIDIA vGPU 驅(qū)動(dòng)的安裝和配置

在vSphere平臺(tái)下安裝vGPU驅(qū)動(dòng)之前需要打開(kāi)ESXi的SSH服務(wù),方便來(lái)傳輸vib驅(qū)動(dòng)安裝包以及后面一些命令行的操作。

ESXi需要加入vCenter,vGPU相關(guān)的一些配置都需要在vCenter下來(lái)修改。

VMware vSphere 下 NVIDIA vGPU 驅(qū)動(dòng)的安裝和配置(圖1)

使用WinSCP把驅(qū)動(dòng)vib傳到ESXi的/tmp目錄下

VMware vSphere 下 NVIDIA vGPU 驅(qū)動(dòng)的安裝和配置(圖2)

安裝驅(qū)動(dòng)之前先檢查一下GPU是否被正常識(shí)別到,SSH到ESXi,使用命令:lspci | grep NVIDIA 來(lái)檢查。

VMware vSphere 下 NVIDIA vGPU 驅(qū)動(dòng)的安裝和配置(圖3)

到/tmp目錄下,賦予vib驅(qū)動(dòng)包可執(zhí)行權(quán)限,然后使用esxcli命令進(jìn)行安裝,注意ESXi主機(jī)需要處于維護(hù)模式,可以在web client上修改,也可以在安裝時(shí)加上--maintenance-mode參數(shù)。

cd /tmp
chmod +x NVIDIA*
esxcli software vib install -v /tmp/NVIDIA*.vib --maintenance-mode

VMware vSphere 下 NVIDIA vGPU 驅(qū)動(dòng)的安裝和配置(圖4)

等待幾分鐘,安裝成功以后會(huì)有提示信息,可能在安裝信息中提示不需要重啟,但是強(qiáng)烈建議重啟一下主機(jī)來(lái)驗(yàn)證驅(qū)動(dòng)是否正常,有碰到過(guò)重啟以后驅(qū)動(dòng)報(bào)錯(cuò)的情況。

VMware vSphere 下 NVIDIA vGPU 驅(qū)動(dòng)的安裝和配置(圖5)

重啟完主機(jī)以后使用 nvidia-smi 命令來(lái)驗(yàn)證驅(qū)動(dòng)是否正常,正常情況下能看到類似如下信息:

VMware vSphere 下 NVIDIA vGPU 驅(qū)動(dòng)的安裝和配置(圖6)

特別注意2點(diǎn):1、ECC模式是否顯示off  2、默認(rèn)情況下vSphere會(huì)使用vsga模式,而不是vGPU模式,所以能看到最下面xorg條目,這個(gè)我們后面改。

在部分時(shí)候,特別是使用全新的GPU,可能會(huì)看到nvidia-smi信息里面ECC區(qū)域不是off狀態(tài),而是0,而在GRID 9.0版本之前,要使用vGPU必須關(guān)閉ECC模式。

VMware vSphere 下 NVIDIA vGPU 驅(qū)動(dòng)的安裝和配置(圖7)

使用命令來(lái)關(guān)閉ECC,注意,啟用或者關(guān)閉ECC都需要重啟主機(jī)。

nvidia-smi -e 0

VMware vSphere 下 NVIDIA vGPU 驅(qū)動(dòng)的安裝和配置(圖8)

更多關(guān)于ECC的信息,請(qǐng)參考:

https://docs.nvidia.com/grid/latest/grid-software-quick-start-guide/index.html#disabling-enabling-ecc-memory

 

在確認(rèn)驅(qū)動(dòng)狀態(tài)沒(méi)問(wèn)題以后,我們登陸vCenter,定位到主機(jī)-配置-圖形,編輯主機(jī)圖形設(shè)置,可以看到默認(rèn)是共享模式,也就是vsga,我們需要切換到“直接共享“才能使用vGPU。

2種GPU分配策略,在有多個(gè)GPU的時(shí)候生效。

默認(rèn)最佳性能模式,會(huì)在所有可能的GPU上去運(yùn)行虛擬機(jī),即VM1運(yùn)行在GPU1、VM2運(yùn)行在GPU2,以此類推,盡可能平均的分布虛擬機(jī),不會(huì)讓GPU閑著。

GPU整合模式,會(huì)在一個(gè)GPU核心上運(yùn)行先啟動(dòng)的虛擬機(jī),直到當(dāng)前GPU沒(méi)有資源才會(huì)去使用下一個(gè)GPU核心,這個(gè)模式多用在同一臺(tái)服務(wù)器上運(yùn)行多個(gè)vGPU profile的情況下。


除了主機(jī)的圖形選項(xiàng),針對(duì)每個(gè)GPU也都可以單獨(dú)設(shè)置共享模式,第一次使用需要在這里再切換一下,主要是需要重啟xorg服務(wù)來(lái)改變配置,不同vSphere版本界面可能不能,部分vSphere 6.5早期版本需要手動(dòng)重啟xorg服務(wù)。

VMware vSphere 下 NVIDIA vGPU 驅(qū)動(dòng)的安裝和配置(圖9)

更改成功以后就沒(méi)有xorg條目了,可以開(kāi)始使用vGPU了!

VMware vSphere 下 NVIDIA vGPU 驅(qū)動(dòng)的安裝和配置(圖10)


轉(zhuǎn)自:https://www.dingqian.net/index.php/archives/52/


?
電話:13070863493
郵箱:13070863493@163.com
地址:青島市市北區(qū)臺(tái)柳路223號(hào)新都朗悅2號(hào)樓
解決方案
人工智能
高性能計(jì)算
儲(chǔ)存
云計(jì)算
技術(shù)資料
技術(shù)資料
技術(shù)方案
行業(yè)動(dòng)態(tài)
公司
關(guān)于我們
聯(lián)系我們
互動(dòng)平臺(tái)

Copyright ? 2019-2024 青島希諾智能科技有限公司版權(quán)所有 備案號(hào):魯ICP備19042003號(hào)-1

技術(shù)支持:微動(dòng)力網(wǎng)絡(luò)

首頁(yè) 解決方案 一鍵撥打