<td id="wa4yw"><option id="wa4yw"></option></td>
  • <td id="wa4yw"><kbd id="wa4yw"></kbd></td><noscript id="wa4yw"><source id="wa4yw"></source></noscript>
    <bdo id="wa4yw"><kbd id="wa4yw"></kbd></bdo><input id="wa4yw"></input>
    <table id="wa4yw"><kbd id="wa4yw"></kbd></table>
  • <td id="wa4yw"><option id="wa4yw"></option></td>
    <option id="wa4yw"></option>
  • <table id="wa4yw"></table>
  • 發布時間:2023-12-29 11:56 原文鏈接: 大模型走出“象牙塔”,這項技術將扮演關鍵角色

    原文地址:http://news.sciencenet.cn/htmlnews/2023/12/515125.shtm

    ChatGPT將AI帶入了大模型時代,開啟了IT技術新紀元。一時間,大模型領域的技術創新有如雨后春筍、不斷涌現,其中關注度最高的當屬大模型本身。

    當下大模型領域上演的“百模大戰”方興未艾,其本質上是為了搶占大模型時代的入口,可以稱之為“魔派”。次之為,模型的開發平臺旨在為大模型時代提供訓練、精調、優化,數據的清洗、知識庫的生成等功能,它們意圖成為大模型時代的“賣鏟人”,可稱之為“鏟派”。此外,作為大模型訓練的根基,GPU、NPU、DPU等各種芯片技術的研究自然也是熱點,尤其是在英偉達一家獨大之際,如何打破壟斷,技術扎到根?這一派可稱之為“根派”。

    在“魔派”“鏟派”和“根派”諸家爭鳴、群雄逐鹿之時,我們也注意到更多人開始關注大模型的工程落地技術,如何讓大模型走出“象牙塔”、走進千行百業,走出“吟詩作對”、走向工程實踐?這其中,關于GPU的虛擬化技術研究最值得關注。 近日,在中國開源大會上,上海交通大學推出GPU虛擬化統一框架openCoDA,呼吁產學研聯合構建統一開放的國產 GPU 虛擬化生態,并率先在華為的訓推超融合一體機 FusionCube A3000上進行了工程實踐,給人留下了深刻的印象。 虛擬化并非新興技術,早在CPU算力時代就是解決IT技術從創新到工程落地的關鍵一環。那么在大模型時代,虛擬化技術又將扮演什么角色?發揮什么作用?要回答這些問題,我們首先要回顧一下虛擬化技術,以及虛擬化在CPU時代的精彩故事。

    一.什么是虛擬化?CPU虛擬化是如何走向統一的?

    提到虛擬化,首先自然想到的是CPU虛擬化。 20世紀70年代,微型計算機技術飛速發展,但在x86時代早期,市場并沒有虛擬化需求。隨著半導體技術的發展,大量的廉價硬件被推向市場,隨之帶來了諸如利用率不足、管理成本攀升、容易受到攻擊等各種問題。為了解決上述問題,人們開始研究CPU虛擬化。 CPU虛擬化可以用單個CPU模擬多CPU并行,顯著提高計算機工作效率。此外借助虛擬化技術可以擴大硬件容量、簡化軟件配置過程、提高系統可靠性。自20世紀90年代到2010年代的20年間,各廠商紛紛投入巨大的資源和人力,相繼推出了不同的CPU虛擬化產品。在這個過程中,出現了資源重復投入的“亂象”。直到內核虛擬機(Kernel-based Virtual Machine, KVM)的出現,CPU虛擬化從百家爭鳴逐漸走向統一開放。 KVM最初是由Qumranet公司開發, 于2007年被紅帽收購。作為Linux內核的一個集成模塊,其源碼包含在Linux內核源代碼樹中,并在Linux社區以GPL許可協議開源。由于KVM直接融入Linux內核使其天然支持Linux, 且具有更簡單、更輕量、更靈活的優點,IBM、紅帽、惠普、Intel等廠商聯合起來成立了虛擬化聯盟,大力推動KVM市場化,使得KVM統一了CPU時代虛擬化。

      ?

    圖1. KVM終結了CPU x86時代百家爭鳴、重復投入的“亂象”

    二.AI大模型時代,虛擬化的需求再次迸發

    智能時代,大模型橫空出世,以GPU為代表的XPU硬件構成了各類大模型應用的底層算力。面對動輒上億參數量的大模型訓練和推理任務,傳統的GPU獨占的使用方式已無法滿足如此大規模的算力需求,因此虛擬化的需求再次出現,人們開始將目光轉向GPU虛擬化。

    一項來自艾瑞咨詢的調查報告顯示,中國AIGC產業的規模逐年攀升,2023年中國AIGC產業規模約為143億元,隨后將進入大模型生態培育期。預計到2030年,中國AIGC產業規模有望突破萬億,達到11440億元。 

      ?

    圖2. 2022-2030年中國AIGC產業規模。圖片來源:艾瑞咨詢《2023年中國AIGC產業全景報告》

    大模型的參數量日益增長甚至達到萬億級別,對算力的需求也與日俱增。《2022-2023中國人工智能計算力發展評估報告》顯示,2021年中國智能算力規模達155.2 EFLOPS(FP16), 預計到2026年中國智能算力規模將達1271.4 EFLOPS,年復合增長率預計高達52.3%。

      ?

    圖3. 我國智能算力發展狀況。圖片來源:國家信息中心《智能計算中心創新發展指南》

    然而面對大模型對底層算力龐大需求的現狀,以GPU為代表的XPU硬件算力卻嚴重不足。 其主要原因有三。一是GPU硬件昂貴,配備8張英偉達A100顯卡的服務器價格高達上百萬元;二是英偉達高算力GPU等硬件獲取困難;三是現有的GPU資源利用率極低,在推理任務場景,大部分AI業務采用獨占GPU的方式使用算力,導致GPU利用率只有10%~30%。 因此,在當前GPU硬件獲取困難且昂貴的情況下,通過GPU虛擬化技術提高GPU資源利用率是解決算力需求的有效手段。 GPU虛擬化技術演進路線大致可以分為三個階段,第一階段是傳統“一虛多”虛擬化,指將物理GPU按照固定比例切分,例如按照2的指數次方切分為多個虛擬vGPU。第二階段是內核劫持虛擬化,是指將物理GPU從算力和顯存兩個維度進行切分,相比傳統虛擬化,內核劫持虛擬化可以按照1%的細粒度將物理GPU切分為多個vGPU。第三個階段是GPU資源池化,用戶可以通過網絡遠程調用GPU資源,從而在軟件層面實現vGPU動態切分。

      ?

    圖4. GPU虛擬化的技術演進路線及典型技術示意圖 此外,當大模型普遍具有萬億規模的參數量,訓練一個大模型的時間通常需要幾十甚至上百天,如此長時間訓練對系統可靠性提出了極高的要求。獨占GPU的使用方式無法抵御突發的硬件故障,一旦GPU發生故障就會導致整個訓練任務中斷。但通過將物理GPU虛擬化成算力資源池,能夠實現對底層硬件故障的隔離,可有效降低單個GPU故障導致模型訓練及推理業務中斷的風險,進而提高了大模型業務的穩定性和系統可靠性。 GPU虛擬化的另一個重要能力是支持無損熱遷移。 在對GPU服務器設備做維護時,傳統直通式GPU上運行的AI業務進程必須中斷;而且在對活躍的AI業務跨設備遷移到高性能GPU服務器時,也會面臨大量的數據搬運工作。但通過GPU虛擬化提供的無損熱遷移能力,在對物理GPU服務器下線維護前,可以將虛擬vGPU的運行狀態保存下來,并快速將vGPU遷移到正常運行的服務器,實現業務不中斷運行。管理員也可以根據實時AI負載,將正在活躍運行的vGPU實時不中斷地遷移到更高性能的服務器上做業務加速,從而優化不同活躍度vGPU之間的資源分配。另外,借助無損熱遷移能力,還可以動態調整分配到不同節點的硬件資源份額,從而均衡使用各節點算力。

      ?

    圖5.無損熱遷移 (a)保障設備維護時業務不間斷; (b)實現不同節點之間負載均衡 此外,通過GPU虛擬化技術可以顯著加快AI大模型訓練及業務部署上線速度。 通過GPU虛擬化技術,可以突破單節點GPU卡資源上限,整合碎片化算力資源,提供跨節點的多卡能力,進而大幅縮短模型訓練周期。GPU虛擬化平臺也可以創建標準化的虛擬vGPU配置模板,包含預定義的計算、內存和存儲等資源,用戶可以基于預設的模板一鍵式部署,快速在虛擬vGPU上部署并上線業務。 在對資源擴縮容和異構算力兼容方面,相比傳統直通式GPU,虛擬化GPU也有著明顯優勢。 虛擬化技術可以動態添加或刪除虛擬vGPU來支持彈性擴縮容需求,當需要增加AI業務時,可以簡單地添加更多vGPU來擴展資源能力,無需購買新的物理GPU;當需求減少時,也可以動態回收vGPU以節省成本。其次,虛擬化技術也可以屏蔽底層異構GPU硬件的差異,給用戶更多的硬件選擇,避免形成廠商依賴,進而更好地平衡性能和成本。 三.終結GPU虛擬化亂象的利器 由于GPU虛擬化技術能有效解決大模型時代GPU資源利用率不足、系統可靠性、業務快速上線、資源彈性動態拓展和異構算力兼容等方面的眾多問題,國內外相關廠商紛紛入局并投入大量的人力和資源,相繼推出了自研的GPU虛擬化產品。 在傳統的“一虛多”GPU虛擬化方面,上海交通大學教授戚正偉團隊與Intel合作在開源GPU虛擬化上面做了一系列相關成果(如gScale和gMig);英偉達也提出了基于SR-IOV的Multi-Instance GPU(MIG) 閉源虛擬化方案。在虛擬化資源復用方面,當前業界的實現方式大致可以分為兩類,其一是基于時間片調度的方式,典型的如阿里云的cGPU和騰訊云的qGPU方案;其二是基于空間復用的并行執行方案,如英偉達的MPS方案。 然而,目前各廠商在GPU虛擬化上“各自為陣”,也導致了不同廠商的虛擬化產品對不同硬件的兼容性差,產生“七國八治”的適配問題。 面對當前AI大模型時代GPU虛擬化“各自為陣、七國八治”的亂象,戚正偉團隊在中國開源大會上提出的openCoDA統一框架是一個可行的解決方案。該框架包含統一標準化接口、虛擬化統一框架(UVF)、以及開放自主的協議棧, 其中UVF是其核心組件。

      ?

    圖6. openCoDA整體框架 具體來講,UVF提供算力切分、彈性收縮、資源聚合等虛擬化核心能力,向上提供統一的用戶態驅動接口,實現國產南北向生態解耦;在軟件上屏蔽異構硬件的差異,硬件廠商無需做額外軟件適配的工作。各廠商可以根據開源框架,結合XPU硬件特點進行優化,挖掘各自硬件優勢。

    四.“工程派”崛起,大模型時代虛擬化技術再煥新生

    大模型技術百花齊放的時代,以虛擬化為代表的、面向工程實踐落地的“工程派”將又一次煥發出勃勃生機。 當前中國硬件算力面臨封鎖的困難時期,產學研各界更應該聯合起來,構建面向國產GPU虛擬化的開源生態,并通過核心組件開源,避免重復投入、避免廠商鎖定,形成標準化統一接口,挖掘硬件性能形成差異化優勢,真正解決大模型從技術創新到工程應用的最后一公里問題。

    <td id="wa4yw"><option id="wa4yw"></option></td>
  • <td id="wa4yw"><kbd id="wa4yw"></kbd></td><noscript id="wa4yw"><source id="wa4yw"></source></noscript>
    <bdo id="wa4yw"><kbd id="wa4yw"></kbd></bdo><input id="wa4yw"></input>
    <table id="wa4yw"><kbd id="wa4yw"></kbd></table>
  • <td id="wa4yw"><option id="wa4yw"></option></td>
    <option id="wa4yw"></option>
  • <table id="wa4yw"></table>
  • XVideos