本站點使用cookies,繼續瀏覽表示您同意我們使用cookies。Cookies和隱私政策
華為推出的AI數據湖解決方案,通過創新的三層架構,有效整合了數據存儲、管理與服務,解決了數據歸集與預處理的難題,為AI大模型訓練提供了強大的數據支持。
文/華為數據存儲產品線營銷運作部部長 樊杰
自2022年11月ChatGPT發布以來,AI大模型技術發展迅猛。AI大模型訓練正成為推動技術進步的核心力量。然而,AI大模型發展帶來的數據量與類型的指數級增長,導致數據孤島問題凸顯,如迷霧般遮蔽了人們追逐光芒的腳步。華為以其AI數據湖解決方案,撥雲見日,為AI大模型的訓練提供了一條清晰的路徑,不僅連通了數據孤島,更加速了智能的涌現,照亮了人工智能創新與發展的新紀元。
人工智能正在全球範圍內掀起浪潮。2023年底,Google發布Gemini多模態大模型,可以理解、操作和結合不同類型的信息,包括文本、代碼、音頻、圖像和視頻;2024年2月,OpenAI發布Sora視頻大模型,通過將擴散模型和大語言模型結合,在對物理世界的學習過程中“涌現”出三維一致性,讓文生視頻的真實感非常強。
AI大模型的發展速度遠超人們的預期,從ChatGPT到Gemini再到Sora,可以觀察得出兩大發展趨勢︰
趨勢一︰隨著大模型從NLP走向多模態,原始訓練數據集和數據訓料從純文本變成了文本、視圖、圖片和語音的混合,大模型訓練所依賴的數據量呈指數級增長,膨脹程度達到萬倍規模(如圖1)。
圖1︰多模態帶來訓練數據指數級增長
趨勢二︰大模型發展核心三要素的算力、算法和數據,展示出一種“大力出奇跡”的暴力美學。即通過堆算力、堆數據、提升參數規模(從千億到萬億甚至十萬億),在深度學習算法框架下,實現復雜行為的涌現。在Sora發布的時尚女士漫步街頭視頻中,女士背後的街景(霓虹廣告、行人等)不時被遮擋,但是在遮擋前後,這些街景都保持了很好的三維一致性,還原了人眼對現實世界的實際感知。
AI大模型技術的突飛猛進,讓所有人目睹了從單一模態到多模態的跨越,但隨之而來的海量數據挑戰,迫切需要一種創新的解決方案來整合分散的數據資源。因為,數據作為對現實世界的一種呈現方式,是AI大模型訓練的基礎,尤其是在深度學習算法“大力出奇跡”的加持下,數據的規模和質量對訓練效果提升起著至關重要的作用。然而,當前現實情況卻是,絕大部分數據擁有者只關心業務應用是否可以高效地訪問數據,並不關心數據被保存在哪里;而絕大部分數據管理者只關心數據是否被有效保存,並不關心這是誰的數據、什麼類型的數據。這使得數據散落在多個數據中心,形成了數據孤島。以某運營商為例,多年積累的數據總量達到數百PB,而現在每天還實時產生數百TB數據,都分散在多個數據中心。為了給AI大模型訓練提供盡量多的數據訓料,運營商技術部門不得不對這些數據孤島的數據進行跨域搬遷或復制,導致籌備數據的時間在大模型訓練全流程中佔比超過50%。
如何打破數據孤島,將分散的數據有效且快速地歸集起來、讓歸集起來的數據集快速轉換為AI大模型訓料、讓數據訓料被AI算力高效訪問……這些問題已經成為AI大模型基礎設施建設過程中面臨的最大挑戰和首要考慮問題。
理想的AI數據基礎設施,應該瞄準AI大模型訓練的數據歸集、數據預處理、模型訓練這幾個關鍵環節,提供高質量的數據服務。為達到這一目標,至少應該在數據基礎設施的兩個層面進行綜合考量︰存儲設備層和數據管理層。
面對多源異構且體量龐大的數據,尤其是多模態AI訓練場景,理想的存儲設備層應具備多協議互通、高讀寫、易擴展等特點,才能夠應對多重挑戰,支撐AI大模型訓練的如下關鍵環節︰
數據管理層在存儲設備層提供的靈活大容量擴展、高混合負載性能基礎上,為AI訓練進一步提供進階的數據管理能力,從可視、可管、可用三個維度,幫助數據的擁有者和管理者以更加高效的方式來發揮數據價值。
綜合來看,理想的AI數據基礎設施,應具備的核心能力(如圖2)。
圖2︰AI數據基礎設施核心能力
華為公司在包括運營商在內的多個行業中,積極與客戶開展AI大模型訓練的合作,多年來積累了豐富的AI領域數據基礎設施實踐經驗。基于此,華為于近期推出了AI數據湖解決方案,旨在幫助客戶解決在部署實施AI大模型訓練數據基礎設施中所踫到的問題,讓客戶更加聚焦于其自身的大模型開發和訓練。在華為AI數據湖解決方案的架構示意圖中,總共分為三層︰數據存儲層、數據編織層、數據服務層(如圖3)。
圖3︰華為AI數據湖解決方案架構示意
在這一層,數據分散存儲于多個不同數據中心。
數據中心內部,數據在熱、溫兩層被智能分級。熱層實際為華為專為AI大模型訓練業務場景打造的OceanStor A系列高性能存儲,可橫向擴展至上千節點;而溫層則是華為的OceanStor Pacific系列分布式存儲,用于海量非結構化數據。OceanStor A 系列和 OceanStor Pacific 系列之間,可以實現智能分級,即同一個存儲集群內部,多個A系列節點形成高性能存儲層,而Pacific系列節點形成大容量存儲層,兩層合二為一,對外展示出一個完整的文件系統或對象桶,支持多協議互通(一份數據可以被多種不同協議訪問),對內則智能地、自動地執行數據分級,很好地同時滿足了容量、性能、成本的和諧與自洽。
數據中心之間,可以在不同的存儲集群之間創建數據復制關系,從而支持數據在跨數據中心之間高可靠地按需流動,為AI大模型訓練的數據歸集在數據設備層做好了支撐。
“數據編織”的意思,是為數據鋪就一個“阡陌交通”的流動網絡,讓數據可視可管可用,進而在AI大模型訓練過程中可以實現價值最大化。
華為通過一個軟件層 Omni-Dataverse,實現了數據的可視可管可用。Omni-Dataverse 是華為數據管理引擎 DME(Data Management Engine)的一個重要組件,通過對不同數據中心的華為存儲上的元數據進行統一納管,形成了一個數據資產全局視圖,並通過調用存儲設備上的接口來控制數據的流動(Omni-Dataverse 基于用戶定義的策略來執行相關動作)。此外,Omni-Dataverse還可以按需控制 GPU/NPU直通存儲、文件智能預取等,讓算力零等待訓練數據。
借助這種方式,AI大模型訓練的數據歸集和模型訓練階段的效率得以提升,進而支撐了集群可用度的提升。
華為AI數據湖解決方案在數據服務層提供了常用的服務框架,包括數據處理、模型開發、應用開發。
數據處理,主要提供數據清洗、轉換、增強、標準化等預處理動作。大模型客戶可以將其自己的算法、函數融入其中,通過該框架來簡化預處理過程的管理。當然,客戶也可以靈活選擇使用其他的框架。
模型開發和應用開發,與數據處理類似,均是為方便用戶而提供的框架。客戶可以根據自己的需要進行靈活選擇。
華為AI數據湖解決方案,是華為在AI大模型訓練領域的經驗積累,幫助企業打破數據孤島、實現數據自由流通,並在數據應用和存儲設備之間實現數據編織,讓數據可視可管可用。隨著AI大模型由單模態向多模態持續演進,數據量和數據類型的增加必然帶來管理復雜度和性能需求的非線性增加,三層架構的AI數據湖解決方案,可以有效應對相應的復雜度和性能需求增加,為AI大模型的發展持續助力,加速大模型訓練中的智能涌現,將人工智能的創新和發展推向新的高度。