situs pragmatic play

自2022年11月ChatGPT發布以來，AI大模型技術發展迅猛。AI大模型訓練正成為推動技術進步的核心力量。然而，AI大模型發展帶來的數據量與類型的指數級增長，導致數據孤島問題凸顯，如迷霧般遮蔽了人們追逐光芒的腳步。華為以其AI數據湖解決方案，撥雲見日，為AI大模型的訓練提供了一條清晰的路徑，不僅連通了數據孤島，更加速了智能的涌現，照亮了人工智能創新與發展的新紀元。

大模型業務發展的趨勢與挑戰

人工智能正在全球範圍內掀起浪潮。2023年底，Google發布Gemini多模態大模型，可以理解、操作和結合不同類型的信息，包括文本、代碼、音頻、圖像和視頻；2024年2月，OpenAI發布Sora視頻大模型，通過將擴散模型和大語言模型結合，在對物理世界的學習過程中“涌現”出三維一致性，讓文生視頻的真實感非常強。

AI大模型的發展速度遠超人們的預期，從ChatGPT到Gemini再到Sora，可以觀察得出兩大發展趨勢︰

趨勢一︰隨著大模型從NLP走向多模態，原始訓練數據集和數據訓料從純文本變成了文本、視圖、圖片和語音的混合，大模型訓練所依賴的數據量呈指數級增長，膨脹程度達到萬倍規模（如圖1）。

圖1︰多模態帶來訓練數據指數級增長

趨勢二︰大模型發展核心三要素的算力、算法和數據，展示出一種“大力出奇跡”的暴力美學。即通過堆算力、堆數據、提升參數規模（從千億到萬億甚至十萬億），在深度學習算法框架下，實現復雜行為的涌現。在Sora發布的時尚女士漫步街頭視頻中，女士背後的街景（霓虹廣告、行人等）不時被遮擋，但是在遮擋前後，這些街景都保持了很好的三維一致性，還原了人眼對現實世界的實際感知。

AI大模型技術的突飛猛進，讓所有人目睹了從單一模態到多模態的跨越，但隨之而來的海量數據挑戰，迫切需要一種創新的解決方案來整合分散的數據資源。因為，數據作為對現實世界的一種呈現方式，是AI大模型訓練的基礎，尤其是在深度學習算法“大力出奇跡”的加持下，數據的規模和質量對訓練效果提升起著至關重要的作用。然而，當前現實情況卻是，絕大部分數據擁有者只關心業務應用是否可以高效地訪問數據，並不關心數據被保存在哪里；而絕大部分數據管理者只關心數據是否被有效保存，並不關心這是誰的數據、什麼類型的數據。這使得數據散落在多個數據中心，形成了數據孤島。以某運營商為例，多年積累的數據總量達到數百PB，而現在每天還實時產生數百TB數據，都分散在多個數據中心。為了給AI大模型訓練提供盡量多的數據訓料，運營商技術部門不得不對這些數據孤島的數據進行跨域搬遷或復制，導致籌備數據的時間在大模型訓練全流程中佔比超過50%。

如何打破數據孤島，將分散的數據有效且快速地歸集起來、讓歸集起來的數據集快速轉換為AI大模型訓料、讓數據訓料被AI算力高效訪問……這些問題已經成為AI大模型基礎設施建設過程中面臨的最大挑戰和首要考慮問題。

數據存儲和管理的新需求

理想的AI數據基礎設施，應該瞄準AI大模型訓練的數據歸集、數據預處理、模型訓練這幾個關鍵環節，提供高質量的數據服務。為達到這一目標，至少應該在數據基礎設施的兩個層面進行綜合考量︰存儲設備層和數據管理層。

存儲設備層

面對多源異構且體量龐大的數據，尤其是多模態AI訓練場景，理想的存儲設備層應具備多協議互通、高讀寫、易擴展等特點，才能夠應對多重挑戰，支撐AI大模型訓練的如下關鍵環節︰

數據歸集︰在數據歸集過程中，數據往往分散在不同的孤島中，格式和訪問協議多樣。為了讓這些數據可以高效集中，需要數據存儲設備支持多種不同的數據格式和訪問協議，並且提供高寫入帶寬性能以實現這些多源異構的數據可以快速歸集在一起。同時，存儲解決方案應既具備靈活的擴展性，又要成本受控可接受，以應對隨時可能加入訓練的新數據源。盡管歸集階段數據格式和訪問協議多樣化，但在訓練階段，需要統一到文件訪問接口。因此，理想的存儲硬件應支持多協議互通，確保統一的底層數據可以被不同協議/接口訪問，避免因協議轉換導致的大量數據復制。
數據預處理︰數據預處理是對多樣化的數據進行清洗、轉換、增強和標準化，實現從海量原始數據集中，獲取高質量的數據訓料。在這個環節中，由于預處理工具的多樣性，會產生大量臨時數據，導致數據膨脹。因此，存儲設備不僅需要提供海量共享存儲空間，還應具備高讀寫帶寬和隨機訪問性能，以加速預處理過程。
大模型訓練︰在大模型訓練階段，存儲設備的性能，如訓練數據加載和Checkpoint保存，直接影響訓練效率。預處理後的訓練數據量雖不大，但對文件訪問性能要求極高（OPS和IOPS），並要求低時延，以確保快速加載數據，避免GPU/NPU算力的浪費。Checkpoint保存作為斷點續訓的關鍵機制，要求存儲設備具有高寫入帶寬，以便快速和高頻度存檔，提高訓練過程的穩定性和效率。

數據管理層

數據管理層在存儲設備層提供的靈活大容量擴展、高混合負載性能基礎上，為AI訓練進一步提供進階的數據管理能力，從可視、可管、可用三個維度，幫助數據的擁有者和管理者以更加高效的方式來發揮數據價值。

可視︰數據資產的擁有者和管理者，需要對所有的數據有全貌概覽，了解有哪些數據、數據的保存地點以及數據量、數據類型等，相當于維護了一份數據地圖。基于這份數據地圖，可以方便快捷地知道需要對哪些數據進行歸集處理。
可管︰在確定了需要進行歸集的數據後，需要有一個機制，來實現基于策略的數據流動。例如，使用策略來定義數據流動的源和目標、起止時間窗、最大限速、最小速率保障等，從而實現數據的“可管”。
可用︰這意味著原始數據需要被預處理、被轉換為訓練數據。雖然數據預處理工具生態已經豐富且多樣化，但是通過為數據管理層提供一個與存儲設備層協同的數據預處理框架，不僅可以幫助用戶簡化數據預處理的過程管理，也可以加速數據預處理速度，讓數據更加“可用”。

AI數據基礎設施的核心能力

綜合來看，理想的AI數據基礎設施，應具備的核心能力（如圖2）。

圖2︰AI數據基礎設施核心能力

歸納總結起來，為如下三點︰

高性能︰AI大模型訓練的各個階段，均離不開高性能數據基礎設施的助力，不管是加速數據歸集，還是加速數據預處理，還是在模型訓練階段的訓料加載和周期性Checkpoint保存。需要特別指出的是，這里的高性能，是可以同時提供高OPS、低時延的隨機訪問，以及高讀寫帶寬的順序訪問，並非一種簡單的高性能。
大容量︰在數據歸集、數據預處理階段，涉及海量數據的存取，其中還需要應對臨時數據帶來的膨脹。數據基礎設施需要提供靈活的在線scale-out擴容和分級機制，以實現容量和成本的均衡，且滿足前述各種順序訪問、隨機訪問的帶寬和IOPS/OPS性能需求。
易使用︰數據基礎設施需要提供對數據的全局管理、高效流通、AI平台和工具集協同，提供針對AI大模型訓練場景的優化和增強，進而讓數據可視可管可用，加速AI大模型的訓練學習過程。

AI數據湖解決方案

華為公司在包括運營商在內的多個行業中，積極與客戶開展AI大模型訓練的合作，多年來積累了豐富的AI領域數據基礎設施實踐經驗。基于此，華為于近期推出了AI數據湖解決方案，旨在幫助客戶解決在部署實施AI大模型訓練數據基礎設施中所踫到的問題，讓客戶更加聚焦于其自身的大模型開發和訓練。在華為AI數據湖解決方案的架構示意圖中，總共分為三層︰數據存儲層、數據編織層、數據服務層（如圖3）。

圖3︰華為AI數據湖解決方案架構示意

數據存儲層

在這一層，數據分散存儲于多個不同數據中心。

數據中心內部，數據在熱、溫兩層被智能分級。熱層實際為華為專為AI大模型訓練業務場景打造的OceanStor A系列高性能存儲，可橫向擴展至上千節點；而溫層則是華為的OceanStor Pacific系列分布式存儲，用于海量非結構化數據。OceanStor A 系列和 OceanStor Pacific 系列之間，可以實現智能分級，即同一個存儲集群內部，多個A系列節點形成高性能存儲層，而Pacific系列節點形成大容量存儲層，兩層合二為一，對外展示出一個完整的文件系統或對象桶，支持多協議互通（一份數據可以被多種不同協議訪問），對內則智能地、自動地執行數據分級，很好地同時滿足了容量、性能、成本的和諧與自洽。

數據中心之間，可以在不同的存儲集群之間創建數據復制關系，從而支持數據在跨數據中心之間高可靠地按需流動，為AI大模型訓練的數據歸集在數據設備層做好了支撐。

數據編織層

“數據編織”的意思，是為數據鋪就一個“阡陌交通”的流動網絡，讓數據可視可管可用，進而在AI大模型訓練過程中可以實現價值最大化。

華為通過一個軟件層 Omni-Dataverse，實現了數據的可視可管可用。Omni-Dataverse 是華為數據管理引擎 DME（Data Management Engine）的一個重要組件，通過對不同數據中心的華為存儲上的元數據進行統一納管，形成了一個數據資產全局視圖，並通過調用存儲設備上的接口來控制數據的流動（Omni-Dataverse 基于用戶定義的策略來執行相關動作）。此外，Omni-Dataverse還可以按需控制 GPU/NPU直通存儲、文件智能預取等，讓算力零等待訓練數據。

借助這種方式，AI大模型訓練的數據歸集和模型訓練階段的效率得以提升，進而支撐了集群可用度的提升。

數據服務層

華為AI數據湖解決方案在數據服務層提供了常用的服務框架，包括數據處理、模型開發、應用開發。

數據處理，主要提供數據清洗、轉換、增強、標準化等預處理動作。大模型客戶可以將其自己的算法、函數融入其中，通過該框架來簡化預處理過程的管理。當然，客戶也可以靈活選擇使用其他的框架。

模型開發和應用開發，與數據處理類似，均是為方便用戶而提供的框架。客戶可以根據自己的需要進行靈活選擇。

華為AI數據湖解決方案，是華為在AI大模型訓練領域的經驗積累，幫助企業打破數據孤島、實現數據自由流通，並在數據應用和存儲設備之間實現數據編織，讓數據可視可管可用。隨著AI大模型由單模態向多模態持續演進，數據量和數據類型的增加必然帶來管理復雜度和性能需求的非線性增加，三層架構的AI數據湖解決方案，可以有效應對相應的復雜度和性能需求增加，為AI大模型的發展持續助力，加速大模型訓練中的智能涌現，將人工智能的創新和發展推向新的高度。

標簽︰
AI
數據存儲

選擇區域/語言

產品

聯接

計算

雲

服務

行業解決方案

熱點話題

個人及家庭產品支持

華為雲服務支持

企業業務支持

運營商網絡支持

合作伙伴

開發者

學習與認證

關于華為

新聞與活動

發現華為

歷史搜索

創新技術

situs pragmatic play

大模型業務發展的趨勢與挑戰

數據存儲和管理的新需求

存儲設備層

數據管理層

AI數據基礎設施的核心能力

歸納總結起來，為如下三點︰

AI數據湖解決方案

數據存儲層

數據編織層

數據服務層

相關文章

AI大模型應用中交互體驗的藝術︰250毫秒大揭秘

AI ready的智雲助力運營商數智化轉型

選擇區域/語言

聯接

計算

雲

歷史搜索

創新技術

situs pragmatic play

微信掃一掃: 分享

網頁鏈接已復制

大模型業務發展的趨勢與挑戰

數據存儲和管理的新需求

存儲設備層

數據管理層

AI數據基礎設施的核心能力

歸納總結起來，為如下三點︰

AI數據湖解決方案

數據存儲層

數據編織層

數據服務層

相關文章

AI大模型應用中交互體驗的藝術︰250毫秒大揭秘

AI ready的智雲助力運營商數智化轉型

在線客服

個人及家庭產品

華為雲服務

企業服務

運營商網絡服務