本站點使用cookies,繼續瀏覽表示您同意我們使用cookies。Cookies和隱私政策
文章圍繞如何提升AIGC交互式體驗,通過分析人類語言交互規律,提出在設計雲網基礎設施、訓練大模型能力時,應該需要注意的三點,並給出業界一些優秀實踐。
文/華為運營商Marketing部 張明博士
人工智能產業經過多年發展,技術實現從感知智能升級成認知智能,從而引發了機器理解、分析和決策事物的深層次需求。AIGC就是實現認知智能產品化的重要方式。未來幾年內,AIGC技術將在多個領域落地。而推理成本、交互體驗、推理精確性、復雜任務能力是AIGC“關鍵應用”產生的4個關鍵要素。
推理成本︰量子隧穿效應限制了芯片制程的持續提升,社會單位算力成本下降總體趨勢持續放緩。當前AIGC平均成本仍高出傳統搜索成本一個數量級,需持續推動AIGC成本下降到搜索成本的同等量級,才能支撐AIGC的規模商用。
交互體驗︰當前主流大模型在語言理解和文本生成上普遍表現優異,但在交互節奏和情景識別上則表現不佳︰交互往往需人為干預手動確認;大模型回復等待時間過長;大模型往往不允許被打斷、插話,也不會選擇合適時機主動終止對話;無法識別對方的情緒並做出同理反應。人機交互需達到人類之間交互的體驗,才能獲得用戶的真正認可和廣泛應用,這需要對運營商網絡進行改造,構建AI Ready的接入和傳送網,並提升大模型的交互能力。
推理精確性︰RAG等數據喂投技術在一定程度上減少了大模型的幻覺。當前業界最好的大模型推理一致性在97%左右,幻覺度約3%,距離ToB/ToH領域的規模應用,如網絡規劃、儀表和電器精準控制尚有差距。需在可信信源、更長上下文、多模態感知和推理上對大模型能力做進一步改進。
復雜任務︰早期的CoT和現在的AI-Agent都在著力解決大模型如何感知環境、進行連續決策和執行復雜任務的能力,這是人類通過AI解放生產力的關鍵步驟。短期內需要可應對數字世界復雜任務的大模型和應用,如個人AI助理和數字員工;長期來看,需要能解決物理世界復雜任務的具身智能,如家庭/企業機器人員工和L5自動駕駛。
圖1 4個關鍵要素及其產業完成度
以上4個關鍵要素中,當前只有交互體驗能被較為完美地解決。
AIGC良好的交互體驗源于高度模仿人類交流機制,也就是語言交互,尤其是非正式語言交互,是人類社會的一項核心活動。
人類依靠無仲裁的輪流機制(Turning System)來協調人之間的語言互動,依靠對話雙方對交流內容的理解、眼神、形體姿態,默契地交換發言權,以及決策何時發言。輪流機制的產生甚至早于語言的誕生,因此具有超越語種的共性規律。
這里先定義兩個概念,便于後面的論述︰
間隔︰一方交出話語權到另一方開始講話的時間間隔;
重疊︰一方在講話時另一方搶先發言,雙方語言重疊的時長。
研究發現,語言交互有以下兩個普適的規律︰
1.人類在語言交互中普遍的間隔時間是250毫秒。大部分語言的間隔在7~470毫秒間波動(如日語間隔7毫秒、丹麥語間隔469毫秒、英語間隔236毫秒),各語種平均間隔約250毫秒。且所有語言的響應時間都呈“正向單峰”分布︰“單峰”意味著語言只有一個間隔“爽點”,即250毫秒,偏離這個間隔越久,交互就越“不自然”,人的體驗也就越“不爽”;“正向”意味著人傾向于不去打斷對話,總是避免產生重疊(但面對喋喋不休的大模型,打斷大模型可以單向提升人這一側的體驗,這屬于另外的研究範疇)。
2.有4個因素會影響間隔。當進行非問答式答復時,答復間隔慢132毫秒;當答復“Yes”“agree”“you are correct”等正向答復時,答復快207毫秒;視頻通話比非視頻通話,答復快87毫秒;交流一方被凝視時,答復快69毫秒(如表1)。
影響因素 | 非問答式答復 | 確定性答復 | 交互可視 | 被凝視 |
---|---|---|---|---|
對間隔的影響(毫秒) | 132 | -207 | -87 | -69 |
表1 影響間隔的4個因素
基于以上認知,在設計雲網基礎設施、訓練大模型能力,或提供AIGC應用時,盡量做到以下三點,可以提供良好的交互體驗。
第一,端到端500毫秒是上限。避免讓交互出現間隔大于500ms的過長等待時間(間隔>500ms),避免讓大模型頻繁打斷對話(出現重疊)。較好的延時是300毫秒=50毫秒雙向網絡延時+250毫秒大模型生成時延。
第二,可視和數字人。AI應用應該盡量提供可視交互業務,應為對話設計豐富的視頻背景,而不是單純語言或文本交互;增加人眼交互功能,盡量用虛擬數字人進行擬人化交流。
第三,正向問答交互。對大模型進行問答式交流和正向提問的fine tuning或強化訓練,讓大模型習慣性輸出正向提問。
未來AI應用普遍由大模型使能,大模型需在雲端訓練,在雲/邊/端多地進行推理。華為公司AI-Ready推訓目標網,通過如下雲網邊端深度協同的設計,滿足端到端延時和大模型訓推數據的快速傳遞,為AI應用交互式推理提供良好體驗服務︰
第一,全光錨點從骨干下沉到城域,提供確定性時延。構建骨干20ms,省內5ms,城域1ms的三級時延圈。其中OTN入算錨點ODU/fgOTN硬管道一跳入雲,實現雙向1ms時延;算間OTN互連,省干MESH設計,OXC全光交換,實現省內算力間5ms互連。
第二,在三級延時圈上構建彈性IP網絡,實現帶寬動態均衡,帶寬資源池化,帶寬彈性伸縮(M級到百G級)。
第三,構建確定性的泛在網絡接入。星閃/5.5G/F5.5G無線邊緣提供確定性的接入,滿足AI多種業務體驗需求。
如今,業界的領先大模型在交互等待時間、情緒和背景信息捕捉交互兩個方面做了大幅優化,帶來等同于手指滑動觸摸屏的交互體驗改進。
改善從三個維度入手。其一,將交互響應時間同人類行為拉齊。把交互響應時間從秒級(2.8秒~5.4秒)降到亞秒級︰對話平均響應時間320毫秒;最短響應時間232毫秒,已經同人類普通交互行為相似。其二,配備多模態感知能力。大模型能通過環境聲音和攝像頭實時感知背景語境和環境;結合語言、呼吸和面部信息實時感知用戶情緒。其三,提升多維度表達能力。大模型能通過多個維度語音語調哭笑感嘆進行表達;多個大模型能進行分工協作,完成復雜任務。
網絡和大模型的優化將賦能更多AI應用場景,為ToC、ToH、ToB領域創造更多新機會。
在ToC領域,AIGC徹底引爆AI助理應用。無需額外硬件,使用現有智能手機(攝像頭+MBB網絡)即可實現體驗良好的互動功能。AI助理類產品2024年已經具備規模商用能力(比預計提前一年),且主要形態從專用硬件+大模型變為手機+大模型,帶來新的連接和上行流量顯著增長。
在ToH領域,以智能音箱、智能電視為載體的陪伴/教育機器人應用會首先爆發,並逐步延展到家電統一控制、安防監控,並形成統一家庭應用生態。
在ToB領域,手機/PC+超級應用(welink)形態的交互式應用在生產和辦公領域開始產生真正生產力;以一體機為載體的數字員工開始在客戶服務(交互式公共服務、售前售後服務)、賦能培訓領域開始發揮作用。