WEKA 推出全新解決方案藍圖,簡化大規模 AI 推理
WARRP 參考架構提供全面的模組化解決方案,加速基於 RAG 的推理環境開發
亞特蘭大和加州坎貝爾2024年11月20日 — 來自 Supercomputing 2024:AI 原生數據平台公司WEKA推出嶄新的參考架構解決方案,旨在簡化企業級 AI 推理環境的開發和實施流程。WEKA AI RAG 參考平台 (WARRP) 為生成式人工智能 (GenAI) 開發人員和雲架構師提供設計藍圖,協助開發強大的推理基礎設施框架。該框架包含檢索增強生成 (RAG) 技術,使大型語言模型 (LLM) 能夠從外部來源收集新數據,提升人工智能推理過程的效率。
RAG 在構建安全可靠的 AI 操作中的關鍵作用
根據S&P Global Market Intelligence 最新發表的全球人工智能趨勢研究報告,生成式人工智能已迅速成為企業採用率最高的 AI 模式,其應用範圍之廣已超越所有其他 AI 應用程式。[1]
企業在部署大型語言模型 (LLM) 時面臨的主要挑戰之一,是確保能夠有效擷取來自不同環境和外部來源的數據,並使其符合上下文,以輔助 AI 推理。RAG 是一種領先的 AI 推理技術,能夠安全地從外部數據源檢索新資訊,從而增強已訓練的 AI 模型。在推理過程中使用 RAG 有助於減少 AI 模型的幻覺,提高輸出結果的準確性、可靠性和豐富性,並減低對成本高昂的再訓練週期的需求。
然而,構建能夠大規模支援 RAG 框架的穩健生產就緒推理環境,過程複雜且充滿挑戰,因為相關架構、最佳實踐、工具和測試策略仍在快速發展中。
全面的推理加速藍圖
憑藉 WARRP,WEKA 定義了一個與基礎設施無關的參考架構,可用於大規模構建和部署生產級、高效能的 RAG 解決方案。
WARRP 旨在協助機構快速構建和實施基於 RAG 的 AI 推理管道,它提供了一個模組化組件的全面藍圖,可用於快速開發和部署世界一流的 AI 推理環境,該環境針對工作負載可移植性、分佈式全球數據中心和多雲環境進行了優化。
WARRP 參考架構以運行於機構首選雲端或伺服器硬件上的 WEKA® 數據平台軟件作為其基礎層。然後,它整合了 NVIDIA 的頂尖企業級 AI 框架——包括 NVIDIA NIM™ 微服務和 NVIDIA NeMo™ Retriever,兩者皆為 NVIDIA AI Enterprise 軟件平台的一部分——以及 Run:ai 的先進 AI 工作負載和 GPU 編排功能,還有常用的商業和開源數據管理軟件技術,例如用於數據編排的 Kubernetes 和用於數據提取的 Milvus Vector DB。
「隨著第一波生成式 AI 技術於 2023 年開始應用於企業,大多數機構的運算和數據基礎設施資源都集中在 AI 模型訓練上。隨著生成式 AI 模型和應用程式的成熟,許多企業現在正準備轉移這些資源,專注於推理,但可能不知從何入手。」WEKA 總政總裁 Shimon Ben-David 說道。「大規模運行 AI 推理極具挑戰性。我們正積極利用 WEKA、NVIDIA、Run:ai、Kubernetes 及 Milvus 等公司領先業界的 AI 和雲端基礎設施方案,開發 WEKA AI RAG 架構平台,務求提供一個穩健的生產就緒藍圖,簡化 RAG 的實施過程,從而提升企業 AI 模型的運行準確性、安全性和成本效益。」
WARRP 提供了一個靈活的模組化框架,支援各種大型語言模型 (LLM) 的部署,並在生產環境中展現出色的可擴展性、適應性及效能。主要優勢包括:
- 更快構建生產就緒的推理環境:WARRP 的基礎設施和雲端通用架構有助生成式 AI 開發人員和雲端架構師簡化生成式 AI 應用程式的開發流程,並更快地大規模運行推理操作。WARRP 能與機構現有和未來的 AI 基礎設施組件、大型和小型語言模型,以及首選的伺服器、超大規模或專用 AI 雲端供應商無縫整合,讓機構在構建 AI 推理堆棧時享有極大的靈活性和選擇。
- 硬件、軟件和雲端通用:WARRP 採用模組化設計,支援大部分主流伺服器和雲端服務供應商。此架構可讓機構輕鬆實現工作負載可移植性,而不會影響效能。AI 從業者只需進行最少的配置更改,即可在他們首選的超大規模雲端平台、AI 雲端服務或本地伺服器硬件上運行相同的工作負載。無論部署在公共雲、私有雲還是混合雲環境中,AI 管道都能保持穩定運行,並產生可預測的結果,從而簡化混合雲和多雲環境的運作。
- 端到端 AI 推理堆棧優化:運行 RAG 管道可能需要極高的系統資源,尤其是在處理大型模型庫和複雜的 AI 工作負載時。機構可以通過將 WEKA 數據平台整合到其 AI 推理堆棧中,顯著提升效能,尤其是在多模型推理場景下。WEKA 數據平台能夠高效地加載和卸載模型,從而進一步加快速度,並有效地為用戶提示提供 token,尤其是在涉及多個 AI 模型的複雜鏈式推理工作流程中。
「隨著 AI 應用日益普及,業界迫切需要簡化的方法來大規模部署生產工作負載。同時,基於 RAG 的推理技術正成為人工智能創新競賽中的一大熱點,亦為機構的底層數據基礎設施帶來了新的考量。」Run:ai 技術總監 Ronen Dar 說道。「WARRP 參考架構為構建推理環境的客戶提供了一個出色的解決方案,並提供了一個必要的藍圖,協助他們使用 NVIDIA、WEKA 和 Run:ai 的業界領先組件,快速、靈活和安全地進行開發,務求最大限度地提高私有雲、公共雲和混合雲環境中的 GPU 使用率。此組合方案能讓客戶在 AI 創新領域保持領先優勢,達致雙贏。」
「企業正在尋找一種簡單的方法來嵌入數據,以構建和部署 RAG 管道,」NVIDIA 企業生成式 AI 軟件總監 Amanda Saunders 表示,「將 NVIDIA NIM 和 NeMo 與 WEKA 結合使用,將為企業客戶提供一條快速途徑,以大規模開發、部署和運行高效能 AI 推理和 RAG 操作。」
WARRP 參考架構的第一個版本現已開放免費下載。請瀏覽 https://www.weka.io/resources/reference-architecture/warrp-weka-ai-rag-reference-platform/ 獲取副本。
Supercomputing 2024 的與會者可前往 WEKA 的 #1931 號展位,了解更多詳情和觀看新解決方案的示範。
支援 AI 雲端服務供應商感言
Applied Digital
「隨著越來越多公司利用先進的 AI 和生成式 AI 推理技術,為客戶和員工賦能,他們都意識到利用 RAG 可以提高簡潔性、功能性和效率,」Applied Digital 技術總監Mike Maniscalco 表示,「WEKA 的 WARRP 堆棧提供了一個非常實用的參考框架,在 NVIDIA 強大技術和可靠、可擴展的雲端基礎設施支援下,將 RAG 管道交付到生產部署環境。」
Ori Cloud
「領先的生成式 AI 公司正在 Ori Cloud 上運行,以訓練全球規模最大的 LLM,並且由於我們與 WEKA 數據平台的整合,GPU 使用率已達致最高,」Ori Cloud 創辦人兼行政總裁 Mahdi Yahya 表示。「我們期待與 WEKA 攜手合作,使用 WARRP 架構構建強大的推理解決方案,協助 Ori Cloud 客戶最大限度地發揮 RAG 管道的效益,從而加速 AI 創新。」
關於 WEKA
WEKA 正在為 AI 時代的企業數據堆疊構建一種新方法。WEKA® 數據平台採用雲端原生及 AI 原生架構,樹立 AI 基礎設施的標竿。該平台可靈活部署於任何地方,支援本地、雲端和邊緣運算環境之間的無縫數據轉移。該平台將傳統數據孤島轉化為動態數據管道,可加速 GPU 運算、AI 模型訓練和推理以及其他高性能工作負載,使之能更高效地運作、減少能耗,並降低相關的碳排放。WEKA 幫助全球最具創新精神的企業和研究機構解決複雜的數據挑戰,更快速、更可持續地探索新發現、見解和成果,其客戶更是包括財富 50 強中的 12 間企業。請瀏覽 www.weka.io 了解更多資訊,或在LinkedIn、X和Facebook 上關注 WEKA。
「WEKA」及WEKA標誌乃WekaIO, Inc.的註冊商標。此處使用的其他商業名稱可能為其他商標擁有者分別擁有。
[1] 2024 年全球人工智能趨勢,2024 年 9 月,S&P Global Market Intelligence