您現在的位置:首頁 > 智譜AI聯合焱融打造A100+全閃存儲的大規模AI架構
智譜AI聯合焱融打造A100+全閃存儲的大規模AI架構
在今年的北京冬奧會上我們見證了人工智能技術的先進性,現場應用涉及人工智能技術的方方面面,包含技術層的計算機視覺、語音識別、自然語言處理、機器學習、大數據管理、智能云等。為防止疫情傳播,無人化服務的全場景應用也是冬奧會的一大亮點。現場使用了大量的機器人和虛擬數字人來避免人員的接觸,極大提升了疫情防控效率。可以看到人工智能技術將實現從感知智能到認知智能的新突破,通往通用人工智能越來越成為人工智能領域的專家和學者探索和研究的方向。
目前,多模態人工智能作為一種新的人工智能范式,已經在試圖“復制”人類在日常生活中的各類場景,盡可能把人類的感知信息進行分析處理,實現更全面綜合的理解,將“數據”和“知識”關聯并給出相應的回應。德國漢堡科學院院士張建偉認為人機交互的未來是多模態共享模式;計算機視覺領域專家賈佳亞教授則在多場演講中提出「多模態是人工智能的未來」。
多模態 AI 場景的數據來源維度眾多,數據特征復雜,應用廣泛,數據量龐大。智譜 AI 作為多模態技術的代表,其數據規模通常可達到數十億乃至百億,涉及到 29 億參數通用中文預訓練模型、40 億參數通用文圖預訓練模型、80 億參數通用圖文預訓練模型、100 億參數通用英文預訓練模型。這些海量數據主要用于支撐 AI 產品的“智力”提升,投入到訓練中的數據量越大,AI 智能的準確度就越高。企業的長期發展需要穩定的數據存儲平臺,而存儲的讀寫性能又決定了上層應用的性能和用戶體驗。
關于多模態 AI 場景下的存儲建設目標,焱融科技認為海量數據管理和高性能輸出已成為剛需。總結來說就是以下 3 點:
海量多維度數據存儲能力(結構化、非結構化);
百億級數據量下的高性能支撐,高性能帶來高效率,促進多模態 AI 快速迭代;
支持高速 RDMA 傳輸協議的 InfiniBand 網絡,實現高 IOPS、低延遲和穩定的數據訪問性能。
全閃存儲架構的選擇
01 為什么選擇全閃存儲架構?
在智譜AI 業務發展的需求中,當構建百億級別的模型時,算力、網絡、存儲這三要素共同決定了模型最終的成熟度和產品先進性。通常情況下,算力依靠堆積 GPU 數量即可解決,而算力全面發揮的條件是網絡和存儲的能力要與算力保持一致,可提供高效的數據流轉能力和存儲供給能力。
目前 IT 建設中高性能數據中心已經實現高速網絡的全面普及,例如:200Gb InfiniBand 已經成為 HPC 計算/存儲的首選網絡技術,并開始向更先進的 400Gb 網絡技術迭代,那么存儲系統就成為決定業務發展快慢的關鍵因素。存儲的選擇需要貼合業務要求,此次存儲建設目標不但需要滿足業務層百億文件存儲,還需要滿足模型全流程生產要求。即從數據分類、模型訓練、仿真等環節考慮,存儲必須滿足不同類別文件的高性能響應,其中在訓練和仿真環節尤其重要,關乎產品迭代速度以及撲向市場服務客戶的體驗。
智譜AI 作為 AI 行業的領先企業,目前已取得多項國際領先的 AI 技術突破,在超大規模智能模型訓練技術體系中占據領先地位,在選型存儲時最為關注以下幾點:
百億級別數據讀寫性能與元數據操作性能,在業務中,頻繁操作數據,形成規模效應,存儲性能需要保證穩定性;
業務數據包含大量的文本文件、視頻文件、音頻文件等多維度數據,存儲作為數據的載體需要非常高的 IOPS 能力,普通機械硬盤性能不超過 200 IOPS。如果支持百億級數據業務模型,那么需要大量的磁盤用于存儲,顯然這樣的硬件選型是不合理的。目前業界主流高性能硬件已經普及全閃的 NVMe SSD,單盤 IOPS 即可達到數萬。
在模型運算中,不僅僅存儲需要高 IOPS,還要同時兼容高性能網絡,將存儲能力通過網絡供給到計算層,完成數據的流轉。
基于以上三點業務需求分析,智譜AI 認為全閃存儲架構是其業務的最佳選擇。
02 為什么選擇焱融全閃文件存儲?
焱融科技深入研究智譜AI 的業務模型,此次儲解決方案立足多模態 AI 場景,適配百億級數據規模,向計算集群提供高性能低時延的存儲服務能力。焱融科技使用 YRCloudFile 全閃文件存儲一體機 F8000X 用于海量數據存儲,YRCloudFile F8000X 集群中單節點可提供 200萬 IOPS 和 40GBps 帶寬,支持 RDMA 協議,實現存儲高性能支撐,使 IaaS 層全面提升性能,為 AI 業務夯實基礎能力。

在 AI 全業務流程內,數據需要經歷的預處理、訓練、仿真等過程,焱融科技全閃文件存儲 F8000X 根據不同業務階段的特點,調用不同的存儲服務能力,滿足各個階段業務對數據服務能力的要求。在業務全過程中,數據始終處于 YRCloudFile 的全生命周期管理中,相比傳統存儲的分離架構,數據流轉成本大大降低,業務連續性得到保障。
多模態 AI 數據來源維度眾多,在性能優化層面較難,YRCloudFile 采用分布式并行架構,采用元數據路徑分離技術,讓百億級混合文件(大文件和小文件并存場景)數據讀寫和元數據查詢性能穩定,并且可線性擴展,滿足智譜AI 多個產品項目的業務性能需求,快速提升“虛擬數字人”的迭代能力。
全閃存儲成為未來存儲主流趨勢
隨著數字經濟成為全球經濟發展的主旋律,數據要素的重要性將不斷提升,在云、大數據、人工智能等新技術驅動下,全行業新應用數據出現爆發式增長,為全閃存儲和分布式存儲高速發展帶來更多機遇。2021 年 Q4,Gartner 在全球存儲市場報告數據顯示,全球全閃存儲市場規模同比增長 13.9%,硬盤驅動器和混閃存儲下降 14.2%,全閃存儲在全球存儲市場占比首次超過 50%。近期,美國上市全閃存廠商 Pure Storage 發布的 2022Q2 財報顯示,其全閃陣列系列產品的營收在本季度繼續保持了強勁的增長,增長率超過 30%,且于上季度已實現了繼上市以來的首次盈利。在一些發達國家,全閃存應用比例普遍高于 55 %。
那么,在看看國內的全閃存儲市場概況, 2022 年 Q1 IDC 中國企業級存儲市場跟蹤報告中,數據顯示全閃存陣列同比增長 27.3%,而傳統機械硬盤 HDD 則出現負增長,國內全閃存勢頭緊追國外。市面上固態硬盤 SSD 價格幾乎接近于傳統硬盤 HDD 的價格,一套全閃存存儲性能相當于數幾十套傳統 HDD 存儲總和。未來可預見 SSD 勢必將逐步取代最優化性能的 HDD,或成為服務器與存儲系統的主要存儲裝置。

IDC 發布 2022年 Q1 中國企業級存儲市場跟蹤報告
市場上主流的全閃存儲產品形態大多是提供塊存儲服務,而針對需要分布式文件存儲高性能場景的全閃存儲產品卻少有。焱融科技在分布式文件存儲領域擁有先進的技術,其核心技術優勢率先支持 400Gbps InfiniBand 網絡,打造 AI 時代 GPU 計算的高性能存儲。焱融全閃文件存儲 F8000X 其性能優勢可實現單個存儲節點達到 40GB/s 帶寬、200 萬以上 IOPS。由于采用的是分布式存儲架構,性能可以通過增加節點的方式實現線性提升,其性能水平比肩國外知名全閃廠商,價格更勝出一籌,這也是焱融科技在眾多國外全閃存儲廠商中脫穎而出的原因。