機器人領域最重要且至今尚未完成的挑戰是學習了解這個世界,并操控其中的物體與世界進行交互。現在的機器人跟科幻電影里無所不能的機器人還差距甚遠,機器人在人類社會的滲透率仍然很低。
【大模型的出現,補全了讓機器人產業從1%到10%躍升的技術基礎,這也是業內為何看中“機器人+大模型”的主要原因。以ChatGPT代表的生成式AI(AIGC)走紅全球,深刻影響著機器人行業。】
具身智能(Embodied Intelligence)是指一種具備自主決策和行動能力的機器智能,能夠像人類一樣與環境交互、感知、規劃、決策、行動、執行任務。它包含了人工智能領域幾乎所有的技術:如自然語言理解、邏輯推理、運動控制、機械控制、機器學習、機器視覺、博弈倫理等,橫跨多個學科、是人工智能的集大成者。
在ChatGPT出現之前,大模型與具身智能領域的結合更多出現在感知層面,在海量數據集上預訓練的視覺模型只是作為一種更好的表征提取器來提升機器人在場景中的感知能力,而具體的規劃與動作執行依然需要大量的具身場景數據進行訓練。
隨著ChatGPT等大語言模型(LLM)展現出了豐富的知識和令人驚艷的推理能力,在具身智能領域之前很難解決的復雜任務也開始逐漸跟LLM相結合,通過用LLM將復雜任務進行分解并特定地完成其分解后的子任務,并取得突破性的進展。
具身智能已經成為國際學術前沿研究方向,具有支持感覺和運動的物理身體,可以進行主動式感知,也可以執行物理任務,強調“感知-行動回路”的重要性——即感受世界、對世界進行建模、進而采取行動、進行驗證并調整模型的過程,這一過程正與我們人類的學習和認知過程吻合。
7月7-9日,華為開發者大會2023在松山湖華為小鎮精彩舉辦,在華為“具身智能,讓機器人‘知行合一’”分論壇上,高新興機器人首席技術官劉彪以《大模型助力巡邏機器人進入3.0時代》為題進行了技術分享。
他提到,人工智能從第一代符號主義到第二代感知智能,以及第三代認知智能,與機器人的發展歷程交相呼應、協同發展。以深度學習為主的第二代感知智能極大地促進了圖像識別、語義理解、大數據分析等領域的技術進步。第二代機器人解決了環境感知與導航定位技術、基于激光SLAM與深度學習結合的語義地圖技術、基于語音的人機交互技術、基于深度學習的視頻結構化及圖像檢測與識別技術、基于大數據分析的傳感器數據分析與行業數據分析和處理技術。
高新興機器人結合第二代人工智能技術和機器人技術,構建了全棧機器人技術研發體系,搭建了云邊端一體化機器人操作系統、FMAX四個機器人硬件平臺、基于國產芯片SOC攻克了智能跨域融合控制器,在移動能力上解決了線控底盤、電機及控制器、智能跨域融合控制器技術;在感知能力上解決了以激光SLAM為主的組合導航技術、三維重建技術、基于高清、紅外、紫光視覺、聲音為主的多傳感器環境感知與邊緣計算技術;在決策能力上解決了規劃決策、人機協同、多機協同及調度、云邊端一體化技術;在交互能力上解決了特定場景NLP、移動AI檢測和識別技術;在應用能力上打造了安保服務平臺、警用無人系統平臺、工業巡檢平臺及遠程運維和服務平臺。
以大模型和多模態為主的第三代人工智能在基礎模型作為感知模塊的工作中,更多是基于視覺模型與具身智能的結合;而在基礎模型作為規劃模塊的工作中,以ChatGPT為代表的生成式語言模型被用于對復雜指令進行拆解和規劃;在動作執行模塊,基礎模型往往需要結合指令和對環境的觀測結果等多模態數據,來實現精細動作的執行。
具身智能機器人首先要能夠聽懂人類語言,然后分解任務,規劃子任務,在移動中識別物體,與環境交互,最終完成相應任務。GPT等大模型的出現提供了新思路——已有不少研究者嘗試將多模態的大語言模型與機器人結合起來,通過將圖像、文字、具身數據聯合訓練,并引入多模態輸入,增強模型對現實中對象的理解,幫助機器人處理具身推理任務。
高新興機器人與華為云、上海交通大學、重慶大學等高校和大型研發機構在行業大模型進行合作,高新興機器人提供行業數據、語料庫以及機器人底層軟件和具身智能模型落地支持,共同面向巡邏機器人智能化開展具身智能大模型研發。
盤古大模型3.0是華為云推出的面向行業的大模型系列。它采用了"5+N+X"的三層架構。其中,"5"代表L0層的五個基礎大模型,包括自然語言、視覺、多模態、預測和科學計算大模型,這些大模型可以滿足行業場景中的多種技能需求。
盤古3.0提供了多種參數規模的大模型,如100億參數、380億參數、710億參數和1000億參數的系列化基礎大模型,以滿足不同場景和需求的客戶。同時它還提供了一些新的能力集,如知識問答、文案生成、代碼生成等能力,以及圖像生成、圖像理解等多模態大模型的能力。無論參數規模大小,盤古提供了一致的能力集。在"5+N+X"這個架構中的"N"代表L1層的N個行業大模型,華為云可以提供使用行業公開數據訓練的通用大模型,也可以根據行業客戶的自有數據為其訓練專有大模型。客戶可以像華為生成盤古大模型一樣,生成自己的行業大模型——"X"則代表L2層,為客戶提供更多細化場景的模型,如政務熱線、網點助手、先導藥物篩選、傳送帶異物檢測、臺風路徑預測等具體行業應用或特定業務場景的模型服務,為客戶提供"開箱即用"的模型。
通過這三層大模型,華為云構建了自己的大模型底座。在最底層,華為搭建了以鯤鵬和昇騰為基礎的AI算力云平臺,以及包括CANN、MindSpore和ModelArts在內的AI技術底層,為大模型的開發和運行提供支持。華為還與各個行業的伙伴合作,將各行各業的知識與大模型進行匹配和融合,通過"5+N+X"的三層架構,提供豐富的基礎大模型、行業大模型和細化場景的模型,為客戶在各個行業中的人工智能應用提供強大的支持。
高新興機器人基于鳳凰平臺、梧桐平臺和尚云平臺構成的云邊端一體化機器人2.0系統為基礎,對系統架構和技術架構進行全面升級,打造全新的基于具身智能大模型框架的云邊端一體化3.0系統“千巡問義”,采用分布實施分布上線的策略:首先巡邏機器人基于巡邏業務和行業數據庫,使用現有GPT等多模態大語言模型讓機器人聽得懂人的語言指令,實現和人類進行“類人”交互模式轉變,解決基于AIGC的人機交互問題,打造人機生成式大模型交互“千巡問警”;其次解決機器人的認知決策能力:深度學習、神經網絡、強化學習等都是機器人重要的學習手段;最后解決機器人的執行能力,讓機器人處理現實中的復雜任務。
關于高新興機器人
廣州高新興機器人有限公司是全球領先的巡邏機器人(SPR)產品與服務提供商,致力于“機器人+安全”賽道,布局面向“公共安全”的警用巡邏機器人、面向“社會安全”的安保服務機器人及面向“工業安全”工業巡檢機器人三大主營業務,為客戶提供云邊端一體化機器人系統解決方案,已廣泛服務于公安、消防、邊防、安防、倉儲、工廠、石油化工、電力等領域客戶。
高新興機器人將有效利用大模型,突破巡邏機器人的感知、認知、決策和交互技術難題,并籍著我們已完成端到端全自研軟硬件技術框架搭建的堅實基礎,重點突破智能化3.0階段,提高機器人的智能化水平和自主化能力,支撐其在警用巡邏、安保服務和工業巡檢行業內多場景產品與應用落地,用機器人守護安全。