2025-07-23
在人工智能加速邁向物理世界的浪潮中,具身智能正成為驅動機器人技術演進的核心動力。它不僅要求機器人具備對環(huán)境的感知和理解能力,更要求其能據(jù)此做出連續(xù)、合理、精準的物理行為。“物理Al(Physica AI)”新概念的出現(xiàn),強調未來AI不應止步于認知理解,更應“動起來、干實事”。這一理念為具身智能提供了明確的發(fā)展方向,也對數(shù)據(jù)、模型與交互系統(tǒng)提出更高要求。
天娛數(shù)科子公司智境云創(chuàng)基于VLA(Vision-Language-Action)模型構建了一套數(shù)據(jù)采集與行為生成方案,并全面集成于自研Behavision空間智能 MaaS平臺。該方案從感知、語言理解到動作控制形成閉環(huán),為機器人在復雜環(huán)境中實現(xiàn)類人交互、泛化執(zhí)行與自主決策提供新型底層能力。
TOP 01
感知一語言一行為融合
VLA模型構建智能控制新范式
VLA模型作為當前多模態(tài)AI的技術前沿,融合視覺圖像、自然語言和動作控制三種模態(tài)信息,打通從感知輸入到控制輸出的全鏈路通道。智境云創(chuàng)基于該架構搭建的具身智能行為生成引擎,讓機器人從圖像中理解場景,從語音中識別意圖,并將兩者共同轉化為可執(zhí)行的動作序列,完成如“拿起水杯”、“打開抽屜”等多階段任務。
相較于傳統(tǒng)感知-推理-控制的離散模塊式設計,VLA模型具備更強的上下文感知能力和任務泛化能力,能在服務、工業(yè)、教育等多場景下應對非結構化環(huán)境和自然語言指令,實現(xiàn)從“看懂”到“行動”的知行合一能力躍遷。
TOP 02
多源數(shù)據(jù)采集體系
依托Behavision空間智能MaaS平臺,智境云創(chuàng)構建“感知—推理—執(zhí)行”全鏈路的數(shù)據(jù)采集體系,形成具身智能行為學習的認知基座。平臺集成毫米級高精度3D掃描設備、雙目視覺系統(tǒng)與自研算法矩陣,能夠高效采集環(huán)境結構、物體屬性、語言指令與機器人動作等多源異構數(shù)據(jù)。通過端云協(xié)同的數(shù)據(jù)處理框架,可實時完成點云重建、語義解析、軌跡還原與多模態(tài)對齊,確保采集數(shù)據(jù)在空間、時間和語義維度的高一致性。該體系不僅顯著提升多模態(tài)數(shù)據(jù)的質量和效率,也為后續(xù)VLA模型訓練與策略遷移提供了高質量訓練樣本,加快模型從數(shù)據(jù)到控制的收斂速度。
隨著“物理AI”理念的實踐推進,智境云創(chuàng)將持續(xù)拓展Behavision平臺在空間智能、具身智能等領域的能力邊界。未來,將進一步打通3D鉸接數(shù)據(jù)體系與VLA模型的融合機制,構建統(tǒng)一的“認知—語義—行為”圖譜,為具身機器人提供面向真實世界的通用智能操作系統(tǒng),加速行業(yè)邁向機器人“安卓時刻”。