機器人前瞻(公眾號:robot_pro)作者許麗思編輯漠影
打開網易新聞 查看精彩圖片
機器人前瞻(公眾號:robot_pro)作者許麗思編輯漠影

機器人前瞻4月27日報道,今天,靈初智能發(fā)布了分層端到端VLA+強化學習算法模型Psi-R1。R1能夠讓機器人基于Chain of Action Thought(CoAT)框架的自主推理系統(tǒng),在開放環(huán)境下進行自主推理決策,完成長程復雜操作。

R1以麻將為場景,展現了機器人在開放環(huán)境中的長程靈巧操作能力,達成了30分鐘+持續(xù)CoAT超長任務時長,還驗證了三重復合交互能力,即人-機交互、機-機交互、機-環(huán)境交互。

機器人要學會打麻將,難在哪?

  • 機器人需要理解麻將的規(guī)則,確保行為符合游戲規(guī)則。
  • 機器人還需要制定合理的策略,如根據手牌狀態(tài)、牌局演變以及對手行為來完成動態(tài)策略生成,決定出牌、吃碰杠等操作,涉及大量人機交互、機機交互等動作。
  • 機器人操作需要完成毫米級精度的抓牌、出牌、理牌等靈巧精細動作,這對機器人的長程任務規(guī)劃、靈巧操作能力提出了巨大挑戰(zhàn)。

在視頻中,R1讓機器人具備了翻牌、碰杠、算牌、協作等核心能力??梢钥吹剑瑱C器人靈巧手攻克了觸覺-視覺模態(tài)對齊難題,實現100%準確翻起麻將牌。

打開網易新聞 查看精彩圖片

機器人能夠根據牌友的出牌,構建牌局狀態(tài)機,自主構建碰、杠等策略鏈,并絲滑地完成碰杠動作。

打開網易新聞 查看精彩圖片

在長程規(guī)劃上,機器人能夠記得所有人打過的所有的牌,并根據牌桌狀況動態(tài)規(guī)劃要打的牌。

打開網易新聞 查看精彩圖片

兩臺機器人甚至還會相互配合,不僅僅信息共享,互相“看牌”,還能多機配合遞牌,提升勝率。

打開網易新聞 查看精彩圖片

不同于Pi,Figure等「動作單向決策」機制的VLA模型(僅能完成視覺-語言層面的CoT),靈初智能的R1模型的慢腦輸入包括行動Token,構建了首個支持「動作感知-環(huán)境反饋-動態(tài)決策」全閉環(huán)的VLA模型,實現機器人操作的視覺-語言-動作多模態(tài)協同的CoAT思維鏈,且已首度成功驗證VLA Test-Time Scaling。

快腦S1專注于操作,涵蓋了物體的遮掩抓、物體軌跡約束的操作如拉拉鏈,工作使用技能泛化如掃碼、打電鉆,高動態(tài)操作如拋接球等。

慢腦S2專注于推理規(guī)劃,S1的操作經過tokenize后,作為S2慢腦的輸入,和語言、視覺模態(tài)融合,基于Causal VLM自回歸架構,實現多模態(tài)融合的推理和任務規(guī)劃。

快慢腦通過Action Tokenizer隱式連接,端到端訓練,協同完成長程任務的靈巧操作。

打開網易新聞 查看精彩圖片

靈初智能R1可以應用于多個場景中,例如泛工業(yè)中來料倉檢測、成品包裝等場景,零售物流中揀選、分撥、補貨、打包等場景,以及家庭服務與協作場景。

目前,該公司已與制造業(yè)、商超零售、跨境物流等行業(yè)龍頭企業(yè)展開合作,梯次布局高價值商業(yè)化場景,從泛工業(yè)向泛零售物流,再最終邁向家庭應用。