
機(jī)器人前瞻4月27日?qǐng)?bào)道,今天,靈初智能發(fā)布了分層端到端VLA+強(qiáng)化學(xué)習(xí)算法模型Psi-R1。R1能夠讓機(jī)器人基于Chain of Action Thought(CoAT)框架的自主推理系統(tǒng),在開放環(huán)境下進(jìn)行自主推理決策,完成長(zhǎng)程復(fù)雜操作。
R1以麻將為場(chǎng)景,展現(xiàn)了機(jī)器人在開放環(huán)境中的長(zhǎng)程靈巧操作能力,達(dá)成了30分鐘+持續(xù)CoAT超長(zhǎng)任務(wù)時(shí)長(zhǎng),還驗(yàn)證了三重復(fù)合交互能力,即人-機(jī)交互、機(jī)-機(jī)交互、機(jī)-環(huán)境交互。
機(jī)器人要學(xué)會(huì)打麻將,難在哪?
- 機(jī)器人需要理解麻將的規(guī)則,確保行為符合游戲規(guī)則。
- 機(jī)器人還需要制定合理的策略,如根據(jù)手牌狀態(tài)、牌局演變以及對(duì)手行為來(lái)完成動(dòng)態(tài)策略生成,決定出牌、吃碰杠等操作,涉及大量人機(jī)交互、機(jī)機(jī)交互等動(dòng)作。
- 機(jī)器人操作需要完成毫米級(jí)精度的抓牌、出牌、理牌等靈巧精細(xì)動(dòng)作,這對(duì)機(jī)器人的長(zhǎng)程任務(wù)規(guī)劃、靈巧操作能力提出了巨大挑戰(zhàn)。
在視頻中,R1讓機(jī)器人具備了翻牌、碰杠、算牌、協(xié)作等核心能力??梢钥吹?,機(jī)器人靈巧手攻克了觸覺(jué)-視覺(jué)模態(tài)對(duì)齊難題,實(shí)現(xiàn)100%準(zhǔn)確翻起麻將牌。
機(jī)器人能夠根據(jù)牌友的出牌,構(gòu)建牌局狀態(tài)機(jī),自主構(gòu)建碰、杠等策略鏈,并絲滑地完成碰杠動(dòng)作。
在長(zhǎng)程規(guī)劃上,機(jī)器人能夠記得所有人打過(guò)的所有的牌,并根據(jù)牌桌狀況動(dòng)態(tài)規(guī)劃要打的牌。
兩臺(tái)機(jī)器人甚至還會(huì)相互配合,不僅僅信息共享,互相“看牌”,還能多機(jī)配合遞牌,提升勝率。
不同于Pi,F(xiàn)igure等「動(dòng)作單向決策」機(jī)制的VLA模型(僅能完成視覺(jué)-語(yǔ)言層面的CoT),靈初智能的R1模型的慢腦輸入包括行動(dòng)Token,構(gòu)建了首個(gè)支持「動(dòng)作感知-環(huán)境反饋-動(dòng)態(tài)決策」全閉環(huán)的VLA模型,實(shí)現(xiàn)機(jī)器人操作的視覺(jué)-語(yǔ)言-動(dòng)作多模態(tài)協(xié)同的CoAT思維鏈,且已首度成功驗(yàn)證VLA Test-Time Scaling。
快腦S1專注于操作,涵蓋了物體的遮掩抓、物體軌跡約束的操作如拉拉鏈,工作使用技能泛化如掃碼、打電鉆,高動(dòng)態(tài)操作如拋接球等。
慢腦S2專注于推理規(guī)劃,S1的操作經(jīng)過(guò)tokenize后,作為S2慢腦的輸入,和語(yǔ)言、視覺(jué)模態(tài)融合,基于Causal VLM自回歸架構(gòu),實(shí)現(xiàn)多模態(tài)融合的推理和任務(wù)規(guī)劃。
快慢腦通過(guò)Action Tokenizer隱式連接,端到端訓(xùn)練,協(xié)同完成長(zhǎng)程任務(wù)的靈巧操作。

靈初智能R1可以應(yīng)用于多個(gè)場(chǎng)景中,例如泛工業(yè)中來(lái)料倉(cāng)檢測(cè)、成品包裝等場(chǎng)景,零售物流中揀選、分撥、補(bǔ)貨、打包等場(chǎng)景,以及家庭服務(wù)與協(xié)作場(chǎng)景。
目前,該公司已與制造業(yè)、商超零售、跨境物流等行業(yè)龍頭企業(yè)展開合作,梯次布局高價(jià)值商業(yè)化場(chǎng)景,從泛工業(yè)向泛零售物流,再最終邁向家庭應(yīng)用。
熱門跟貼