您將看到類人模型不斷使用一種系統2 + 系統1風格的架構,這實際上是受到人類認知的啓發。



大多數視覺-語言-行動(VLA)模型今天被構建爲集中式多模態系統,能夠在單一網路中處理感知、語言和行動。

Codec的基礎設施非常適合這一點,因爲它將每個操作員視爲一個沙盒模塊。這意味着您可以並行啓動多個操作員,每個操作員運行自己的模型或任務,同時通過相同的架構保持它們的封裝和協調。

機器人和類人機器人通常具有多個大腦,其中一個操作員可能負責視覺處理,另一個負責平衡,另一個進行高級規劃等,這些都可以通過Codec的系統進行協調。

Nvidia的基礎模型Issac GR00T N1使用了兩模塊的System 2 + System 1架構。System 2是一個視覺語言模型(a版本的PaLM或類似的多模態),它通過機器人的攝像頭觀察世界並聽取指令,然後制定高層次計劃。

系統1是一個擴散變換器策略,它將計劃轉化爲實時的連續動作。你可以把系統2看作是深思熟慮的大腦,而系統1則是本能的身體控制器。系統2可能會輸出諸如“移動到紅杯,抓住它,然後將其放在架子上”這樣的指令,而系統1將生成詳細的關節軌跡,以便腿和手臂順利地執行每一步。

系統1在大量軌跡數據(上進行了訓練,包括人類遙控演示和物理模擬數據),以掌握精細動作,而系統2則基於具有互聯網預訓練的變壓器(進行語義理解)。

這種推理與行動的分離對NVIDIA來說非常強大。這意味着GR00T可以處理需要規劃的長期任務(,得益於系統2),同時也能即時對擾動作出反應(,得益於系統1)。

如果一個機器人正在搬運托盤,而有人輕推托盤,系統1可以立即糾正平衡,而不是等待較慢的系統2注意到。

GR00T N1 是最早公開可用的機器人基礎模型之一,並迅速獲得了關注。

開箱即用,它在多個任務的模擬中展示了技能,能夠用一只手或兩只手抓取和移動物體,將物品在手之間傳遞,並在沒有任何特定任務編程的情況下執行多步驟的工作。由於它並不局限於單一的具體化,開發者展示了它在不同機器人上工作,只需進行最小的調整。

這對於 Helix (Figure 的基礎模型)也是如此,該模型使用這種類型的架構。Helix 允許兩個機器人或多個技能同時操作,Codec 可以通過運行多個共享信息的操作員來實現多智能體大腦。

這種“隔離艙”設計意味着每個組件可以專門化(,就像系統1與系統2),甚至可以由不同的團隊開發,但它們可以協同工作。

這是一種獨特的方法,因爲Codec正在構建深層軟件堆棧,以支持這種模塊化的分布式智能,而大多數其他公司只關注AI模型本身。

Codec 還利用了大型的預訓練模型。如果您正在在其上構建機器人應用程序,您可能會將 OpenVLA 或 Pi Zero 基礎模型作爲您的操作員的一部分。Codec 提供了連接器,方便訪問攝像頭視頻流或機器人 API,因此您不必編寫低級代碼來獲取機器人攝像頭的圖像或向其電動機發送速度命令。所有這些都通過高級 SDK 進行了抽象。

我對Codec如此看好的原因之一正是我上面所概述的。他們並沒有追逐敘事,架構旨在成爲基礎模型之間的粘合劑,並且它無縫支持多腦系統,這對人類復雜性至關重要。

因爲我們在這個趨勢中還處於早期階段,因此研究行業領導者的設計並理解它們爲何有效是值得的。考慮到硬件和軟件之間的層次關係,機器人技術很難掌握,但一旦你學會逐塊分析每個部分,就會變得更容易理解。

現在可能覺得這是一種浪費時間,但這就是在AI季節讓我獲得先機的方法,這也是我早早參與許多項目的原因。要變得有紀律,學習哪些組件可以共存,哪些組件無法擴展。

在接下來的幾個月裏,它將帶來回報。

十億萬億 ( $CODEC ) 編碼。
LL1.07%
VSN-2.69%
IN-7.49%
查看原文
post-image
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)