久草久草欧美看看日毛片|亚洲色情电影在线观看|中国一极毛片爱爱欧美一区|国产精品丝袜美腿|干人人操人人干人人|av黄色无码亚洲v视频|全国一级黄片在哪里看|国产精品av影院|特级一级黄色视频|亚洲黄色导航网站在线观看

當(dāng)前位置: 首頁(yè) ? 資訊 ? 熱點(diǎn) ? 正文

中國(guó)下一批千億公司

來(lái)源:投資界 183512/23

一年一度創(chuàng)投圈盛會(huì)如約而至。2025年12月2-5日,由清科控股(01945.HK)、投資界主辦,匯通金控、南山戰(zhàn)新投聯(lián)合主辦的第二十五屆中國(guó)股權(quán)投資年度大會(huì)在深圳舉行。本屆大會(huì)集結(jié)逾千位頂尖投資人、領(lǐng)軍企業(yè)家,打造兼具深度洞察與互動(dòng)活力的

標(biāo)簽: 具身智能 大腦 第二十五屆中國(guó)股權(quán)投資年度大會(huì)

一年一度創(chuàng)投圈盛會(huì)如約而至。2025年12月2-5日,由清科控股(01945.HK)、投資界主辦,匯通金控、南山戰(zhàn)新投聯(lián)合主辦的第二十五屆中國(guó)股權(quán)投資年度大會(huì)在深圳舉行。本屆大會(huì)集結(jié)逾千位頂尖投資人、領(lǐng)軍企業(yè)家,打造兼具深度洞察與互動(dòng)活力的“創(chuàng)·投嘉年華”,致力成為觀察中國(guó)科技創(chuàng)新的窗口。

本場(chǎng)《具身智能大腦的范式突破和落地》圓桌討論,由英諾天使基金創(chuàng)始合伙人李竹主持,對(duì)話嘉賓為:

千訣科技創(chuàng)始人&CEO高海川

流形空間創(chuàng)始人、CEO武偉

中國(guó)下一批千億公司

以下為對(duì)話實(shí)錄,

經(jīng)投資界(ID:pedaily2012)編輯:

李竹:感謝清科今年用一個(gè)特別創(chuàng)新的形式來(lái)做科技投資的討論和分享,由創(chuàng)業(yè)者一起參加,讓我們能更好地觀測(cè)最前沿的科技發(fā)展。

具身智能是過(guò)去幾年最熱的方向,也是貝塔最高的投資賽道。在這個(gè)賽道里,我們看到宇樹(shù)、云深處做小腦非常成熟,但是大腦的問(wèn)題一直沒(méi)有得到解決,大家都知道人的大腦是最復(fù)雜的,里面的一些機(jī)制甚至我們自己都不完全了解。前面有兩個(gè)具身智能的Panel環(huán)節(jié)也提到了,將來(lái)具身智能的發(fā)展肯定是以大腦為中心的。具身智能的大腦還遠(yuǎn)遠(yuǎn)沒(méi)有成熟,具身大腦Deepseek、ChatGPT的時(shí)刻還沒(méi)有來(lái),基礎(chǔ)范式還沒(méi)有完全收斂。

但是最近的一些科學(xué)研究已經(jīng)展示了巨大的可能性,我們今天邀請(qǐng)了兩位英諾投過(guò)的企業(yè),千訣科技的高海川、流形空間的武偉跟大家一塊做交流,展示他們?cè)谶@個(gè)方向上的研究,也讓大家了解未來(lái)在這個(gè)領(lǐng)域具身機(jī)器人如果真的裝上大腦會(huì)是什么樣子。先請(qǐng)兩位簡(jiǎn)單介紹一下你們?cè)诰呱泶竽X方面做的工作。

高海川:千訣科技孵化于清華類腦中心,我們經(jīng)常玩笑說(shuō),在具身智能行業(yè)我們可能是唯一看過(guò)人腦的,很多大腦是一種比喻,但我們做的是真大腦,大腦有什么特點(diǎn)?我們自己不做機(jī)器人,而是要做一個(gè)缸中之腦,這個(gè)腦子可以讓所有機(jī)器人都用,而且不分形態(tài),還可以持續(xù)學(xué)習(xí),自我演化和分化分區(qū),向各個(gè)形態(tài)、各個(gè)場(chǎng)景進(jìn)行直接、快速適配。

目前,千訣在7大類機(jī)器人形態(tài)上完成了適配,而且都是跟頭部公司進(jìn)行合作,包括人形機(jī)器人,人形單臂、人形雙臂、無(wú)人機(jī)、掃地機(jī)器人、球形陪伴的機(jī)器人等幾大類,分小類都有20多類,預(yù)計(jì)到明年會(huì)有10萬(wàn)臺(tái)設(shè)備接入千訣的大腦。

李竹:聽(tīng)上去跟前兩個(gè)Panel討論的畫(huà)風(fēng)有點(diǎn)不一樣,大家覺(jué)得未來(lái)3-5年大腦才會(huì)投入應(yīng)用,但是你們“大腦”已經(jīng)投入使用,剛才你說(shuō)到分區(qū)、解耦合是什么概念,簡(jiǎn)單解釋一下。

高海川:人腦每個(gè)區(qū)在演化和進(jìn)化方面都互不干涉,我們經(jīng)常提到一個(gè)對(duì)大模型的觀察,不要輕易的對(duì)ChatGPT說(shuō)“你好”,說(shuō)一個(gè)簡(jiǎn)單“你好、謝謝”非常耗電,ChatGPT這種端到端的模型,無(wú)論你說(shuō)簡(jiǎn)單的問(wèn)題還是復(fù)雜的問(wèn)題,所有的神經(jīng)元要全部過(guò)一遍。人腦不是這樣演化的,如果人腦這樣演化早就餓死了,人腦承受不了這樣的功耗,恰恰是人腦的能耗比的約束驅(qū)動(dòng)了通用智能的演化,在很多理論上都已經(jīng)有相應(yīng)的結(jié)果。這樣來(lái)做類腦計(jì)算,就是讓每一塊做獨(dú)立的優(yōu)化和持續(xù)的演化,它們之間的連接是動(dòng)態(tài)的,而不是一次性端到端的。

武偉:我之前是商湯的初創(chuàng)員工,在商湯做了10年時(shí)間,我們的團(tuán)隊(duì)也是工業(yè)界最早研究世界模型的團(tuán)隊(duì)。我們的底層世界模型技術(shù)孵化自清華大學(xué)電子系的FIB實(shí)驗(yàn)室。流形空間主要聚焦于構(gòu)建世界模型驅(qū)動(dòng)的具身大腦,目前我們已經(jīng)有一款對(duì)標(biāo)李飛飛RTFM實(shí)時(shí)可以單圖生成可交互空間的基礎(chǔ)世界模型,并且也有應(yīng)用于機(jī)器人大腦的世界模型,以及應(yīng)用于無(wú)人機(jī)的世界模型。我們的體系不是像VLA第一步從視覺(jué)降維到語(yǔ)言域,通過(guò)語(yǔ)言方式驅(qū)動(dòng)動(dòng)作,而是進(jìn)行空間智能的世界模型預(yù)訓(xùn)練再部署到機(jī)器人大腦,是全新的技術(shù)范式。

李竹:實(shí)際上VLA也只能讓自動(dòng)駕駛做到L3的級(jí)別,VLA這個(gè)路線做基礎(chǔ)模型、目前看做大腦是不太現(xiàn)實(shí)的,是這樣的嗎?

武偉:之前我們也做自動(dòng)駕駛,我們的認(rèn)知是,自動(dòng)駕駛可能連VLA都不太需要,原因是自動(dòng)駕駛語(yǔ)言的指令是收斂的,它其實(shí)共用同一個(gè)prompt,把我從A點(diǎn)送到B點(diǎn),自動(dòng)駕駛更為廣泛的范式還是VA(Vision-Action),現(xiàn)在VLA在機(jī)器人領(lǐng)域火了一段時(shí)間,但它的泛化性有很大的問(wèn)題,有很低的通信帶寬,第一步是把視覺(jué)降到語(yǔ)言域。從第一性原理考慮,一個(gè)人在屋子里面,如果只用語(yǔ)言描述指揮另一個(gè)人操作,其實(shí)是很難完成操作任務(wù)的。如果要把具身機(jī)器人任務(wù)泛化性做得特別好還需要通識(shí)教育,這種通識(shí)教育決定了機(jī)器人從0到60分的能力。如果不存在通識(shí)教育,所有機(jī)器人從0開(kāi)始學(xué),所需要的數(shù)據(jù)量永遠(yuǎn)是不夠的,也是不經(jīng)濟(jì)的。

李竹:這個(gè)事情為什么是你們做?有做具身大腦的經(jīng)驗(yàn)和認(rèn)知的人,在你們公司大概占了多少?

武偉:世界模型也是比較新的技術(shù),2022年開(kāi)始我們團(tuán)隊(duì)就在做世界模型,我們首席科學(xué)家所在的清華實(shí)驗(yàn)室的團(tuán)隊(duì),也是最早做世界模型的學(xué)術(shù)界團(tuán)隊(duì)。在國(guó)內(nèi),能夠做世界模型預(yù)訓(xùn)練的人才,我們團(tuán)隊(duì)占50%以上,從世界模型的預(yù)訓(xùn)練到世界模型應(yīng)用于具身大腦的后訓(xùn)練,都做了全覆蓋。

李竹:這兩個(gè)團(tuán)隊(duì)有顯著的差異,海川是清華博士畢業(yè),他們是研究類腦的,從類腦的思路找到了一條自己的路線,屬于前沿科技的探索者。武偉是從大廠出來(lái),項(xiàng)目聚集了大廠里相關(guān)的人才,能夠在世界模型上有認(rèn)知,能夠做預(yù)訓(xùn)練,這是兩條不同的路徑,因?yàn)榧夹g(shù)范式還沒(méi)有收斂,我們也都非常期待后面他們能實(shí)現(xiàn)的結(jié)果。

你剛才也提到跟李飛飛做的世界模型對(duì)標(biāo),我們?cè)谑澜缒P?、在具身大腦方面,跟美國(guó)的情況相比是什么樣的?有沒(méi)有差距?

武偉:從我的認(rèn)知來(lái)說(shuō),在具身大腦這一塊,今年國(guó)內(nèi)和國(guó)外的差距其實(shí)不是在縮小,而是在變大,最主要的點(diǎn)在于,在國(guó)外企業(yè)獲得更多的資金,用了更多的錢做數(shù)據(jù)的Scaling,這些錢大多并不是花在本體上,更多是花在大腦上,每周有上十萬(wàn)小時(shí)的數(shù)據(jù)能夠持續(xù)回流回來(lái)。我感覺(jué)國(guó)內(nèi)在大腦的投入是遠(yuǎn)遠(yuǎn)不夠的,在這個(gè)方向上,世界模型在國(guó)外也非常火,也有很多團(tuán)隊(duì)都在用視頻數(shù)據(jù)作為具身大腦的預(yù)訓(xùn)練,這個(gè)技術(shù)范式并不是最近出來(lái)的,而是從去年年底、今年年初就在做技術(shù)范式的切換,包括特斯拉Optimus團(tuán)隊(duì)、Figue的Go-Big項(xiàng)目都在做視頻的預(yù)訓(xùn)練。這里面有一個(gè)好處,能夠利用好很多互聯(lián)網(wǎng)已有的視頻數(shù)據(jù),這類數(shù)據(jù)量非常大,是同構(gòu)的數(shù)據(jù)源,覆蓋了人類很多基礎(chǔ)操作,非常符合基礎(chǔ)操作的預(yù)訓(xùn)練,要用好這些數(shù)據(jù),就需要有視頻生成、世界模型相關(guān)的技術(shù)棧。

這一類做世界模型的團(tuán)隊(duì)一般來(lái)講有兩種范式,第一種是構(gòu)建一個(gè)人能看得見(jiàn)的世界模型,就是做視頻級(jí)別的世界模型,它的輸出是所見(jiàn)即所得,能夠看得出來(lái)單圖生成的空間。

第二個(gè)范式是作為一個(gè)隱空間的世界模型。這類思考是人能感知到的世界還是比較稀疏的,人能看到的光譜處于有限的波段,很多事情不在能看到的波段,比如說(shuō)看到風(fēng)吹樹(shù)葉,樹(shù)葉在動(dòng),人看不到空氣在,如果沒(méi)有對(duì)世界的認(rèn)知就不知道為什么在動(dòng),不能局限于僅僅視頻能看得到的顯空間。這類做隱空間的世界模型,不需要把整個(gè)未來(lái)世界解碼成人能看到的RGB的視頻空間,我們會(huì)認(rèn)為具身往后發(fā)展,這一類隱空間模型可能會(huì)發(fā)揮很重要的作用,原因是即能高維的編碼世界知識(shí),又能夠在比較快的算力芯片上把這個(gè)特征壓縮到比較低維的空間,加快它的推理運(yùn)行,這樣的話也脫離了一些圖形學(xué)顯卡的依賴,我覺(jué)得是一種比較平衡的方式。

在世界模型相關(guān)的技術(shù)體系上我們是對(duì)標(biāo)World Labs的,從應(yīng)用的落地方向,更多是瞄準(zhǔn)對(duì)標(biāo)特斯拉路徑,特斯拉其實(shí)也在構(gòu)建自己的World Simulator ,特斯拉更多是Locomotion級(jí)別的一些交互,我們現(xiàn)在把一些 manipulation 級(jí)別的交互也訓(xùn)到這個(gè)world model 里去了。我們對(duì)于World Model的定位是他會(huì)是機(jī)器人的Fundation Model,不僅是作為環(huán)境模型。

李竹:是不是把錢給你們就可以超越競(jìng)爭(zhēng)對(duì)手?

武偉:在國(guó)內(nèi)很重要的點(diǎn)是能迅速把錢變成模型。如果要讓它變成一個(gè)比較好的模型,還有一個(gè)比較重要的點(diǎn)是水面下的能力,即數(shù)據(jù)相關(guān)。

李竹:數(shù)據(jù)實(shí)際上是一個(gè)非常大的問(wèn)題,缺少數(shù)據(jù)這個(gè)問(wèn)題你們?cè)趺唇鉀Q?

武偉:從我們的角度來(lái)說(shuō),我們認(rèn)為好的機(jī)器人數(shù)據(jù)其實(shí)不是費(fèi)用,而是一個(gè)資產(chǎn),在數(shù)據(jù)上怎么樣做投入都是算得過(guò)來(lái)帳的。重要的是數(shù)據(jù)要足夠通用,持續(xù)地被以后不同架構(gòu)的模型吃進(jìn)去。比如說(shuō)最近比較火的UMI技術(shù)路徑,通過(guò)眾包的方式低成本采集人類的數(shù)據(jù),這些數(shù)據(jù)不是通過(guò)遙操的方式采集,加以比較好的處理,可以泛化利用不同形態(tài)的機(jī)器人,就可以成為公司非常重要的資產(chǎn)。不像現(xiàn)在訓(xùn)練一個(gè)VLA,本體如果迭代了還需要重復(fù)再采非常多的數(shù)據(jù),它其實(shí)并不是一個(gè)資產(chǎn),是這個(gè)型號(hào)機(jī)器人開(kāi)發(fā)所對(duì)應(yīng)的成本。我們的觀念是還需要找到這條數(shù)據(jù)處理管線,能夠讓它成為公司持續(xù)的競(jìng)爭(zhēng)力。如果給我們足夠的錢,我們會(huì)投入在數(shù)據(jù)資產(chǎn)的建立上以及訓(xùn)練模型GPU的消耗上,這方面反而是最需要投入的部分。

李竹:數(shù)據(jù)處理能力實(shí)際上是一個(gè)核心能力。

武偉:是的。水面之下這一塊也是基于計(jì)算機(jī)視覺(jué)10年以上的積累,我之前在商湯,我本人也拿過(guò)ImageNet華人世界冠軍,拿過(guò)目標(biāo)跟蹤比賽VOT世界第一,互聯(lián)網(wǎng)視頻怎么加以利用,要打標(biāo)簽,我們內(nèi)部有超過(guò)100個(gè)計(jì)算機(jī)視覺(jué)算子處理這些標(biāo)簽,不需要人工,自動(dòng)化處理。

李竹:大家都知道做世界模型或者做具身大腦要做預(yù)訓(xùn)練,實(shí)際上國(guó)內(nèi)能做預(yù)訓(xùn)練的具身智能公司不多,跟數(shù)據(jù)關(guān)系挺大。要做預(yù)訓(xùn)練,要求的數(shù)據(jù)量比較大。同時(shí),具身智能的數(shù)據(jù)實(shí)際上是比較少的,千訣怎么解決這個(gè)問(wèn)題?

高海川:千訣已經(jīng)完成第三代模型的預(yù)訓(xùn)練,可能是具身智能友商中為數(shù)不多能做這么多代預(yù)訓(xùn)練的公司。中國(guó)不僅僅有類似于自動(dòng)駕駛發(fā)展到這個(gè)階段所使用的范式,一段式或者是兩段式端到端的,自動(dòng)駕駛在早期更多是走的一條解耦路線,類腦分化路線也是類似于解耦的路線。美國(guó)更多是走一段式或者是兩段式,特點(diǎn)是在科研性的論文上,學(xué)術(shù)性成果上跑的更快,但永遠(yuǎn)到不了40分的狀態(tài)。如果是那種范式要落地做到60分的效果大概所需的數(shù)據(jù)量是現(xiàn)有產(chǎn)業(yè)加在一起都無(wú)法滿足的。如果說(shuō)要完成這個(gè)階段的商業(yè)落地,肯定不能走一段式或者兩段式的范式,要做一條中國(guó)獨(dú)有的路線,類腦分區(qū)分化持續(xù)學(xué)習(xí)的路線,這條路線中國(guó)是走在前面的,進(jìn)入了“十三五”“十四五”“十五五”的規(guī)劃。成年人有很多的能力,可能是大家對(duì)于具身智能所預(yù)期的能力。然而,現(xiàn)有的數(shù)據(jù)量?jī)H僅對(duì)應(yīng)3-5歲的小孩,數(shù)據(jù)量少是不是就不能做事情了?其實(shí)可以做的,3- 5歲小孩大腦經(jīng)過(guò)分區(qū)分化初步的生長(zhǎng)之后,運(yùn)動(dòng)控制、感知層和基礎(chǔ)認(rèn)知層的進(jìn)化也是基礎(chǔ)模型,可能稍微粗一些,這些腦區(qū)慢慢成熟起來(lái),使得一個(gè)3-5歲的小孩也具備一些成年人所擁有的能力,盡管不是所有的能力,也使得它在這個(gè)階段馬上可以商業(yè)落地,并不需要把18歲成年人的大腦做出來(lái)才落地。在落地的過(guò)程中循序漸進(jìn)、沿途下蛋、形成數(shù)據(jù)飛輪,過(guò)程中不斷的演化、自我迭代、自我生長(zhǎng),慢慢變成一個(gè)18歲的成年人。走這個(gè)路線更像是生物學(xué)的生長(zhǎng)過(guò)程。而走一段式端到端或者兩段式分層端到端就像爬懸崖、直奔終點(diǎn),類腦分區(qū)是走盤山公路。這就好比兩點(diǎn)之間直線最短,但兩點(diǎn)之間曲線或者折線最快的道理,我們認(rèn)為走盤山公路可以把發(fā)展速度飆起來(lái)。

李竹:不同路徑,總能在山頂相遇。對(duì)數(shù)據(jù)的需求,用解耦的方式做預(yù)訓(xùn)練,樣本效率可以提高到什么程度?跟其他預(yù)訓(xùn)練方式相比,需要多大的樣本量?

高海川:至少是一萬(wàn)倍的提升。人主要的四個(gè)葉,最火的是額葉,大范圍環(huán)境感知和行為決策那個(gè)區(qū),如果是端到端訓(xùn)練所需要的數(shù)據(jù)量就是乘法關(guān)系,但如果拆開(kāi)訓(xùn)練就是多部分的加法關(guān)系,至少是這樣。每個(gè)葉內(nèi)部還可以再繼續(xù)細(xì)分,所以具有大于1萬(wàn)倍的樣本效率?,F(xiàn)有數(shù)據(jù)量乘以這個(gè)倍率基本上達(dá)到GPT3的水平。

李竹:兩位在解決數(shù)據(jù)這個(gè)關(guān)鍵問(wèn)題時(shí)采用不同的方式,千訣是采用類腦解耦的方式,把樣本效率提高了1萬(wàn)倍。流形空間是有一個(gè)全棧數(shù)據(jù)處理的能力,能夠通過(guò)自動(dòng)化的手段把包括視頻數(shù)據(jù)在內(nèi)的大量的數(shù)據(jù)做很好的處理,最后用來(lái)做預(yù)訓(xùn)練,數(shù)據(jù)問(wèn)題就有答案了,我覺(jué)得這是非常重要的一點(diǎn)。

英諾在投資這兩家公司的時(shí)候,看到了他們?cè)陬A(yù)訓(xùn)練的時(shí)候用了大量的視頻數(shù)據(jù),用視頻來(lái)訓(xùn)練,實(shí)現(xiàn)場(chǎng)景理解,甚至跟場(chǎng)景里面的對(duì)象進(jìn)行互動(dòng),我們看硅谷也有類似的,而我們還能做一些動(dòng)作的預(yù)測(cè)。如果世界模型作為具身大腦的基座模型,它可能跟我們過(guò)去的語(yǔ)言大模型有區(qū)別。世界模型是否像語(yǔ)言大模型有黑盒效應(yīng),你們的看法是什么?世界模型是可以預(yù)測(cè)的、可以互動(dòng)的嗎?

高海川:偏白盒或者是完全白盒模型,這點(diǎn)在大模型出來(lái)之前就有很多做視覺(jué)模型理論研究的,比如MarcusHutter,從他之后的一些理論成果昭示了這一點(diǎn)。什么叫世界模型?把全世界的方方面面全部記下來(lái)叫世界模型嗎?其實(shí)不是,世界模型是一種對(duì)世界極致的壓縮,當(dāng)你要獲得一個(gè)對(duì)世界極致壓縮的東西,這個(gè)東西是什么?其實(shí)是更脫離Attention Transformer 這個(gè)機(jī)構(gòu)再往上的一種機(jī)制,從視覺(jué)原理上發(fā)生改變,它是一張因果推理的圖,Attention機(jī)制是基于在相關(guān)基礎(chǔ)性之上,會(huì)有幻覺(jué),這個(gè)幻覺(jué)是根除不掉的,是由機(jī)制帶來(lái)的。如果要取得對(duì)世界的極致的表征應(yīng)該是因果關(guān)系的圖,那么它也一定是一個(gè)白盒的模型。

武偉:我有完全不同的觀點(diǎn)。在我們的想法里視覺(jué)模型一定是黑盒模型,原因是還是需要數(shù)據(jù)驅(qū)動(dòng)讓它學(xué)出來(lái)這個(gè)模型,一旦有一些先驗(yàn)的知識(shí)在里面,一定會(huì)引入inductive bias,我們以前做AI的時(shí)候叫歸納偏置,一旦提前歸納一件事情放到已有體系之下,所表達(dá)的空間就會(huì)被限定,就會(huì)面臨Out-Of-Domain的問(wèn)題,會(huì)有領(lǐng)域之外的知識(shí)無(wú)法被歸納。從這個(gè)角度來(lái)說(shuō),我們會(huì)覺(jué)得數(shù)據(jù)的分布和多樣性反而是最關(guān)鍵的,分布和多樣性決定了你所覆蓋的域有多廣,視覺(jué)模型要基于這些更多樣和分布更廣的數(shù)據(jù)進(jìn)行相對(duì)黑盒的學(xué)習(xí)。在這個(gè)過(guò)程當(dāng)中,有可能在不同的訓(xùn)練階段會(huì)注入一些人類的先驗(yàn)知識(shí),使得訓(xùn)練更容易。但我們會(huì)堅(jiān)信,最后走向量產(chǎn)的是人類相對(duì)無(wú)法理解的世界模型,要不然它的能力上限會(huì)被人的能力上限作為天花板。而作為一個(gè)人對(duì)空間的理解是非常受限的。

舉一個(gè)很有意思的實(shí)驗(yàn),去過(guò)太空的宇航員20%回來(lái)會(huì)有心理疾病,原因是前額葉會(huì)發(fā)生改變,在比較遠(yuǎn)的距離看地球的時(shí)候會(huì)失去自我,這被稱為“總觀效應(yīng)”,人對(duì)于空間的理解和認(rèn)知存在比較低的天花板,我們相信機(jī)器一定能超過(guò)這個(gè)天花板?,F(xiàn)在機(jī)器是往AGI的方式走,我們堅(jiān)信機(jī)器一定是能ASI的,能超越人,還是不要設(shè)置人為的邊界去限定世界模型的學(xué)習(xí)。

高海川:因果推理不等同于加先驗(yàn),相關(guān)性推理可以大數(shù)據(jù)推動(dòng),因果推理也是大數(shù)據(jù)驅(qū)動(dòng),這也是拿過(guò)圖靈獎(jiǎng)的結(jié)論。兩者有什么觀點(diǎn)的統(tǒng)一呢?因果推理其實(shí)也有黑盒的部分,因果推理的機(jī)制本身是黑盒的,但是所呈現(xiàn)出來(lái)的推理的結(jié)果是白盒的。

李竹:現(xiàn)在技術(shù)范式?jīng)]有收斂,可以先往前跑。大家投資一個(gè)具身智能項(xiàng)目的時(shí)候,首先會(huì)問(wèn)你能做到場(chǎng)景泛化嗎?能做到本體無(wú)關(guān)嗎?有足夠的數(shù)據(jù)訓(xùn)練嗎?如果具身大腦成熟,會(huì)是什么樣的實(shí)現(xiàn)路徑?怎么樣能實(shí)現(xiàn)本體無(wú)關(guān)、場(chǎng)景泛化?從你們的角度看,這兩點(diǎn)能不能做到?

高海川:從我們的角度來(lái)看目前就能做到,不是說(shuō)我們多厲害,客觀上存在很多腦區(qū)都是脫離本體就可以存在的,缸中之腦所激活的腦區(qū)是不是可以脫離形態(tài)而獨(dú)立存在呢?比如說(shuō)我們認(rèn)識(shí)眼前這瓶水,要擰開(kāi)這個(gè)瓶蓋,是理解這瓶水本身的特征,理解的不是手跟它交互的特性,執(zhí)行擰瓶蓋這個(gè)動(dòng)作可以不用人形機(jī)器人來(lái)做,甚至是無(wú)人機(jī)加個(gè)并聯(lián)機(jī)構(gòu),或者是狗加一個(gè)機(jī)械臂,都可以執(zhí)行擰瓶蓋這個(gè)動(dòng)作。對(duì)于客觀物理世界所涉及的在當(dāng)前階段是可以做到一腦多形的。有一些做不到一腦多形會(huì)更偏于運(yùn)動(dòng)控制和小腦的部分。

武偉:我覺(jué)得決定它能不能做到比較通用的機(jī)器人有兩個(gè)層面:第一層是能不能有非常好的世界基礎(chǔ)模型預(yù)訓(xùn)練,類比是人都會(huì)進(jìn)行九年義務(wù)教育,在這個(gè)過(guò)程中我們會(huì)知道什么叫桌子、什么叫椅子,什么叫空間,怎么跟它進(jìn)行交互,這是比較通識(shí)的教育。第一階段0-60分的教育,通過(guò)相對(duì)通用具身世界模型去解決,讓它具備相對(duì)比較強(qiáng)的通識(shí)教育,對(duì)空間的理解和交互能力,這一點(diǎn)其實(shí)是現(xiàn)在非常缺乏的,現(xiàn)在一上來(lái)就是0到100分去訓(xùn),成本特別高。預(yù)訓(xùn)練的模型決定了它落地的上界。

第二層是能不能有軟硬一體的后訓(xùn)練,類比成年之后大家選擇不同的職業(yè),大家又會(huì)有一些職業(yè)教育,變成不同的工種。軟硬一體的耦合兜底它的下界,加上軟硬一體、加上強(qiáng)化學(xué)習(xí),包括最近比較火的 Pi*0.6,它做的其實(shí)是過(guò)擬合的落地場(chǎng)景。這個(gè)RL后訓(xùn)練的一些過(guò)擬合其實(shí)兜底了它的下界,包括你再用一些規(guī)則去過(guò)擬合,其實(shí)也是在軟硬一體兜底它的下界。我覺(jué)得要最后做成一些通用機(jī)器,從現(xiàn)在技術(shù)體系來(lái)看,這兩個(gè)階段可能都會(huì)需要。

李竹:就是后訓(xùn)練。

武偉:具身世界模型的預(yù)訓(xùn)練,以及加上軟硬一體的后訓(xùn)練,都會(huì)需要。

李竹:千訣是怎么做的?你們做完預(yù)訓(xùn)練,也會(huì)有針對(duì)具體場(chǎng)景的后訓(xùn)練嗎?

高海川:也會(huì)有,看具體的表現(xiàn)。在基礎(chǔ)架構(gòu)上我們沒(méi)有把世界模型當(dāng)成大腦的全部,現(xiàn)有的世界模型從嚴(yán)格意義的生物機(jī)理來(lái)說(shuō)只相當(dāng)于額葉加海馬體,沒(méi)有包括其他部分。在這幾大區(qū)域的外圍還有很多部分,包括剛才所說(shuō)的四個(gè)大區(qū)以外還有很多區(qū)域都沒(méi)有涉及。機(jī)器人大腦跟世界模型的關(guān)系其實(shí)是包含的關(guān)系,做機(jī)器人大腦就像做機(jī)器人整機(jī),做世界模型可能相當(dāng)于機(jī)器人的一個(gè)部件,到底是做世界模型一個(gè)區(qū)還是做一個(gè)完整的機(jī)器人大腦。這樣的區(qū)別會(huì)使得兩個(gè)都是做偏軟的具身智能大腦公司的基因有所不同,預(yù)訓(xùn)練范式也會(huì)不同。

李竹:前面的圓桌討論環(huán)節(jié)有提到在邊緣側(cè)需要多大算力的問(wèn)題,千訣現(xiàn)在已經(jīng)有一些落地,有項(xiàng)目和廠商的合作。從你們的角度來(lái)看,計(jì)算效率現(xiàn)在能不能實(shí)現(xiàn)?在端側(cè)上你們?cè)趺唇鉀Q這個(gè)問(wèn)題?未來(lái)有沒(méi)有更好的解決方案?

高海川:我們認(rèn)為在中期可能會(huì)有一些變化,和最長(zhǎng)遠(yuǎn)收斂那個(gè)期看得比較清楚的是應(yīng)該是用類腦大模型+類腦芯片的方式去做的。目前制約端側(cè)主要是兩個(gè)矛盾點(diǎn),功耗,能耗比。GPU算力跟功耗是成比較嚴(yán)格的正相關(guān)的關(guān)系,我們要在云端跑的大模型放到端側(cè)就上百瓦,對(duì)一些機(jī)器來(lái)說(shuō)有些難。第二就是性價(jià)比,靠規(guī)模或商業(yè)化的方式做下來(lái),很重要的是能耗比,人腦其實(shí)不是這樣做的,人腦功耗為什么不會(huì)那么高,類腦芯片6瓦就能跑一個(gè)大模型,因?yàn)榇蟛糠帜X區(qū)是不參與計(jì)算的?,F(xiàn)在的端到端網(wǎng)絡(luò)有可能說(shuō)“你好”就會(huì)把整個(gè)神經(jīng)網(wǎng)絡(luò)都跑一遍,所帶來(lái)的功耗是人和機(jī)器人都受不了的。但人腦是不一樣的,人做不同功能,以及不同功能因?yàn)殡y易程度不同激發(fā)的神經(jīng)元數(shù)量和部位都不一樣,其他大部分腦區(qū)都是待著不動(dòng)的,所以功耗變得特別低。我們注意在這條技術(shù)路線上中國(guó)排第一,美國(guó)應(yīng)該是排第二。美國(guó)觀察到這種落后的情況,最近開(kāi)始加大投入,導(dǎo)致美國(guó)出現(xiàn)一批類腦公司試圖趕超中國(guó)。美國(guó)有美國(guó)的Pi,中國(guó)有中國(guó)的Pi,中國(guó)的Pi的最優(yōu)路徑應(yīng)該是類腦芯片+類腦大模型來(lái)做機(jī)器人大腦。

李竹:我們看到現(xiàn)在具身智能和機(jī)器人公司,拍視頻的時(shí)候往往需要下一個(gè)指令讓它來(lái)執(zhí)行一個(gè)任務(wù),千訣現(xiàn)在能做到什么樣的程度?

高海川:我們實(shí)現(xiàn)“四個(gè)跨”的泛化,跨場(chǎng)景、跨物體、跨任務(wù)、跨形態(tài)。而且它的泛化是自主智能,即所賦能的機(jī)器人在新場(chǎng)景中不需要人類給它下指令。用戶把電腦打開(kāi)它自己就開(kāi)始動(dòng)了,人的指令跟它不是交互的,這里有世界模型的概念,機(jī)器人主要是跟客觀物理世界進(jìn)行交互,人不下指令也可以做事情,僅靠一些出廠設(shè)置,有一些通識(shí)的預(yù)訓(xùn)練機(jī)器人就可以開(kāi)始工作了。歡迎大家關(guān)注千訣科技的公眾號(hào),我們有很多形態(tài)的機(jī)器人在家里幫你打掃衛(wèi)生、迎賓、看護(hù),且我們發(fā)的所有視頻都是一鏡到底,可以長(zhǎng)達(dá)24小時(shí),沒(méi)有任何剪輯。

李竹:這是具身大腦應(yīng)該有的樣子。你們覺(jué)得在未來(lái)多長(zhǎng)時(shí)間內(nèi),具身大腦技術(shù)范式會(huì)收斂?大家會(huì)形成共識(shí),能夠在實(shí)際中發(fā)揮更大的作用。

武偉:我算過(guò)一筆帳,如果讓一個(gè)多模態(tài)的大模型預(yù)訓(xùn)練比較充分的話基本上需要萬(wàn)億的Token,對(duì)齊到具身這一塊,大概就是一個(gè)Billion的clips,它跟數(shù)據(jù)量相關(guān),如果僅依賴真實(shí)數(shù)據(jù),還需要2年以上的時(shí)間。如果有更多的數(shù)據(jù)渠道補(bǔ)充進(jìn)來(lái),比如互聯(lián)網(wǎng)上已有的第一人稱視角視頻的補(bǔ)充,我們覺(jué)得2年以內(nèi)有可能會(huì)收斂。但其實(shí)也對(duì)數(shù)據(jù)利用的范式、數(shù)據(jù)的管限有比較高的要求。

高海川:我跟武總的意見(jiàn)差不多。以現(xiàn)有的Benchmark來(lái)說(shuō)應(yīng)該是2年以內(nèi),現(xiàn)有的Benchmark包括桌面機(jī)械臂的操作,VLN、導(dǎo)航,然后把操作和導(dǎo)航拼在一起做一些事情。而如果我們要追求更加復(fù)雜的東西,讓機(jī)器人持續(xù)學(xué)習(xí)、持續(xù)演化,參考人腦來(lái)說(shuō),不僅是參數(shù)學(xué)習(xí)、參數(shù)預(yù)訓(xùn)練,大數(shù)據(jù)還會(huì)用于模型的結(jié)構(gòu)學(xué)習(xí),每時(shí)每刻神經(jīng)元都在動(dòng)態(tài)變化,每說(shuō)一句話意味著一個(gè)突觸激活了,一個(gè)神經(jīng)元死亡了。也意味著具身大腦就像人腦,會(huì)漸近但永遠(yuǎn)不會(huì)收斂到兩段式端到端,更不要提一段式。如果要追求讓具身大腦處理特別復(fù)雜的功能的話,可能最后收斂到一個(gè)分區(qū)的結(jié)構(gòu)。

李竹:總結(jié)一下。在兩位做具身大腦的企業(yè)看來(lái),實(shí)際上具身大腦收斂的時(shí)間超過(guò)我們投資人的預(yù)料,剛才有嘉賓說(shuō)3-5年已經(jīng)是一個(gè)比較樂(lè)觀的預(yù)計(jì),但是我們這兩位企業(yè)家給出的時(shí)間更短。就像展開(kāi)了一幅千里江山圖,我們和創(chuàng)業(yè)者一起觀察整個(gè)具身智能的演進(jìn)和發(fā)展會(huì)怎么樣,會(huì)有漸入佳境的感覺(jué)。大腦該怎么實(shí)現(xiàn)?可能是盤山而上,也可能是攀登懸崖,但是不管怎么樣,這個(gè)高峰就在那里。有我們這些優(yōu)秀工程師、優(yōu)秀科學(xué)家的智慧,中國(guó)在具身智能這個(gè)賽場(chǎng)上肯定會(huì)領(lǐng)先于其他的國(guó)家。

未來(lái),我們看好具身智能是比語(yǔ)言大模型更大的方向,更多的創(chuàng)業(yè)公司會(huì)在這里成長(zhǎng),也會(huì)出現(xiàn)更多的千億級(jí)公司。謝謝大家!

本文來(lái)源投資界,原文:https://news.pedaily.cn/202512/558451.shtml

免責(zé)聲明:本網(wǎng)轉(zhuǎn)載合作媒體、機(jī)構(gòu)或其他網(wǎng)站的公開(kāi)信息,并不意味著贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性,信息僅供參考,不作為交易和服務(wù)的根據(jù)。轉(zhuǎn)載文章版權(quán)歸原作者所有,如有侵權(quán)或其它問(wèn)題請(qǐng)及時(shí)告之,本網(wǎng)將及時(shí)修改或刪除。凡以任何方式登錄本網(wǎng)站或直接、間接使用本網(wǎng)站資料者,視為自愿接受本網(wǎng)站聲明的約束。聯(lián)系電話 010-57193596,謝謝。

財(cái)中網(wǎng)合作