帖子

多模态生成的行业「黑药丸」：扩散模型只是渲染外壳，智能灵魂全在语言

币界网消息，AI姨在Latent Space播客中指出，当前的视频与图像生成模型并非真正理解物理世界，扩散模型本质上只是一个不具备物理认知能力的像素级渲染器。以英伟达Cosmos模型为例，负责画面渲染的核心扩散模型仅有7b参数，而真正的智能中枢是由大语言模型（LLM）担任的提示词重写器。最终视频的逻辑质量与匹配度，几乎完全取决于语言模型对提示词的重写质量，而非扩散模型本身。这种视觉与语言的解耦预示着人机交互将迎来彻底重构。

16:37 · 26/06/02·4,899 瀏覽量·

免責聲明：OKX 星球內容僅供參考。瞭解更多

回覆

暫無評論，快來搶沙發！

推薦星球居民

0xStudy

感谢支持 X同名

宇神ETH

点击上面“宇神ETH”后面的《X》符号可联系我每晚7点直播

巨鲸酱酱

2021年开始专注加密货币合约交易，通过长期稳定的策略，将初始资金从3000元做到了1800万元。我主要聚焦BTC、ETH等主流币种，偏好低杠杆、趋势跟踪的交易方式，最后买了Uni现货栽进去了。

多模态生成的行业「黑药丸」：扩散模型只是渲染外壳，智能灵魂全在语言

回覆

相關快訊

熱門話題

推薦星球居民