Допис

Sapient开源层级推理架构HRM-Text,1000美元一天训出1B模型

币界网
币界网
币界网消息,Sapient Intelligence开源了10亿参数(1B)的文本生成基础模型HRM-Text。这是一款基于层级推理模型(HRM)架构的纯预训练模型,通过在架构底层引入潜在空间推理,将基础模型预训练的算力消耗缩减了130至600倍。具体而言,HRM-Text仅使用400亿(40B)个结构化token完成预训练,数据量约为同级别常规模型的千分之一。官方实测显示,使用两台8卡H100服务器,耗时约46小时即可从零训完1B版本,计算成本约1472美元而0.6B版本只需单节点跑50小时,硬件成本约800美元。完整工程框架已同步开源,支持数据提取、序列打包与PyTorch分布式训练。

Застереження. Вміст, опублікований на OKX Orbit, надається виключно в інформаційних цілях. Докладніше

Відповіді

Ще немає коментарів. Додайте першу відповідь!

Related Flash News

币界网2г тому

Loracle: TON довгі позиції зросли на 109 512,20 токени, поточний прибуток і збиток +$6,996.67

Blockbeats3г тому

Aave опублікувала огляд заходу rsETH 18 квітня

Odaily4г тому

ЗМІ США: Запропоновані Трампом поправки до угоди між США та Іраном стосуються доступу до ядерних матеріалів і Ормузької протоки

币界网5г тому

Laser Digital, дочірня компанія Nomura Holdings, отримала попереднє схвалення у США на створення національного трастового банку

Odaily5г тому

ЗМІ США: Трамп посилює умови угоди з Іраном, пропозиція щодо внесення змін подана іранській стороні

Odaily5г тому

Певні розумні гроші купили $300,000 у фіналі Західної конференції плей-оф НБА, у сьомій грі, де Thunder перемогли Spurs

ChainCatcher5г тому

SEC США подала позов проти засновника Privvy за нібито у шахрайстві з криптовалютою на $12,3 мільйона

币界网7г тому

Loracle:ZEC多单新开仓1891.31枚

TechFlow8г тому

Ключова віха біткоїна у $70,000 спричиняє розбіжності на ринку: чи може підтримка утримати або визначити напрямок злетів і падінь?

TechFlow11г тому

Aave випускає огляд події rsETH: підробка між ланцюгами призвела до аномального випуску 116 500 rsETH, повністю відновлених