太平洋科技要闻

首页 > 科技要闻 > 科技> 正文

刚发布就被对标Sora，这个国产模型来头这么大？

差评整合编辑：龚震发布于：2024-05-02 00:15

前几天，上网冲浪的时候，刷到了几个 AI 视频片段。

大船驶来的压迫感，被风吹起的发丝和丝巾，太空人直接走进现实菜园。。。一幕幕把我看得是一愣一愣的。

真实度也是一绝，在湖边随着镜头移动，不仅光线跟着变化，连天空、树木的变化都跟咱肉眼看到的没差。

要不是右下角有水印，我还差点以为是 Sora 的视频又上新了。

所以这次的主角不是 Sora ，也不是各位差友熟知的 Pika 、 Runway 那几个 Sora 竞品，而是初出茅庐的国产视频大模型 Vidu 。

咱看到的那些视频，就是前几天， Vidu 在中关村论坛的人工智能主题日上公布的。

它最长能生成16 秒，一句 “ 木头玩具船在地毯上航行 ” 的提示词，就能生成下面这长长的一段，一镜到底的丝滑程度，怕是路过的谋子导演看了都会点赞。

Sora 号称能真实模拟物理世界的拿手戏， Vidu 照样也能实现。

让它生成一段 “ 汽车加速驶过森林里乡间小路 ” 的视频，像是树林缝隙透过的阳光，后轮扬起的灰尘，都很符合咱们的日常认知。

而且 Vidu 的想象力比咱人还要丰富，画室里的一艘船驶向镜头的场景，它分分钟就能给 “ 拍 ” 出来，看这效果，不知道该有多少动效师瑟瑟发抖了。

甚至在某些提示词下， Vidu 的理解能力比 Sora 还强，比如 “ 镜头绕着电视旋转 ” 的提示词， Sora 压根儿就没 get 到旋转的意思，反而是 Vidu 能轻松理解。

有一说一，在看完 Vidu 的这些视频后，世超是真觉得它是目前市面上，唯一一个能在画面效果上和 Sora 拼一拼的模型。

虽然现在 16 秒的 Vidu 在时长上还比不上 60 秒的 Sora ，但它的进步也确实是肉眼可见的快，据极客公园消息，上个月， Vidu 在内部只能生成 8 秒的视频，上上上个月，还只能生成 4 秒的视频。

反正媒体们都把 Vidu 比作是 “ Sora 级视频大模型 ” ，网友们也都在评论区喊话催他们赶紧开放内测。

不过这里面让人更好奇的是，咱之前压根儿都没听说过 Vidu ，怎么突然平地一声雷，搞出了这么大的阵仗？

我们也顺藤摸瓜找了找资料，发现 Vidu 身上，值得说道的东西还挺多，甚至仔细咂摸下，还能从 Sora 身上找出点 Vidu 的影子来。

它背后是一家名叫生数科技的公司，别看这个公司才刚满一周岁，但它可是在娘胎里就开始攒劲儿了。因为它的亲妈，是清华系AI 企业瑞莱智慧，背后的研究团队，几乎全是这里面的人。

而在成立生数科技之前，团队就已经把视频大模型研究得很深入了。

尤其是在图像生成这块很火的扩散（ Diffusion ）模型，他们算是业内第一批研究这个模型的，整出来的论文也在 ICML 、 NeurIPS 、 ICLR 各种顶会发了个遍。

正是因为有这么好的底子，早在2022 年 9 月的时候，团队就找到了做 Vidu 的灵感，就是下面这篇论文。

世超让 AI 帮咱解读了下，大概的思路就是，扩散模型在生成图像这块挺强，而大语言模型里用的 Transformer 有个规模（ Scale ）效应，参数堆得越多，性能就越好。团队就想着，能不能把这两个的优点结合一下，整个融合架构，提升图像生成的质量。

于是他们转头把扩散模型里面的 U-Net 给换成 Transformer ，还起了个名字叫 U-ViT （ Vision Transformers ）。结果试下来发现这么一结合还真有用，光是相同大小的 U-ViT ，性能就比 U-Net 强了。

那好嘛，既然这条路走得通，他们也顺势把技术路线定在了 U-ViT 上。

然鹅。。。在团队悄悄酝酿 Vidu 的时候，大洋彼岸的UC 伯克利的一个研究，却让 OpenAI 的 Sora 捷足先登了。

就在清华小分队提交论文的两个月后， UC 伯克利也在预印平台 ArXiv 上提交他们的论文了，一样说要把 Transformers 揉在扩散模型里面，只不过名字起的更直白了点，叫DiT （ Diffusion Transformers ）。

看着是不是挺眼熟，没错， OpenAI 的 Sora 模型，用的就是伯克利的 DiT 技术路线。

但因为清华小分队早发了两个月，当年的计算机视觉顶会 CVPR 2023 还以 “ 缺乏创新 ” 的由头，拒了 Sora 的 DiT ，收录了 U-ViT 。

而且早在 2023 年年初的时候，清华小分队还用 U-ViT ，训练出了一个近 10 亿参数量的开源大模型 UniDiffuser 。

算是第一个用行动证明了，融合架构也遵守 Scaling Law 这一套规则，也就是说随着计算量、参数量越来越大，模型的性能就会随指数级上升。而这个 Scaling Law ，同样也是 Sora 这么强的秘密武器。

所以照这么来盘算，Sora 其实还得叫 Vidu 一声祖师爷才对。。。

但现实世界却是， DiT 被 OpenAI 带着一路飞升。

清华小分队呢，计算资源没 OpenAI 那么到位，也没 ChatGPT 这种珠玉在前，总之就是啥啥都不完善，他们只能慢慢来，先做图像、 3D 模型，等有家底儿了，再去做视频。

好在他们身上还是有点实力在的，稳扎稳打慢慢也赶上来了。去年 3 月，清华小分队们成立了生数科技后，就在马不停蹄地搞自家的产品，现在图像生成和 3D 模型生成大伙儿都能免费用了。

并且靠着这两个产品，刚满一周年，它就攒了好几亿的家底。

像是成立 3 个月的时候，就完成了一波近亿级的天使轮投资，上个月，又完成了新一轮的数亿元融资。参与投资的，也都是智谱 AI 、 BV 百度风投等等业内大佬。

反正看这波架势， Vidu 还真有可能成为国内的黑马，去对标 OpenAI 的 Sora 。

不过生数科技那边，倒是觉得只把 Vidu 看作国产版的 Sora ，实在是有点缺乏想象力了，因为他们给 Vidu 的定位，可不仅仅是个视频模型，而是图、文、视频全都要，只不过现在视频暂时是重点。

当然了，好听话谁都会说，能不能搞出来，咱还得实打实地看成品。

世超已经去排了队，等拿到内测资格，再跟大伙儿同步一波。。。

图片、资料来源：

Scalable Diffusion Models With Transformers

All are Worth Words：A ViT Backbone for Diffusion Models

机器之心，专访生数科技唐家渝：清华系团队拿到上亿融资，用Transformer来做多模态大模型

界面新闻，生数科技完成新一轮融资，国内多模态大模型厂商着力追赶Sora

极客公园，国产 Sora 的秘密，藏在这个清华系大模型团队中

新智元，图灵诺奖得主等大佬齐聚海淀！清华版Sora震撼首发，硬核AI盛会破算力黑洞

文章来源：差评

Vidu Sora 图像生成

差评

原创栏目

【硬件编年史】窥见台北电脑展 AI&VR双管齐下

硬件编年史

从平平无奇到各领风骚，显卡外观设计大盘点

硬件编年史

经典IP！蜘蛛侠宇宙有多少惊喜是你不知道的

硬件编年史

【硬件编年史】那些年我们一起折腾过的DIY硬件

硬件编年史

IT百科

更多 >

iOS闪退修复工具

AI大数据教你把妹儿？都是送人头的低俗趣味

我在双11买杜X斯的秘密怎么全网都知道？

收藏！买买买之后最该看的网购维权指南

比炒鞋更狂的炒盲盒

还去淘宝买iPhone有锁机？华强北的卖家都哭了

三餐都吃外卖的你，知道商家的套路有多野吗？

终于！AI开始对这届大学生们“下手了”

网友评论

聚超值•精选

更多>

推荐手机 笔记本 影像硬件家居商用企业出行未来

太平洋科技 要闻

刚发布就被对标Sora，这个国产模型来头这么大？

太平洋科技要闻