生数科技联合清华大学发布了视频大模型「Vidu」,支持一键生成16秒高清视频,具有多镜头语言、时空一致性等出色表现,还能虚构超现实主义画面。该模型基于自研U-ViT架构,通过大规模训练实现长视频生成,复用图文任务经验提升训练效率。团队由清华背景组成,已获得数亿元融资。
4月27日,在中关村论坛未来人工智能先锋论坛上,中国首个长时长、高一致性、高动态性视频大模型Vidu正式发布。这一模型由清华大学和大模型创业公司生数科技联合发布,可以一键生成长度达16秒、分辨率为1080P的高清视频内容。
证券时报记者独家获悉,清华大学人工智能研究院副院长、生数科技首席科学家朱军在Vidu发布后发声表示:“Vidu,we do, we did, we do together!感谢小伙伴们日以继夜的坚持,在实验室架构上开花结果。”据介绍,这也是自OpenAI发布Sora以后,全球率先取得重大突破的视频大模型。
Sora发布后,行业内一直有团队宣称要追赶和复现Sora,而Vidu团队用两个月的时间率先跑出来。记者梳理发现,生数科技在多模态大模型领域已经有较深的积累,也是目前多模态大模型赛道估值最高的初创公司之一。目前公司已完成三轮融资,融资额达数亿元人民币,投资方包括启明创投、智谱AI、BV百度风投、锦秋基金等一众机构。
Vidu的背后,是一家来自清华的明星创业公司生数科技。
公开资料显示,生数科技成立于2023年3月,核心成员来自清华大学人工智能研究院,致力于自主研发世界领先的可控多模态通用大模型。公司的CEO本硕就读于清华大学计算机系的唐家渝,首席科学家由清华人工智能研究院副院长朱军担任,CTO鲍凡则是清华大学计算机系博士生、朱军教授的课题组成员,长期关注扩散模型领域研究。
今年3月,唐家渝曾在沟通会上向媒体表示,今年内公司的大模型一定能达到Sora目前版本的效果,“但很难说是三个月还是半年”。然而,Vidu却提前交出了一份令人惊艳的考卷,这主要得益于团队是国内最早布局多模态大模型的团队之一,多年以来在这一领域形成了深厚的积累。
据唐家渝介绍,生数科技目前采取模型层和应用层两条路走路的模式。一方面,构建覆盖文本、图像、视频、3D 模型等多模态能力的底层通用大模型,面向B端提供模型服务能力;另一方面,面向图像生成、视频生成等场景打造垂类应用,按照订阅等形式收费,应用方向主要是游戏制作、影视后期等内容创作场景。
生数科技自成立以来就备受资本关注。天眼查数据显示,生数科技目前共完成3轮融资。2023年6月,完成近亿元人民币天使轮融资,投资方包括蚂蚁集团、BV百度风投、卓源亚洲、卓源资本;2023年8月,完成数千万人民币天使+轮融资,投资方为锦秋基金;2024年3月,完成数亿元人民币A轮融资,投资方除了启明创投、达泰资本、智谱AI等新机构以外,还有BV百度风投、卓源亚洲两个老股东。
在三轮融资总计数亿元人民币的资本加持下,生数科技已成为目前国内多模态大模型中估值最高的初创公司之一。生数科技表示,Vidu的问世不仅是U-ViT融合架构在大规模视觉任务中的又一次成功验证,也代表了生数科技在多模态原生大模型领域的持续创新能力和领先性。