◎记者 罗茂林
2月16日凌晨,OpenAI公司发布最新“文生视频”大模型Sora,并附带发布了多条由Sora生成的视频,相较于目前“文生视频”业内主流的数秒钟版本,此次发布的Sora可以一次性生成一分钟的视频。
Sora的发布毫无悬念地再次引发了整个市场的高度关注。有人认为Sora创新的模型架构为大模型的发展开辟了新道路,也有人认为Sora的推出让通用人工智能到来的日期大大提前,还有市场人士表示Sora的爆红与OpenAI高超的营销密不可分。可以预见的是,Sora的横空出世,无疑将促使人工智能引领新一轮行业变革。
Sora横空出世
2月16日,美国人工智能公司OpenAI发布最新“文生视频”大模型Sora,并同时公布了一系列样片,展现了Sora令人惊叹的视频生成效果。据其官网介绍,Sora继承DALL·E 3的画质和遵循指令能力,能生成长达1分钟的高清视频。
从样片来看,此次大模型在长视频(60秒)中表现出令人惊叹的稳定性与前后一致性。同时,在部分样片中,Sora还展现了对“物理规律”超强的学习能力,无论是飘逸的毛发还是水体波纹,Sora都能“合乎常理”地呈现出来。
对于这款大模型,天风证券全球科技首席分析师孔蓉用“非常惊艳、超预期”来形容初次看到的感受。
“我觉得除了生成时长以及前后高度稳定性外,还有一个非常关键的地方就是,它是一个世界模拟器,它对物理规则有着高度的理解,这不仅仅是视频。”在孔蓉看来,这或许会成为真正意义上的“元宇宙”时刻。
伴随Sora的亮相,外界普遍认为,OpenAI的技术储备深度可能远超想象。从目前来看,OpenAI仅透露Sora是一种扩散模型,从噪声开始,能够一次生成整个视频或扩展视频的长度。
随着模型的发布,业内围绕技术的猜想随即展开。PyTorch创始人Soumith Chintala从视频推测Sora是由游戏引擎驱动,并为游戏引擎生成组件和参数。英伟达高级研究科学家范麟熙(Jim Fan)认为,Sora通过一些去噪、梯度下降去学习复杂渲染、“直觉”物理、长镜头推理和语义基础等。
纽约大学助理教授谢赛宁推测,整个Sora模型可能有30亿个参数。
是创新也是营销
Sora的横空出世引发科技圈热议。特斯拉创始人马斯克在社交平台连发多条动态称:“被人工智能增强的人类,将会在未来几年之内创作出最杰出的作品。”
在国内,三六零创始人周鸿祎近日连续发声称,Sora的诞生意味着AGI(通用人工智能)实现时间可能从10年缩短至一两年。他表示,科技竞争最终比拼的是人才密度和深厚积累。
“很多人说Sora的效果吊打Pika和Runway。这很正常,就创业者团队而言,OpenAl这种有核心技术的公司实力还是非常强劲的。有人认为有了AI以后创业公司只需要做个体户就行,实际上今天再次证明这种想法是非常可笑的。”周鸿祎说。
孔蓉对此表示赞同。“对于创业公司来说,目前压力还是比较大的,因为Sora的性能几乎是碾压的。”她坦言,从目前来看,国内头部厂商还有不小的距离需要追赶。
事实上,在此次Sora发布后,“文生视频”知名创业公司Pika创始人郭文景表示:“我们觉得这是一个很振奋人心的消息,我们已经在筹备,将直接对标Sora。”
“Sora具有三维空间的连贯性、模拟数字世界、长期连续性和物体持久性、与世界互动的技术特点,是文生视频领域取得的重大进步和突破。”昆仑万维CEO方汉告诉上海证券报记者,从技术上来看,Sora领先国内同行大概半年。
不过,方汉表示,这一差距并没有外界想象得那么大。“仅从目前公布的样片来看,Sora在理解层面没有特别大的突破,不能夸大Sora在通用人工智能方面的进步。国内厂商和国外厂商在文生视频的差距,不像大模型领域的差距那么大。”方汉说。
某种意义上来说,Sora此次的成功既有技术的惊艳,也离不开营销的运作。
在Sora发布前数小时,谷歌公布了大模型Gemini 1.5版。如果进一步考虑OpenAI创始人阿尔特曼近期正在为其7万亿美元的芯片计划四处奔走,Sora的发布时间也就更值得玩味了。
行业变革前夜
不能否认的是,相比于GPT刚刚破圈时大众的好奇与茫然,如今Sora一经亮相,市场就已经找到它未来的商业路径。方汉直言,Sora的问世对影视、视频、广告等行业或将带来不小的冲击。
“Sora对于XR领域的各类头戴式眼镜设备将有着正向积极的作用。”孔蓉预测,随着人工智能在2D转3D的内容生态上大展拳脚,XR当前的内容生态将得到极大的丰富,对于行业而言无疑是一件利好。
据不完全统计,在Sora发布48小时后,国内已有14家券商发布了最新的分析研报。大部分分析师认为,AI创作将为整个视频行业带来巨大变革。
伴随Sora的发布,一批A股上市公司也摩拳擦掌,更有不少公司已经布局AI文生视频相关技术及产品,有望在新一轮的产业变革中抢占先机。
2月18日,新华网被新增“Sora概念”。该公司于2023年12月11日在互动易平台回复,新华智云的妙笔是AI文本生成,生花就是AI文生图,这两个2023年上线的新产品都是AIGC内容生产工具。MAGIC短视频智能生产平台有文生视频的功能,目前也在尝试提升视频生成效果,通过内部测试后将对外发布。
因赛集团此前公告称,公司的InsightGPT预计2024年3月底前将开发实现文生视频功能,之后推出公测版正式启动商业化。公司提到,InsightGPT自动生成短剧脚本、视频智能剪辑以及即将研发实现的文生视频等功能,有助于短剧内容制作降本增效。
万兴科技去年6月曾公告称,公司基于AI文生视频以及3D数字人等技术开发了数字人营销短视频创作工具,面向跨境营销和电商领域用户,通过AIGC与虚拟数字人技术快速生成“真人”主播,解决传统电商营销视频实拍模式下的外籍模特数量少、多语言翻译配音难度高、制作周期长、成本居高不下等问题。
风语筑今年2月6日在投资者互动平台上透露,目前,公司已结合AIGC技术在文生文、文生图、文生音视频等领域进行场景应用,随着AIGC技术从“通用模型”向“行业垂直”方向加速迭代,公司还将强化在3D建模和虚拟空间生成等领域的定向训练和模型优化。