Sora:OpenAI 公司又一款产品震惊世界视频生成训练大模型都有哪些能力,给您全面解答

相信大家对这个火遍全网的视频并不陌生,没错他便是出自OpenAI 公司,OpenAI 是一家人工智能研究和部署公司。其出品的所有产品都让世界为之震惊,其中便包括聊天大模型ChatGPT和图像创建DALL·E 3,但是今天小编给大家带来了OpenAI 公司的一位新的成员Sora(视频生成训练模型),中文简称索拉。

sora004

Sora是什么?

Sora是一种创新的扩散模型技术,它起始于对看似随机噪声的视频数据进行解析,并通过一系列递进的细化步骤,逐步还原和构建高质量的视频内容。该模型具备一次性生成完整视频片段的能力,并且能够灵活扩展视频时长,即使场景中的主体短暂消失再重现,也能确保其一致性得到良好维护。

借鉴GPT系列模型的transformer架构设计,Sora展现出了强大的序列处理及拓展性能。它将视频与图像信息编码为一系列微小的数据块——“补丁”,这些补丁在功能上相当于GPT中的词元(tokens),使得模型能够以统一方式理解并处理不同维度的视觉信息,包括但不限于不同的时长、分辨率以及纵横比。

Sora的研发融入了DALL·E系列模型的技术精髓,特别是在训练过程中借鉴了DALL·E 3利用高度概括性和描述性的标题匹配视觉训练数据的方法,这使得该模型在依据用户提供的文本指令生成视频时,能够更为精确地遵循指令并忠实呈现预期效果。

此外,Sora不仅限于基于文本提示创建视频,它还能从静态图像出发,细致入微地为其添加动态元素生成视频内容;同时,对于已有的视频素材,Sora也能够进行扩展,补充缺失帧或是优化画面连续性。

作为能够深入理解和模拟真实世界复杂动态的模型,Sora标志着我们在通往强人工智能(Artificial General Intelligence, AGI)道路上的一个重要进展,此类模型的开发与应用将在未来人工智能发展中扮演关键角色。

Sora具有哪些功能?

我们都知道Sora很厉害那么Sora到底具有哪些过人之处的本领,让整个行业都为之震撼?

接下来,主机博客小编默念给大家介绍下:

在sora团队的研究中,sora一直专注于推进视频数据生成模型在大规模训练环境下的极限,特别是针对那些具有可变时长、分辨率和宽高比的复杂视频和图像内容。sora团队的工作重点在于开发和训练一个文本条件扩散模型,该模型能够跨多种视觉数据形态进行有效学习和表达。关键技术在于sora团队的采用了时空补丁的概念,并将其应用于潜在代码的操作之中,通过一个精心设计的变压器架构来实现这一目标。这种架构的独特之处在于它能将所有类型的视觉信息转化为一种统一的内部表示形式,进而使得模型能够在一个庞大的数据集上进行高效且全面的训练。

sora团队所研发的最大规模模型Sora展示了令人瞩目的成果,它能够生成长达一分钟的高清晰度视频内容,展现了前所未有的适应性和保真度。其实验结果有力证明,通过扩展视频生成技术,有可能构建出能够模拟物理世界各类情境的通用模拟系统。

回顾以往的视频生成模型,诸多案例已经运用循环神经网络、生成对抗网络、自回归变压器以及扩散模型等多种技术手段对视频数据生成进行了积极探索。然而,大部分早期工作往往集中在特定类型的视觉数据、较短的视频片段,或者是固定尺寸的视频内容上。相比之下,Sora模型则展现出显著的普适性,它能灵活应对各种时长、宽高比和分辨率要求,生成高质量的视频和图像内容,堪称视频生成领域的一个重大飞跃。

将视觉数据转化为补丁

Sora团队受到大规模语言模型(Large Language Models, LLMs)思想的启发,这类模型通过吸收并学习互联网级别的海量数据,获得了理解和生成多样化文本内容的普遍性能力。LLMs在处理诸如编程语言、数学符号以及不同自然语言风格等多元输入时,巧妙地运用了统一的令牌化机制,这一创新极大地提升了模型的表现力和泛化能力。

在此项工作中,Sora团队探讨了如何将类似的语言模型中的令牌化原理应用到视觉数据生成模型中。不同于LLMs使用的文本令牌,Sora团队引入了一种新颖的概念——视觉补丁(Visual Patches),作为视觉信息的基本组成单元。早先的研究已验证了补丁作为一种表示方式,在处理视觉数据时的有效性和优越性。

 

Sora001

(图片来源于openai官网)

在宏观架构上,Sora团队首先采用先进的压缩技术将原始视频数据编码为低维潜在空间表示,随后将视频解析为一系列视觉补丁。进一步地,这些视觉信息被组织成时空补丁序列,从而能够捕捉到视频数据内在的时间和空间结构特征。通过这种方式,Sora模型能够以更加细粒度和模块化的方式来理解和生成不同种类、不同规格(如时长、分辨率、帧率等)的视频和静态图像内容,实现了视觉数据表示和生成方法的革新与拓展。

视频压缩功能

为了实现对视觉数据高效且深度的理解与重构,Sora团队设计并训练了一个专门用于降维处理的神经网络系统。这套系统能够直接接纳未经预处理的原始视频流作为输入,并通过其复杂的内部计算机制提炼出一种时空压缩后的潜在表达。在这个阶段,原始视频的信息被转化为一个紧凑且蕴含丰富语义的多维向量序列。基于此压缩潜在空间,Sora模型得以进行针对性的学习与训练,进而具备从这些底层表示中重新构造视频的能力。同时,为了确保生成过程的完整性与保真度,Sora团队还精心构建了一个配套的解码器模型。该解码器负责将Sora模型生成的潜在表征求解还原为实际的像素空间数据,即最终可视化的视频帧序列。其工作流程涵盖了从高维原始视频到低维潜在表示的压缩编码,再到由Sora模型驱动的潜在空间生成,最后通过解码器反向映射回真实世界视觉表现的全过程,从而实现对视频内容的智能生成与重建。

对视频和图像进行联合训练

针对已压缩的输入视频素材,我们采用了一种创新的方法,即从中抽取一系列时空连续的局部区域,将其视为变压器模型中的基本处理单元——令牌(tokens)。这一策略同样适用于图像场景,实际上可以视图像为仅包含单个帧的“静态视频”。通过对这些时空补丁的深入学习和特征提取,Sora 模型能够在不同的分辨率、时序长度以及纵横比条件下,灵活适应并对视频和图像进行联合训练。在推理阶段,我们进一步拓展了这一框架的灵活性。通过在特定尺寸的网格结构中自适应地布局和填充经过随机初始化的时空补丁,Sora 能够精准调控所生成视频的空间尺度。这意味着在保持高质量内容生成的同时,可以根据需要动态调整输出视频的分辨率大小,实现了对视频内容维度及形态的创造性把控。

视频模型的构建与扩展。

Sora 构建为一种先进的扩散模型,扮演核心角色。它专门设计用于从输入的噪声序列中恢复出高保真的“纯净”时空补丁,并且能够响应于文本提示等各种条件信息进行操作。值得注意的是,Sora 结合了扩散机制与变压器架构,形成了扩散变压器这一独特形式。扩散模型近年来在多个领域展现出强大的通用性和扩展能力,特别是在自然语言处理领域的语言模型构建、计算机视觉任务,以及图像生成等方面的表现尤为突出。

(图片来源于openai官网)

随着训练过程中计算资源的不断投入和优化,Sora 所展现的视频样本生成质量呈现出显著提升的趋势,验证了扩散变压器架构在大规模视频数据上进行有效学习和精细还原的能力。这项工作不仅推进了视频生成技术的发展边界,还展示了扩散模型在复杂时空数据处理上的潜力。

Sora005

可变的持续时间、分辨率、宽高比

以往的图像和视频生成技术常常需要对原始素材进行标准化处理,比如调整为固定分辨率(如256x256像素)的4秒短视频片段。然而,Sora团队的研究表明,直接采用原始尺寸数据进行训练带来了多项实质性优势。首先,Sora模型展现了前所未有的采样灵活性。它不仅能够生成符合1920x1080全高清宽屏分辨率的视频,也能适应竖屏模式下的1080x1920分辨率,甚至涵盖其间的所有比例。这种特性赋予了Sora直接针对不同显示设备及应用场景原生比例的内容创作能力。此外,通过同一模型,用户能够在全分辨率输出之前便捷地制作低分辨率的原型内容,大大提升了内容迭代和创新的速度。其次,Sora团队观察到以未经裁剪的原始纵横比训练Sora对于视频画面的框架结构和整体构图有着显著改进作用。为了证明这一点,Sora团队对比了Sora与那些在训练阶段强制将所有视频素材裁剪成统一正方形比例的模型。实验结果显示,基于正方形裁剪训练的模型在某些情况下可能会产生主体不完整或者构图失调的视频帧。相反,Sora由于保持了原始画面比例,在生成视频时能够更精准地捕捉和再现主体及其环境关系,从而获得更为合理且观感舒适的视频构图效果。

语言理解与字幕训练能力

在构建一个文本到视频合成系统的过程中,依赖于大量的带有关联文本字幕的视频资源作为训练数据。借鉴了DALL·E 3中所采用的重新字幕技术理念,我们首先精心训练了一个具备高度描述性能力的自动字幕生成模型。该模型被用于为整个训练集中的每一个视频自动生成详尽而精确的文本描述,这一过程极大地丰富了视频数据的语义表达维度。研究发现,通过运用这些高度描述性的视频字幕进行训练,不仅能够显著提升合成视频在文本内容上的忠实度,还能在整体视觉质量和叙事连贯性方面得到明显改善。如同DALL·E 3的工作原理一样,在Sora系统中同样整合了GPT系列模型的能力,将用户提供的简洁提示转化为更具细节和情境的长篇幅字幕描述。这样一来,当这些扩展后的字幕输入到视频生成模型时,Sora就能够依据用户的初始提示精确无误地创造出高质量的视频内容,确保每一帧都紧密贴合用户的创意需求。

通过图像输出视频生成

Sora 系统进一步展示了其灵活性和创造性,不仅限于基于文本的指令,还能接受包括现有图像或视频片段在内的多元输入形式。这种特性赋予了Sora一系列强大的图像与视频编辑功能,比如创作出连续流畅的循环视频效果,或者将静态图像栩栩如生地转变为动态动画,甚至能够根据需求实时伸展视频的时序结构,无论是向前延展情节还是向后追溯动作,都能实现自然且富有艺术感的时空延伸。

对于生成的视频片段,Sora 特别擅长将其在时间维度上进行拓展,无论是正向延续还是逆向回溯,均能保证视频内容衔接得天衣无缝,达成宛如镜面反射般的完美循环播放体验。在视频到视频的编辑领域,Sora 利用先进的扩散模型技术,实现了基于文本提示的各种创新编辑手法。

尤其值得一提的是,Sora 可以巧妙地在两个迥异主题和场景的视频之间进行平滑过渡和融合,通过插值技术将两者间的差异逐步弥合,最终生成一段看似浑然一体的视频,实现在不同故事线或视觉元素之间的无缝衔接。这样的功能不仅提升了内容创作的可能性,也极大地拓宽了多媒体艺术表现的边界。

图像生成能力

Sora 的强大之处还体现在它能够从原始的高斯噪声基础出发,在时间维度上的单帧空间网格中精心构造,进而生成高质量的图像内容,分辨率可达到惊人的 2048x2048 像素级别,展现出无尽的视觉创造力。

在大规模训练过程中,Sora 模型发展出了众多引人注目的内在模拟机制,这些机制使得它能够模仿现实世界的复杂行为和情境,而不局限于任何特定的3D结构或物体类别。这一现象揭示了模型在模拟学习方面的深刻自组织能力和潜在的普适性。

其中一项关键特征是3D空间一致性,Sora 不仅能生成静止图像,更能制作包含动态摄像机运动的视频序列。当摄像机视角发生改变,包括移动和旋转时,画面中的人物及场景元素都能够按照真实的三维空间逻辑同步变动。

另外,Sora 在处理长视频生成时展现出了卓越的时间一致性,即远程相干性和物体持久性。即使面对诸如人物暂时被遮挡或离开画面再回归等情况,Sora 大多数时候仍能准确地维持时间跨度内的连贯性和同一角色的外观一致性。

 

Sora003

更令人称奇的是,Sora 甚至能够模拟出与虚拟世界的交互行为,例如,它可以描绘一位艺术家在画布上挥毫泼墨,每一笔都会在后续的视频中留下可见的痕迹;或者展示一个人物享用食物,如汉堡,会随着时间和动作的推进留下明显的食用痕迹。

此外,Sora 还能够涉足数字化模拟领域,比如在视频游戏中模拟玩家的行为和环境反馈。举例来说,通过恰当的标题提示,Sora 能够在无需额外训练的情况下理解并模拟《我的世界》这类游戏的玩法,同时以高度逼真的方式渲染游戏世界及其动态变化。

这些不断涌现的功能昭示着视频生成模型的持续进化潜力,预示着未来可能打造一个既能精确模拟物理世界实体行为又能生动再现数字世界互动进程的高性能仿真平台,为跨现实与虚拟边界的深度探索开启了新的前景。

最后结论

Sora006

(图像来源于openai 显示了Sora 所理解的玻璃破碎)

Sora 目前作为模拟器表现出许多局限性。例如,它不能准确地模拟许多基本相互作用的物理过程,例如玻璃破碎。其他交互(例如吃食物)并不总是会产生对象状态的正确变化。我们在登陆页面中列举了模型的其他常见故障模式,例如长时间样本中出现的不连贯性或对象的自发出现。Sora 今天所拥有的能力表明,视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的强大模拟器的一条有前途的道路。

THE END