2024年12月,OpenAI推出了Sora Turbo模型
Sora是OpenAI在2024年2月16日发布的首个文本生成视频模型.以下是对Sora大模型的具体介绍:
功能特点
- 强大的视频生成能力:能够根据用户的文本提示快速制作长达一分钟的高保真视频,继承了DALL·E-3的画质和遵循指令能力,可创建具有多个角色、包含特定运动的复杂场景,生成的视频可包含高度细致的背景、复杂的多角度镜头以及富有情感的多个角色,视觉风格前后保持一致.
- 支持现有视频输入:支持对现有视频输入并进行扩展或填充缺失的帧,从而能够创建完美的循环视频、向前或向后扩展视频等,还可编辑转换视频的风格/环境,将两个输入视频无缝衔接在一起.
- 新兴的仿真能力:可以生成带有动态摄像机运动的视频,人物和场景元素在三维空间中能始终如一地移动;能够模拟人工过程,比如在高保真度渲染世界及其动态的同时,用基本策略控制《我的世界》中的玩家;还可以从静态图像中生成视频,准确地让图像内容动起来并关注小细节.
技术特点
- 多帧预测与生成:Sora是一个扩散模型,它从类似于静态噪声的视频开始,通过多个步骤逐渐去除噪声,使视频从最初的随机像素转化为清晰的图像场景,且能够一次生成多帧预测,确保画面主体在暂时离开视野时仍保持一致.
- 视觉数据转为patches:研发团队发现patches是训练生成各种类型视频和图像的模型的可扩展且有效的表示。Sora首先将视频压缩到较低维的潜在空间,然后将表示分解为时空patches,从而将视频转换为patches。通过这种统一的数据表示方式,可以在比以前更广泛的视觉数据上训练模型,涵盖不同的持续时间、分辨率和纵横比.
- 视频压缩网络:训练了一个降低视觉数据维度的网络,该网络将原始视频作为输入,并输出在时间和空间上压缩的潜在表示。Sora在这个压缩的潜在空间中接受训练,而后生成视频,同时还训练了相应的解码器模型,将生成的潜在表示映射回像素空间.
- 用于视频生成的缩放transformer:采用与GPT模型相似的transformer架构,具有很强的扩展性,能有效地缩放为视频模型。其通过自注意力机制捕捉数据中的依赖关系,从而提高模型的生成能力,并且为解决transformer架构在长文本和高分辨率图像处理上的问题,扩散模型采用更可扩展的状态空间模型(SSM)主干替代了传统的注意力机制,减少了算力需求.
应用场景
- 影视制作:可辅助特效制作、剪辑和色彩校正,提高制作效率和质量,例如生成逼真的视觉效果、背景、爆炸、天气效果等,还能进行剧本分析与开发、预可视化、演员表演捕捉、面部替换与修复、语音合成与自动配音、音效和配乐生成等工作.
- 视频监控:能够实现实时监控、异常行为检测和犯罪预防,通过对视频内容的分析和理解,及时发现异常情况并发出警报.
- 内容推荐:视频平台可利用其分析用户行为和视频内容,实现个性化推荐,提高用户体验和内容曝光率,为用户提供更符合其兴趣的视频内容.
- 教育培训:能够创建交互式教学视频,实现个性化学习路径和评估,根据不同学生的学习进度和特点,生成相应的教学视频,提高教学效果.
- 新闻媒体:可实现自动化新闻制作和视频摘要,提高新闻报道的效率和覆盖面,快速生成新闻视频或对已有视频进行摘要提取,为新闻工作者提供便利.
版本更新
- 2024年12月,OpenAI推出了Sora Turbo模型,相较于初代Sora,Sora Turbo在视频生成速度上实现了飞跃,能够以更低的成本,轻松实现文本、图像或视频向视频的转化,且能同时生成四条10秒长的精彩视频,仅需72秒.
- Sora Turbo支持生成最高分辨率1080p、时长达20秒的视频,还能选择宽屏、竖屏和方形等不同画面比例,并且开发了新的交互界面,让用户能够通过文本、图像和视频等不同提示来生成内容,故事板(storyboard)工具还支持精确控制每一帧的输入.