简单百科
Sora

Sora

Sora，是指OpenAI在2024年2月16日发布的首个文本生成视频模型。为全方位展示Sora的功能，OpenAI同时发布了48个由Sora直接生成、未经修改、长度不等（9秒~60秒）的视频。于北京时间12月10日正式推出。

Sora继承了Dall·E-3的画质和遵循指令能力，可以根据用户的文本提示快速制作长达一分钟的高保真视频，还能获取现有的静态图像并从中生成视频。该模型能够理解复杂场景中不同元素之间的物理属性及其关系，从而深度模拟真实物理世界，生成具有多个角色、包含特定运动的复杂场景。

Sora的发布使内容创作领域的专业难度降低，作为实现通用人工智能（AGI）的重要里程碑，其问世标志着人工智能在理解真实世界场景并与之互动的能力方面实现了重大飞跃。

行业背景

OpenAI在大模型领域的探索

OpenAI是由萨姆·奥尔特曼、埃隆·马斯克等人于2015年12月11日创立的一家人工智能公司。2022年11月，OpenAI推出了聊天机器人ChatGPT，该产品展现出了人工智能对比过去在文字理解力和逻辑能力上的超越。推出后仅两个月，用户活跃量便达到上亿规模。ChatGPT这一现象级产品的推出对AIGC（Artificial Intelligence Generated Content，人工智能生成内容）具有里程碑意义，引领了AIGC领域的全新变革。随后，OpenAI的开发重点又逐步过渡到图像的生成。2021年1月5日，OpenAI研究并开发了连接文本和图像神经网络CLIP和文本创建图像神经网络Dall-E。2022年4月6日，OpenAI发布新的人工智能系统Dall·E-2。

视觉算法行业进步

2023年至2024年初，META、谷歌等科技企业陆续发布类似文本生成视频的AI模型。Meta为Facebook和Instagram推出两款基于AI的图像编辑工具，分别是“Emu Edit”和“Emu Video”，适用领域包括照片和视频，Emu Edit模型仅用文字指令就可以准确编辑图像。谷歌研究院推出了Lumiere文生视频”扩散模型，主打采用自家开发的“Space-Time U-Net”基础架构，能够一次生成“完整、真实、动作连贯”的视频。人工智能初创企业Runway也在开发相应产品来帮助制作视频。此外，Pika、HeyGen等AI文生视频应用陆续上线，均验证了多模态技术的不断进步与成熟。视觉算法在泛化性、可提示性、生成质量和稳定性等方面的突破已推动技术拐点到来以及爆款应用出现，3D资产生成、视频生成等领域受益于扩散算法成熟。但数据与算法难点多于图像生成，考虑到LLM对AI各领域的加速作用以及已出现较好的开源模型，视觉算法行业在2024年可能取得更大的发展。

发展历程

模型发展

推出Dall·E

2021年1月，OpenAI推出Dall-E，Dall-E是一个可以根据书面文字生成图像的人工智能系统，该名称来源于著名画家达利（Dalí）和机器人总动员（Wall-E）。该系统可以根据简单的描述创建极其逼真和清晰的图像，精通各种艺术风格，包括插画和风景等。它还可以生成文字来制作建筑物上的标志，并分别制作同一场景的草图和全彩图像。

Dall·E-2发布

2022年4月6日，OpenAI发布人工智能系统Dall·E-2，它可以从文本描述中将概念、属性和样式组合起来，创造出原创、逼真的图像和艺术作品，AI绘画技术也随之崭露头角。

ChatGPT面世

2022年11月，OpenAI推出了聊天机器人ChatGPT，它能够模拟人类的语言行为，与用户进行自然交互，推出后两个月的用户活跃量达到了上亿规模。除了流畅地与用户对话，ChatGPT还能写诗、撰文、编码，用户可以用它翻译、改错别字、debug（计算机程序纠错）等，显示出人工智能从只能解决单一领域问题，向解决多领域问题的转变。

推出GPT-4语言模型

2023年3月14日，OpenAI为聊天机器人ChatGPT发布了GPT-4语言模型。GPT-4是一个能够接收图像和文本输入，发出文本输出的大型多模式模型，可为ChatGPT和新Bing等应用程序提供支持。多模态的GPT-4还可以生成、编辑具有创意性或技术性的文章，在高级推理方面的表现超过其前代产品。

Dall·E-3问世

2023年9月21日，OpenAI公司开发的文生图AI工具迎来了第三个版本Dall·E-3，Dall·E-3进一步优化了生成逻辑，让生成的效果更为准确、优秀，并且直接内置到ChatGPT中。相比以往系统，Dall·E-3更能理解细微差别和细节，让用户更加轻松地将自己的想法转化为非常准确的图像。

发布Sora

2024年2月16日凌晨，OpenAI发布了首个文生视频模型Sora，展示了48个由Sora模型生成的视频，包括行人在日本街头行走、狗在雪地中玩耍、中国龙年舞龙等丰富场景。“Sora”源自日语中的“天空”一词。OpenAI的技术团队包括蒂姆·布鲁克斯和比尔·皮布尔斯等开发者认为，选择这一名字是因为它“唤起了无限创造潜力的想法”。

OpenAI表示，Sora建立在过去对Dall-E和GPT模型的研究基础之上，继承了Dall·E-3的画质和遵循指令能力，可以通过用户的文本提示生成真实和想象的场景，生成的单个视频时长为1分钟以内，能创建有众多人物和背景、包含特定运动的复杂场景。

2024年2月20日，Sora系统负责人在社交媒体发布招聘广告，并附上了一条"花瓣成虎"视频。在Sora亮相后，该团队又陆续公布了不少新视频，包括多机位画面、视频融合等。2024年12月8日，OpenAI发布了Sora最新生成视频，时长达1分18秒，其内容为身穿复古时装的人们在广场跳舞。

推出Sora

Sora于北京时间12月10日正式推出。ChatGPT会员可直接使用Sora Turbo，Plus用户（月费20美元，约合人民币145元）每月50次生成配额，支付每月200美元的Pro用户享无限慢速模式和500次快速通道。

产品功能

优点

功能概述

Sora是视觉数据的通用模型，能够严格根据用户输入的文本描述，准确理解所描述事物在现实世界中的存在方式，生成不同时长、长宽比和分辨率的高清视频和图像，视频时长最多可达一分钟（Pika等AI视频工具还在突破几秒内的连贯性）。其生成视频可包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色，特定类型的动作，视觉风格前后保持一致。例如，Sora可以制作时尚女性走在霓虹闪烁的东京街头的视频、雪地里的巨型长毛象视频，甚至是太空人冒险的电影预告片。Sora还可以生成可变大小的图像，最高可达2048 × 2048分辨率。

支持现有视频输入

Sora支持现有视频输入并对其进行扩展或填充缺失的帧，这使其能够执行广泛的视频编辑任务，从而创建完美的循环视频、向前或向后扩展视频等。比如，基于Dall·E-3图像生成视频，从一个生成的视频片段开始向前/向后扩展视频，编辑转换视频的风格/环境，将两个输入视频无缝衔接在一起。

具备新兴的仿真能力

Sora可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转，人物和场景元素在三维空间中始终如一地移动。Sora经常能够有效地为短期和长期依赖关系建模，可以在单个样本中生成同一角色的多个镜头，在整个视频中保持其外观一致。

该模型有时可以用简单的方式模拟影响世界状态的行为，例如，画家可以在画布上留下新的笔触，随着时间的推移，或者一个人吃汉堡时留下咬痕。在模拟数字世界方面，Sora能够模拟人工过程，比如视频游戏，可在高保真度渲染世界及其动态的同时，用基本策略控制《我的世界》中的玩家。

静态图像生成视频

Sora模型能够获取现有的静态图像并从中生成视频，准确地让图像内容动起来并关注小细节。该功能可通过在一个时间范围为一帧的空间网格中排列高斯噪声块来实现。

缺点

Sora的局限性在于，它可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系。例如，在文本描述为“五只灰狼幼崽在一条偏僻的砾石路上互相嬉戏、追逐”的视频画面中，狼的数量会变化，一些狼会凭空出现或消失。该模型还可能混淆提示的空间细节，例如混淆左右，并且可能难以精确描述随着时间推移发生的事件，例如遵循特定的相机轨迹。如提示词“篮球穿过篮筐然后爆炸”中，篮球没有正确被篮筐阻挡。

OpenAI方面在《作为世界模拟器的视频生成模型》技术报告中表示，Sora作为一个模拟器，表现出许多限制，它并没有准确地模拟许多基本互动的物理效应，比如玻璃破碎。吃食物之类的互动不总是产生正确的物体状态变化。还有在长时间样本中发展的不连贯性或物体的自发出现。对于这些问题，多位人工智能领域人士表示，皆因概率模式的逻辑硬伤所致。

技术特点

多帧预测与生成

Sora是一个扩散模型，它从类似于静态噪声的视频开始，通过多个步骤逐渐去除噪声，视频也从最初的随机像素转化为清晰的图像场景，其能够一次生成多帧预测，确保画面主体在暂时离开视野时仍保持一致。

视觉数据转为Patches

研发团队发现patches是训练生成各种类型视频和图像的模型的可扩展且有效的表示。在更高层面上，Sora首先将视频压缩到较低维的潜在空间，然后将表示分解为时空patches，从而将视频转换为patches。通过这种统一的数据表示方式，可以在比以前更广泛的视觉数据上训练模型，涵盖不同的持续时间、分辨率和纵横比。

视频压缩网络

研发团队训练了一个降低视觉数据维度的网络。该网络将原始视频作为输入，并输出在时间和空间上压缩的潜在表示。Sora在这个压缩的潜在空间中接受训练，而后生成视频。团队还训练了相应的解码器模型，将生成的潜在表示映射回像素空间。

用于视频生成的缩放Transformer

Sora采用与GPT模型相似的Transformer架构，这使得模型具有很强的扩展性，可以有效地缩放为视频模型。Transformer架构能够处理长序列数据，并通过自注意力机制捕捉数据中的依赖关系，从而提高模型的生成能力。但为了解决Transformer架构在长文本和高分辨率图像处理上的问题，扩散模型采用更可扩展的状态空间模型（SSM）主干替代了传统的注意力机制，从而减少了算力需求，并能够生成高分辨率图像。

语言理解

训练文本到视频生成系统需要大量带有相应文本字幕的视频。研究团队将Dall·E-3中的重字幕（re-captioning）技术应用于Sora。具体来说，研究团队首先训练一个高度描述性的字幕生成器模型，然后使用它为训练集中所有视频生成文本字幕。研究团队发现，对高度描述性视频字幕进行训练可以提高文本保真度以及视频的整体质量。与Dall·E-3类似，研究团队还利用GPT将简短的用户prompt转换为较长的详细字幕，然后发送到视频模型。这使得Sora能够生成准确遵循用户prompt的高质量视频。

原生规模训练

Sora采用“原生规模训练”，过往的图像和视频生成通常会将视频调整为标准大小，但这样会失去视频的原始长宽比和细节。在原始大小的数据上进行训练一方面可达成采样的灵活性。Sora可以采样宽屏1920x1080p视频、垂直1080×1920视频以及介于两者之间的所有视频。这让Sora可直接以不同设备的原始宽高比为其创建内容。它还支持在生成全分辨率的内容之前，以较小的尺寸快速创建内容原型——所有内容都使用相同的模型。另一方面，在视频的原始长宽比上进行训练可以改善构图和框架。研究团队将Sora与其模型的一个版本进行比较，该版本将所有训练视频裁剪为方形。在正方形裁剪上训练的模型有时会生成仅部分显示主题的视频。相比之下，来自Sora的视频有改进的帧。

产品研发

研发团队

此外，Clarence Wing Yin Ng、Rohan Sahai、Ryan O'Rourke、Troy Euhman、Yufei Guo均参与了Sora的研究。

研发轶事

技术基础

Sora团队共同领导者比尔·皮布尔斯（William Peebles）和谢赛宁合著的论文《Scalable diffusion models with transformers》被认为是Sora背后的重要技术基础之一。但谢赛宁否认参与Sora研发团队，仅称其合著论文起到一些作用。Sora发布时，图灵奖获得者、Meta首席科学家Yann LeCun表示，该研究论文因为“缺乏创新”，先被CVPR 2023拒绝，后来被ICCV 2023接收。

研发时间

谢赛宁在公开回应时称，比尔·皮布尔斯曾表示他们“每天基本不睡觉，高强度工作了一年”。

后续测试

安全性

在安全问题上，Sora已经包含了一个过滤器，阻止暴力、色情、仇恨，以及特定人物的视频输出。OpenAI借鉴2023年在Dall·E-3上实验的图像探测器，把C2PA技术标准（一种内容追溯方式，也可以理解为内容水印）嵌入到Sora的输出视频中，以鉴别视频是否为AI深度伪造视频。Sora还开发了鲁棒性的图像分类器，用于审查每个生成视频的帧，以帮助确保它在显示给用户之前符合相关使用政策。此外，Sora已交由Team Red进行安全测试，评估其潜在的危害或风险，期间特定用户会试图让平台失灵，产生不恰当的内容或出毛病。

创意性

OpenAI还邀请了一支专业创意人士团队测试Sora，用于反馈其在专业环境中的实用性，再根据这些反馈意见改进Sora，确保它能有效满足用户的需求。一些视觉艺术家、设计师和电影制作人也能获得Sora的访问权限，以此收集专业人士如何使用Sora的反馈。

社会影响

正面影响

价值意义

Sora模型可以深度模拟真实物理世界，在技术层面支持独立创作，使内容创作领域的专业难度大大降低，对需要制作视频的艺术家、电影制片人或学生来说，带来了无限可能。Sora的发布也使OpenAI成为最新一家采用生成视频技术的人工智能公司，促进了AI视频生成领域的技术发展与商业竞争，对现有主流平台如Runway、Pika和Stable Video Diffusion等的技术优势和行业地位造成冲击。同时，Sora是实现通用人工智能（AGI）的重要里程碑，其问世标志着人工智能在理解真实世界场景并与之互动的能力方面实现了重大飞跃。通过不断深入研究和发展Sora等先进模型，有望在未来实现更加智能、高效和多样化的视频生成与处理技术。

产业格局

估值上涨

Sora发布后，OpenAI的估值迅速上涨，且文生视频大模型会大幅推动人工智能基础设施的需求，英伟达、OpenAI、软银集团等巨头公司都被曝正在进行AI芯片的制造布局，英伟达也因大模型训练需要GPU算力支持而股价大涨。2月19日，Sora相关概念全线“爆发”，会畅通讯、当虹科技、万兴科技集团股份有限公司、易点天下、因赛集团、东方国信、数码视讯、华扬联众、国脉文化等股票均大幅上涨，多家公司回应称，会根据自身业务特点，在文生视频技术落地、Sora应用等方面寻找突破入口。

生产变革

Sora及同类产品会参与到改变信息生产和分发两大环节的进程中，PGC（专业生产内容）广泛采用AI工具辅助生产，UGC（用户生成内容）借助AI工具逐步替代PGC，AI生成视频工具的商业化会提速。Sora的诞生也为以后短视频平台的内容生产提供了更大的可能性。

负面影响

Sora可严格根据用户输入的提示词，制作长达一分钟的视频，并保持较高的视觉质量，其视频制作的专业程度可与人工媲美，这可能导致大量的影视等相关行业从业者失业。此外，Sora能够理解物体在现实世界中的物理规律和存在方式，其生成的数字视频的长度和质量超出了迄今为止所见的水平，部分视频已经难辨真假。Sora的应用将进一步加剧当代社会的后真相状况，真实与虚拟的边界进一步模糊，甚至完全被消解。

社会评价

国际

《麻省理工科技评论》评：OpenAI推出了一个令人惊叹的新型生成视频模型，Sora是2024年值得关注的科技发展趋势之一，文本到视频生成是一个热门的研究方向。

OpenAI科学家蒂姆·布鲁克斯（Tim Brooks）评：我们认为，建立能够理解视频的模型，并理解我们世界中所有这些非常复杂的交互，对于未来所有的人工智能系统而言，是非常重要的一步。

市场研究公司ABI research高级分析师里斯·海登（Reece Hayden）评：尽管多模态大模型并不新鲜，而且文生视频的模型已经存在，但OpenAI声称Sora具有的长度和准确性使其与众不同。这类人工智能模型可能会对数字娱乐市场产生重大影响，新的个性化内容将在各个渠道传播。

特斯拉CEO马斯克在Sora发布后回复了多条网友评论。有网友在评论Sora生成的60秒时尚女子在东京街头散步时称，“gg Pixar（皮克斯动画制作公司）”（编注：gg为Good Games缩写，代指“打得好，我认输” ），随后马斯克回复，“gg humans（人类）”。马斯克还称，通过AI增强的人类将在未来几年创造出最好的作品。

电影导演和视觉特效专家Michael Gracey评：以后或许不再需要一个由100名至200名艺术家组成的团队来用3年时间完成动画长片，像Sora这样的人工智能工具将使电影制作者能够仔细控制他们的输出，从头开始制作各种视频。

英伟达科学家DrJimFan评：Sora是一个数据驱动的物理引擎。它是对许多世界的模拟，无论是真实的还是幻想的。仿真器通过一些去噪和梯度数学来学习复杂的渲染、“直观”物理、长期推理和语义基础。如果Sora使用虚幻引擎5对大量合成数据进行训练，我不会感到惊讶，它也必须如此。

普林斯顿大学计算机科学教授Arvind Narayanan评：根据OpenAI于2024年2月15日发布的视频，Sora“似乎比任何其他视频生成工具都“先进得多”。这可能会导致‘深度伪造’视频，人们更难识别出人工智能生成的视频。

Meta首席AI科学家杨立昆评：针对OpenAI定位“世界模拟器”的观点，杨立昆表示，根据提示词生成的大部分逼真视频并不表明这样的AI系统理解物理世界，生成视频的过程与基于世界模型的因果预测完全不同。

伊利诺伊大学厄巴纳-香槟分校信息科学教授特德·安德伍德评：没想到在接下来的两到三年内还会出现这种持续、连贯的视频生成水平。

前记者、现斯坦福大学研究员巴西勒·西蒙评：在生成式人工智能方面有了可怕的飞跃，可以快速生成逼真的作品，这些工具可能会在选举中被滥用，公众将可能“不再知道该相信什么”。

国内

360创始人周鸿祎评：Sora的诞生意味着实现AGI（通用人工智能）可能从10年缩短至一两年。这次OpenAI利用它的大语言模型优势，让Sora实现了对现实世界的理解和对世界的模拟两层能力，这样产生的视频才是真实的，才能跳出2D的范围模拟真实的物理世界。

中国社会科学院法学研究所副研究员唐林垚评：从公布的视频来看，相较于其他视频类生成式AI，Sora在画面清晰度、内容流畅度、表意深度和精彩程度方面均有大幅提升。

中科深智创始人兼CEO成维忠评：Sora目前还存在因果关系推理问题，但这个问题不是Sora自身的问题，而是目前所有类似模型均存在的问题——文生视频过程中，模型搞不清楚人与环境的关系，搞不清楚前后逻辑关系等情况，该问题会导致模型在实际应用的时候，达不到使用者设想的完美程度，但从个人工具的角度来说，Sora已经比此前行业内推出的文生视频好很多了。未来随着训练的加强，该问题也会逐步得到解决。

专业摄影师孟凡评：Sora视频帧率较高，说明计算能力比较强，且影片的宽容度更高，如调色、细节表现、高速镜头展现等。在直观感受上，Sora 模型产出的视频运镜自然，物体运动符合规律，镜头间逻辑一致性好，但是Sora视频的逻辑性会差一点。

中国电影文学学会副秘书长杜红军评：编剧、导演不必因Sora的出现而担心，它是帮助实现影视效果的好工具，能够激发更多人的内容创造力。人类负责创意，AI负责创造，未来的电影创作将是概念片先行，可能不是在写剧本，而是“写”影像。

复旦大学教授、上海市数据科学重点实验室主任肖仰华评：意料之中也意料之外。所谓意料之中，是因为ChatGPT诞生之后，业内专家都普遍预测大模型一定会从纯文本的大模型向多模态发展。所谓多模态指的是图文混合、和视频相结合的这类大模型。意料之外是指当你亲眼看到了Sora生成的视频具备如此的逼真度，冲击力还是很激烈的。它对模拟物理世界的逼真程度，达到了空前的水平，是之前人工智能技术从来没有做到过的。

社会争议

虚假信息

Sora的发布引发了关于虚假信息传播的争议。其强大的图像视频生成能力达到了以假乱真的程度，这不仅改变了人们“眼见为实”的传统观念，还可能带来一系列社会问题，如视频证据真实性和有效性的验证难题。在Sora问世前已有多起利用AI伪造视频进行诈骗的案例，显示了AI生成视频可能被滥用于非法目的的风险。Sora的普及可能会进一步降低制作高质量虚假视频的门槛，加剧虚假信息的传播。尽管互联网平台已有针对特定类型虚假信息的检测机制，但对于复杂难辨的信息仍需加强深度分析和及时阻断。随着AI生成内容的激增，网络上的合成内容会大量存在，这要求不仅在技术上持续改进，还需建立更全面的治理体系来有效应对虚假信息的挑战。