分享好友 最新动态首页 最新动态分类 切换频道
OpenAI最大“期货”Sora开放使用,面临近20个竞争对手挑战
2025-10-19 12:02

图片

当地时间周一,OpenAI宣布正式向用户开放AI视频生成模型Sora,此时距离OpenAI首次公开展示Sora已过去大约10个月。据介绍,Sora将于当天晚些时候向美国及其他市场的ChatGPT付费用户开放Sora Turbo版本,这是一个生成速度更快的版本。

“Sora为模型理解和模拟现实世界提供了一个基础,我们相信这个能力将是实现AGI(通用人工智能)路上的一个重要里程碑。”OpenAI表示。有用户则在社交媒体上表示,Sora的服务器已经太过繁忙,出现无法注册的情况。

此次Sora新增了一些功能,让用户有更多工具来控制视频。不过,此次公开给付费用户使用的Sora Turbo版本生成时长最多20秒,而非Sora首次公开展示时的1分钟。记者了解到,视频时长较短还是视频模型面临的一个难点,其背后与视频延续性能力不足有关。

Sora新增功能

此次Sora展示了一些新功能,包括用户可使用Remix工具可以替换、删除或重新设计视频中的元素。此外,用户还可以找到最佳的帧并在此基础上扩展成一个场景,还可以在时间轴上编辑视频的独特序列、使用Loop工具剪辑并要求Sora生成无缝衔接的重复视频、将两个视频合并为一个无缝衔接的视频、创建独特风格。

这些新功能让Sora在用户手中变得更加可控。据OpenAI展示的案例,用户可以要求视频中的门打开、将图书馆替换成宇宙飞船;将一个飘雪的视频和一个花朵降落的视频合并在一起,就会出现花朵与雪花同时降落、最后变成只有花朵降落的一段视频,过渡自然;将花朵开放闭合的视频重复,花朵将会持续重复开放闭合的动作,将翻滚海浪的视频重复,则会出现一个不断涌动的海浪,这些重复的视频不会出现视频间机械拼接的迹象;将大象和犀牛行走的画面换个风格,则能变成黑白风格,或者变成纸工艺大象和犀牛行走的画面,或者更换他们所处的背景。

图片

OpenAI表示,Sora Turbo还是一个早期版本,它可以通过输入文本、图像和视频转化为视频输出,视频分辨率可达1080p,最长生成时长是20秒。技术上,Sora是一个Diffusion(扩散)模型,被赋予了许多帧的预见能力,OpenAI表示,现在已经解决了一个具有挑战性的问题,即当某个主题暂时消失在画面中时,视频主题依然不变。

Sora与GPT模型类似,也采用了Transformer架构。此外,Sora还使用了DALL·E 3的重现技术,该技术能为视觉训练数据生成高度描述性的词,使模型能更贴合用户的文字指令。OpenAI表示,当Sora基于一个静止图像生成视频时,能精确地将图像内容动画化,并关注里面的小细节,也能获取现有的视频并填充视频中缺失的帧。

“正如我们在2月的技术报告中描述的,Sora从大语言模型中获得灵感,这些模型通过在互联网规模的数据基础上训练来获得能力。大语言模型的成功一定程度上得益于用token(词元)统一了各种数据形式,在Sora中,我们也考虑了视觉生成模型如何继承以上优点,类似于大语言模型预测下一个token,Sora能生成visual patches(视觉补丁)。我们先将视频压缩到一个较低维的空间,将其分解为时空补丁,再将视频转化为补丁。”就技术原理,OpenAI解释。

OpenAI还介绍了Sora训练的数据来源。来源包括公开可用的数据,主要来自机器学习数据集和通过网络爬虫技术收集的数据,此外,OpenAI还与Shutterstock$Pond5等厂商合作以获取非公开数据,并用到了来自AI训练者、红队测试成员和员工的反馈数据。

当地时间周一晚些时候,Sora Turbo版本已开放给付费用户使用。目前已有OpenAI员工在社交媒体上展示了自己创作的视频,例如生成古人骑马打战、古代黑白街景的20秒视频,这些画面看起来有足够的细腻度,也有特写、中景和远景的镜头切换,不过,仍有一些不合理之处。

以古人骑马打战的视频为例,一开始画面还比较合理,人物身着古代服饰并举着剑,马匹奔跑前进,不过,到第11秒时突然有一个人无缘由地从马上摔下,画面上还出现了一个人骑马往另一个方向走。

图片

艺术家Boris Eldagsen也在社交媒体上展示了他此前测试Sora时制作的视频。视频中梳着油头的人物一边跳舞一边用量尺丈量东西,镜头语言丰富,量尺则出现了各种姿态,有时会长在人物的身上,该艺术家该视频有“对商业术语的卡夫卡式解构”。

也有用户在社交平台上分享了他如何使用Sora将两个视频融合在一起的功能。该用户用了一个俯拍城堡的视频和一个人物在林间奔跑的视频,融合后,可以看到镜头下降到一条林间小路上,远处看得到城堡,近处看得到人物在奔跑,过渡真实,不足之处则在于人物的身高一开始与树木几乎齐平,然后迅速下降,有坠落的感觉。

图片

Sora与其他模型差距多大?

推出这些方便用户编辑的工具背后,OpenAI表示,今年2月以来,OpenAI就与来自60多个国家的数百名视觉艺术家、设计师和电影制作人合作,以便获得关于如何改进视频、帮助创意行业专业人士创作的反馈。不过,记者留意到,此前Sora展示的视频出现了对物理规律的违背,例如酒杯摔下并不会碎,而此次Sora更新并未专门谈及在遵循物理规律方面的改进。

时长上看,相比今年2月Sora首次公开展示时的1分钟生成视频时长,此次公开给付费用户使用的Sora Turbo版本可生成的最长时长则是20秒。能使用Sora Turbo的用户是ChatGPT Plus订阅用户和ChatGPT Pro订阅用户,其中ChatGPT Plus订阅用户可以每月生成50个低分辨率视频,单个视频时长最长5秒,只有ChatGPT Pro订阅用户才能无限制生成高分辨率视频,时长最长20秒。而ChatGPT Pro的订阅费颇高,达到每月200美元。

此次Sora Turbo没有开放很长的生成时长,且收费较高,可能是算力成本的因素。一名视频生成业内人士告诉记者,Sora此前公开展示后之所以没有很快开放公众使用,一个可能原因就是推理成本太高,视频生成模型不能跟文本模型一样公开给用户免费使用,同时,视频生成模型训练成本也比文本模型高数倍以上,商业模式还待完全打通。

此外,记者了解到,视频生成模型要生成效果较好、时长较长的视频,技术上也存在卡点。“将视频生成时长做长是一个纯算力和数据问题,当时长增加一倍时,算力呈现平方级上升,所以将时长做太长并不划算。如果不考虑算力原因,视频时长可以做得很长,但视频效果退化会越来越严重,业界主流的模型时长都是五六秒。”另有视频大模型技术人员告诉记者。

Sora今年2月公开展示Sora后,在业界引起了视频大模型热潮。从Sora的竞争产品上看,据12月初腾讯混元团队展示的一张文生视频模型效果评估表,包括腾讯混元视频生成、Luma1.6、GEN-3 alpha和2个国内模型在内,这5个模型的效果总体评分都在24%~42%之间,得分都不算高。Sora与业界已有的其他产品之间,差距有多大?

“我看了一些Sora的视频案例,效果比较好,但貌似与其他视频模型之间的距离也没有大到代际差距。”新浪微博新技术研发负责人张俊林告诉记者,目前视频模型的难点还是长视频的一致性,就是时间长了之后如何让角色和背景表现一致。据不完全统计,目前已发布或已在内测的国内外视频生产产品已有Sora、Gen3、Luma、Pika、即梦、可灵、混元、通义万相、video-1、清影、PixVerse、Vidu等近20个。

从技术路线上看,多名视频模型业内人士都告诉记者,包括Sora在内,业内的视频生成路径基本收敛到Tranformer+Diffusion,表现为这两种架构融合的DiT架构或类DiT架构。有业内人士认为,沿着这条路径走下去,要做出效果更好的模型需要比拼资金实力,除此之外,算法本身不算成熟,也有继续创新的空间。

(本文来自第一财经)
最新文章
中国式婚恋的双向奔赴 《成家》的三重创作范式_腾讯新闻
  在电视剧创作领域,现实主义题材如何出新?行业剧怎么拍?一直是常说常新的话题。正在热播的电视剧《成家》,以中国社会中的家为故事基底,首次以婚介顾问为叙事视角,呈现当今时代形形色色的婚恋大观,透视现实生活的情感肌理,以婚恋
百度慧播星荣获DoNews 2025年度评选优秀应用奖
DoNews 2025年度评选正式揭晓,百度慧播星荣获“优秀应用奖”。 DoNews年度评选由DoNews主办发起,至今已举行5届评选活动,该评选主要面向企业,设为两大奖项——灵犀奖、灵锋奖,犀代表犀利、睿智,锋则代表锋芒、攀登顶峰,我们希望所有
北京城市副中心演艺新地标迎首演_腾讯新闻
人民网北京12月22日电 (记者李博)位于北京城市副中心台湖演艺小镇的LIVERSE音宇宙艺术中心北京旗舰店于12月20日正式开放,开业首场演出迎来谭咏麟“For You…ONLY”2025北京特别专场,带来经典流行音乐与科技完美融合的视听盛宴。 北京LIVE
小说、散文、诗歌……本土知名纯文学期刊《红岩》年度作品授予了它们_腾讯新闻
发布会现场探讨生命本质、人与自然关系的中篇小说《狼行无双》,关照人到中年婚姻生活、精神状态的短篇小说《去稻城》,还有诗歌《惊奇诗篇》……它们一起成为了本土知名纯文学期刊《红岩》的年度最佳。6月6日,《红岩》年度作品(2024)终
“我们犯了大错误”,车企一把手罕见认错
编译 | 杜咏芳编辑 | 黄大路设计 | 甄尤美来源 | 《法兰克福汇报》、Motor1、Carbuzz、路透社高管公开承认任期内出现重大战略失误,这一场景并不多见。但是,的前CEO奥博穆(Oliver Blume)却勇敢做出了这一举动。2026年1月1日起,奥博穆正
通安镇华通四区开展“玩转编程 快乐一夏”青少年创意编程课堂|摩天轮_网易新闻
近日,通安镇华通四区“玩转编程 快乐一夏”青少年创意编程公益课堂第一课正式开讲。本次活动以趣味项目“摩天轮”为主题,通过编程控制电机和矩阵灯,让青少年在动手实践中感受科技的魅力,吸引了辖区15名青少年积极参与。课堂上,孩子们
广东硬度计,广州硬度计,佛山硬度计
石家庄兰宇科技TH300里氏硬度计石家庄兰宇TH300便携式里氏硬度计是兰宇科技自主研发的一款硬度计。它依据里氏硬度测量原理,可以方便快捷地对多种金属材料进行测量,即刻显示硬度测量值的同时,可以在不同硬度制式间自由转换,性能稳定,全
龙江到锦州市货运部直达专线
金宇物流有限公司成立于2007年7月12日,公司始终以安全、快捷、重合同、守信用为顾客服务宗旨。公司一直以来力求成为各界厂商的好伙伴,不但保持有较高的安全系数,同时也步步更新,为各界厂商提供完善的运输服务。针对初创的物流小企业金
东呈集团首发酒店行业大模型及数字人矩阵|阿里云|酒店业_网易新闻
携手钉钉、阿里云,全面拥抱AI东呈集团宣布发布中国酒店业首个行业大模型——AI智慧酒店中枢及酒店行业Al Agent-AI数字人矩阵,由阿里云和钉钉提供技术支持。这也标志着东呈集团携手钉钉、阿里云,构建业内首个覆盖“营销-运营-服务-品控”
广西柳州获批建设国家级知识产权保护中心_腾讯新闻
原标题:柳州获批建设国家级知识产权保护中心7月11日,柳州市市场监督管理局(知识产权局)发布喜讯,国家知识产权局正式批复,同意柳州市开展国家级知识产权保护中心建设。此举将进一步完善柳州市知识产权保护体系,成为柳州知识产权创新
相关文章
推荐文章
发表评论
0评