分享好友 最新动态首页 最新动态分类 切换频道
OpenAI最大“期货”Sora开放使用,面临近20个竞争对手挑战
2025-10-19 12:02

图片

当地时间周一,OpenAI宣布正式向用户开放AI视频生成模型Sora,此时距离OpenAI首次公开展示Sora已过去大约10个月。据介绍,Sora将于当天晚些时候向美国及其他市场的ChatGPT付费用户开放Sora Turbo版本,这是一个生成速度更快的版本。

“Sora为模型理解和模拟现实世界提供了一个基础,我们相信这个能力将是实现AGI(通用人工智能)路上的一个重要里程碑。”OpenAI表示。有用户则在社交媒体上表示,Sora的服务器已经太过繁忙,出现无法注册的情况。

此次Sora新增了一些功能,让用户有更多工具来控制视频。不过,此次公开给付费用户使用的Sora Turbo版本生成时长最多20秒,而非Sora首次公开展示时的1分钟。记者了解到,视频时长较短还是视频模型面临的一个难点,其背后与视频延续性能力不足有关。

Sora新增功能

此次Sora展示了一些新功能,包括用户可使用Remix工具可以替换、删除或重新设计视频中的元素。此外,用户还可以找到最佳的帧并在此基础上扩展成一个场景,还可以在时间轴上编辑视频的独特序列、使用Loop工具剪辑并要求Sora生成无缝衔接的重复视频、将两个视频合并为一个无缝衔接的视频、创建独特风格。

这些新功能让Sora在用户手中变得更加可控。据OpenAI展示的案例,用户可以要求视频中的门打开、将图书馆替换成宇宙飞船;将一个飘雪的视频和一个花朵降落的视频合并在一起,就会出现花朵与雪花同时降落、最后变成只有花朵降落的一段视频,过渡自然;将花朵开放闭合的视频重复,花朵将会持续重复开放闭合的动作,将翻滚海浪的视频重复,则会出现一个不断涌动的海浪,这些重复的视频不会出现视频间机械拼接的迹象;将大象和犀牛行走的画面换个风格,则能变成黑白风格,或者变成纸工艺大象和犀牛行走的画面,或者更换他们所处的背景。

图片

OpenAI表示,Sora Turbo还是一个早期版本,它可以通过输入文本、图像和视频转化为视频输出,视频分辨率可达1080p,最长生成时长是20秒。技术上,Sora是一个Diffusion(扩散)模型,被赋予了许多帧的预见能力,OpenAI表示,现在已经解决了一个具有挑战性的问题,即当某个主题暂时消失在画面中时,视频主题依然不变。

Sora与GPT模型类似,也采用了Transformer架构。此外,Sora还使用了DALL·E 3的重现技术,该技术能为视觉训练数据生成高度描述性的词,使模型能更贴合用户的文字指令。OpenAI表示,当Sora基于一个静止图像生成视频时,能精确地将图像内容动画化,并关注里面的小细节,也能获取现有的视频并填充视频中缺失的帧。

“正如我们在2月的技术报告中描述的,Sora从大语言模型中获得灵感,这些模型通过在互联网规模的数据基础上训练来获得能力。大语言模型的成功一定程度上得益于用token(词元)统一了各种数据形式,在Sora中,我们也考虑了视觉生成模型如何继承以上优点,类似于大语言模型预测下一个token,Sora能生成visual patches(视觉补丁)。我们先将视频压缩到一个较低维的空间,将其分解为时空补丁,再将视频转化为补丁。”就技术原理,OpenAI解释。

OpenAI还介绍了Sora训练的数据来源。来源包括公开可用的数据,主要来自机器学习数据集和通过网络爬虫技术收集的数据,此外,OpenAI还与Shutterstock$Pond5等厂商合作以获取非公开数据,并用到了来自AI训练者、红队测试成员和员工的反馈数据。

当地时间周一晚些时候,Sora Turbo版本已开放给付费用户使用。目前已有OpenAI员工在社交媒体上展示了自己创作的视频,例如生成古人骑马打战、古代黑白街景的20秒视频,这些画面看起来有足够的细腻度,也有特写、中景和远景的镜头切换,不过,仍有一些不合理之处。

以古人骑马打战的视频为例,一开始画面还比较合理,人物身着古代服饰并举着剑,马匹奔跑前进,不过,到第11秒时突然有一个人无缘由地从马上摔下,画面上还出现了一个人骑马往另一个方向走。

图片

艺术家Boris Eldagsen也在社交媒体上展示了他此前测试Sora时制作的视频。视频中梳着油头的人物一边跳舞一边用量尺丈量东西,镜头语言丰富,量尺则出现了各种姿态,有时会长在人物的身上,该艺术家该视频有“对商业术语的卡夫卡式解构”。

也有用户在社交平台上分享了他如何使用Sora将两个视频融合在一起的功能。该用户用了一个俯拍城堡的视频和一个人物在林间奔跑的视频,融合后,可以看到镜头下降到一条林间小路上,远处看得到城堡,近处看得到人物在奔跑,过渡真实,不足之处则在于人物的身高一开始与树木几乎齐平,然后迅速下降,有坠落的感觉。

图片

Sora与其他模型差距多大?

推出这些方便用户编辑的工具背后,OpenAI表示,今年2月以来,OpenAI就与来自60多个国家的数百名视觉艺术家、设计师和电影制作人合作,以便获得关于如何改进视频、帮助创意行业专业人士创作的反馈。不过,记者留意到,此前Sora展示的视频出现了对物理规律的违背,例如酒杯摔下并不会碎,而此次Sora更新并未专门谈及在遵循物理规律方面的改进。

时长上看,相比今年2月Sora首次公开展示时的1分钟生成视频时长,此次公开给付费用户使用的Sora Turbo版本可生成的最长时长则是20秒。能使用Sora Turbo的用户是ChatGPT Plus订阅用户和ChatGPT Pro订阅用户,其中ChatGPT Plus订阅用户可以每月生成50个低分辨率视频,单个视频时长最长5秒,只有ChatGPT Pro订阅用户才能无限制生成高分辨率视频,时长最长20秒。而ChatGPT Pro的订阅费颇高,达到每月200美元。

此次Sora Turbo没有开放很长的生成时长,且收费较高,可能是算力成本的因素。一名视频生成业内人士告诉记者,Sora此前公开展示后之所以没有很快开放公众使用,一个可能原因就是推理成本太高,视频生成模型不能跟文本模型一样公开给用户免费使用,同时,视频生成模型训练成本也比文本模型高数倍以上,商业模式还待完全打通。

此外,记者了解到,视频生成模型要生成效果较好、时长较长的视频,技术上也存在卡点。“将视频生成时长做长是一个纯算力和数据问题,当时长增加一倍时,算力呈现平方级上升,所以将时长做太长并不划算。如果不考虑算力原因,视频时长可以做得很长,但视频效果退化会越来越严重,业界主流的模型时长都是五六秒。”另有视频大模型技术人员告诉记者。

Sora今年2月公开展示Sora后,在业界引起了视频大模型热潮。从Sora的竞争产品上看,据12月初腾讯混元团队展示的一张文生视频模型效果评估表,包括腾讯混元视频生成、Luma1.6、GEN-3 alpha和2个国内模型在内,这5个模型的效果总体评分都在24%~42%之间,得分都不算高。Sora与业界已有的其他产品之间,差距有多大?

“我看了一些Sora的视频案例,效果比较好,但貌似与其他视频模型之间的距离也没有大到代际差距。”新浪微博新技术研发负责人张俊林告诉记者,目前视频模型的难点还是长视频的一致性,就是时间长了之后如何让角色和背景表现一致。据不完全统计,目前已发布或已在内测的国内外视频生产产品已有Sora、Gen3、Luma、Pika、即梦、可灵、混元、通义万相、video-1、清影、PixVerse、Vidu等近20个。

从技术路线上看,多名视频模型业内人士都告诉记者,包括Sora在内,业内的视频生成路径基本收敛到Tranformer+Diffusion,表现为这两种架构融合的DiT架构或类DiT架构。有业内人士认为,沿着这条路径走下去,要做出效果更好的模型需要比拼资金实力,除此之外,算法本身不算成熟,也有继续创新的空间。

(本文来自第一财经)
最新文章
国家级海口知识产权保护中心揭牌运行|国家知识产权局|专利_网易新闻
9月30日,海口市知识产权保护中心(以下简称海口中心)正式揭牌并投入运行,标志着该中心正式纳入全国知识产权快速协同保护工作体系,海南迈出构建全链条知识产权保护体系、服务自贸港创新驱动发展的关键一步。自2024年8月国家知识产权局批复
广州1比1复刻大牌高仿帽子-仿真棒球帽子厂家-「帽子」-马可波罗网
广州1比1复刻大牌高仿帽子-仿真棒球帽子厂家 (无需打开.直接加 奢侈品卫信:595256703)高仿眼镜如果要买就一定要买到很真的,不然一看就是防的或是假的,这种就没有意思了 高端复刻墨镜高端复刻手表, 大厂定制,超a货手表,鞋子,包包,服
上海浦东引领区投资中心增资至200亿元_腾讯新闻
人民财讯1月13日电,企查查APP显示,近日,上海浦东引领区投资中心(有限合伙)发生工商变更,出资额由50亿元增至200亿元。企查查信息显示,该企业成立于2022年,经营范围为以自有资金从事投资活动,由上海浦东创新投资发展(集团)有限公
关于深化移风易俗 倡树文明新风的倡议书|祭扫|家风_网易新闻
广大居民朋友们:为进一步加强乡风文明建设,深化移风易俗,自觉抵制陈规陋习,弘扬时代新风,积极营造文明健康、向上向善的社会氛围。固安县文明办发出如下倡议:一、抵制高额彩礼,树立婚恋新风。树立正确婚恋观,立足双方经济实际,坚决
上海多区陆续发布:致全体居民的一封信_腾讯新闻
连日来,上海徐汇、黄浦、普陀、嘉定、奉贤陆续发布致全体居民的一封信,提示注意冬春时节消防安全。徐汇区▽徐汇区全体居民朋友们:新春将至,为切实保障全区居民的生命财产安全,营造整洁有序、平安祥和的居住环境,倡导“人人关注楼道安
妙曼普洱茶手工沱生茶:精选云南古树,传统工艺,醇厚回甘,品味自然之韵。
妙曼普洱茶手工沱生茶:精选云南古树,传统工艺,醇厚回甘,品味自然之韵。最近天气一热感觉天天都像在蒸,喝啥都没味儿感觉嘴巴里全是铁锈味儿,emo到不行,朋友圈里有个茶友发了个视频,说是喝了一种叫“妙曼普洱茶手工沱生茶”的茶,看
郴州丽景房地产开发郴江佳苑二手房天下,郴州二手房产出售-2025郴房网
郴州丽景房地产开发郴江佳苑二手房天下,郴州二手房产出售郴州丽景房地产开发打造的郴江佳苑,是郴州二手房市场的一颗明珠,这里环境优美交通便利,配套齐全是许多家庭安家的首选,小区绿化率高楼间距宽敞采光通风俱佳,居住舒适度有口皆碑
66载匠心筑药!黄海制药以“双特色双引擎”书写慢病管理与海洋创新新篇|医药|黄海汽车|创新药_网易新闻
创立于1959年的青岛黄海制药有限责任公司,作为扎根青岛66年的本土骨干药企,始终以药品制剂研发、生产和销售为核心,凭借在缓控释技术与海洋生物医药领域的深耕突破,跻身中国医药工业百强,成为国家火炬计划重点高新技术企业,以“四高慢
辛丁知产参与2025年全市知识产权服务机构座谈会 共话行业高质量发展新路径|专利|知识产权保护|专利代理_网易新闻
2025年3月6日,东营市知识产权保护中心组织召开“2025年全市专利服务机构座谈会”,山东辛丁知识产权代理有限公司(以下简称“辛丁知产”)作为东营市知识产权服务领域代表机构受邀参会,与全市十余家家专利代理机构共同探讨知识产权行业发
廊坊:打造京津冀周末休闲旅游首选目的地|文旅|度假区|明珠_网易新闻
文安华美胜地旅游度假区廊坊,地处京津雄“黄金大三角”核心腹地,素有“京津走廊明珠”之称。这里历史文化资源丰富,自然景观与人文情怀交融;这里既有北方古镇的厚重肌理,又有现代都市的活力脉搏。乘坐游船循着历史的河道,饱览运河风光
相关文章
推荐文章
发表评论
0评