【Sora 和之前 Runway 那些在架构上有啥区别呢?】

简单来说 Runway 是基于扩散模型(Diffusion Model)的,而 Sora 是基于 Diffusion Transformer。

Runway、Stable Diffusion 是基于扩散模型(Diffusion Model),扩散模型(Diffusion Model)的训练过程是通过多个步骤逐渐向图片增加噪点,直到图片变成完全无结构的噪点图片,然后在生成图片的时候,基于一张完全噪点的图片,逐步减少噪点,直到还原出一张清晰的图片。

文本模型像 GPT-4 则是 Transformer 模型。Transformer 则是一套编码器和解码器的架构,将文本编码成数字向量,然后解码的时候从数字向量还原出文本。

Sora 则是一个融合了两者的 Diffusion Transformer 模型。通过 Transformer 的编码器 - 解码器架构处理含噪点的输入图像,并在每一步预测出更清晰的图像版本。编码器负责对含噪点的输入进行编码,而解码器则负责生成更清晰图像的预测。

GPT-4 被训练以处理一串 Token,并预测出下一个 Token。Sora 不是预测序列中的下一个文本,而是预测序列中的下一个“Patch”。

在文本预测生成中,基本单位是 Token,Token 很好理解,就是一个单词或者单词的一部分。Patch 的概念相对不那么好理解,不过今天看到一篇文章,作者举了个很好的例子。

想象一下《黑暗骑士》的电影胶片,将一卷胶片绕在一个金属盘上,然后挂在一个老式电影院的投影机上。

你把电影胶卷从盘中展开,然后剪下最前面的 100 帧。你挑出每一帧——这里是小丑疯狂大笑,那里是蝙蝠侠痛苦的表情——并进行以下不同寻常的操作:

你拿起一把 X-acto 精细刻刀,在第一帧电影胶片上剪出一个变形虫状的图案。你像处理精密仪器一样小心翼翼地用镊子提取这片形似变形虫的胶片,然后安全地保存起来。之后,你处理下一帧:在接下来的胶片上切出同样位置、同样形状的变形虫图案。你再次用镊子小心地取出这个新的变形虫形状的胶片——形状与前一个完全相同——并将其精确地放置在第一个之上。你这样做,直到完成所有的 100 帧。

你现在有了一个色彩斑斓的变形虫,沿着 Y 轴扩展。这是一座可以通过投影机播放《黑暗骑士》的小片段的胶片塔,就好像有人在投影机前握着拳头,只让电影的一小部分影像从拳心通过。

然后,这座胶片塔被压缩并转化为所谓的“Patch”——一种随时间变化的色块。

Patch 的创新之处——以及 Sora 之所以显得如此强大——在于它们让 OpenAI 能够在大量的图像和视频数据上训练 Sora。想象一下从每一个存在的视频中剪出的 Patch——无尽的胶片塔——被堆叠起来并输入到模型中。

以前的文本转视频方法需要训练时使用的所有图片和视频都要有相同的大小,这就需要大量的预处理工作来裁剪视频至适当的大小。但是,由于 Sora 是基于“Patch”而非视频的全帧进行训练的,它可以处理任何大小的视频或图片,无需进行裁剪。

因此,可以有更多的数据用于训练,得到的输出质量也会更高。例如,将视频预处理至新的长宽比通常会导致视频的原始构图丢失。一个在宽屏中心呈现人物的视频,裁剪后可能只能部分展示该人物。因为 Sora 能接收任何视频作为训练输入,所以其输出不会受到训练输入构图不良的影响。

在结合前面提到的 Diffusion Transformer 架构,OpenAI 可以在训练 Sora 时倾注更多的数据和计算资源,从而得到令人惊叹的效果。

另外 Sora 刚发布视频时,能模拟出咖啡在杯子里溅出的液体动力学,以至于有人以为是连接了游戏引擎,但实际上 Sora 还是基于生成式模型,这是因为 Sora 在训练时,使用了大量的视频数据,这些视频中包含了大量的物理规则,所以 Sora 能够模拟出液体动力学。这类似于 GPT-4 在训练时,使用了大量的代码来作为训练数据,所以 GPT-4 能够生成代码。

重要论文:
《Scalable Diffusion Models with Transformers》

https://t.cn/A6KYFfkh

《Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution》

https://t.cn/A602O8Dq

原文:

《How Sora Works (And What It Means)》

https://t.cn/A6Y6k77y

问:Sora 和之前 Runway 那些在架构上有啥区别呢?

答:简单来说 Runway 是基于扩散模型(Diffusion Model)的,而 Sora 是基于 Diffusion Transformer。

Runway、Stable Diffusion 是基于扩散模型(Diffusion Model),扩散模型(Diffusion Model)的训练过程是通过多个步骤逐渐向图片增加噪点,直到图片变成完全无结构的噪点图片,然后在生成图片的时候,基于一张完全噪点的图片,逐步减少噪点,直到还原出一张清晰的图片。

文本模型像 GPT-4 则是 Transformer 模型。Transformer 则是一套编码器和解码器的架构,将文本编码成数字向量,然后解码的时候从数字向量还原出文本。

Sora 则是一个融合了两者的 Diffusion Transformer 模型。通过 Transformer 的编码器 - 解码器架构处理含噪点的输入图像,并在每一步预测出更清晰的图像版本。编码器负责对含噪点的输入进行编码,而解码器则负责生成更清晰图像的预测。

GPT-4 被训练以处理一串 Token,并预测出下一个 Token。Sora 不是预测序列中的下一个文本,而是预测序列中的下一个“Patch”。

在文本预测生成中,基本单位是 Token,Token 很好理解,就是一个单词或者单词的一部分。Patch 的概念相对不那么好理解,不过今天看到一篇文章,作者举了个很好的例子。

想象一下《黑暗骑士》的电影胶片,将一卷胶片绕在一个金属盘上,然后挂在一个老式电影院的投影机上。

你把电影胶卷从盘中展开,然后剪下最前面的 100 帧。你挑出每一帧——这里是小丑疯狂大笑,那里是蝙蝠侠痛苦的表情——并进行以下不同寻常的操作:

你拿起一把 X-acto 精细刻刀,在第一帧电影胶片上剪出一个变形虫状的图案。你像处理精密仪器一样小心翼翼地用镊子提取这片形似变形虫的胶片,然后安全地保存起来。之后,你处理下一帧:在接下来的胶片上切出同样位置、同样形状的变形虫图案。你再次用镊子小心地取出这个新的变形虫形状的胶片——形状与前一个完全相同——并将其精确地放置在第一个之上。你这样做,直到完成所有的 100 帧。

你现在有了一个色彩斑斓的变形虫,沿着 Y 轴扩展。这是一座可以通过投影机播放《黑暗骑士》的小片段的胶片塔,就好像有人在投影机前握着拳头,只让电影的一小部分影像从拳心通过。

然后,这座胶片塔被压缩并转化为所谓的“Patch”——一种随时间变化的色块。

Patch 的创新之处——以及 Sora 之所以显得如此强大——在于它们让 OpenAI 能够在大量的图像和视频数据上训练 Sora。想象一下从每一个存在的视频中剪出的 Patch——无尽的胶片塔——被堆叠起来并输入到模型中。

以前的文本转视频方法需要训练时使用的所有图片和视频都要有相同的大小,这就需要大量的预处理工作来裁剪视频至适当的大小。但是,由于 Sora 是基于“Patch”而非视频的全帧进行训练的,它可以处理任何大小的视频或图片,无需进行裁剪。

因此,可以有更多的数据用于训练,得到的输出质量也会更高。例如,将视频预处理至新的长宽比通常会导致视频的原始构图丢失。一个在宽屏中心呈现人物的视频,裁剪后可能只能部分展示该人物。因为 Sora 能接收任何视频作为训练输入,所以其输出不会受到训练输入构图不良的影响。

在结合前面提到的 Diffusion Transformer 架构,OpenAI 可以在训练 Sora 时倾注更多的数据和计算资源,从而得到令人惊叹的效果。

另外 Sora 刚发布视频时,能模拟出咖啡在杯子里溅出的液体动力学,以至于有人以为是连接了游戏引擎,但实际上 Sora 还是基于生成式模型,这是因为 Sora 在训练时,使用了大量的视频数据,这些视频中包含了大量的物理规则,所以 Sora 能够模拟出液体动力学。这类似于 GPT-4 在训练时,使用了大量的代码来作为训练数据,所以 GPT-4 能够生成代码。

有两篇论文:
《Scalable Diffusion Models with Transformers》https://t.cn/A6KYFfkh
《Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution》https://t.cn/A602O8Dq

包含更多专业细节。

顺便说一下,两篇论文好像都来自Google,并且似乎Sora项目是在这两篇论文发表后才启动的。

还有电影胶片+变形虫的例子来自《How Sora Works (And What It Means)》
https://t.cn/A6Y6k77y
译文:https://t.cn/A6Y6k772

本文收录于:https://t.cn/A6Y6k77L

我妈现在要把手机拿走了 又没法检查上传了、、okayyy my mom’s about to take her phone with her now so I can’t check on my uploads again and I will do the work that requires no checking such as checking on the news and gathering photos for my design sets and getting my content for later ready ,,, but yahhh definitely need to get funded so I can have my equipment all ready ,,, ohhh nice I saw Mr. Gates already niceeeee !!!! So sweet seeing all my bosses make me really happy ,,, okayyy I’m going to give back my mom her phone like now so she can go to the supermarket with it ,,, so I’ll see y’all in a little bit ,,, I still have about 16 sets from Mr. Musk alone and more from PayPal too cause I spot Mr. Musk posting how nice !!!! Love love love Mr. Musk and PayPal and all my bosses and their companies and everyone and their work !!!!


发布     👍 0 举报 写留言 🖊   
✋热门推荐
  • ​前天喝了酒不太舒适(已经又说一遍再也不喝酒了)昨天一整天都蔫巴巴儿的,吃了饼干、水果啥的都不对味儿,甚至感觉他们与胃不兼容,两方阵阵儿地在身体里闹脾气。浅吃两
  • 这是一个置顶ε=(´o`)这里墨镜,一个画画人lof/小红书/抖音/b站:墨小镜er进修中,不定期消失主二刺螈人,喜欢原耽,喜欢啥就画啥想搞一个oc故事#遗尘嚣
  •   军营是被军号叫醒的,无论什么季节,都是在早晨6点,军号就准时响起来,起床号有两段,8个音节,不紧不慢,至今我还记得。听到这号声,我们的第一反应就是跳下床,赶
  • !!
  • 可能是因为我带着套路的原因,一本书看到尾没有为真相感到的惊讶,而更多是为“白夜里行走”的唏嘘。”她把他视为自己世界里代替太阳的光,她对他的感情究竟是真的吗,我想
  • 谁都想自由的,如同电影般,做一些有意思、浪漫、美好的事情,但这个社会给我们的空间太小,压力太大,诸多问题背负在每个人身上,让我们没有机会去细细品味生活,清静的生
  • #悠塔[超话]# 招商#咨询:491555565# 瑜伽课程报名¥/储备资金永远能抵御外来风险你大可以看看我团队有多少女生十几二十岁出头月入5,6位数的微商所处
  • 该醒醒了! 所为何事 竟遭静波法师一记棒喝 总有一些人, 要么学佛学的稀里糊涂, 要么被忽悠的随波逐流。 针对于此, 静波法师一记棒喝 : 该醒醒了!
  • 因此佛教戒律中规定夏天期间,僧人关门静静地修炼,称为“夏日安居”。འགའ་ཤས་ཀྱིས་ཕྱོགས་ཞེན་དང་ཁ་ངོ་ཙམ་གྱི་དོན་དུ་དུས
  • 调查确定了以下事实:- 将居民从顿涅茨克地区被占领的城镇(如马里乌波尔市)强制转移到俄罗斯境内;- 2022 年 3 月 11 日,大约 100 名乌克兰公民(
  • 曾经一家三口的合照,妻子为了帮丈夫重塑信心,曾经把以前照片全部藏了起来。如今小伙子在妻子的呵护和关心下,已经完全接受了现实,开始了新的生活!
  • 电话订购热线:内地4001206618,澳门+853 28828818,香港+852 63336660。#中北快讯#睡什么,起来嗨[鲜花]跨年狂欢party我在
  • 昨天早上正在睡梦中妈妈敲开门说小电工,我的洗衣机坏了你快起来给我修修[裂开][裂开][裂开]她把卫生纸和money搅进去了[doge][doge][doge]心
  • 再砍了颗大水竹 学着划蔑月射手的特征就是心大,理想主义,不喜欢纠结过去,总想着未来会更好但是如果盘上火星被土星刑冲 又容易想的很美心思飘但是执行力不够月射手+
  • 一开始国王想偷老婆的东西也是因为老婆不满意他那么久才来看自己催眠他偷的,但俩人都不知道老婆离开小岛后会发生什么,原来“在一起”有物理范围限制,国王出征在外的时候
  • 离家数千里的愁思,并非不表露就真的不存在,正因如此,我才更应该激励自己,做好想做的、喜欢做的任何的事,因为我跨越千里来到此地,绝不是为了每天活在忙碌与混沌中,我
  • 前两天又发生这样状况,上了眼膏没有效果抱她去了医院,大夫让买消炎眼药水上两天再看,今早发现眼球有个白圈,整体变蓝,查了半天怀疑白内障,这个时间大夫也没醒,无人回
  •   “委员工作站设在阳光房,涉及18个界别的政协委员们在这里进行‘头脑风暴’共享单车治理、京张遗址公园改造、学院路文化打造等多场主题活动均在此萌芽、孕育、落地,
  • 微信/电话: 15844550349#花亦山心之月[超话]##花亦山心之月##同人# 【人心为蛊】鬼王世子“那花家世子,已成地府鬼王,幽冥之主”  私设有,算之
  • 刘也作为正能量爱豆,一直以身作则 赤诚善良希望通过自己的力量,去帮助更多需要帮助的人刘也粉丝与爱豆有着强烈的共情感跟随爱豆的步伐,致力于打造积极向上,团结热爱,