腾讯版Sora开源后被提速8倍!官方点赞并预告:下月上新图生视频
提速8倍!
速度更快、效果更好的混元视频模型——来了!
新模型仅用1分钟就能生成5秒长的视频,比之前提速8倍,步骤也从50步减少到了6步,甚至画面细节也更逼真了。
和普通速度的混元对比一下,原来50步才能生成1条视频,而现在新模型在相同的时间里可以生成8条.
再来看看和Sora的画面对比,可以看到Fast和Sora两者的效果都更逼真一些,衣服、水果和山峰的细节也非常清晰。
甚至在一些物理细节的理解上,Fast比Sora还强,比如下面拿取柠檬的视频:
更重要的是,Fast的代码也开源了,这下不用为Sora的订阅费和限额发愁了。
研究团队来自加州大学圣地亚哥分校(UCSD)Hao AI实验室,他们主要专注机器学*算法和分布式系统的研究。
混元*账号还特意发博感谢了他们:
有网友看完后直呼,混元才是最好的开源视频模型。
开创性的视频DiT蒸馏配方
团队是如何做到8倍提速的情况下还能提升视频清晰度呢?
下面就一起来看一下Fast的技术原理——
他们开发了全新的视频DiT蒸馏配方
具体来说,他们的蒸馏配方基于阶段一致性( Model, PCM)模型
在尝试使用多阶段蒸馏后发现效果没有显著改进,最终他们选择保持单阶段设置,与原始PCM模型的配置相似。
团队使用了中的数据集进行了蒸馏。
为了避免在训练过程中运行文本编码器和VAE,团队还预处理了所有数据,用来生成文本嵌入和VAE潜在变量。
在推理阶段,用户可以通过FSDP、序列并行和选择性激活检查点进行可扩展训练,模型可以近乎线性扩展到64个GPU。测试代码在 3.10.0、CUDA 12.1和H100上运行。
*推荐使用80GB内存的GPU,不同模型有相应的下载权重和推理命令。
最低硬件要求如下:
在模型微调方面,Fast提供了全微调(需准备符合格式的数据,提供了一些可下载的预处理数据及对应命令)和LoRA 微调(即将上线)两种方式。
他们还结合了预计算潜变量预计算文本嵌入,用户可以根据自己的硬件条件选择不同的微调方式来执行命令,也支持图像和视频的混合微调
模型已于2024年12月17日发布了v0.1版本。
未来的开发计划还包括添加更多蒸馏方法(如分布匹配蒸馏)、支持更多模型(如模型)以及代码更新(如fp8支持、更快的加载和保存模型支持)等等。
One More Thing
除了加速模型,混元还预告了大家都非常期待的图像到视频生成功能。
最快1月份,也就是下个月就可以看到!期待住了。
- 1数据库需求分析怎么写,商品销售管理系统设计论文毕业设计
- 2成都适合耍一天的地方,这几个宝藏去处晒太阳超安逸
- 3OPPO Find X8 Ultra镜头模组设计图曝光 长焦微距有了
- 4搭电救援一般多少钱,自己动手修理电瓶车,省下50块修理费,轻松搞定电
- 5湖南长沙特产易携带的,长沙旅行必买伴手礼推荐特色美食与手工艺品
- 6原地怠速10分钟伤车吗,冬天热车时间越长越好吗?老司机教你最佳热车
- 7小米11系列预计下个月正式停更 发布距今已超4年
- 8小姐姐是什么意思,男生喊我姐姐是什么意思?解读男生称呼背后的心理
- 9适合女生开的电动汽车,10款适合女生开的迷你小车推荐女王版奇瑞eQ
- 10需求分析怎么写?详细步骤与实用技巧全解析
- 11400平米恒温游泳池造价,户外游泳池造价解析从设计到施工的全面预
- 12搭电救援一般多少钱 次,4S店搭电击穿汽车电瓶要价6000,老王仅花40
- 13车没电了怎么办怎么打火,车子没电了怎么办?教你快速解决汽车电瓶没
- 14瞿怎么读姓氏,瞿怎么读?瞿字的正确发音及含义解析
- 15搭电救援一般多少钱 次,亲身经历揭秘车险赠送的免费道路救援服务

推荐

最新标签