AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述


AI 生成内容已经成为当前人工智能领域的最热门话题之一,也代表着该领域的前沿技术。近年来,随着 Stable Diffusion、DALL-E3、ControlNet 等新技术的发布,AI 图像生成和编辑领域实现了令人惊艳的视觉效果,并且在学术界和工业界都受到了广泛关注和探讨。这些方法大多基于扩散模型,而这正是它们能够实现强大可控生成、照片级生成以及多样性的关键所在。

然而,与简单的静态图像相比,视频具有更为丰富的语义信息和动态变化。视频能够展示实物的动态演变过程,因此在视频生成和编辑领域的需求和挑战更为复杂。尽管在这个领域,受限于标注数据和计算资源的限制,视频生成的研究一直面临困难,但是一些代表性的研究工作,比如 Make-A-Video、Imagen Video 和 Gen-2 等方法,已经开始逐渐占据主导地位。

这些研究工作引领着视频生成和编辑技术的发展方向。研究数据显示,自从 2025 年以来,关于扩散模型在视频任务上的研究工作呈现出爆炸式增长的态势。这种趋势不仅体现了视频扩散模型在学术界和工业界的受欢迎程度,同时也凸显了该领域的研究者们对于视频生成技术不断突破和创新的迫切需求。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述


近期,复旦大学视觉与学习实验室联合微软、华为等学术机构发布了首个关于扩散模型在视频任务工作的综述,系统梳理了扩散模型在视频生成、视频编辑以及视频理解等方向的学术前沿成果。

AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述

  • 论文链接:https://arxiv.org/abs/2310.10647
  • 主页链接:https://github.com/ChenHsing/Awesome-Video-Diffusion-Models

视频生成

AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述

基于文本的视频生成:自然语言作为输入的视频生成是视频生成领域最为重要的任务之一。作者首先回顾了扩散模型提出之前该领域的研究成果,然后分别介绍了基于训练的和无需训练的文本 - 视频生成模型。

AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述

Christmas tree holiday celebration winter snow animation.

基于其他条件的视频生成:细分领域的视频生成工作。作者将它们归类为基于以下的条件:姿势(pose-guided)、动作(motion-guided)、声音(sound-guided)、图像(image-guided)、深度图(depth-guided)等。

AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述


AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述

无条件的视频生成:该任务指的是在特定领域中无需输入条件的视频生成,作者根据模型架构主要分为基于 U-Net 和基于 Transformer 的生成模型。

视频补全:主要包括视频增强和恢复、视频预测等任务。

数据集:视频生成任务所用到的数据集可分为以下两类:

1.Caption-level:每个视频都有与之对应的文本描述信息,最具代表性的就是 WebVid10M 数据集。

2.Category-level:视频只有分类标签而没有文本描述信息,UCF-101 是目前在视频生成、视频预测等任务上最常用的数据集。

评价指标与结果对比:视频生成的评价指标主要分为质量层面的评价指标和定量层面的评价指标,质量层面的评价指标主要是基于人工主观打分的方式,而定量层面的评价指标又可以分为:

1. 图像层面的评价指标:视频是由一系列的图像帧所组成的,因此图像层面的评估方式基本上参照 T2I 模型的评价指标。

2. 视频层面的评价指标:相比于图像层面的评价指标更偏向于逐帧的衡量,视频层面的评价指标能够衡量生成视频的时序连贯性等方面。

此外,作者还将前述提到的生成模型在基准数据集上的评价指标进行了横向比较。

AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述

视频编辑

通过对许多研究的梳理,作者发现视频编辑任务的核心目标在于实现:

1. 保真度(fidelity):编辑后的视频的对应帧应当与原视频在内容上保持一致。

2. 对齐性(alignment):编辑后的视频需要和输入的条件保持对齐。

Voicepods Voicepods

Voicepods是一个在线文本转语音平台,允许用户在30秒内将任何书面文本转换为音频文件。

Voicepods 142 查看详情 Voicepods

3. 高质量(high quality):编辑后的视频应当是连贯且高质量的。

AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述

基于文本的视频编辑:考虑到现有文本 - 视频数据规模有限,目前大多数基于文本的视频编辑任务都倾向于利用预训练的 T2I 模型,在此基础上解决视频帧的连贯性和语义不一致性等问题。作者进一步将此类任务细分为基于训练的(training-based)、无需训练的(training-free)和一次性调优的(one-shot tuned)方法,分别加以总结。

AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述


AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述

基于其他条件的视频编辑:随着大模型时代的到来,除了最为直接的自然语言信息作为条件的视频编辑,由指令、声音、动作、多模态等作为条件的视频编辑正受到越来越多的关注,作者也对相应的工作进行了分类梳理。

AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述

特定细分领域的视频编辑:一些工作关注到在特定领域对视频编辑任务有特殊定制化的需求,例如视频着色、人像视频编辑等。

视频理解

AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述

扩散模型在视频领域的应用已远不止传统的视频生成和编辑任务,它在视频理解任务上也展现了出巨大的潜能。通过对前沿论文的追踪,作者归纳了视频时序分割、视频异常检测、视频物体分割、文本视频检索、动作识别等 10 个现有的应用场景。

未来与总结

该综述全面细致地总结了 AIGC 时代扩散模型在视频任务上的最新研究,根据研究对象和技术特点,将百余份前沿工作进行了分类和概述,在一些经典的基准(benchmark)上对这些模型进行比较。此外,扩散模型在视频任务领域也还有一些新的研究方向和挑战,如:

1. 大规模的文本 - 视频数据集收集:T2I 模型的成功离不开数以亿计高质量的文本 - 图像数据集,同样地,T2V 模型也需要大量无水印、高分辨率的文本 - 视频数据作为支撑。

2. 高效的训练和推理:视频数据相比于图像数据规模巨大,在训练和推理阶段所需要的算力也呈几何倍数增加,高效的训练和推理算法能极大地降低成本。

3. 可靠的基准和评价指标:现有视频领域的评价指标往往在于衡量生成视频与原视频在分布上的差异,而未能全面衡量生成视频的质量。同时,目前用户测试仍然是重要的评估方式之一,考虑到其需要大量人力且主观性强,因此迫切需要更为客观全面的评价指标。

以上就是AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述的详细内容,更多请关注其它相关文章!


# 训练  # 伊犁优化网站  # 服务好的酒店网站建设  # 玉溪抖音seo公司费用  # 青岛大型网站建设  # 牛发网 seo547.cn  # 潍坊校园网站推广  # 网站设计建设方案怎么写  # 网站排名优化 在线宙d9斯真行  # 搜索关键词快速排名  # 上海  # 考虑到  # 进行了  # 自然语言  # 丰田  # 高质量  # 中国科学院  # 视频编辑  # 评价指标  # 复旦  # controlnet  # stable diffusion  # 模型  # 菏泽网站建设开户 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 消息称 Meta Quest 将推 VR 游戏订阅:每月 7.99 美元,任选两款  AI新视野,增长新势能,伙伴云受邀出席笔记侠创业讲真话AI峰会  「从未被制造出的最重要机器」,艾伦·图灵及图灵机那些事  OpenAI已向中国申请注册“GPT-5”商标,此前已在美国提交申请  618京东3C数码趋势产品备受青睐 AR设备成交额同比增长15倍  技术如何使人变得懒惰?  昆仑万维与全球领先的元宇宙公司Meta达成商务合作,共同认可昆仑万维在XR领域的技术实力  “痴迷”元宇宙,魔珐科技想做什么?  AI 模型 Stable Diffusion 升级:正常生成五指、图像更逼真  五项人工智能尚未能够实现的任务  1分钟做出苹果Vision Pro「官网」?上班8小时搞出480个网页,同事被卷疯了  陈根教授:离人形机器人时代还有10年吗?  13条咒语挖掘GPT-4最大潜力,Github万星AI导师火了,网友:隔行再也不隔山了  再度重仓 AI 赛道,SaaS 巨头 Salesforce 扩大 AIGC 风投基金规模  联合国秘书长称支持建立全球人工智能监管机构  生成式AI爆发,亚马逊云科技持续专注创新,助力企业数字化转型  Meta 推出 Quest 超级分辨率技术,让 VR 画面更清晰  Nature发AIGC禁令!投稿中视觉内容使用AI的概不接收  马克龙密会AI专家,法国加入全球人工智能竞赛  OpenAI夺冠:人工智能为云计算带来新变革  人工智能如何与智能家居集成  500元一张的AI艺术二维码制作,详细教程来了!  第 66 届格莱美奖规定,AI 作品将无法获得评奖资格  普林斯顿Infinigen矩阵开启!AI造物主100%创造大自然,逼真到炸裂  开创全新虚拟现实体验的Pimax Crystal VR头显  AI行业盛会大咖云集!Sam Altam、“AI教父”......一文看懂最新观点  AMD称下半年AI显卡供应充足,不需要像NVIDIA那样加价抢购  这效果能打几分?AI真人化《名侦探柯南》  明略科技发布免费开源TensorBoard.cpp,促进大型模型的预训练工作  第四范式「式说」大模型入选《2025年通用人工智能创新应用案例集》  AMD在AI方面奋起直追,与英伟达的差距缩小了吗?  月薪6万,哪些AI岗位在抢人?  联想戴炜:以全栈AI加速CT与IT融合,共建高质量算力网络  自然语言生成在智能家居设备中的应用  行业首发「超级智绘」AI故事集,TCL实业推进AI技术应用  财联社首档运用虚拟人技术播报栏目《AI半小时》今晚上线!敬请期待  世界人工智能大会中西部县域数字就业中心组团亮相  软银、淡马锡、沙特阿美突击入股,“协作机器人第一股”节卡股份:强敌环伺,持续失血是常态  朝鲜出现国产大型察打一体无人机,实力世界第二,太意外了  消息称字节机器人团队已有约50人,计划年底扩充到上百人  脑机接口产业联盟发布十大脑机接口关键技术  Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽  “上海市民营企业人工智能赋能创新中心”揭牌成立  Databricks 发布大数据分析平台 Spark 用 AI 模型 SDK:一键生成 SQL 及 FySpark 语言图表代码  “无人驾驶船”将首次亮相世界人工智能大会,下半年或开进上海迪士尼  重磅! 捷通华声灵云AICC荣获第二届光合组织AI解决方案大赛二等奖  警惕!AI或致虚假信息泛滥  马斯克讽刺人工智能炒作:什么“机器学习”,其实就是统计  站在社会的高度理解人工智能  无人机协助盐城交通执法的协同训练 

 2023-10-23

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.