找回密码
 注册

Sign in with Twitter

It's what's happening?

微信登录

微信扫一扫,快速登录

查看: 121|回复: 0

AI讲稿|北京大学-AI视频生成技术原理与行业应用137页ppt

[复制链接]
发表于 2025-12-9 23:33 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
w1.jpg

关注我们,看「有营养」的数字中国

w2.jpg

w3.jpg

📖 👉🏻🔗此处查阅数字中国资料库目录_➕:Liangjiansz享受优惠加入!

温馨提示

【本文底部:加入微信交流群、获取PPT\WORD数字化解决方案下载、本行业更多内容】


导语

   这份由报告,全面解析了AI 视频生成技术的相关内容,其核心为基于扩散模型与Transformer 架构(如 DiT)的技术体系,涵盖从基础概念(区分狭义 AI/AGI、生成式 AI / 决策式 AI 等)、技术原理(潜空间、时空补丁、CLIP 等关键组件)到行业应用的全链路。报告梳理了Sora(OpenAI)、可灵 AI(快手)、即梦 AI(字节)等国内外主流工具的能力差异与排名(VBench、SuperCLUE 等评测体系),展示了技术在影视娱乐(AI 短剧、虚拟制片)、短视频营销(低成本广告生成)、文旅(AI 宣传片、数字人导览)、教育培训(AI 微课、虚拟教师)、医疗健康(医学培训视频、患者教育)、新闻媒体(虚拟主播)等领域的落地案例,并给出了按场景、易用性分级的工具选型建议,同时指出技术当前在时序一致性、物理逻辑真实性等方面的瓶颈,强调未来将走向人机共创的新范式。


   转载请注明出处!

一、AI 视频核心概念与行业概况

    AI 概念谱系
      按智能范围分狭义 AI(ANI)(当前主流,解决特定任务,如 AlphaGo、可灵 AI)和通用 AI(AGI)(未实现,具备人类级全面智慧);按构建范式分基于规则 AI(依赖人工逻辑,如专家系统)和基于学习 AI(现代主流,从数据学规律);按任务目标分决策式 AI(识别 / 预测,如人脸识别)和生成式 AI(创作内容,AIGC 范畴,AI 视频属此类)。
    AI 视频定义与分类
      定义:利用 AI(机器学习 + 计算机视觉)生成 / 编辑 / 分析 / 增强视频内容;核心任务:视频生成(文生 / 图生 / 3D 场景生成等)、视频编辑(内容修改 / 时序优化 / 画质增强)、视频理解(语义分析 / 内容摘要 / 多模态检索);典型生成方式:文生视频、图生视频、视频到视频。
    技术演进与主流工具
      演进阶段:2016 年前 GANs 探索→2020-2024 年扩散模型突破→2024 年至今 DiT 架构(Transformer + 扩散)爆发,2024 年 Sora 发布开启 AI 视频元年;主流工具:国内外头部平台共 10+,核心参数如下表:

厂商 / 公司工具名称核心参数 / 特点用户规模 / 数据
OpenAISora2024 年发布,支持 20 秒视频,集成 ChatGPT,物理世界理解顶尖2025 年 10 月网站访问量 68.58M(AI 视频工具榜首)
快手可灵 AIDiT 架构,支持 2 分钟 / 1080p/30fps 视频,2025 年 Kling2.5 Turbo 成本降 30%全球用户超 4500 万
字节即梦 AI中文语义理解优,打通剪映 - 抖音生态,艺术风格 / 光影质感突出月活 5400 万,2025 年 10 月网站访问量 1000 万
爱诗科技PixVerse2024 年 1 月先发 V1,动漫 / 艺术风格优,特效模板破圈APP 月活 2300 万,网站单月访问量 8000W
阿里通义万相开源 Sora 级模型 WAN,支持本地部署,1080p 高清视频-
二、技术原理与核心架构

    基础技术范式对比扩散模型因训练稳定性(无 GAN 的对抗训练难题)、生成多样性(超越 GAN)、可控性(无分类器引导实现文本精准控制)成为主流,对比其他范式如下表:
技术范式核心原理优势劣势代表模型
VAE编码器映射潜空间 + 解码器重构训练稳定、生成快画质低、模糊β-VAE/VQ-VAE
GAN生成器与判别器对抗学习画质高、生成快训练不稳定、模式崩溃DCGAN/StyleGAN
自回归模型按顺序生成,依赖前文内容生成可控、概率清晰速度慢、错误累积GPT/PixelCNN
扩散模型逐步加噪再反向去噪稳定、多样、可控采样慢、算力消耗大DDPM/Stable Diffusion/Sora
    核心架构路线
      U-Net 架构:基于 SD 逐帧生成,易训练但长视频一致性弱,代表 Pika/Gen-2;DiT 架构(Transformer + 扩散):将视频切为时空补丁,全局建模能力强,长视频一致性优,训练成本高,代表 Sora / 可灵 AI/Vidu(U-ViT 变体)。
    关键组件
      潜空间:低维抽象空间,将像素空间压缩为核心语义特征,降低计算复杂度;时空补丁:视频在空间(宽高)+ 时间(帧)维度切块,统一数据格式适配 Transformer;CLIP:文本 - 图像预训练模型,实现文本提示与视频内容的语义对齐;VAE:负责视频数据的压缩(编码器)与还原(解码器)。
    训练数据
      核心数据集:文本 - 视频对(WebVid-10M/Panda-70M)、类别级数据集(UCF-101/Kinetics)、巨头私有数据集;核心结论:数据质量优先于数量(如 WebVid-10M 中 “Food” 类仅占 11%,但美学质量评分最高;“Human” 类占 26%,却是模型表现最差场景)。

三、技术能力发展与评估

    技术进展与瓶颈
      核心进展:①分辨率 / 时长突破(1080p 成标配,可灵支持 2 分钟视频,部分模型支持 4K);②物理真实感提升(理解重力 / 惯性,生成液体流动等物理场景);③音画同步突破(2025 年谷歌 Veo3 实现原生音频生成,进入 “有声时代”);④实时生成(字节 AAPT 技术实现 24 帧 / 秒低延迟生成);核心瓶颈:①时序一致性(30 秒以上视频主体特征易漂移);②物理逻辑鸿沟(复杂流体 / 多人交互易失真);③细节情感缺失(面部纹理 / 微表情生硬);④算力成本制约(高质量生成依赖巨量计算资源)。
    评估体系
      VBench:多维度诊断框架,VBench1.0 关注表面真实性(画质 / 一致性),VBench2.0 聚焦内在真实性(物理规律 / 常识推理);2025 年 11 月 VBench1.0 榜首为谷歌 Veo3(总分 84.28%),VBench2.0 榜首为 Veo3(总分 66.72%);SuperCLUE-Video:中文权威评测,2025 年 7 月文生视频榜首为谷歌 Veo3.0(总分 55.40),图生视频榜首为即梦 - 视频 3.0Pro(总分 72.22)。

      定量指标:FVD(视频真实感,分数越低越优)、Video IS(清晰度 + 多样性,分数越高越优)、CLIP Score(文本 - 视频一致性,分数越高越匹配);主流评测基准:
    主流模型排名
      Artificial Analysis 基准(2025.11):文生视频 Top3 为谷歌 Veo3、快手 Kling2.5 Turbo、谷歌 Veo3.1 Preview;图生视频 Top3 为快手 Kling2.5 Turbo、谷歌 Veo3.1 Fast Preview、PixVerse V5;用户访问量(2025.10):Sora(68.58M)、Loom(18.41M)、可灵 AI(11.03M)居前三。

四、行业应用案例与价值

    影视娱乐行业
      AI 短剧:《兴安岭诡事》为国内首部盈利 AI 短剧(90% AI 创作,外景成本降 90%,抖音播放超 4159 万);《新世界加载中》(可灵 AI 出品)全网曝光 13.7 亿 +,单集播放破 1 亿;虚拟制片:博采 AI 虚拟影视基地(5000㎡270 度 LED 影棚),实现悬崖场景 “实拍 + 虚拟合成”;《哪吒之魔童降世》用 AI 重构 60% 流程,生产周期减 30%,成本降 20%;大片辅助:《传说》用 AI 还原 27 岁成龙形象,《异人之下》结合真人摹片 + AI 技术呈现特效。
    短视频与内容营销
      低成本广告:NBA 30 秒 AI 广告(Veo3 制作)成本 2000 美金,降本 95%,决赛曝光超 1 亿次;义乌摊主用 AI 生成 36 种语言营销视频,卖空 3 个集装箱货品;虚拟主播:罗永浩数字人直播 7 小时 GMV 破 5500 万,超同期真人直播;病毒内容:8 秒 AI 兔子蹦床视频播放破 5 亿,靠 “伪装真实” 引发全民热议。
    文旅行业
      AI 宣传片:央视网 34 省 AI 文旅宣传片全流程 AI 制作;淮安《脉承淮水》话题曝光 17 亿 +,播放 2 亿 +;数字人导览:广西 “刘三姐数字人” 入选文旅创新案例,提供智慧导览;2025 大阪世博 “AI 孙悟空” 实现中日英三语实时交互;沉浸式体验:青岛海上皇宫 U・SEA 用 AI+XR 还原远古海洋,打造沉浸式文旅场景。
    教育培训行业
      微课生产:英国博尔顿学院用 Synthesia 将 10 分钟视频制作从 3 天缩至 30 分钟,年增 400 + 课件;青海大学用科大讯飞 “智作” 平台生成高等数学微课;虚拟教师:香港科大首批 10 位 AI 讲师支持多语言教学,Fiona 当选首位 AI 主播;仁川国立大学推出韩国首位 AI 人类教授;个性化学习:斯坦福 VideoTutor 可根据学生问题生成动态讲解视频,覆盖公式 / 图表可视化。
    医疗健康行业
      医学培训:Endora 框架生成内窥镜手术模拟视频;南伊利诺伊大学虚拟病人 “兰迪” 用于临床沟通训练;患者教育:英国 Moorfields 医院 AI 制作白内障手术知情同意视频,提升患者理解度;301 医院用 Vidu 制作医疗科普视频;智能导诊:中山市人民医院 AI 导诊数字人实现 7×24 小时服务,节省导诊人力。
    新闻媒体行业
      虚拟主播:央视 “AI 王冠” 为全球首个超写实 AI 主播;《杭州新闻联播》6 位数字人实现春节零失误播报;India Today AI 主播 Sana 进入黄金时段;沉浸新闻:《纽约时报》VR 新闻《The Displaced》超 300 万次体验;新华社用 AIGC 制作叙利亚新闻动态视频,创新央媒报道形式;工具应用:DeepBrain AI Studios 可一键将新闻文本转为虚拟主播播报视频,支持多平台适配。

五、工具选择推荐

    主流工具核心特点
    工具分类工具名称核心优势适用场景
    国内工具可灵 AI2 分钟长视频、写实风格、物理规律模拟优剧情短片、影视制作、企业宣传

    即梦 AI抖音生态无缝衔接、模板特效多、性价比高短视频运营、信息流广告、节日营销

    Vidu中国元素理解深、多主体一致性强国风内容、教育课程、复杂角色视频

    海螺 AI图生视频能力顶尖、二次元 / 插画动态化优动漫制作、表情包、人物口播
    国外工具Sora物理世界模拟顶尖、长视频连贯性强高预算影视项目、顶尖创意工作室

    Runway专业后期工具链、导演级镜头控制广告片、电影特效、精准画面控制

    Pika社交病毒特效(融化 / 爆炸)、循环视频社交媒体爆款、创意短内容

    Veo音画同步、141 秒长叙事、成本平衡优企业宣传、高端人物广告
    选型分级建议
      零门槛(国内直连):可灵 AI、即梦 AI、Vidu,支持手机号注册 / 微信支付宝支付,全中文界面,适合所有国内用户;进阶门槛(海外独立站):Runway、Pika、Pixverse,需科学上网 / 外币信用卡,适合专业创作者;高门槛(生态受限):Sora(绑定 ChatGPT)、Veo(绑定谷歌生态),账号 / IP 管控严,适合技术极客。



以下是讲稿内容

   
w4.jpg

w5.jpg

w6.jpg

w7.jpg

w8.jpg

w9.jpg

w10.jpg

w11.jpg

w12.jpg

w13.jpg

w14.jpg

w15.jpg

w16.jpg

w17.jpg

w18.jpg

w19.jpg

w20.jpg

w21.jpg

w22.jpg

w23.jpg

w24.jpg

w25.jpg

w26.jpg

w27.jpg

w28.jpg

w29.jpg

w30.jpg

w31.jpg

w32.jpg

w33.jpg

w34.jpg

w35.jpg

w36.jpg

w37.jpg

w38.jpg

w39.jpg

w40.jpg

w41.jpg

w42.jpg

w43.jpg

w44.jpg

w45.jpg

w46.jpg

w47.jpg

w48.jpg

w49.jpg

w50.jpg

w51.jpg

w52.jpg

w53.jpg

w54.jpg

w55.jpg

w56.jpg

w57.jpg

w58.jpg

w59.jpg

w60.jpg

w61.jpg

w62.jpg

w63.jpg

篇幅限制,详细见附件。


w64.jpg


w65.jpg
【智慧城市交流群】请➕:Liangjiansz

       【城市全域数字化具体项目建设合作】请➕:Wyupei77777

  

扩展阅读



新质生产力  大模型产业系列热文推荐



🔥AIGC大模型产业系列合集



AI大模型在智慧城市11个行业的应用场景



2024年大模型招投标市场分析



2023大模型落地应用案例集



中国AIGC产业全景图报告



2024 AIGC 应用层十大趋势

☑      2024人工智能开源大模型生态研究



全国各地大模型产业政策汇总

☑     22家国资央企发布大模型


报告|2024大模型典型示范应用案例集



人工智能大模型61个应用场景!



待续.....!

  更多的人工智能、大模型产业研习资料(部分展示):

w66.jpg

w67.jpg

w68.jpg

w69.jpg

w70.jpg

w71.jpg

w72.jpg

资料下载方式

关注并回复以下内容

‍“人工智能、大模型产业研习资料参考‍“

获取完整版介绍资料!

免费获取有效期:7天

1、点击上方关注“亮见数字城市”公众号,公众号后台回复关键字:“人工智能、大模型产业研习资料参考”,免费获取介绍资料下载(仅限PDF文件)的答复。

2、星球会员直接进星球号  智慧城市星球智库,获取下载近万份Wrod、PPT方案(可编辑文件)、行业报告、地方数字化政策、招标资料等资料。

即日起,为打击复刻仿造的自媒体,可凭任意低于本星球价格相同资料库的星球截图,+Liangjiansz可享受截图星球价格加入!!!未能提供的,也可获得特价优惠加入!

w73.jpg

知识星球部分资料示例(由于资料数量庞大且持续更新,此处仅展示):

w74.jpg

来源/ xxxx

编辑/XXXXX

   转载请注明出处!
w75.jpg


w76.jpg

# 更多数字经济智慧城市合集推荐 #

各省十四五数字政府规划合集

新型智慧城市方案合集

交通运输一体化建设方案

【数字经济】专题合集

【数据要素】专题合集

【智慧园区】专题合集

【数字乡村方案】专题合集

【一网统管】与【城市大脑】建设合集

【数字中国建设】报告合集

【央国企数字化】转型合集

【碳中和】专题合集

联系我们:(我是智慧城市建设方,非媒体公司)

w77.jpg

电话

:189-1127-7732

w78.jpg

微信

:Wyupei77777

w79.jpg

邮箱

:wdl@vip.163.com

w80.jpg

介绍:亮见数字城市

请留下你指尖的温度

关注+星标

w81.jpg

每天看好文

以亮见致远见

消除一切数字中国知识鸿沟

一起见证数字
w82.jpg
中国新力量

w83.jpg
温馨提示:本文由亮见数字城市整理精心推荐,在编制过程中引用了互联网公开信息资源并尽可能地对有明确来源的信息注明了出处,在此对各类信息资源的提供者表示感谢,所引用内容其著作权和版权归原作者、来源媒体、原网站所有。但是我们也知道,凡事总有可能挂万漏一,对本文没有注明来源的内容提供者同样表示感谢。

  推广的内容如有侵权请您告知我们会在第一时间处理或撤销;互联网是一个资源共享的生态圈,我们崇尚分享。如果任何单位或个人认为本文内容可能不规范使用,欢迎及时联系我们,我们将对相关内容进行处理。


本站所载文章纯属作者个人观点,仅供参考,不代表亮见数字城市立场。

w85.jpg

一键三连「分享」、「点赞」和

一键三连「分享」、「点赞」和「在看」

数字中国前沿科技动态日日相见~

w86.jpg
点点赞

w87.jpg
点分享

w88.jpg
点在看
w89.jpg
点推荐
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2025-12-10 07:51 , Processed in 0.193618 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表