找回密码
 注册

Sign in with Twitter

It's what's happening?

微信登录

微信扫一扫,快速登录

查看: 177|回复: 0

AI应用的胜负手-多模态,从AI视频到机器人

[复制链接]
发表于 2026-1-20 18:26 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
本资料来源于公司公告,相关新闻,机构公开研究报告以及社交媒体网络等,对文中提到的行业及个股不构成投资建议,图文如有侵权或违反信批请后台留言联系删除




天风

全文摘要

过去六个月见证了多模态技术的迅速进步,尤其在AI视频和自动驾驶等领域的应用前景令人瞩目。AI视频和多模态大模型技术在生产环境中已实现规模化应用,特别是AI短剧的迅猛发展。讨论进一步指出,世界模型的进步将为自动驾驶和机器人领域带来重大利好。展望2026年,多模态大模型预计将在AI应用领域取得更大突破,特别强调了国产多模态大模型可能带来的竞争机遇和对算力与存储需求的增加。



章节

l2026年多模态大模型迭代与AI应用展望

对话强调2026年多模态大模型在AI视频和自动驾驶等领域的迭代与应用,认为多模态技术加速发展将极大促进AI应用场景的放量,特别是AI视频和财税领域,预计AI视频空间更大,且已开始规模性落地,同时机器人和自动驾驶领域也迎来新阶段,整体AI应用正进入聚焦核心放量场景的2.0阶段。



l 多模态理解和生成技术在动漫领域的应用与挑战

讨论了多模态理解和生成技术在动漫领域的两个重要趋势:动态理解和生成。指出当前技术路线主要集中在原生多模态,即在模型训练初期就融入动态数据,以提升模型对动态场景的理解能力。然而,现有技术仍面临模型智力下降、因果关系理解不足等问题。尽管如此,随着技术进步,多模态理解技术在机器人、智能硬件等领域的应用前景被看好。



l AI理解与生成技术的演进

讨论了AI理解与生成技术的发展历程,从早期理解性准确率不足到生成模型以Transformer和扩散模型为主流,特别是24年初DIT结构的引入显著提升了模型能力。25年起,理解与生成一体化趋势明显,如图片生成模型结合大语言模型,增强了对通识知识的理解和原创生成能力,视频生成领域也迎来技术革新,全球公司纷纷跟进。



l 视频生成模型技术进展与未来趋势

讨论了2024至2026年间视频生成模型在物理合理性、一致性及画面质感方面的显著进步,强调通过提升数据质量和使用合成数据训练模型,有效增强了生成内容的物理规律性与连贯性。此外,模型的指令执行能力和理解生成一体化趋势也得到了改善,降低了抽卡率和成本,提升了用户体验,展现了视频生成技术的未来发展方向。



l 世界模型与多模态大模型的进展与未来趋势

对话讨论了世界模型与多模态大模型的区别及其在科研与应用中的进展。世界模型通过像素点或动态内容学习物理原理,不同于传统的文字向量空间学习。未来,多模态大模型在生成与理解方面将有显著提升,尤其是在画质与指令能力上,预计到2026年,AI生成的视频将难以与真实视频区分,国内在生产应用上已领先。



l多模态大模型与国产崛起:AI视频市场前景展望

讨论了多模态大模型向世界模型演进的趋势,强调了国产大模型在视频生成领域的崛起,尤其是在AI短剧和慢剧方面。指出成本下降与需求增长将共同推动市场,预计今年市场将实现倍数增长,投资机会集中在IT方、平台和AI工具相关玩家。



l AI视频时代的投资机会与核心标的分析

对话围绕AI视频时代的投资机会展开,重点提及了兆驰股份的风行、昆仑万维的Sky Real等AI工具的快速迭代与市场潜力,同时强调了Mini Max、富国集团、万兴科技等公司在全模态大模型能力上的进展,预测AI视频领域收入增速将呈现翻倍趋势,建议关注相关核心公司以把握投资机会。



l 2026年AI应用趋势:多模态技术与投资机会

汇报聚焦于2026年AI应用的关键趋势,特别是多模态技术在AI视频生成、自动驾驶与机器人领域的应用。强调了AI视频生成技术已进入生产环境,而自动驾驶与机器人领域预计在2027年上半年实现生产环境应用。投资机会涵盖AI视频内容生产与平台工具、算力与存储,建议关注兆驰、昆仑外围等企业,以及港股mini max等标的。多模态技术向世界模型的发展将利好相关领域。

要点

2026年大模型在多模态方面会带来哪些变化,以及为什么今年AI应用的胜负手是多模态?

预计2026年大模型在多模态领域将经历迭代升级,国产多模态大模型可能也会有所发展。今年AI应用的胜负手在于多模态,是因为多模态大模型技术加速迭代将对两个关键领域产生重大影响:一是AI视频和短剧等多媒体内容;二是自动驾驶与机器人技术,这与大模型未来的世界模型发展密切相关。



后续计算机和AI应用行情会进入怎样的阶段?哪些场景具有放量潜力?

预计后续整个计算机和AI应用行情将进入2.0阶段,核心在于聚焦到能实现大规模放量的核心应用场景,并在这些场景中找到最核心的标的。经过产业调研,我们发现AI财税(如税务)和多模态(如AI视频)是近期能实现放量的场景。其中,AI视频多模态的应用空间更大且具有全球产业链潜力,是今年AI应用的重点关注方向。



多模态理解与生成的发展历程如何?

多模态理解和生成最早可以追溯到2023年至2024年。目前技术路线主要是通过理解模型串联生成模型,利用扩散模型和transformer架构进行混训。早期的原生多模态主要指动态数据在训练阶段就起关键作用,以保持动态理解能力,这对于机器人和智能硬件等领域的动作预测至关重要。尽管早期模型在处理动态数据时会面临降智问题,但随着技术进步,现代模型在训练过程中能够较好地保留动态信息并应用到实际场景中。



动态理解模型的准确率是否达到了与文字理解相当的程度?

动态理解模型的准确率目前还没有达到像文字理解那样成熟的状态,尤其是在理解复杂场景和精细化表达方面,与文字相比还有较大差距。



早期研发人员尝试过哪些方法来提升生成模型的效果?

早期研发人员尝试了使用深层结构和像素块的方式,例如next share prediction方法,但发现由于像素和像素块之间的关联性不够强,导致生成内容不够精致且无法准确表现物体不同视角下的细节差异。



扩散模型在24年初有何重大变化?视频生成模型在设备性能上的提升主要体现在哪些方面?

在24年初,随着DIT(集成former结构)的出现,扩散模型有了重大突破。该模型能够通过增加参数来提升模型的体质、细节处理能力和整体模型能力,从而在图片生成和视频生成等方面取得显著进步。视频生成模型在设备性能上,尤其是在过去两年间,显著提升了视觉质量、一致性(如人物一致性)、指令遵循能力、可控性以及物理规律遵循能力等方面的表现。通过提升数据质量和合成包含物理逻辑的数据进行训练,模型在物理规律(如重力感)的理解和应用上有了显著提高,画面的精细程度和人物一致性也得到了很大改善。此外,从V13版本开始,音画融合技术更是增强了视频的视觉连贯性和沉浸感。



图片生成模型在25年开始呈现出了什么样的新趋势?

从25年开始,图片生成模型开始呈现出理解与生成一体化的趋势。许多模型开始结合transformer和扩散模型进行混血生成,前端不仅是一个对齐模型,更是融合了大语言模型的理解能力,使得生成的图片能够更好地理解人的意图,生成原创内容,降低修改率并增强指令遵循能力。



未来视频生成模型的发展方向是什么?

未来视频生成模型将会像图片生成一样,趋向理解生成一体化。预计扩散模型的前端将加入理解能力更强的单元模型,以提升用户对模型理解与可控性的体验。



视频生成模型在近期有哪些重大变化?

近期视频生成模型的一个重大变化是抽卡率的提升和生成速度的加快,这使得整个生成过程更为高效,同时降低了成本。此外,这些模型在视觉质量、连贯性、物理特性和光影光流等方面也有了显著改善,让视频看起来更真实、不具有明显的AI感。



世界模型与多模态理解模型有何不同?

世界模型目前仍处于科研或实验室阶段,它不依赖于文字向量空间去学习知识,而是直接从多模态内容(如像素点或动态内容)中学习物理原理。例如,通过像素点式的学习规律,世界模型可以理解到苹果总是往下掉的常识,而无需明确知道动力定律。



世界模型在大数据机器人领域的表现如何?

世界模型对大数据机器人的作用显著,其收敛率可能优于传统的原生动态模型,并且在效果和对物理世界的理解上更优。如果世界模型最终形成定论并得到广泛应用,将彻底改变多模态理解模型的学习逻辑,从动态本身学习所有知识,而非仅从文字向量空间中学习。



未来一年内多模态大模型会有哪些发展趋势?

未来半年到一年内,多模态大模型在申请方面将做得更好,解决现有模型存在的问题,画质相关方面将得到进一步提升,预计再过半年时间,人们将难以区分视频是否为AI生成。此外,多模态大模型将向世界模型演进,尤其对机器人、自动驾驶等场景有利。同时,国产大模型如MiniMax等将在今年持续迭代,有望在第二季度全面跟上谷歌和openAI的步伐。



AI视频应用目前的发展阶段如何?

AI视频应用已经基本解决了技术问题并进入生产环境,每分钟成本正在快速下降,高品质大作的画质在1080P以上成本已降至千元级,两三千元级别。我们认为成本仍有进一步下探的空间。



C端市场对AI短期慢剧的需求情况怎样?

C端市场对于AI短期慢剧的需求非常大,类似游戏的投入性和沉浸感。以苹果为代表的平台流量增长迅速,其他巨头如腾讯、百度和阿里预计也会在春节前后加大在这块领域的发力。



今年AI视频市场的整体预期及投资机会是什么?

我们预计今年AI视频市场将倍数增长,其中投资机会主要集中在两个层面:一是IP方,尤其是互联网传媒类公司,包括内容制作创业公司;二是平台和AI工具玩家,寻找AI视频时代的“Menu”,即基于现有模型封装成好用的AI工具提供给创作者和用户。



具体有哪些标的值得关注?

建议关注兆驰股份及其子公司风行,其在AI工具迭代方面进展迅速;另一个重点推荐昆仑万维,其海外产品Sky Real也做得不错。此外,还有富士康集团、万兴科技等计算机标的值得投资者关注。



AI视频收入增速情况如何?

跟踪下来,今年AI视频块的收入增速普遍在翻倍以上,显示出AI明确放量的场景和相关核心标的。



对于机器人和自动驾驶领域的投资机会如何看待?

除了AI视频生成,理解世界模型对未来自动驾驶和机器人产业也有重要影响。下半年有望进入试验环境,明年上半年进入生产环境。同时,特斯拉及相关公司在自动驾驶和机器人领域也有很好的布局,值得重点关注。此外,算力和存储也将从中受益。



多模态技术成熟带来的AI应用全面爆发的原因是什么?

主要是由于海外谷歌、GPT等公司视频生成模型进入生产环境,以及多模态技术的成熟带动了AI应用的全面爆发。



对于AI视频领域投资机会的总结和建议是什么?

强烈建议重点把握AI视频领域,特别是以IP内容生产和平台及AI工具为代表的两个方向。重点推荐兆驰股份(风行)、昆仑万维、富士康集团、万兴科技等,并关注中文在线、掌阅等传媒类标的。港股方面,首推关注MiniMax和快手。对于自动驾驶和机器人主题性机会,可关注相关公司,算力和存储也将受益于多模态应用落地的爆发。

----------------------

公众号改版了,大家可能无法及时接收到文章推送,请务必在文章下方点击“赞”和“在看”,也可以点击公众号主页右上角的三个点,将公众号设置为“星标”,便于查阅(您的点赞与在看,更是我更新的动力)
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2026-1-31 00:40 , Processed in 0.072297 second(s), 27 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表