AI大模型:多模态技术落地再加速

多客科技 · 发表于 2025-6-4 00:34

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

作者：微信文章

多模态技术落地再加速，将促进此前在AI 视频生成、编辑等生产力工具领域深入布局的公司商业化进程。幻影视界今天分享的是人工智能AI行业研究报告：《多模态技术落地再加速》，报告由财通证券发布。
研究报告内容摘要如下

多模态技术再迎“奇点”时刻。谷歌发布视频生成模型Veo 3，让AI视频角色开口说话。Veo 3已内嵌入谷歌的影视制作工具Flow，可赋能电影制作人和内容创作者工作流，Flow支持用户创建场景、管理素材、编辑故事情节并控制镜头运动。当前需要订阅Google Gemini的AI Ultra（每月249.99美元）才能使用Veo 3。我们认为，Veo 3带来了多模态发展的“奇点”，AI生成视频商业化进程被极大加速，对推理算力的需求也将进一步推升。豆包视频通话面向C端开放，视觉理解、记忆、推理能力强，我们认为其视觉理解模型相比传统视觉分析增加了推理与生成反馈，在C端可以用于端测拍摄问答（手机、AI眼镜等），也可用于屏幕内容的分析推理（作为办公Agent的视觉功能）；在B端可以作为工业领域的场景、物体识别，可用于输出带有分析结论的文本报告。

视频生成赛道竞争胶着，商业化曙光已现。视频生成产品迭代较快，今年以来Pika、海螺走弱，而谷歌、快手走强，快手新发布的Kling系列视频生成模型迅速获得了约30%的使用份额，尤其是Kling-2.0-Master在2025年4月底推出仅三周后便占据了Poe所有视频生成的21%。5月29日，快手可灵发布2.1版本，在2.0大师版的基础上可生成质量更高、运动幅度更大的1080p视频。1Q2025，快手可灵实现收入1.5亿元，超过了去年7月到今年2月可灵的收入总和。此外，Vidu、海螺AI、Runway等视频生成公司依然保持了领先的技术优势，进一步将功能引入创意工作流，随着Veo 3技术跃进式催化，推动向影视、广告等领域商业化落地加速。

幻影视界整理分享报告原文节选如下：

本文仅供参考，不代表我们的任何投资建议。幻影视界整理分享的资料仅推荐阅读，用户获取的资料仅供个人学习，如需使用请参阅报告原文。幻影视界行业报告资源库，每天分享实用资源。扫描下方二维码加入后，直接搜索下载，海量的历史资料随时查看、随意下载。

免责声明：以上报告均系本平台通过公开、合法渠道获得，报告版权归原撰写/发布机构所有，如涉侵权，请联系我们及时删除；内容为推荐阅读，仅供参考学习，如对内容存疑，请与原撰写/发布机构联系。

戳“阅读原文”下载报告。

账号		自动登录	找回密码
密码			注册

AI大模型:多模态技术落地再加速

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块