找回密码
 注册

Sign in with Twitter

It's what's happening?

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 104|回复: 0

AI增强通讯智能技术实践

[复制链接]
发表于 2025-12-3 13:14 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
技术趋势
在多模态AI技术快速发展的背景下,实时音视频(RTC)技术正从“基础交互阶段”向“AI深度融合交互阶段”演进。在这一过程中,技术重点已不再局限于稳定性与实时性,更扩展至对更沉浸、更拟真、更高参与度的互动体验的追求。进入AI 深度融合阶段后,RTC 的智能化发展将呈现两大趋势:底层智能增强上层场景化智能赋能。随着这两条技术线的发展,RTC+AI将演变为“具备理解能力、互动能力和生产能力的智能实时交互引擎”。
场景需求
在支撑各类项目及场景的过程中,我们收集到了更大并发通话、更低交互延迟、更沉浸交互体验等更高目标的需求:

    为满足单一空间支持200人以上同时视频交互的需求计划通过AI动态编码技术实现视频流的智能压缩与画质增强,从而显著降低码率。


    针对摄像头画面背景杂乱的问题,计划引入AI视频图像算法,精准识别人物并背景进行模糊处理


    针对多人语音交互中的频繁噪音干扰,将通过实时AI降噪算法,有效抑制背景噪声。   
通讯智能架构设计
一、实时音频架构

w1.jpg

实时音视频RTC分为底层组件能力上层交互场景两层结构其中组件能力层包括多端 SDK 支持、多种视频流接入方式以及支持多种编解码方式。交互场景层支持多种业务场景,包括:元宇宙运维场景中实现虚拟空间中的实时交流协作;复杂业务协同处理场景中满足多方互动、数据共享的协同办公。此架构最终集成了多端兼容、灵活接入、能力解耦性能可视化于一体的实时音视频组件能力。



二、媒体智能架构


w2.jpg

媒体智能处理系统构建了一个覆盖视觉、听觉与语言的多模态智能处理体系,通过识别、增强、分析与交互等能力模块,为实时音视频、流媒体及元宇宙场景提供智能支撑。该系统还拥有智能视频、智能人像处理、智能交互增强、智能音频处理一系列基础能力。
关键AI能力提升
一、AI智能编解码增强
实时音视频能力支持主流视频编码,如:H.264VP8VP9AV1,兼顾兼容性与性能,并支持SimulcastSVC可伸缩模式实现动态画质
w3.jpg

w4.jpg

具有以下主要优势:

    网络自适应性强:可根据网络带宽实时调整视频质量层。

    带宽利用效率高:可精确匹配可用带宽,避免浪费。

    降低服务器负载:SFU可根据需要转发不同层的数据,减轻负载

    业务策略提升:支持SVC L3T3编码,网页可根据视频播放窗口动态切换码率。

实时音视频最大的挑战在于网络带宽,为最大限度减小带宽压力,元宇宙采用小屏画面取最小码流大屏画面取较大码流的策略,同时摄像头采用AV1 L3T3格式。编码时间层/空间层分布如下

w5.jpg

模式有效契合了网络设计目标网络下行带宽降至原来的30%从而实现了显著优化。

二、AI虚拟背景增强

多人实时音视频交互场景中,用户摄像头后方环境常常复杂多样,可能包含家庭物品、办公资料或私人空间,这不仅容易造成隐私暴露,还会让画面显得杂乱、不专业。多数用户希望呈现出更干净、统一有美感的会议画面。

虚拟背景替换技术是通过轻量级的 AI 语义分割模型实时识别视频流中的人像前景环境背景逐帧精准分离用户轮廓,并利用端侧 GPU 加速进行高效渲染,从而实现毫秒级的背景替换或模糊处理。整个过程包括摄像头帧捕获、图像预处理、人像分割模型推理、掩码生成与平滑、背景融合与渲染输出

w6.jpg

实时虚拟背景效果展示:

w7.jpg

三、AI音频智能降噪增强

实时语音交互时,接入虚拟空间的协作者处于嘈杂的办公环境,比如键盘敲击声、空调风扇声、交通噪声以及其他人员讨论的声音。为解决这些噪声问题,进一步提高实时交互体验系统入了基于传统噪声抑制与深度学习相结合的AI实时音频降噪算法网络架构灵感来自传统的噪声抑制方法。大部分工作由3GRU层完成。下图展示了我们用于计算频带增益的层结构,以及该体系结构如何映射到噪声抑制的传统步骤。

w8.jpg

当前通话音频在添加降噪功能后延迟在20ms以内,而且CPU占用极低,非常适合实时音视频通话的场景。   
智能应用场景
场景一:元宇宙孪生交互场景


w9.jpg


元宇宙孪生空间交互场景融合了实时音视频能力、媒体智能能力,提供超低延时视频传输、语音智能降噪能力智能虚拟背景能力,并支持多端接入,为跨地域协同办公提供了沉浸式的远程交互解决方案。

场景二:视频流智能识别场景

w10.jpg

基于流媒体平台深度融合多种AI视觉算法,构建了面向多场景的视频流智能识别解决方案
具备内置多种视觉模型、毫秒级智能响应等特性,可用于营业厅智能识别等场景。当前通话音频在添加降噪功能后延迟在20ms以内,而且CPU占用极低,非常适合实时音视频通话的场景。通讯智能未来展望
技术的最终价值在于提升业务效率及体验。随着实时音视频+AI逐步成熟,它正从基础的沟通工具,演进为下一代实时智能交互引擎数字孪生、空间智能等前沿领域,全新的交互范式不断涌现,并已实现深度应用。如:未来孪生交互场景中,我们将构建一个与物理世界实时同步、虚实融合的数字孪生世界。人们可以通过AR/VR设备,以数字分身(Avatar)的形式进入其中,进行协作、设计社交。“现实-孪生空间视频3D投影”技术,则能将真实世界采集到的实时视频流远程无缝3D投影到另一个真实空间中,就像科幻电影中的画面一样,真正达到大家面对面交流。我们期待与您携手,共同开启通讯与AI融合的未来。
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2025-12-3 18:41 , Processed in 0.097181 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表