萍聚社区-德国热线-德国实用信息网

 找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 127|回复: 0

人工?智能?傻傻分不清楚!TeleAI 星辰语音大模型推出“超自然语音生成”技术

[复制链接]
发表于 2025-4-30 22:22 | 显示全部楼层 |阅读模式
作者:微信文章




素材来自网络

最近,一档脱口秀节目中吐槽电商平台智能客服的段子在网上爆火。

想必每个在线上购物的朋友都会遇到这种情况:下单之前人工客服“亲亲亲”,下单之后智能客服“听不懂”你在说什么。

于是就出现了段子里的情形,智能客服既没有智能,也没有客服。

顾客只能不停地要求“转人工”“转人工”“转人工”!(重要的事情不说三遍都转不过去...)



素材来自网络

还有一些银行、外卖的客服,直接语音打过来,接起后操着一口浓郁的“机械风”,一听就是录好的话术,连中间的停顿都可以读出秒来。

语音是人类最自然的交互和沟通方式,它不仅用来传递语义信息,还承载着情感、情绪和态度。相同一段文字,结合不同的语音语调,意思可能会截然相反。

而“客服”作为顾客遇到问题时第一也是唯一能够求助的对象,不应该只是机械式地给出“标准话术”,而是能够提供更多“情感价值”,让用户既放心又安心。

特别是对于老年人群体,他们不懂高科技,分不清楚人工还是智能。但他们需要一位有耐心和亲和力的工作人员,真正帮助他们解决困难。

随着大语言模型(LLM)技术的引入,AI 可以更准确地理解用户的需求,并与之交互,但受限于传统语音合成(TTS)技术缺乏情感、流畅度差等问题,总是让智能客服的声音少了点“人情味儿”。

数据显示,在智能客服系统的应用中,由 TTS 技术驱动的语音客服的首句被挂断率高达50%,而真人客服的通话被挂断率则下降为30%。

TeleAI 有何对策?

为了解决这个问题,中国电信人工智能研究院(TeleAI)创新推出自主研发的“超自然语音生成”技术,让星辰语音大模型不仅可以听懂用户说话,还能以高度拟人的声音与之对话和交流。基于此,星辰语音大模型将情感丰富、自然流畅、多样音色等众多优势集于一身,还支持普通话、方言、英语等多种语言混说。

这项技术创新是中国电信集团 CTO、首席科学家、中国电信人工智能研究院(TeleAI)院长李学龙教授带领团队在智能语音生成领域的又一项重要成果,彻底解决了过往语音生成技术缺乏真实感的问题和挑战,能够保障所生成语音的高保真度和自然流畅的情感表达。

话不多说,上效果!



video: https://mp.weixin.qq.com/mp/readtemplate?t=pages/video_player_tmpl&action=mpvideo&auto=0&vid=wxv_3715333368976785412

结合 LLM 的精准语义理解,智能客服可以通过超自然的拟人声音,与用户进行交流和互动,在介绍业务的过程中,还能流畅地回答问题。在这段对话中,用户完全没有察觉是在与 AI 说话。

上周,TeleAI 星辰语音大模型全新升级了“超多方言识别”能力,方言种类提升至40种,并支持中英混说。除了“听”方言,星辰语音大模型还能“说”方言。

请大家猜猜,下面两段对话中,哪个声音是 AI 生成的?

SVG布局的工具条上可以设置动画各种参数
同时可以设置宽高比,达到SVG层和布局内容的完美对齐

TeleAI 是如何实现的?

星辰语音大模型的“超自然语音生成”技术采用了基于离散语音 Token 的自回归方法,隐式地对持续时间进行建模。

同时,在自然韵律处理及鲁棒性增强方面,TeleAI 还首创了“双连贯相加式” Prompt 设计和“先惩罚后采样”解码策略,从而大幅提升生成语音的真实感。

首创1:“双连贯相加式” Prompt 设计

使模型具备指定风格、指定语言的生成能力,并通过文本和语义之间的双向损失函数,在文本和语音之间引入语义信息,赋予合成语音自然韵律和真实感,让拟人更“真人”。



“双连贯相加式” Prompt 示意

首创2:“先惩罚后采样”解码策略

解决随机采样带来的丢字、漏字、重复读、无限循环等不稳定现象,显著提升了合成稳定性,发音问题比例低至千分之五。



应用前景

经过在智能客服场景中的真实测试,星辰语音大模型“超自然语音生成”能力的表现大幅超越了 GPT-4 等通用模型。

得益于其更自然、流畅的语音输出和情感表达能力,由星辰语音大模型驱动的智能客服系统,能够给客户带来如同真人般自然流畅的沟通体验,彻底消除过往语音普遍存在的“机械感”,从而有效提升用户满意度。

在数字人应用场景,星辰语音大模型还可以根据不同形象匹配符合的声音质感,并赋予数字人在说话过程中以情感表达,使其形象更加鲜活。

例如通过可视化的智能家居设备,数字人可以通过方言与老人说家乡话,陪伴她们聊天,并通过调用大模型工具,帮助她们呼叫修理工,或控制智能设备。



video: https://mp.weixin.qq.com/mp/readtemplate?t=pages/video_player_tmpl&action=mpvideo&auto=0&vid=wxv_3714098013506207752

展望未来,随着智能体、具身智能、机器人等技术更加成熟,每个人都能拥有一个富有“情感”的机器管家,它能够理解你的需求和喜怒哀乐,并像一位老朋友似的,声情并茂地与你大声说笑。



One More Thing

今年5月,TeleAI 以星辰超自然语音生成大模型为底座,在 ICAGC 2024 高感染力与可信音频生成挑战赛中,获得高感染力与可信音频生成赛道第一名。

相关论文《LLM-based Expressive Text-to-Speech Synthesizer with Style and Timbre Disentanglement》已被国际顶级会议ISCSLP 2024成功收录。

TeleAI

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

x
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

手机版|Archiver|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-5-3 23:38 , Processed in 0.055487 second(s), 15 queries , Redis On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表