nh1

RTE2024产品论坛:拓展AI时代下RTE产品版图,满足创新性场景需求

栏目:行业   作者:白乙丙    发布时间:2024-10-30 10:27   阅读量:14570   会员投稿

过去一年里,大模型技术在持续进化,作为 RTE 云服务行业的引领者,声网也在不断精进技术,丰富 RTE 产品版图,探索 AI 与 RTE 相结合的无限可能。

10月25日下午,RTE2024 第十届实时互联网大会产品论坛专场正式拉开帷幕。声网产品天团多位重磅大咖,全方位的展示了声网当下最热门、最受欢迎的产品与在 AI+RTE 时代下的行业实践。


从 RTC 到 AI+RTE 产品10年的变与不变


数据显示,2014年 RTC 在 MAU Top10000 APP 中渗透率不足1%,场景使用量不到20个。在声网与众多行业伙伴的驱动下,RTE场景和体验快速升级。截止2024年,RTC 在 MAU Top10000 App 的渗透率已超过10%、场景使用数量超过300个,服务也从 QoS 进化到了 QoE。

从 RTC 行业建立到走向 AI+RTE 这10年,声网的产品和方案能力体系有哪些变与不变?在 RTE2024 产品论坛上,声网COO刘斌带来了声网产品的演进分享与思考。

他指出,随着 5G 和终端设备的发展,从专线、专网到公共网络,从硬件、SaaS 到 PaaS、云网能力,RTC 正在让实时互动成为了一项通用能力。在刘斌的分享中可以清晰的看到,声网最早成立时只有基础能力层的公有云、核心层的RTC Core、以及拓展的社交娱乐场景能力3个产品。在今天的 AI+RTE 全产品和方案能力体系中,声网不仅在网络基础层增加了私有云、混合云服务,RTE Core 层也增加了极速直播、云信令RTM、即时通讯IM以及最新的 AI Agent框架等。为了让开发者更好的使用底层 API,声网还将部分 RTE Extension 封装成了更贴近业务的工具,并推出了覆盖社交娱乐、在线教育、智能硬件、数字化转型、直播电商、AIGC、出海等领域的场景解决方案。

在不断探索 AI+RTE 的实践过程中,声网还打造了延迟最低、组装定制最灵活的 AI+RTE 解决方案,能达到延迟低至500ms、支持随时打断&多次打断,并提供 AI 降噪+背景人声消除等能力,助力开发者打造 AI killer App。刘斌指出,随着大模型能力的不断提升以及与RTC能力结合之后将催生更多AI业态的发展。

回首10年,刘斌认为,实时互动场景的构建中,“体验”是其中一个非常重要的部分。相比此前只追求连通率,是否有能力在不同编码、不同清晰度、不同设备以及网络下,做到高稳定、低延时、丝滑流畅、强同步以及优质的音视频质量将成为整个行业的无止境追求。



场景化API助力开发者快速搭建实时互动场景

在开发者体验上,声网为帮助开发者快速集成高质量的实时互动场景,在今年推出了场景化API。声网视频娱乐产品经理陈际陶介绍,场景化 API 是面向客户业务场景化的一体化开发工具包,通过简单几个 API 就能快速实现场景构建,并通过预设参数配置帮助客户实现场景的最佳实践。场景化API 具备四大核心优势:简化功能开发、上线即最佳、开源支持修改、数据上报完善透明。

从事社交娱乐 APP 开发工程师的都知道,由于 APP 更依赖用户体验、红利期抢占刻不容缓的客观事实,开发工程师经常会面临减少异常,降低难度;缩短开发时间;满足各个业务线既要、又要、还要的三大挑战。

声网视频娱乐产品经理陈际陶认为,业务指标的达成要依赖于两点,一是通过不断迭代的用户体验完成转化率提升,二是快速上线大家一致看好的新场景、新玩法,促进更多的新付费转化。她指出,声网场景化API正是基于这样的逻辑诞生的,作为资深的B端服务商,声网场景化API考虑到了所有开发者架构上的通用适配性,在保证底层 SDK 足够灵活的同时,兼顾了各细分赛道开发者的易用性,同时还提供了 SDK 层的 Scenario API 供客户一键调用最佳音视频策略,进而满足业务端口的既要、又要、还要。

目前,场景化 API 覆盖了 5 大泛娱乐业务场景,包含1v1呼叫、美颜、K歌、直播秒开/秒切、音频直播等,适用于企业期待快速完成开发上线的泛娱乐业务场景,并能跨级提升用户体验。

AI Agent 赋能实时互动行业万象

10年时间,音视频内容生产和消费趋势也发生了翻天覆地的变化。从单向、双向到多人互动,音视频内容互动性越来越强;从离线到在线,从秒级到毫米级,音视频内容消费延迟越来越低。

声网 AI音视频产品经理常云青介绍到,伴随着音视频的变化趋势,声网也一直在用各种产品去践行“低延迟、强互动、超高清”的理念。在生成式AI时代到来的今天同样如此,为了更好的赋能行业万象,声网基于各个行业客户及开发者们大量的真实场景和需求,顺势推出了基于实时互动的 AI Agent 服务平台。

声网 AI Agent 是一套云边端一体的 PaaS 服务,聚焦实时音视频互动场景,结合市场上最优秀的模型能力,充分发挥声网音视频算法及 SD-RTN 的传输优势,助力中小客户快速搭建低延迟、高可用的人机交互应用,支持听、说、读、写、画、看等核心能力,并具备低延迟、高识别准确率、低成本接入和业务高度灵活四大核心优势,适用于泛娱乐、教育、企业协作等多个行业场景。

在活动现场,常云青还展示了其利用声网 AI Agent 生成的 Demo,其中对话式语音助手中的虚拟人对话完美呈现了类似真人的低延迟效果,并具备智能打断能力;AI同声传译同样达到了真人同传的体验效果。

声网 Video AI & Voice AI 的探索与应用

作为音视频领域的实践者,声网在 Video AI 和 Voice AI 的探索就从未停止过。

声网 Video AI 产品经理沈偲暐介绍,声网在 Video AI 层面的探索与应用主要有以下几点,如为成熟的数字人厂商提供传输上的质量保证,并通过开源模型和自研的算法,帮助厂商提升数字人在嘴形对齐、延迟、自然的商业化动作等体验。在视频理解上,通过 YOLO 物品检测 + 眼神追踪这种多模型串联方式做过监考场景的内容审核等。

与此同时,声网还推出了实时风格化解决方案。得益于声网统一的 AI Agent 框架,该方案可以直接使用声网产品矩阵中的多个前后处理功能,比如凤鸣引擎、虚拟背景、超级画质等,甚至还具备借用声网平台对接云市场中插件的能力,无论终端用户在哪个平台。都可以直接让直播变得风格化。

沈偲暐表示,视频的生成、增强、处理以及理解四个维度是 Video AI 与 RTC 的核心交集。从现阶段的情况来看,Video AI 的发展道阻且长。Video AI 作为集大成者现阶段还处于发展早期,如果没有语言、音频保证,用户的交互体验将很难推进。

声网创新产品经理曹跃带来了声网 Voice AI 的分享,他指出,AI 过去几年在音频领域的应用主要集中在 AI 降噪、AI CoDeck 音频处理等,但随着大模型出现,音频的体验变得更加自然,声网 Voice AI 也正在由音频处理走向内容服务。目前,声网 Voice AI 提供了包括语音到文本(实时语音转文字、实时语音翻译)、语音到语音(同声传译、实时文本转语音)以及内容处理的 AI Agent 产品(总结AI、对话AI)在内的一系列服务。

在分享声网 AI Agent 解决方案时,曹跃特别强调,如果企业内 AI 助手的问答信息被用于大模型的二次训练,企业的竞争优势和运营行为就会被大模型复制,从而导致企业丧失竞争优势。声网 AI Agent 与其它应用的主要区别是能够解决企业的数据安全顾虑,提供大模型私有域的支持,并可以通过就近部署、就近接入等方案,保持数据的安全以及优秀的交互体验。

灵动会议、智能纪要,AI重塑会议体验

随着技术的发展,企业对会议安全、信息流和业务流的传递产生了更多的诉求。未来,云视频会议融合、深入企业业务流、AI 深入会议场景或将成为会议行业发展的三个趋势。

在此次的 RTE2024 产品论坛上,声网灵动会议产品经理邰伦裕分享了提供丰富UI 组件、支持快速UI集成的声网灵动会议。邰伦裕介绍到,开发者借助灵动会议仅通过4个方法和回调,就可快速实现UI定制,帮助企业大幅度降低了开发投入与集成时间。目前,灵动会议的功能覆盖率已经实现了与行业标杆对齐,会中功能覆盖率超过90%。能够满足包含远程协作、在线教育、大规模企业会议在内到各种类型的会议需求。

“未来通过智能体、多模态的发展,或许可以更加充分地把会议基础信息提炼出来,形成会议和 AI 的双向匹配。或许未来有一天不用本人开会,会议就已经开完了。”邰伦裕展望到。

会议纪要产出作为开会过程中一个耗时耗力的问题,如何更快更好更低成本的产出成了行业面临的共同挑战。声网AI云平台产品经理杨超阳指出,可以帮助会议瘦身、助力决策高效的“声网智能纪要”解决了行业中听、写和整理三个环节里核心面临的问题。

声网智能纪要采用了可插拔的灵活架构,兼容行业头部和自研的自动语音识别(ASR)技术和大语言模型(LLM),结合高质量的实时通信技术与前沿的音频采集算法,实现了高品质、低成本、超好用的会议纪要能力。相较于其他纪要服务提供商,声网智能纪要还解决了用户担心的安全隐私问题,通过传输链路加密协议保障用户数据私有,采用高可用框架保障客户的数据安全和高可用。

他指出,声网“智能纪要”已在内部投入使用近一年,后续将会以“会议场景集成接入”的形式开放给更多客户使用。

实时数据质量透明和实时应用快速构建

解决实时数据行业的质量透明、帮助RTE领域快速构建实时互动应用是声网两个重要的探索方向,在此次的产品论坛上,声网AI云平台产品经理杨超阳和声网后端产品经理孟小玉分别分享了声网在这两方面的进展。

杨超阳指出,质量透明是实时数据行业的生命线,服务状态同步是质量透明的必经之路。为了守住这一生命线,声网一直在质量体验优化和质量透明方面持续重点投入,并成功推出了集中展示声网重要产品及服务实时运行状态、用户体验质量及影响可用性故障事件、维护通知的声网健康看板(Status Page)。

相比于传统的 Status Page,声网健康看板在状态展示上根据国际电信级质量评估标准,构建了 QoE 指标体系,可以更加客观的反映当前服务是否可用、好用。在实时性上,更是超越了传统云服务。在高效同步上,从告警发生,到事件过滤、处理、同步,可以做到15min内完成。与此同时,声网健康看板还具备支持回查十年后的当前事件,并提供了7*24小时全球运维保障等优势。

在实时应用的快速构建上,孟小玉带来了声网 RTM2.0产品的分享。他指出,声网 RTM 现在已经成为 RTE 领域最重要、最不可或缺的基础组件产品,以及快速构建实时互动应用的必备产品。在行业应用上,RTM2.0覆盖范围也涉及到了在线医疗、智能设备、多人游戏、物流与运输等领域。

私有化平台2.0助力数字化转型

数字化转型近年来一直是 RTE 大会的焦点。在今年的产品论坛上,声网私有化平台产品经理任政再次带来了新的思考。他指出,在传统 IT 架构进入转型升级期、国家对特殊行业严格监管要求提升等大背景下,私有化将成为数字化转型浪潮里不可或缺的重要能力底座。一套支持软硬解耦、开源兼容、可持续演进式的架构体系对于企业数字化转型来说尤为重要。目前,声网 RTC 私有化平台就具备标准化产品、轻量化运维、可持续演进的优势,并在各种规模架构支持上进行了全面的覆盖与成功案例实践。

任政表示,要真正实现数字化转型的期待,就必须推动私有化平台从1.0迈入2.0,解决过去定制化、重运维、烟囱林立以及业务封闭等问题。新一代私有化平台不仅要具备产品标准化、服务普适化,还需要把私有化平台作为政企统一管理底座的其中一环去做整体设计,才能满足不同部署方式的灵活切换,与各种平台和终端的适配,最终支撑起海量的业务场景。

关于私有化平台下 AI 的发展方向,任政认为,通用模型的训练方式肯定不足以应对各种各样的场景,私有化部署的数据库、私有化下的 Infra 设计最终一定都会落地到私有化平台。

可以看到,无论是 AI 的爆发,还是泛娱乐、教育、数字化转型、IoT 等场景的演进,声网持续在 RTE 领域做出革新和深耕。未来,在生成式 AI 能力的加持下,声网持续的产品迭代与创新将助力各行各业迈上新的台阶。


ad