首页 热点资讯正文

iFLYHOME OS 2.0助力大屏交互从语音迈入多模新时代

hezhisheng026 热点资讯 2023-04-21 21:35:01 136 0

11 月 19 日,第五届世界声博会暨 2022 科大讯飞全球 1024 开发者节AI+家庭论坛在合肥奥体中心举办,现场发布推出以AI虚拟数字人为媒介的新一代电视语音平台——iFLYHOME OS 2.0。iFLYHOME OS是科大讯飞针对家庭场景及智能终端开发的AI多模态人工智能操作系统。此次iFLYHOME OS 2. 0 以AI虚拟数字人为媒介,对多模态交互系统进行了全面能力提升,并带来了三大创新亮点,让大屏交互更便捷、更智慧、更温暖。

伴随智能终端和ICT技术的蓬勃发展,智慧家庭新时代正在扑面而来。 2021 年 12 月,业内首 个双编号标准《智能家居系统跨平台接入与身份验证技术要求》正式发布,有效解决当前智能家居互联互通中存在的“生态壁垒”问题,助推智能家居互联互通产业的进一步规范发展。面对广阔前景空间,智慧家庭市场将深度聚焦平台、应用、技术、场景探索智慧家庭生态构建,不断完善服务化水平。 

讯飞智慧家庭作为科大讯飞垂直行业品牌,以人工智能技术深度赋能运营商数字家庭业务及终端设备。在 2016 年发布首 款电视语音助手,开启大屏入口探索, 2020 发布电视语音平台iFLYHOME OS,聚焦平台生态能力建设。此次发布的iFLYHOME OS 2. 0 则标志着大屏交互从语音迈入多模态新时代。

关键核心技术突破带来交互体验升级

全新发布的iFLYHOME OS 2. 0 在语音识别、语音合成和端到端交互成功率方面都有显著效果提升。在平台系统化布局基础上,每个单点性能的提升都能给用户带来极大的交互体验改变。

 其一,面向家庭复杂环境和人群的识别优化,让语音交互更简单。科大讯飞在语音识别方面取得关键技术突破,通过增强模型和识别模型的深度耦合,实现高噪、远场混响等各种复杂环境下的高精度语音识别。即使在客厅和厨房这种高噪音复杂场景下,升级优化的语音识别可以精 准识别到家庭用户的指令词。同时,iFLYHOME OS 2. 0 针对各种方言和口音也能实现复杂场景高鲁棒性语音识别,支持 7 种方言自由切换,满足家庭多代同堂的“年轻人普通话&老人方言”混合识别问题。

其二,极 致拟人的语音合成,让AI虚拟人交互更有情感。科大讯飞最 新一代语音合成技术在深度学习框架的基础上进行了技术升级,结合无监督语音听感属性解耦和听感量化编码技术,实现对语音韵律和情感的精细化建模,从而达到能够媲美真人细腻情感表达的效果,使得合成语音变得更具有表现力,韵律、音质和情感上都要更加贴近真人。目前,iFLYHOME OS 2. 0 定制化音库中有十多种超自然发音人选择,家庭用户可以根据年龄、性别、场景喜好定制专属自己的发言人陪自己对话聊天。

其三,交互全流程评价体系打造,让端到端体验更完善。针对平台交互评价标准,科大讯飞联合中国移动智慧家庭运营中心和福建移动分公司,在iFLYHOME OS首 发“懂有畅快暖”语音评价体系,不同于现有行业通用的识别率、语义分析等偏技术化和分段碎片化的评价体系。iFLYHOME OS 2. 0 聚焦家庭用户交互全流程,从用户语音需求出发,注重整体体验感的提升,从单一搜索服务扩充到全场景交互服务,为家庭用户带来更人性化的智能操控体验,获取信息更快、更准、更智能。将端到端交互成功率提升到90%以上,为行业平台交互应用提供标准参考。

- 懂-听得懂:聚焦语音交互服务,提升“识别-语义-搜索”全流程交互满足率,保障用户基础体验,保障用户基础体验。

- 有-服务多:结合大屏场景及人群特征,打造100+精品技能。

- 畅-推得准:针对现网普遍30%+的影片缺失率问题,形成“用户搜索时给予推荐、搜索后后台统计、资源更新后用户提醒”的闭环

- 快-速度快:通过搜索逻辑与界面展示流程优化,全流程响应时间在1S内。

- 暖-有情感:通过交互流畅性、视觉效果、合成音效果、回复语人性化程度、用户引导等功能优化。

(以上数据来源:讯飞电视语音平台BI数据)

智慧家庭道路上,科大讯飞始终坚持从技术中来,到产品中去。目前,科大讯飞已成功构建一套“AI+家庭”智能化解决方案。相信,基于iFLYHOME OS 2. 0 的升级迭代,讯飞将持续赋能智慧家庭生态,围绕家庭场景的多样化需求,技术连接家庭内的智能终端,并通过开展多元化运营,给家庭用户带去多模态、主动式的交互体验。

更温暖、更精 准、更安全的大屏应用创新

iFLYHOME OS 2. 0 也在场景应用方面有所突破创新,家庭用户体验感提升,大屏语音交互更温暖、更精 准、更安全。

其一,基于场景的情感型对话,让大屏交互更温暖。相比对传统的指令性交互,必须等待用户主动说话然后系统进行机械师回复的方式,家庭用户对大屏交互提出更高层次的要求。科大讯飞通过多模态感知及表达、主动对话等技术赋能,在iFLYHOME OS 2. 0 上升级AI交互对话系统能力,系统会在合适的场景下主动进行电视助手的关怀引导和情感化表达,如用户之前搜索的缺失影片更新上映了,系统会主动进行提醒,实现热门影片推荐服务闭环。

经过多年深耕,iFLYHOME OS 2. 0 已经拥有一整套家庭垂直领域知识图谱,覆盖衣食住行文购娱乐等家庭生活全场景。通过AI对话系统深度学习,会在和用户对话的过程中,结合用户的对话内容,进行电视内容和服务的推荐,将电视端的内容和服务推荐给家庭用户使用,从简单指令逐渐提升到智能服务的层次。

其二,面向多人场景的“图像+声音”多模态融合,让远场交互更精 准。现在很多电视、音箱的远场交互都是依赖“单语音+唤醒词”的方式进行,一来这种方式需要用户频繁进行唤醒词唤醒,每说一句话都要喊一次,非常繁杂;二来客厅环境经常有各种人声、电视背景音、甚至窗外的杂音等,会影响远场语音的识别效果。

iFLYHOME OS 2. 0 通过“图像+声音”多模态融合技术,可利用远场麦克风阵列搭配摄像头,实现远场声音定位+摄像头的人脸和唇形检测,视觉+听觉双重信息进行说话人和内容解析,既解决每次说话需要喊唤醒词的繁琐操作,也做到即使旁边有其他人说话,也能将主说话人的干净人声从嘈杂背景环境中分离出来,提升在多人、远距离复杂场景下的语音交互精 准性。有了这种技术,以后即使客厅有再多人,电视也能做到只“听”你的声音,随时随地和你实时互动。

其三,多场景输入输出的定向优化,大屏轻社交方案更安全。iFLYHOME OS 2. 0 上线大屏轻交互解决方案,可实现大屏弹幕和大屏字幕翻译功能。针对大屏弹幕功能,上线组合敏感词识别、基于语义的敏感内容识别,敏感词过滤保障大屏内容安全。另外,字幕在线翻译支持中文和英语等四十多个语种的互相翻译,实施率和准确率高达99%,让大屏视频观看实时无障碍。

首 款大屏AI虚拟人开启家庭“元宇宙”

在本次发布会上,讯飞智慧家庭还推出了大屏首 款情感陪伴AI虚拟人。作为一款兼具情感交互和工具服务的AI虚拟人,AI虚拟管家可以实现与家庭用户在情感陪伴、影视娱乐、老人健康、儿童成长、生活服务、AIoT等多个场景生态下的实时交互,为用户提供一站式大屏生活服务。

AI虚拟管家的多情绪识别和表达能力表现出色,能够根据家庭用户的意图,主动推荐内容及服务。从语音交互再到“类人化”交互,AI虚拟管家越来越接近人与人的对话习惯,也更加适合多样化的现代家庭。

基于iFLYHOME OS 2. 0 的发布,科大讯飞依旧秉承着开放共赢的合作理念,面向行业和合作伙伴提供标准化对接接口,实现高 效技术保障。并且面向多种应用场景实现我们的场景开放,向行业提供多种场景提供带屏解决方案。

面对现下元宇宙背景下的“虚拟人”热潮,科大讯飞诚邀产业合作伙伴共建虚拟人生态,基于讯飞AI虚拟人交互平台,为客户提供定制虚拟人解决方案。讯飞希望联手运营商和合作伙伴,通过iFLYHOME OS 2. 0 平台,不断创造并完善更多的数字家庭新场景。

作为AI虚拟人技术及相关产品和生态合作的服务平台,讯飞AI虚拟人交互平台具备多模感知、多维表达、情感贯穿、自主定制四大关键特点。 2022 年 6 月,科大讯飞AI虚拟人交互系统通过国内首批数字人系统基础能力评测,成功获得了数字人领域的权 威标准认证,为和产业链合作伙伴合作奠定深厚的技术基础。

iFLYHOME OS 2. 0 的发布是科大讯飞稳步布局智慧家庭生态布局的重要一步。面对智慧家庭产业市场蓝海,科大讯飞将会继续以技术创新为动力进行探索,推动未来家庭生活逐步走向智能化。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

本文链接:https://www.16i.cc/post/32270.html