文档中心

平台介绍

开发者须知

用户协议

语音合成(TTS)

语音识别(ASR)

平台介绍

一 概述

极限元开放云平台是极限元(北京)智能科技股份有限公司旗下的面向互联网开发者的智能技术交互平台,为开发者提供开放语音合成、语音识别、色情检测等服务,通过极限元开放云平台,用户可以随时随地获得高质量的人工智能服务。

二 主要功能

2.1 语音合成

极限元语音合成系统采用先进的语音合成引擎,合成语音已经接近真人的自然效果。主要功能有:

1 高质量语音,将输入文本实时转换为流畅、清晰、自然和具有表现力的语音数据;

2 多语种服务,整合了多语种语音合成引擎,可提供中文、中英文混读、纯正英文、粤语、粤英文混读的语音合成服务;

3 高精度文本分析技术,保证了对文本中未登录词(如地名)、多音字、特殊符号(如标点、数字)、韵律短语等智能分析和处理;

4 多种数据输出格式,支持输出多种采用率的线性Wav,A/U率wav和vox等格式的语音数据;

5 语音调整功能,开发接口提供了音量、语速、音高(基频)等多种合成参数动态调整功能;

2.2 语音识别

极限元语音识别系统,把语音转换成文字,自助语音服务可以根据结果匹配关键字从而控制智能设备。主要包括以下功能特性:

2.2.1 语音前端处理

前端语音处理对真实环境下采集到的语音信号进行增强处理,检测语音段数据并进一步对噪声、回声、混响、人声等干扰进行抑制,前端处理后的语音更适配后端的识别引擎。主要功能包括:

1 端点检测

 端点检测是对输入的音频流进行实时分析,可以做到边说话边识别,提高用户体验。

2 噪音消除

 在实际环境中存在着噪声的干扰,通过稳健的降噪算法对各种类型的噪声进行抑制,从而有助于提高语音识别率。

3 回声消除

 在语音交互过程中,麦克风会接收到扬声器播放的声音,通过回声消除算法抑制回波干扰,在交互设备播放音乐或合成音时能够随意打断。

4 混响抑制

 在远场交互过程中,声音在传输时会形成混响干扰,通过有效的单通道或多通道混响消除算法抑制晚期混响成分,增强远场语音交互的体验感。

5 波束形成

 波束形成算法用于增强目标方向的语音,利用麦克风阵列的远场拾音能力,抑制非目标方向的干扰信号,提升远场语音识别的性能。

2.2.2 后端识别处理

后端识别处理对语音进行识别,得到最适合的结果,主要特性有:

1 大词汇量、独立于说话人的健壮识别功能

2 置信度输出

 置信度反映了识别结果的可信程度。应用程序可以通过置信度的值进行分析和后续处理。

3 多识别结果

 又称多候选技术,识别引擎向应用程序返回满足条件的多个识别结果,供用户选择。用户通过置信度判决和多识别结果输出技术可以开发更加灵活、更加人性化的业务流程。

4 说话人自适应

 当用户与语音识别系统进行多次会话过程中,系统能够在线提取通话的语音特征,自动调整识别参数使识别效果得到持续优化。

2.3 声纹识别

极限元声纹识别系统采用最先进的声纹识别引擎,支持不同带宽、不同信道、不同内容语音的声纹识别。主要功能有:

1 支持说话人识别功能,实现从数万个声纹模板中快速准确匹配到特定说话人的语音;

2 支持说话人确认功能,用户在线注册少量语音后,即可对该用户语音进行在线确认;

3 通过说话人聚类技术,高效准确的计算出长音频中不同说话人音频片段的时间边界;

4 支持对合成音、播放音等音频信号的检测;

5 针对窄带电话信道语音,通过有效的信道归一化算法,提高了系统的鲁棒性;

6 支持文本无关的声纹识别和文本相关的声纹识别。

2.4 情感识别

极限元情感识别系统采用数据驱动的方法建模,实现对语音信号正负倾向性以及离散情感状态的有效检测。主要功能有:

1 实现对自然口语语音中说话人的正负倾向性进行检测;

2 支持对愤怒、悲伤、高兴等离散情感状态进行准确识别;

3 能够实时跟踪说话人情绪的变化;

4 支持融合音频、视频、文本等多模态信息的情感识别;

2.5 人机对话

极限元人机对话系统可针对专业领域在定制场景下实现人与计算机之间的自然口语对话,尤其在智能客服应用中能够极大地节省人力成本和方便大众。其主要功能特点有:

1 结合专业领域背景的语音识别:在专业领域中通常会出现很多专有词汇或特殊句式,基于通用领域的语音识别模型针对此类情况往往识别率较低,从而导致对话过程发生错误。我们能够结合专业领域背景知识,在少量数据集上快速建立专业领域的识别模型,有效提升该领域内语音识别的准确率和对话过程的流畅性。

2 面向对话的多表现力语音合成:语音合成是人机交互中最主要的展现方式之一,直接关乎用户的体验感。我们不仅针对不同年龄、性别等因素构建了多样化的语音合成模型,同时也可根据对话过程中所需的语气、语调等合成出不同表现力的语音,进而提升对话体验效果。

3 基于云平台的多用户对话管理:我们在云平台上进行了整套对话系统架构搭建,将对话管理与前后端语音处理模块做了良好的封装和接口标准化通信测试,实现了各种对话管理模型更新升级的简易性和稳定性,同时每个对话系统都支持多用户同时访问。

4 专业知识构建与自然语言理解:基于不同专业领域特有的知识体系,构建对应的专业知识库和知识图谱,同时对该系统内自然语言处理模型进行相应调整,让系统能够更准确地理解对话中所涉及到的专业知识,有效提升用户意图理解和关键信息抽取准确率。

5 连续维度情感识别与情感表达:能够针对语音中的情感信息进行连续维度识别,并融合用户语句进行情感意图理解;同时在对话管理方面也可以根据对话语料库设计返回语句不同情感表达方式,并结合多表现力语音合成技术实现情感表达。

6 多对话类型融合的模块化管理:在常见人机对话中,往往一个对话系统只能够处理单一类别问题;我们对对话系统进行了模块化管理,不再局限于传统填充槽或状态机模式,实现了多对话类型融合的多轮对话和话题跳转机制,系统还可以根据对话需要自动交换用户和系统发问主动权。

三 开放接口

1 提供简单易用的REST API。

2 为各平台提供相应的SDK,使应用开发更加方便。