文档中心

Document Center

极限元-泛娱乐行业内容审核、音视频互动等人工智能解决方案专家
互联网视频监测系统

平台介绍

开发者须知

用户协议

语音合成(TTS)

语音识别(ASR)

图像识别(IR)  

平台介绍

一 概述

极限元开放云平台是极限元(北京)智能科技股份有限公司旗下的面向互联网开发者的智能技术交互平台,为开发者提供开放语音合成、语音识别、色情检测等服务,通过极限元开放云平台,用户可以随时随地获得高质量的人工智能服务。

二 主要功能

2.1 语音合成

极限元语音合成系统采用先进的语音合成引擎,合成语音已经接近真人的自然效果。主要功能有:

1 高质量语音,将输入文本实时转换为流畅、清晰、自然和具有表现力的语音数据;

2 多语种服务,整合了多语种语音合成引擎,可提供中文、中英文混读、纯正英文、粤语、粤英文混读的语音合成服务;

3 高精度文本分析技术,保证了对文本中未登录词(如地名)、多音字、特殊符号(如标点、数字)、韵律短语等智能分析和处理;

4 多种数据输出格式,支持输出多种采用率的线性Wav,A/U率wav和vox等格式的语音数据;

5 语音调整功能,开发接口提供了音量、语速、音高(基频)等多种合成参数动态调整功能;

2.2 语音识别

极限元语音识别系统,把语音转换成文字,自助语音服务可以根据结果匹配关键字从而控制智能设备。主要包括以下功能特性:

2.2.1 前端语音处理

前端语音处理指利用信号处理的方法对说话人语音进行检测、降噪等预处理,以便得到最适合识别引擎处理的语音。主要功能包括:

1 端点检测

 端点检测是对输入的音频流进行分析,可以做到边说话边识别,提高用户体验。

2 噪音消除

 在实际环境中,噪声无处不在,极限元语音识别系统具备高效的噪音消除能力,从而提高识别率。

2.2.2 后端识别处理

后端识别处理对语音进行识别,得到最适合的结果,主要特性有:

1 大词汇量、独立于说话人的健壮识别功能

2 置信度输出

 置信度反映了识别结果的可信程度。应用程序可以通过置信度的值进行分析和后续处理。

3 多识别结果

 又称多候选技术,识别引擎向应用程序返回满足条件的多个识别结果,供用户选择。用户通过置信度判决和多识别结果输出技术可以开发更加灵活、更加人性化的业务流程。

4 说话人自适应

 当用户与语音识别系统进行多次会话过程中,系统能够在线提取通话的语音特征,自动调整识别参数使识别效果得到持续优化。

2.3 色情检测

依托全网海量优质数据和深度神经网络技术,智能鉴别色情图片内容,为您的产品保驾护航,远离违规风险。主要包括以下功能特性:

2.3.1 利用业界领先的深度学习技术,判断一张图片的涉黄程度,分别给出色情、性感、正常三个置信度分值,用户可以根据业务需要利用置信度分值对违规图像进行自动过滤,及时避免产品涉黄风险,大幅降低审核人力成本。

2.3.2 优势特点

1 准确性高

 色情识别准确率高,对有效图片快速处理,第一时间杜绝风险,极大减少人工审核工作量。

2 快速迭代

 依托海量丰富的互联网数据,快速迭代模型,并支持基于业务场景的定制优化。

3 覆盖广

 模型依托百度海量、丰富的数据,对不同领域的图片均能正确识别色情图,并通过深度学习算法,识别效果更智能。

三 开放接口

1 提供简单易用的REST API。

2 为各平台提供相应的SDK,使应用开发更加方便。

互联网视频监测系统