Home - zmeet-ai/AI-Cloud GitHub Wiki

产品概述

笔声语音识别(Automatic Speech Recognition,ASR),文字转语音TTS(TextToSpeech) 为企业提供极具性价比的语音识别服务。可作用于录音质检、会议实时转写、同声传译、语音输入法 和 直播监管 视频智能字幕等多个场景。

产品功能

实时语音识别

对实时音频流进行识别,达到“边说边出文字”、“边说边翻译”的效果,可应用与语音输入、电话机器人、搭配TTS可实现同声传译等实时音频流场景。

录音文件识别

对录音文件进行识别,达到识别较长的非实时语音的效果,可用于字幕生成、录音资料转写、以及视频监管等场景。

TTS文字转语音

云语音合成目前支持男女共17种声音效果,支持中英文以及各种语种粤语 闽南语 等,可以满足小说、客服、导航、通知等多种应用场景。

声纹识别

声纹识别是通过提取用户注册的声纹文件,实现快速搜索定位用户在海量语音库中的 声纹标签可以配合ASR中文件转语音来区分不同说话人,实现多人语音分离等功能。

产品优势

高拟真度

笔声语音合成系统使用业界领先技术构建,具备合成速度快、合成语音自然流畅、合成语音拟真度高等特点,可用于多种应用场景,让设备和应用轻松发声,人机语音交互效果更加逼真。

灵活设置

  • 支持中文、英文、粤语的合成,也可以合成中英混读语音。
  • 支持业务自选满足需求的音量、语速等属性。
  • 支持基础音频文件和实时音频流两种合成格式。
  • 支持电话、移动 App 等多种场景和合成效果选择

多发声人

笔声语音合成支持多种音色的男声、女声选择,覆盖电话客服、小说朗读、消息播报等多样化应用场景。

应用场景

机器人发声

在客服机器人、服务机器人等场景中,与语音识别、自然语言处理等模块联动,打通人机交互的闭环。实现高品质的机器人发声,使人机交互更流畅自然。

有声读物制作

将电子教材、小说等文本材料,以文本文件的形式导入语音合成引擎,生成完整的、可重复阅读的有声教材或有声小说等读物,方便用户随时取用。

语音播报

在语音导航应用、新闻类 App 中,语音合成可以快速生成高质量的播报音频,方便在用户行走、开车等不方便阅读消息的情况下,利用音频及时获取信息。

同声传译

可以搭配会议SDK 实现会议中同声传译功能, 辅助参会者理解。

Demo下载

image