Home - zmeet-ai/AI-Cloud GitHub Wiki
产品概述
笔声语音识别(Automatic Speech Recognition,ASR),文字转语音TTS(TextToSpeech) 为企业提供极具性价比的语音识别服务。可作用于录音质检、会议实时转写、同声传译、语音输入法 和 直播监管 视频智能字幕等多个场景。
产品功能
实时语音识别
对实时音频流进行识别,达到“边说边出文字”、“边说边翻译”的效果,可应用与语音输入、电话机器人、搭配TTS可实现同声传译等实时音频流场景。
录音文件识别
对录音文件进行识别,达到识别较长的非实时语音的效果,可用于字幕生成、录音资料转写、以及视频监管等场景。
TTS文字转语音
云语音合成目前支持男女共17种声音效果,支持中英文以及各种语种粤语 闽南语 等,可以满足小说、客服、导航、通知等多种应用场景。
声纹识别
声纹识别是通过提取用户注册的声纹文件,实现快速搜索定位用户在海量语音库中的 声纹标签可以配合ASR中文件转语音来区分不同说话人,实现多人语音分离等功能。
产品优势
高拟真度
笔声语音合成系统使用业界领先技术构建,具备合成速度快、合成语音自然流畅、合成语音拟真度高等特点,可用于多种应用场景,让设备和应用轻松发声,人机语音交互效果更加逼真。
灵活设置
- 支持中文、英文、粤语的合成,也可以合成中英混读语音。
- 支持业务自选满足需求的音量、语速等属性。
- 支持基础音频文件和实时音频流两种合成格式。
- 支持电话、移动 App 等多种场景和合成效果选择
多发声人
笔声语音合成支持多种音色的男声、女声选择,覆盖电话客服、小说朗读、消息播报等多样化应用场景。
应用场景
机器人发声
在客服机器人、服务机器人等场景中,与语音识别、自然语言处理等模块联动,打通人机交互的闭环。实现高品质的机器人发声,使人机交互更流畅自然。
有声读物制作
将电子教材、小说等文本材料,以文本文件的形式导入语音合成引擎,生成完整的、可重复阅读的有声教材或有声小说等读物,方便用户随时取用。
语音播报
在语音导航应用、新闻类 App 中,语音合成可以快速生成高质量的播报音频,方便在用户行走、开车等不方便阅读消息的情况下,利用音频及时获取信息。
同声传译
可以搭配会议SDK 实现会议中同声传译功能, 辅助参会者理解。