Home - zmeet-ai/AI-Cloud GitHub Wiki

产品概述

笔声语音识别（Automatic Speech Recognition，ASR）,文字转语音TTS(TextToSpeech) 为企业提供极具性价比的语音识别服务。可作用于录音质检、会议实时转写、同声传译、语音输入法和直播监管视频智能字幕等多个场景。

对实时音频流进行识别，达到“边说边出文字”、“边说边翻译”的效果，可应用与语音输入、电话机器人、搭配TTS可实现同声传译等实时音频流场景。

对录音文件进行识别，达到识别较长的非实时语音的效果，可用于字幕生成、录音资料转写、以及视频监管等场景。

云语音合成目前支持男女共17种声音效果，支持中英文以及各种语种粤语闽南语等，可以满足小说、客服、导航、通知等多种应用场景。

声纹识别是通过提取用户注册的声纹文件，实现快速搜索定位用户在海量语音库中的声纹标签可以配合ASR中文件转语音来区分不同说话人，实现多人语音分离等功能。

笔声语音合成系统使用业界领先技术构建，具备合成速度快、合成语音自然流畅、合成语音拟真度高等特点，可用于多种应用场景，让设备和应用轻松发声，人机语音交互效果更加逼真。

支持中文、英文、粤语的合成，也可以合成中英混读语音。

支持业务自选满足需求的音量、语速等属性。

支持基础音频文件和实时音频流两种合成格式。

支持电话、移动 App 等多种场景和合成效果选择

笔声语音合成支持多种音色的男声、女声选择，覆盖电话客服、小说朗读、消息播报等多样化应用场景。

在客服机器人、服务机器人等场景中，与语音识别、自然语言处理等模块联动，打通人机交互的闭环。实现高品质的机器人发声，使人机交互更流畅自然。

将电子教材、小说等文本材料，以文本文件的形式导入语音合成引擎，生成完整的、可重复阅读的有声教材或有声小说等读物，方便用户随时取用。

在语音导航应用、新闻类 App 中，语音合成可以快速生成高质量的播报音频，方便在用户行走、开车等不方便阅读消息的情况下，利用音频及时获取信息。

可以搭配会议SDK 实现会议中同声传译功能, 辅助参会者理解。