讯

讯飞语音

iFlytek Speech

科大讯飞推出的AI语音技术服务平台，提供业界领先的中文语音合成和识别能力，支持多方言和多语种，广泛应用于教育、医疗和车载场景。

iFlytek AI speech technology platform with industry-leading Chinese voice synthesis and recognition, supporting dialects and multiple languages.

语音合成语音识别中文语音

免费试用中文

收录时间：2026-04-21

最后验证：2026-04-21

访问官网

https://www.xfyun.cn/

AI音频

功能特点

语音听写：将短音频（≤60秒）快速精准地转为文字，支持中文普通话、多种方言和常见外语，实时返回识别结果，适用于即时语音输入场景。
实时语音转写：基于深度全序列卷积神经网络，对长连续音频流进行低延迟实时转文字，支持动态修正和自动标点，适用于会议、访谈等实时记录需求。
一句话识别：极简的轻量级识别接口，针对1-3秒的短指令语音快速响应，识别速度快、准确率高，适合IoT设备、语音遥控器等短指令场景。
语音合成：采用基于LSTM-RNN的情感语音合成技术，提供近百种自然逼真的发音人，支持多语种、多方言和中英混读，可灵活调节语速、语调、音量等参数，实现个性化有声内容创作。
声音复刻：用户仅需提供少量原始语音样本，即可快速训练出与其音色高度相似的个人专属发音人，生成自然流畅的合成语音，广泛应用于个人语音助手、虚拟主播等场景。
情感合成：在传统合成基础上，融入喜悦、悲伤、愤怒等情感表达，使合成语音更具表现力和感染力，适用于有声阅读、智能客服、动画配音等对情感要求高的场景。
语音唤醒：支持自定义唤醒词，设备在休眠或低功耗状态下，仅需说出特定词语即可激活并进行后续交互，误唤醒率低，为各类智能硬件提供“一句话启动”的便捷交互入口。
声纹识别：通过提取说话人声音中的独特生物特征，实现“闻声识人”，支持说话人辨认和确认，可应用于身份认证、个性化服务推荐等安全或定制化场景。

使用指南

访问讯飞开放平台官网并注册账号，完成实名认证后进入控制台创建应用，获取专属的 APPID、APIKey 和 APISecret。
根据所选功能（如语音听写、语音合成）下载对应平台的 SDK 或查阅 API 文档，快速完成集成准备。
调用语音识别类 API 时，需按要求上传指定格式和参数的音频文件，并通过请求参数设置语言、方言、领域等以提高识别率。
调用语音合成类 API 时，需传入待合成文本，并选择发音人、语速、音量等参数，返回的音频数据可直接播放或保存。
使用实时转写功能需建立 WebSocket 长连接，持续发送音频流并实时接收识别结果的回传。
如遇问题，可优先查阅平台提供的技术文档和 FAQ，或通过控制台的工单系统、在线IM联系技术支持。

应用场景

智慧教育：用于课堂教学实时转写、口语评测、有声教材合成，辅助构建互动性更强的智慧课堂。
智慧医疗：在门诊、查房等场景中，医生口述病历可直接转写为结构化电子文本，提升文书录入效率。
车载交互：通过语音唤醒、声纹识别和语音合成，为车载系统提供无接触的、个性化的导航、通话及媒体控制服务。
智能客服：在电话与在线客服系统中，集成语音识别与情感合成，实现智能语音导航、自助问答和更富亲和力的自动外呼。
智能硬件：为智能音箱、故事机、机器人等产品赋予语音唤醒、语音控制和高品质内容朗读的核心能力。

常见问题

Q: 讯飞语音服务的免费额度是多少？ A: 平台为新注册用户提供多数服务的免费体验包，具体额度随产品而异。例如，语音听写、语音合成等均有每日或总计的免费调用次数，额度用完后需付费购买。详情可登录控制台，在对应服务的“概览”页查看。
Q: 如何提升语音识别在嘈杂环境下的准确率？ A: 建议在调用识别API时，根据音频的实际环境指定domain（应用领域）和accent（方言）参数。对于特定垂直场景，如远场、强噪，可选用平台专门优化的“远场语音识别”或“语音唤醒”方案，并配合硬件降噪、前端信号处理等一起使用。
Q: 语音合成能否支持中英文混读？ A: 可以。平台的多语种发音人和部分高质量中文发音人天然支持中英混读，能够流畅自然地处理“我今天要做一个PPT演示”这类混合文本，无需进行特殊标记。
Q: 意见和投诉应如何反馈？ A: 关于讯飞开放平台的意见和投诉，请通过官网页面底部的“意见/投诉反馈”入口提交。该入口仅处理意见和投诉，如有技术或使用问题，请点击页面的“IM咨询”按钮，转人工服务获得技术支持。