上云无忧 > 文档中心 > 百度智能云语音识别创建音频文件转写任务
语音识别
百度智能云语音识别创建音频文件转写任务

文档简介:
接口描述:根据音频url、音频格式、语言id以及采样率等参数创建音频转写任务 请求接口:https://aip.baidubce.com/rpc/2.0/aasr/v1/create HTTP 方法:POST URL参数:access_token,通过 API Key 和 Secret Key 获取的 access_token,参考Access Token获取。 【百度智能云】实时语音识别 【百度智能云】短语音识别标准版 【百度智能云】音频文件转写 【百度智能云】呼叫中心音频文件转写
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

创建音频转写任务

接口描述:根据音频url、音频格式、语言id以及采样率等参数创建音频转写任务

请求接口:https://aip.baidubce.com/rpc/2.0/aasr/v1/create

HTTP 方法:POST

URL参数:

参数 取值
access_token 通过 API Key 和 Secret Key 获取的 access_token,参考Access Token获取

JSON方式上传音频 Body中放置请求参数,语音数据和其他参数通过标准 JSON 格式串行化 POST 上传,包括的参数如下:

参数名 类型 是否必需 对外状态 取值范围
speech_url str 音频url 可使用百度云对象存储进行音频存储,生成云端可外网访问的url链接,音频大小不超过500MB
format str 音频格式 ["mp3", "wav", "pcm","m4a","amr"]单声道,编码 16bits 位深
pid int 语言类型 [80001(中文语音近场识别模型极速版), 1737(英文模型)]
rate int 采样率 [16000] 固定值

若音频采样率为8k,请使用呼叫中心音频文件转写

Body请求示例:

{
    "speech_url": "https://platform.bj.bcebos.com/sdk%2Fasr%2Fasr_doc%2Fdoc_download_files%2F16k.pcm",
    "format": "pcm",
    "pid": 80001,
    "rate": 16000
}

返回参数

参数名 类型 是否必需 对外状态
log_id int log id
task_id str 任务id
task_status str 任务状态
error_code int 错误码
error_msg str 错误信息

Body返回示例:

# 创建成功
{
    "log_id": 12345678,
    "task_status": "Created",
    "task_id":  "234acb234acb234acb234acb"  #注意保存该id,用于后续请求识别结果
}
# 创建失败,缺少参数
{
    "error_code": 336203,
    "error_msg": "missing param: speech_url",
    "log_id": 5414433131138366128
}

注意:查询识别结果时,需要该步骤返回的task_id来进行请求。请注意保存task_id列表。

相似文档
  • 根据task_id的数组批量查询音频转写任务结果 请求接口:https://aip.baidubce.com/rpc/2.0/aasr/v1/query HTTP 方法:POST URL参数: access_token通过API Key和Secret Key获取的access_token,参考Access Token获取 【百度智能云】实时语音识别 【百度智能云】短语音识别标准版 【百度智能云】音频文件转写 【百度智能云】呼叫中心音频文件转写
  • Running 转写中 Success 转写成功 Failure 转写失败 336200 internal error 1,2 内部错误,注意task_id类型非字符串 336201 unknown task id 2 未知task id 336202 invalid param: task_ids 1,2 无效参数值 【百度智能云】实时语音识别 【百度智能云】短语音识别标准版 【百度智能云】音频文件转写 【百度智能云】呼叫中心音频文件转写
  • 本文描述如何从其它格式的音频转成符合语音识别输入要求格式的音频文件。即4种格式的音频文件: pcm(不压缩),也称为raw格式。音频输入最原始的格式,不用再解码。 wav(不压缩,pcm编码):在pcm文件的开头出上加上一个描述采样率,编码等信息的字节。 【百度智能云】实时语音识别 【百度智能云】短语音识别标准版
  • 本java demo能将中文转换为拼音,并比较拼音相似度;进而可以在一组候选词中,找到读音与搜索词最为接近的词组。 该工具能够有效解决同音词、相似发音词、发音不标准等特殊情况下的语音识别。 例如,在通讯录场景下,如果用户需要识别的正确联系人是“张三”,但语音识别接口返回的结果可能是“张山”;此时则可以将用户的联系人列表和“张山”作为输入,通过本工具查找出与“张山”最匹配的结果,有效提高结果的准确率。 【百度智能云】实时语音识别 【百度智能云】短语音识别标准版
  • 由于百度rest api接口有60s的音频时长限制,使用此demo可以粗略地按照静音切分音频。 项目地址: https://github.com/Baidu-AIP/speech-vad-demo 集成 webrtc 开源项目,vad模块,具体算法GMM(Gaussian Mixture Model)。 注意这个是开源项目,效果远不如与百度语音LInux C++ SDK ,Android及iOS SDK自带的VAD功能,切割的文件需为pcm(16000采样率 小端序 16bits)的格式,其他格式需要提前转换,切割后也是pcm文件 【百度智能云】实时语音识别 【百度智能云】短语音识别标准版
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部