上云无忧 > 文档中心 > 百度智能云音频文件转写API使用教程
音频文件转写
百度智能云音频文件转写API使用教程

文档简介:
Demo: Python Demo 点击下载 (文件为.zip压缩包,若无法打开时,可尝试在文件后上增加".zip“后缀) 在线调试: 您可以在 示例代码中心 中调试该接口,可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

Demo

Python Demo 点击下载 (文件为.zip压缩包,若无法打开时,可尝试在文件后上增加".zip“后缀)

在线调试

您可以在 示例代码中心 中调试该接口,可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。

创建音频转写任务

接口描述:根据音频url、音频格式、语言id以及采样率等参数创建音频转写任务

请求接口:https://aip.baidubce.com/rpc/2.0/aasr/v1/create

HTTP 方法:POST

URL参数:

参数 取值
access_token 通过 API Key 和 Secret Key 获取的 access_token,参考Access Token获取

JSON方式上传音频 Body中放置请求参数,语音数据和其他参数通过标准 JSON 格式串行化 POST 上传,包括的参数如下:

参数名 类型 是否必需 对外状态 取值范围
speech_url str 音频url 可使用百度云对象存储进行音频存储,生成云端可外网访问的url链接,音频大小不超过500MB
format str 音频格式 ["mp3", "wav", "pcm","m4a","amr"]单声道,编码 16bits 位深
pid int 语言类型 [80001(中文语音近场识别模型极速版), 80006(中文音视频字幕模型,申请试用),1737(英文模型)]
rate int 采样率 [16000] 固定值

若音频采样率为8k,请使用呼叫中心音频文件转写

Body请求示例:

{
    "speech_url": "https://platform.bj.bcebos.com/sdk%2Fasr%2Fasr_doc%2Fdoc_download_files%2F16k.pcm",
    "format": "pcm",
    "pid": 80001,
    "rate": 16000
}

返回参数

参数名 类型 是否必需 对外状态
log_id int log id
task_id str 任务id
task_status str 任务状态
error_code int 错误码
error_msg str 错误信息

Body返回示例:

# 创建成功
{
    "log_id": 12345678,
    "task_status": "Created",
    "task_id":  "234acb234acb234acb234acb"  #注意保存该id,用于后续请求识别结果
}
# 创建失败,缺少参数
{
    "error_code": 336203,
    "error_msg": "missing param: speech_url",
    "log_id": 5414433131138366128
}

注意:查询识别结果时,需要该步骤返回的task_id来进行请求。请注意保存task_id列表。


查询音频转写任务结果

根据task_id的数组批量查询音频转写任务结果 请求接口:https://aip.baidubce.com/rpc/2.0/aasr/v1/query HTTP 方法:POST URL参数:

参数 取值
access_token 通过API Key和Secret Key获取的access_token,参考Access Token获取

Body中放置请求参数,参数如下:

参数名 类型 是否必需 描述 取值范围
task_ids list 任务id task_ids为空,返回空任务结果列表;单次查询任务数不超过200个

例:

{
    "task_ids":  ["234acb234acb234acb234acb", "234acb234acb234acb234acd", "234acb234acb234acb234acbe"]
}

Body返回示例:

参数名 类型 是否必需 描述
log_id int log id
tasks_info list 多个任务的结果
+task_id str 任务id
+task_status str 任务状态
+task_result dict 转写结果的json格式
++corpus_no str
++result str 转写结果
++audio_duration int 音频时长(毫秒)
++detailed_result list 转写详细结果
++err_no int 转写失败错误码
++err_msg str 转写失败错误信息
++sn str
error_code int 请求错误码
error_msg str 请求错误信息
error_info list 错误的或查询不存在的taskid数组

例:

{
    "log_id": 12345678,
    "tasks_info": [
	    { # 转写中
	    	"task_status": "Running"
		    "task_id": "234acb234acb234acb234acb",
	    },
	    { # 转写失败
	    	"task_status": "Failure"
		    "task_id": "234acb234acb234acb234acd",
		    "task_result": {
			    "err_no":  3301
			    "err_msg": "speech quality error",
			    "sn": "xxx"
		    }
	    },
	    { # 转写成功
		    "task_status": "Success",
		    "task_result": {
		    	"result": [
			        "观众朋友大家好,欢迎收看本期视频哦。毕竟..."
			    ],
                "audio_duration": 6800,
			    "detailed_result": [
			        {
			        	"res": [
			                "观众朋友大家好,欢迎收看本期视频哦。"
			            ],
			            "end_time": 6700,
			            "begin_time": 4240,
			            "words_info": [],
			            "sn": "257826606251573543780",
			            "corpus_no": "6758319075297447880"
			        }
			        ...
			    ],
			    "corpus_no": "6758319075297447880" 
			},
			"task_id": "234acb234acb234acb234ace"
	    }
	]
}
相似文档
  • 业内首创核心技术,通过普通单目摄像头输入RGB图像,输出人体16个核心关键点的三维坐标信息,实时检测跟踪并精准估算人体三维姿态。可兼容iOS、Android、嵌入式多种平台。
  • 人体三维坐标估算: 实时检测画面中的人体,精准定位16个核心关键点,包含头部、四肢、腰部等主要部位,并可对关键点进行持续跟踪。 人体姿态检测跟踪: 精准估算人体关键点的空间位置,实时捕捉人体位置及姿态信息,适应转体、侧身、四肢躯干遮挡等复杂运动情况。
  • 体育训练及康复: 通过摄像头捕捉追踪人体在一段时间内的姿势变化,检测人体姿态是否达到预期的角度、幅度、速度,检测用户运动动作并判断是否达标,辅助健身锻炼、体育训练、康复训练等应用。
  • 业内首创技术: 通过普通单目摄像头输入单帧RGB图像或连续视频画面,即可实时、准确估计人体关键点的三维信息,无需特殊设备支持。 性能优耗能低: 检测精准,识别快速,在iPhone 8 plus上可达80 fps+,CPU占用率<50%;低端嵌入式平台速度可达25 fps+。
  • 高精度人脸关键点检测及三维重建算法,打造优质的人像美化效果和个性化视频特效能力,支持差异化产品定制,充分满足视频拍摄实时场景需求。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部