百度智能云音频文件转写API使用教程

音频文件转写

简介/价格/文档

百度智能云音频文件转写API使用教程

文档简介：

Demo： Python Demo 点击下载（文件为.zip压缩包，若无法打开时，可尝试在文件后上增加".zip“后缀）在线调试：您可以在示例代码中心中调试该接口，可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。

*此产品及展示信息均由百度智能云官方提供。免费试用咨询热线：400-826-7010，为您提供专业的售前咨询，让您快速了解云产品，助您轻松上云！微信咨询

免费试用、价格特惠

文档详情

Demo

Python Demo 点击下载（文件为.zip压缩包，若无法打开时，可尝试在文件后上增加".zip“后缀）

在线调试

您可以在示例代码中心中调试该接口，可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。

创建音频转写任务

接口描述：根据音频url、音频格式、语言id以及采样率等参数创建音频转写任务

请求接口：https://aip.baidubce.com/rpc/2.0/aasr/v1/create

HTTP 方法：POST

URL参数：

参数	取值
access_token	通过 API Key 和 Secret Key 获取的 access_token，参考Access Token获取

JSON方式上传音频 Body中放置请求参数，语音数据和其他参数通过标准 JSON 格式串行化 POST 上传，包括的参数如下：

参数名	类型	是否必需	对外状态	取值范围
speech_url	str	是	音频url	可使用百度云对象存储进行音频存储，生成云端可外网访问的url链接，音频大小不超过500MB
format	str	是	音频格式	["mp3", "wav", "pcm","m4a","amr"]单声道，编码 16bits 位深
pid	int	是	语言类型	[80001（中文语音近场识别模型极速版）, 80006（中文音视频字幕模型，申请试用），1737（英文模型）]
rate	int	是	采样率	[16000] 固定值

若音频采样率为8k，请使用呼叫中心音频文件转写

Body请求示例：

{
    "speech_url": "https://platform.bj.bcebos.com/sdk%2Fasr%2Fasr_doc%2Fdoc_download_files%2F16k.pcm",
    "format": "pcm",
    "pid": 80001,
    "rate": 16000
}

返回参数

参数名	类型	是否必需	对外状态
log_id	int	是	log id
task_id	str	否	任务id
task_status	str	否	任务状态
error_code	int	否	错误码
error_msg	str	否	错误信息

Body返回示例：

# 创建成功
{
    "log_id": 12345678,
    "task_status": "Created"，
    "task_id":  "234acb234acb234acb234acb"  #注意保存该id，用于后续请求识别结果
}
# 创建失败，缺少参数
{
    "error_code": 336203,
    "error_msg": "missing param: speech_url",
    "log_id": 5414433131138366128
}

注意：查询识别结果时，需要该步骤返回的task_id来进行请求。请注意保存task_id列表。

查询音频转写任务结果

根据task_id的数组批量查询音频转写任务结果请求接口：https://aip.baidubce.com/rpc/2.0/aasr/v1/query HTTP 方法：POST URL参数：

参数	取值
access_token	通过API Key和Secret Key获取的access_token，参考Access Token获取

Body中放置请求参数，参数如下：

参数名	类型	是否必需	描述	取值范围
task_ids	list	是	任务id	task_ids为空，返回空任务结果列表；单次查询任务数不超过200个

例：

{
    "task_ids":  ["234acb234acb234acb234acb", "234acb234acb234acb234acd", "234acb234acb234acb234acbe"]
}

Body返回示例：

参数名	类型	是否必需	描述
log_id	int	是	log id
tasks_info	list	否	多个任务的结果
+task_id	str	是	任务id
+task_status	str	是	任务状态
+task_result	dict	否	转写结果的json格式
++corpus_no	str	否
++result	str	否	转写结果
++audio_duration	int	否	音频时长（毫秒）
++detailed_result	list	否	转写详细结果
++err_no	int	否	转写失败错误码
++err_msg	str	否	转写失败错误信息
++sn	str	否
error_code	int	否	请求错误码
error_msg	str	否	请求错误信息
error_info	list	否	错误的或查询不存在的taskid数组

例：

{
    "log_id": 12345678,
    "tasks_info": [
	    { # 转写中
	    	"task_status": "Running"
		    "task_id": "234acb234acb234acb234acb",
	    },
	    { # 转写失败
	    	"task_status": "Failure"
		    "task_id": "234acb234acb234acb234acd",
		    "task_result": {
			    "err_no":  3301
			    "err_msg": "speech quality error",
			    "sn": "xxx"
		    }
	    },
	    { # 转写成功
		    "task_status": "Success",
		    "task_result": {
		    	"result": [
			        "观众朋友大家好，欢迎收看本期视频哦。毕竟..."
			    ],
                "audio_duration": 6800,
			    "detailed_result": [
			        {
			        	"res": [
			                "观众朋友大家好，欢迎收看本期视频哦。"
			            ],
			            "end_time": 6700,
			            "begin_time": 4240,
			            "words_info": [],
			            "sn": "257826606251573543780",
			            "corpus_no": "6758319075297447880"
			        }
			        ...
			    ],
			    "corpus_no": "6758319075297447880" 
			},
			"task_id": "234acb234acb234acb234ace"
	    }
	]
}

相似文档

什么是百度智能云3D肢体关键点 SDK？
业内首创核心技术，通过普通单目摄像头输入RGB图像，输出人体16个核心关键点的三维坐标信息，实时检测跟踪并精准估算人体三维姿态。可兼容iOS、Android、嵌入式多种平台。
百度智能云3D肢体关键点 SDK 的功能与演示（视频）
人体三维坐标估算：实时检测画面中的人体，精准定位16个核心关键点，包含头部、四肢、腰部等主要部位，并可对关键点进行持续跟踪。人体姿态检测跟踪：精准估算人体关键点的空间位置，实时捕捉人体位置及姿态信息，适应转体、侧身、四肢躯干遮挡等复杂运动情况。
百度智能云3D肢体关键点 SDK 的应用场景
体育训练及康复：通过摄像头捕捉追踪人体在一段时间内的姿势变化，检测人体姿态是否达到预期的角度、幅度、速度，检测用户运动动作并判断是否达标，辅助健身锻炼、体育训练、康复训练等应用。
百度智能云3D肢体关键点 SDK 的优势
业内首创技术：通过普通单目摄像头输入单帧RGB图像或连续视频画面，即可实时、准确估计人体关键点的三维信息，无需特殊设备支持。性能优耗能低：检测精准，识别快速，在iPhone 8 plus上可达80 fps+，CPU占用率＜50%；低端嵌入式平台速度可达25 fps+。
什么是百度智能云美颜滤镜 SDK？
高精度人脸关键点检测及三维重建算法，打造优质的人像美化效果和个性化视频特效能力，支持差异化产品定制，充分满足视频拍摄实时场景需求。

文档中心

全民上云·上云补贴申领

免费试用（限企业）

Demo

在线调试

创建音频转写任务

查询音频转写任务结果