百度智能云文字识别API文档 - 通用文字识别(标准含位置版)
文档简介:
接口描述:
基于业界领先的深度学习技术,提供多场景、多语种、高精度的整图文字检测和识别服务。在通用文字识别的基础上,返回文字在图片中的位置信息,方便用户进行版式的二次处理。
【百度智能云】卡证文字识别
【百度智能云】财务票据文字识别
【百度智能云】医疗票据文字识别
【百度智能云】交通场景文字识别
【百度智能云】教育场景文字识别
【百度智能云】其他场景文字识别
【百度智能云】iOCR自定义模板文字识别
【百度智能云】通用文字识别(标准版)
【百度智能云】通用文字识别(高精度版)
【百度智能云】网络图片文字识别
【百度智能云】手写文字识别
【百度智能云】门脸文字识别
接口描述
基于业界领先的深度学习技术,提供多场景、多语种、高精度的整图文字检测和识别服务。在通用文字识别的基础上,返回文字在图片中的位置信息,方便用户进行版式的二次处理。
在线调试
您可以在 示例代码中心 中调试该接口,可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。
请求说明
请求示例
HTTP 方法:POST
请求URL: https://aip.baidubce.com/rest/2.0/ocr/v1/general
URL参数:
参数 | 值 |
---|---|
access_token | 通过API Key和Secret Key获取的access_token,参考“Access Token获取” |
Header如下:
参数 | 值 |
---|---|
Content-Type | application/x-www-form-urlencoded |
Body中放置请求参数,参数详情如下:
请求参数
参数 | 是否必选 | 类型 | 可选值范围 | 说明 |
---|---|---|---|---|
image | 和 url/pdf_file 三选一 | string | - |
图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式 优先级:image > url > pdf_file,当image字段存在时,url、pdf_file字段失效 |
url | 和 image/pdf_file 三选一 | string | - |
图片完整url,url长度不超过1024字节,url对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式 优先级:image > url > pdf_file,当image字段存在时,url字段失效 请注意关闭URL防盗链 |
pdf_file | 和 image/url 三选一 | string | - |
PDF文件,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px 优先级:image > url > pdf_file,当image、url字段存在时,pdf_file字段失效 |
pdf_file_num | 否 | string | - | 需要识别的PDF文件的对应页码,当 pdf_file 参数有效时,识别传入页码的对应页面内容,若不传入,则默认识别第 1 页 |
recognize_granularity | 否 | string | big/small | 是否定位单字符位置,big:不定位单字符位置,默认值;small:定位单字符位置 |
language_type | 否 | string |
CHN_ENG ENG JAP KOR FRE SPA POR GER ITA RUS |
识别语言类型,默认为CHN_ENG 可选值包括: - CHN_ENG:中英文混合 - ENG:英文 - JAP:日语 - KOR:韩语 - FRE:法语 - SPA:西班牙语 - POR:葡萄牙语 - GER:德语 - ITA:意大利语 - RUS:俄语 |
detect_direction | 否 | string | true/false |
是否检测图像朝向,默认不检测,即:false。朝向是指输入图像是正常方向、逆时针旋转90/180/270度。可选值包括: - true:检测朝向; - false:不检测朝向。 |
detect_language | 否 | string | true/false | 是否检测语言,默认不检测,即:false。当前支持中文、英语、日语、韩语 |
paragraph | 否 | string | true/false | 是否输出段落信息 |
vertexes_location | 否 | string | true/false | 是否返回文字外接多边形顶点位置,不支持单字位置。默认为false |
probability | 否 | string | true/false | 是否返回识别结果中每一行的置信度 |
请求代码示例
提示一:使用示例代码前,请记得替换其中的示例Token、图片地址或Base64信息。
提示二:部分语言依赖的类或库,请在代码注释中查看下载地址。
curl -i -k 'https://aip.baidubce.com/rest/2.0/ocr/v1/general?access_token=
【调用鉴权接口获取的token】' --data 'image=【图片Base64编码,需UrlEncode】
' -H 'Content-Type:application/x-www-form-urlencoded'
返回说明
返回参数
字段 | 是否必选 | 类型 | 说明 |
---|---|---|---|
log_id | 是 | uint64 | 唯一的log id,用于问题定位 |
direction | 否 | int32 |
图像方向,当 detect_direction=true 时返回该字段。 - - 1:未定义, - 0:正向, - 1:逆时针90度, - 2:逆时针180度, - 3:逆时针270度 |
language | 否 | int32 |
语种类型,当 detect_language=true 时返回该字段。 - - 1:未定义, - 0:英文, - 1:日文, - 2:韩文, - 3:中文 |
words_result_num | 是 | uint32 | 识别结果数,表示words_result的元素个数 |
words_result | 是 | array[] | 识别结果数组 |
+ words | 否 | string | 识别结果字符串 |
+ location | 是 | array[] | 位置数组(坐标0点为左上角) |
++ left | 是 | uint32 | 表示定位位置的长方形左上顶点的水平坐标 |
++ top | 是 | uint32 | 表示定位位置的长方形左上顶点的垂直坐标 |
++ width | 是 | uint32 | 表示定位位置的长方形的宽度 |
++ height | 是 | uint32 | 表示定位位置的长方形的高度 |
+ chars | 否 | array[] | 单字符结果,当 recognize_granularity=small 时返回该字段 |
++ char | 否 | string | 单字符识别结果,当 recognize_granularity=small 时返回该字段 |
++ location | 否 | array[] | 位置数组(坐标0点为左上角),当 recognize_granularity=small 时返回该字段 |
+++ left | 否 | uint32 | 表示定位位置的长方形左上顶点的水平坐标,当 recognize_granularity=small 时返回该字段 |
+++ top | 否 | uint32 | 表示定位位置的长方形左上顶点的垂直坐标,当 recognize_granularity=small 时返回该字段 |
+++ width | 否 | uint32 | 表示定位定位位置的长方形的宽度,当 recognize_granularity=small 时返回该字段 |
+++ height | 否 | uint32 | 表示位置的长方形的高度,当 recognize_granularity=small 时返回该字段 |
+ probability | 否 | object | 表示识别结果中每一行的置信度值,包含average:行置信度平均值,variance:行置信度方差,min:行置信度最小值,当 probability=true 时返回该字段 |
+ vertexes_location | 否 | array[] | 识别结果中每一行的外包四边形点坐标,当 vertexes_location=true 时返回该字段 |
++ x | 否 | uint32 | 水平坐标(坐标0点为左上角) |
++ y | 否 | uint32 | 垂直坐标(坐标0点为左上角) |
+ finegrained_vertexes_location | 否 | array[] | 识别结果中每一行的多边形轮廓点坐标,当 vertexes_location=true 时返回该字段 |
++ x | 否 | uint32 | 水平坐标(坐标0点为左上角) |
++ y | 否 | uint32 | 垂直坐标(坐标0点为左上角) |
+ min_finegrained_vertexes_location | 否 | array[] | 表示 finegrained_poly_location对应的最小外包矩形点坐标,当 vertexes_location=true 时返回该字段 |
++ x | 否 | uint32 | 水平坐标(坐标0点为左上角) |
++ y | 否 | uint32 | 垂直坐标(坐标0点为左上角) |
paragraphs_result | 否 | array[] | 段落检测结果,当 paragraph=true 时返回该字段 |
+ words_result_idx | 否 | array[] | 一个段落包含的行序号,当 paragraph=true 时返回该字段 |
+ finegrained_vertexes_location | 否 | array[] | 识别结果中每一行的多边形轮廓点坐标,当 paragraph=true && vertexes_location=true 时返回该字段 |
++ x | 否 | uint32 | 水平坐标(坐标0点为左上角) |
++ y | 否 | uint32 | 垂直坐标(坐标0点为左上角) |
+ min_finegrained_vertexes_location | 否 | array[] | 表示 finegrained_poly_location对应的最小外包矩形点坐标,当 paragraph=true && vertexes_location=true 时返回该字段 |
++ x | 否 | uint32 | 水平坐标(坐标0点为左上角) |
++ y | 否 | uint32 | 垂直坐标(坐标0点为左上角) |
paragraphs_result_num | 否 | uint32 | 识别结果数,表示 paragraphs_result 的元素个数,当 paragraph=true 时返回该字段 |
pdf_file_size | 否 | string | 传入PDF文件的总页数,当 pdf_file 参数有效时返回该字段 |
返回示例
{ "log_id": 1390595283741573120, "words_result_num": 2 "words_result":
[ { "words": " OCR", "location": { "top": 14, "left": 47, "width": 132,
"height": 54 } }, { "words": "百度文字识别", "location": { "top": 84,
"left": 47, "width": 204, "height": 39 } } ], }