百度智能云文字识别API文档 - 通用文字识别（标准含位置版）

通用场景文字识别

简介/价格/文档

百度智能云文字识别API文档 - 通用文字识别（标准含位置版）

文档简介：

接口描述：基于业界领先的深度学习技术，提供多场景、多语种、高精度的整图文字检测和识别服务。在通用文字识别的基础上，返回文字在图片中的位置信息，方便用户进行版式的二次处理。【百度智能云】卡证文字识别【百度智能云】财务票据文字识别【百度智能云】医疗票据文字识别【百度智能云】交通场景文字识别【百度智能云】教育场景文字识别【百度智能云】其他场景文字识别【百度智能云】iOCR自定义模板文字识别【百度智能云】通用文字识别（标准版）【百度智能云】通用文字识别（高精度版）【百度智能云】网络图片文字识别【百度智能云】手写文字识别【百度智能云】门脸文字识别

*此产品及展示信息均由百度智能云官方提供。免费试用咨询热线：400-826-7010，为您提供专业的售前咨询，让您快速了解云产品，助您轻松上云！微信咨询

免费试用、价格特惠

文档详情

接口描述

基于业界领先的深度学习技术，提供多场景、多语种、高精度的整图文字检测和识别服务。在通用文字识别的基础上，返回文字在图片中的位置信息，方便用户进行版式的二次处理。

在线调试

您可以在示例代码中心中调试该接口，可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。

请求说明

请求示例

HTTP 方法：POST

请求URL： https://aip.baidubce.com/rest/2.0/ocr/v1/general

URL参数：

参数	值
access_token	通过API Key和Secret Key获取的access_token，参考“Access Token获取”

Header如下：

参数	值
Content-Type	application/x-www-form-urlencoded

Body中放置请求参数，参数详情如下：

请求参数

参数	是否必选	类型	可选值范围	说明
image	和 url/pdf_file 三选一	string	-	图像数据，base64编码后进行urlencode，要求base64编码和urlencode后大小不超过4M，最短边至少15px，最长边最大4096px，支持jpg/jpeg/png/bmp格式优先级：image > url > pdf_file，当image字段存在时，url、pdf_file字段失效
url	和 image/pdf_file 三选一	string	-	图片完整url，url长度不超过1024字节，url对应的图片base64编码后大小不超过4M，最短边至少15px，最长边最大4096px，支持jpg/jpeg/png/bmp格式优先级：image > url > pdf_file，当image字段存在时，url字段失效请注意关闭URL防盗链
pdf_file	和 image/url 三选一	string	-	PDF文件，base64编码后进行urlencode，要求base64编码和urlencode后大小不超过4M，最短边至少15px，最长边最大4096px 优先级：image > url > pdf_file，当image、url字段存在时，pdf_file字段失效
pdf_file_num	否	string	-	需要识别的PDF文件的对应页码，当 pdf_file 参数有效时，识别传入页码的对应页面内容，若不传入，则默认识别第 1 页
recognize_granularity	否	string	big/small	是否定位单字符位置，big：不定位单字符位置，默认值；small：定位单字符位置
language_type	否	string	CHN_ENG ENG JAP KOR FRE SPA POR GER ITA RUS	识别语言类型，默认为CHN_ENG 可选值包括： - CHN_ENG：中英文混合 - ENG：英文 - JAP：日语 - KOR：韩语 - FRE：法语 - SPA：西班牙语 - POR：葡萄牙语 - GER：德语 - ITA：意大利语 - RUS：俄语
detect_direction	否	string	true/false	是否检测图像朝向，默认不检测，即：false。朝向是指输入图像是正常方向、逆时针旋转90/180/270度。可选值包括: - true：检测朝向； - false：不检测朝向。
detect_language	否	string	true/false	是否检测语言，默认不检测，即：false。当前支持中文、英语、日语、韩语
paragraph	否	string	true/false	是否输出段落信息
vertexes_location	否	string	true/false	是否返回文字外接多边形顶点位置，不支持单字位置。默认为false
probability	否	string	true/false	是否返回识别结果中每一行的置信度

请求代码示例

提示一：使用示例代码前，请记得替换其中的示例Token、图片地址或Base64信息。

提示二：部分语言依赖的类或库，请在代码注释中查看下载地址。

curl -i -k 'https://aip.baidubce.com/rest/2.0/ocr/v1/general?access_token=

【调用鉴权接口获取的token】' --data 'image=【图片Base64编码，需UrlEncode】

' -H 'Content-Type:application/x-www-form-urlencoded'

返回说明

返回参数

字段	是否必选	类型	说明
log_id	是	uint64	唯一的log id，用于问题定位
direction	否	int32	图像方向，当 detect_direction=true 时返回该字段。 - - 1：未定义， - 0：正向， - 1：逆时针90度， - 2：逆时针180度， - 3：逆时针270度
language	否	int32	语种类型，当 detect_language=true 时返回该字段。 - - 1：未定义， - 0：英文， - 1：日文， - 2：韩文， - 3：中文
words_result_num	是	uint32	识别结果数，表示words_result的元素个数
words_result	是	array[]	识别结果数组
+ words	否	string	识别结果字符串
+ location	是	array[]	位置数组（坐标0点为左上角）
++ left	是	uint32	表示定位位置的长方形左上顶点的水平坐标
++ top	是	uint32	表示定位位置的长方形左上顶点的垂直坐标
++ width	是	uint32	表示定位位置的长方形的宽度
++ height	是	uint32	表示定位位置的长方形的高度
+ chars	否	array[]	单字符结果，当 recognize_granularity=small 时返回该字段
++ char	否	string	单字符识别结果，当 recognize_granularity=small 时返回该字段
++ location	否	array[]	位置数组（坐标0点为左上角），当 recognize_granularity=small 时返回该字段
+++ left	否	uint32	表示定位位置的长方形左上顶点的水平坐标，当 recognize_granularity=small 时返回该字段
+++ top	否	uint32	表示定位位置的长方形左上顶点的垂直坐标，当 recognize_granularity=small 时返回该字段
+++ width	否	uint32	表示定位定位位置的长方形的宽度，当 recognize_granularity=small 时返回该字段
+++ height	否	uint32	表示位置的长方形的高度，当 recognize_granularity=small 时返回该字段
+ probability	否	object	表示识别结果中每一行的置信度值，包含average：行置信度平均值，variance：行置信度方差，min：行置信度最小值，当 probability=true 时返回该字段
+ vertexes_location	否	array[]	识别结果中每一行的外包四边形点坐标，当 vertexes_location=true 时返回该字段
++ x	否	uint32	水平坐标（坐标0点为左上角）
++ y	否	uint32	垂直坐标（坐标0点为左上角）
+ finegrained_vertexes_location	否	array[]	识别结果中每一行的多边形轮廓点坐标，当 vertexes_location=true 时返回该字段
++ x	否	uint32	水平坐标（坐标0点为左上角）
++ y	否	uint32	垂直坐标（坐标0点为左上角）
+ min_finegrained_vertexes_location	否	array[]	表示 finegrained_poly_location对应的最小外包矩形点坐标，当 vertexes_location=true 时返回该字段
++ x	否	uint32	水平坐标（坐标0点为左上角）
++ y	否	uint32	垂直坐标（坐标0点为左上角）
paragraphs_result	否	array[]	段落检测结果，当 paragraph=true 时返回该字段
+ words_result_idx	否	array[]	一个段落包含的行序号，当 paragraph=true 时返回该字段
+ finegrained_vertexes_location	否	array[]	识别结果中每一行的多边形轮廓点坐标，当 paragraph=true && vertexes_location=true 时返回该字段
++ x	否	uint32	水平坐标（坐标0点为左上角）
++ y	否	uint32	垂直坐标（坐标0点为左上角）
+ min_finegrained_vertexes_location	否	array[]	表示 finegrained_poly_location对应的最小外包矩形点坐标，当 paragraph=true && vertexes_location=true 时返回该字段
++ x	否	uint32	水平坐标（坐标0点为左上角）
++ y	否	uint32	垂直坐标（坐标0点为左上角）
paragraphs_result_num	否	uint32	识别结果数，表示 paragraphs_result 的元素个数，当 paragraph=true 时返回该字段
pdf_file_size	否	string	传入PDF文件的总页数，当 pdf_file 参数有效时返回该字段

返回示例

{ "log_id": 1390595283741573120, "words_result_num": 2 "words_result":

 [ { "words": " OCR", "location": { "top": 14, "left": 47, "width": 132,

 "height": 54 } }, { "words": "百度文字识别", "location": { "top": 84,

 "left": 47, "width": 204, "height": 39 } } ], }

相似文档

百度智能云文字识别API文档 - 办公文档识别
接口描述：可对办公类文档版面进行分析，输出图、表、标题、文本的位置，并输出分版块内容的OCR识别结果，支持中、英两种语言，手写、印刷体混排多种场景。【百度智能云】办公文档识别【百度智能云】卡证文字识别【百度智能云】财务票据文字识别【百度智能云】医疗票据文字识别【百度智能云】交通场景文字识别【百度智能云】教育场景文字识别【百度智能云】其他场景文字识别【百度智能云】iOCR自定义模板文字识别【百度智能云】通用文字识别（标准版）【百度智能云】通用文字识别（高精度版）【百度智能云】网络图片文字识别【百度智能云】手写文字识别【百度智能云】门脸文字识别
百度智能云文字识别API文档 - 网络图片文字识别
接口描述：针对网络图片进行专项优化，支持识别艺术字体或背景复杂的文字内容。在线调试：您可以在示例代码中心中调试该接口，可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。【百度智能云】卡证文字识别【百度智能云】财务票据文字识别【百度智能云】医疗票据文字识别【百度智能云】交通场景文字识别【百度智能云】教育场景文字识别【百度智能云】其他场景文字识别【百度智能云】iOCR自定义模板文字识别【百度智能云】通用文字识别（标准版）【百度智能云】通用文字识别（高精度版）【百度智能云】网络图片文字识别【百度智能云】手写文字识别【百度智能云】门脸文字识别
百度智能云文字识别API文档 - 网络图片文字识别（含位置版）
接口描述：支持识别艺术字体或背景复杂的文字内容，除文字信息外，还可返回每行文字的位置信息、行置信度，以及单字符内容和位置等。在线调试：您可以在示例代码中心中调试该接口，可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。【百度智能云】卡证文字识别【百度智能云】财务票据文字识别【百度智能云】医疗票据文字识别【百度智能云】交通场景文字识别【百度智能云】教育场景文字识别【百度智能云】其他场景文字识别【百度智能云】iOCR自定义模板文字识别【百度智能云】通用文字识别（标准版）【百度智能云】通用文字识别（高精度版）【百度智能云】网络图片文字识别【百度智能云】手写文字识别【百度智能云】门脸文字识别
百度智能云文字识别API文档 - 手写文字识别
接口描述：支持对图片中的手写中文、手写数字进行检测和识别，针对不规则的手写字体进行专项优化，识别准确率可达90%以上。在线调试：您可以在示例代码中心中调试该接口，可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。【百度智能云】通用场景文字识别【百度智能云】卡证文字识别【百度智能云】财务票据文字识别【百度智能云】医疗票据文字识别【百度智能云】交通场景文字识别【百度智能云】教育场景文字识别【百度智能云】其他场景文字识别【百度智能云】iOCR自定义模板文字识别【百度智能云】通用文字识别（标准版）【百度智能云】通用文字识别（高精度版）【百度智能云】网络图片文字识别【百度智能云】门脸文字识别
百度智能云文字识别API文档 - 表格文字识别V2
接口描述：支持识别图片/PDF格式文档中的表格内容，返回各表格的表头表尾内容、单元格文字内容及其行列位置信息，全面覆盖各类表格样式，包括常规有线表格、无线表格、含合并单元格表格。同时，支持多表格内容识别。【百度智能云】表格文字识别【百度智能云】卡证文字识别【百度智能云】财务票据文字识别【百度智能云】医疗票据文字识别【百度智能云】交通场景文字识别【百度智能云】教育场景文字识别【百度智能云】其他场景文字识别【百度智能云】iOCR自定义模板文字识别【百度智能云】通用文字识别（标准版）【百度智能云】通用文字识别（高精度版）【百度智能云】网络图片文字识别【百度智能云】手写文字识别【百度智能云】门脸文字识别

文档中心

全民上云·上云补贴申领

免费试用（限企业）

接口描述

在线调试

请求说明

返回说明