文档简介:
接口描述
支持对国家/地方税务局发行的横/竖版通用机打发票的23个关键字段进行结构化识别,包括发票类型、发票号码、发票代码、开票日期、合计金额大写、合计金额小写、商品名称、商品单位、商品单价、商品数量、商品金额、机打代码、机打号码、校验码、销售方名称、销售方纳税人识别号、购买方名称、购买方纳税人识别号、合计税额等。
在线调试
您可以在 示例代码中心 中调试该接口,可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。
请求说明
请求示例
HTTP 方法:POST
请求URL: https://aip.baidubce.com/rest/2.0/ocr/v1/invoice
URL参数:
参数 | 值 |
---|---|
access_token | 通过API Key和Secret Key获取的access_token,参考“Access Token获取” |
Header如下:
参数 | 值 |
---|---|
Content-Type | application/x-www-form-urlencoded |
Body中放置请求参数,参数详情如下:
请求参数
参数 | 是否必选 | 类型 | 可选值范围 | 说明 |
---|---|---|---|---|
image | 和 url/pdf_file 三选一 | string | - |
图像数据,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式 优先级:image > url > pdf_file,当image字段存在时,url、pdf_file字段失效 |
url | 和 image/pdf_file 三选一 | string | - |
图片完整url,url长度不超过1024字节,url对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/jpeg/png/bmp格式 优先级:image > url > pdf_file,当image字段存在时,url字段失效 请注意关闭URL防盗链 |
pdf_file | 和 image/url 三选一 | string | - |
PDF文件,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px 优先级:image > url > pdf_file,当image、url字段存在时,pdf_file字段失效 |
pdf_file_num | 否 | string | - | 需要识别的PDF文件的对应页码,当 pdf_file 参数有效时,识别传入页码的对应页面内容,若不传入,则默认识别第 1 页 |
请求代码示例
提示一:使用示例代码前,请记得替换其中的示例Token、图片地址或Base64信息。
提示二:部分语言依赖的类或库,请在代码注释中查看下载地址。
curl -i -k 'https://aip.baidubce.com/rest/2.0/ocr/v1/invoice?access_token=
【调用鉴权接口获取的token】' --data 'image=【图片Base64编码,需UrlEncode】
' -H 'Content-Type:application/x-www-form-urlencoded'
返回说明
返回参数
字段 | 是否必选 | 类型 | 说明 |
---|---|---|---|
log_id | 是 | uint64 | 唯一的log id,用于问题定位 |
direction | 是 | int32 |
图像方向。 - - 1:未定义, - 0:正向, - 1:逆时针90度, - 2:逆时针180度, - 3:逆时针270度 |
words_result_num | 是 | uint32 | 识别结果数,表示words_result的元素个数 |
words_result | 是 | object{} | 识别结果 |
+ InvoiceType | 否 | string | 发票类型 |
+ InvoiceCode | 否 | string | 发票代码 |
+ InvoiceNum | 否 | string | 发票号码 |
+ InvoiceDate | 否 | string | 开票日期 |
+ AmountInFiguers | 否 | string | 合计金额小写 |
+ AmountInWords | 否 | string | 合计金额大写 |
+ CommodityName | 否 | array[] | 商品名称 |
++ row | 否 | unit32 | 行号 |
++ word | 否 | string | 内容 |
+ CommodityUnit | 否 | array[] | 商品单位 |
++ row | 否 | unit32 | 行号 |
++ word | 否 | string | 内容 |
+ CommodityPrice | 否 | array[] | 商品单价 |
++ row | 否 | unit32 | 行号 |
++ word | 否 | string | 内容 |
+ CommodityNum | 否 | array[] | 商品数量 |
++ row | 否 | unit32 | 行号 |
++ word | 否 | string | 内容 |
+ CommodityAmount | 否 | array[] | 商品金额 |
++ row | 否 | unit32 | 行号 |
++ word | 否 | string | 内容 |
+ IndustrySort | 否 | string | 行业分类 |
+ MachineNum | 否 | string | 机打号码 |
+ CheckCode | 否 | string | 校验码 |
+ SellerName | 否 | string | 销售方名称 |
+ SellerRegisterNum | 否 | string | 销售方纳税人识别号 |
+ PurchaserName | 否 | string | 购买方名称 |
+ PurchaserRegisterNum | 否 | string | 购买方纳税人识别号 |
+ TotalTax | 否 | string | 合计税额 |
+ Province | 否 | string | 省 |
+ City | 否 | string | 市 |
+ Time | 否 | string | 时间 |
+ SheetNum | 否 | string | 联次 |
pdf_file_size | 否 | string | 传入PDF文件的总页数,当 pdf_file 参数有效时返回该字段 |
返回示例
{ "log_id": 4423022131715883558, "direction": 0, "words_result_num": 22, "words_result":
{ "City": "", "InvoiceNum": "01445096", "SellerName": "百度餐饮店", "IndustrySort":
"生活服务", "Province": "广东省", "CommodityAmount": [ { "word": "183.00", "row": "1" } ],
"InvoiceDate": "2020年07月28日", "PurchaserName": "中信建投证券股份有限公司", "CommodityNum":
[], "InvoiceCode": "144001901511", "CommodityUnit": [], "SheetNum": "", "PurchaserRegisterNum":
"9144223008453480X9", "Time": "", "CommodityPrice": [], "AmountInFiguers": "183.00",
"AmountInWords": "壹佰捌拾叁元整", "CheckCode": "61042119820421061301", "TotalTax": "183.00",
"InvoiceType": "广东通用机打发票", "SellerRegisterNum": "61042119820421061301", "CommodityName":
[ { "word": "餐费", "row": "1" } ] } }