上云无忧 > 文档中心 > 百度智能云词法分析API文档
词法分析
百度智能云词法分析API文档

文档简介:
接口描述: 词法分析:向用户提供分词、词性标注、专名识别三大功能;能够识别出文本串中的基本词汇(分词),对这些词汇进行重组、标注组合后词汇的词性,并进一步识别出命名实体。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

词法分析接口

接口描述

词法分析:向用户提供分词、词性标注、专名识别三大功能;能够识别出文本串中的基本词汇(分词),对这些词汇进行重组、标注组合后词汇的词性,并进一步识别出命名实体。

在线调试

您可以在示例代码中心中调试该接口,可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。

请求说明

请求示例

  • HTTP方法: POST
  • 请求URL: https://aip.baidubce.com/rpc/2.0/nlp/v1/lexer
  • URL参数:
参数
access_token 通过API Key和Secret Key获取的access_token,参考“Access Token获取”
  • Header如下:
参数
Content-Type application/json
  • body请求示例:

    {
      "text": "百度是一家高科技公司"
    }

请求格式

POST方式调用

注意:要求使用JSON格式的结构体来描述一个请求的具体内容。

body整体文本内容可以支持GBK和UTF-8两种格式的编码。

1、GBK支持:默认按GBK进行编码,输入内容为GBK编码,输出内容为GBK编码,否则会接口报错编码错误

2、UTF-8支持:若文本需要使用UTF-8编码,请在url参数中添加charset=UTF-8 (大小写敏感) 例如 https://aip.baidubce.com/rpc/2.0/nlp/v1/lexer?charset=UTF-8&access_token=24.f9ba9c5241b67688bb4adbed8bc91dec.2592000.1485570332.282335-8574074

请求参数

参数名称 类型 详细说明
text string 待分析文本,长度不超过20000字节

返回格式

JSON格式

默认返回内容为GBK编码

若用户指定输入为UTF-8编码(通过指定charset参数),则返回内容为UTF-8编码

返回参数

参数名称 类型 必需 详细说明
text string 原始单条请求文本
items array of objects 词汇数组,每个元素对应结果中的一个词
+item string 词汇的字符串
+ne string 命名实体类型,命名实体识别算法使用。词性标注算法中,此项为空串
+pos string 词性,词性标注算法使用。命名实体识别算法中,此项为空串
+byte_offset int 在text中的字节级offset
+byte_length int 字节级length
+uri string 链指到知识库的URI,只对命名实体有效。对于非命名实体和链接不到知识库的命名实体,此项为空串
+formal string 词汇的标准化表达,主要针对时间、数字单位,没有归一化表达的,此项为空串
+basic_words array of strings 基本词成分
+loc_details array of objects 地址成分,非必需,仅对地址型命名实体有效,没有地址成分的,此项为空数组。
++type string 成分类型,如省、市、区、县
++byte_offset int 在item中的字节级offset
++byte_length int 字节级length

返回示例

{
      "text":"百度是一家高科技公司",
      "items":[
         {
           "byte_length":4,
           "byte_offset":0,
           "formal":"",
           "item":"百度",
           "ne":"ORG",
           "pos":"",
           "uri":"",
           "loc_details":[ ],
           "basic_words":["百度"]
         },
         {
           "byte_length":2,
           "byte_offset":4,
           "formal":"",
           "item":"是",
           "ne":"",
           "pos":"v",
           "uri":"",
           "loc_details":[ ],
           "basic_words":["是"]
         },
         {
           "byte_length":4,
           "byte_offset":6,
           "formal":"",
           "item":"一家",
           "ne":"",
           "pos":"m",
           "uri":"",
           "loc_details":[ ],
           "basic_words":["一","家"]
         },
         {
           "byte_length":6,
           "byte_offset":10,
           "formal":"",
           "item":"高科技",
           "ne":"",
           "pos":"n",
           "uri":"",
           "loc_details":[ ],
           "basic_words":["高","科技"]
         },
         {
           "byte_length":4,
           "byte_offset":16,
           "formal":"",
           "item":"公司",
           "ne":"",
           "pos":"n",
           "uri":"",
           "loc_details":[ ],
           "basic_words":["公司"]
         }
      ]
}

词性缩略说明

词性 含义 词性 含义 词性 含义 词性 含义
n 普通名词 f 方位名词 s 处所名词 t 时间名词
nr 人名 ns 地名 nt 机构团体名 nw 作品名
nz 其他专名 v 普通动词 vd 动副词 vn 名动词
a 形容词 ad 副形词 an 名形词 d 副词
m 数量词 q 量词 r 代词 p 介词
c 连词 u 助词 xc 其他虚词 w 标点符号

专名识别缩略词含义

缩略词 含义 缩略词 含义 缩略词 含义 缩略词 含义
PER 人名 LOC 地名 ORG 机构名 TIME 时间
相似文档
  • 接口描述: 百度AI开放平台-实体分析接口,结合上下文,识别文本中的实体并将其关联到百科知识库中的唯一实体对象。 在线调试: 您可以在 示例代码中心 中调试该接口,可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。
  • 接口描述: 本接口已于2021年10月1日升级,基于百度自研的ERNIE预训练语言模型,该算子具备更强语义理解能力,能够深层理解文本间的语义关系。
  • 接口描述: 识别输入文本中有错误的片段,提示错误并给出正确的文本结果。支持短文本、长文本、语音等内容的错误识别,纠错是搜索引擎、语音识别、内容审查等功能更好运行的基础模块之一。
  • 接口描述: 纠错是搜索引擎、语音识别、内容审查等功能更好运行的基础模块之一。文本纠错-高级版,能够识别输入文本中有错误的片段,提示错误并给出正确的文本结果。支持字词、标点、语法、专名、地址纠错。
  • 接口描述: 能够从文本中自动抽取若干个反映文本主题、话题、实体等方面的关键词或短语。 在线调试: 您可以在示例代码中心中调试该接口,可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部