百度智能云词法分析API文档

词法分析

简介/价格/文档

百度智能云词法分析API文档

文档简介：

接口描述：词法分析：向用户提供分词、词性标注、专名识别三大功能；能够识别出文本串中的基本词汇（分词），对这些词汇进行重组、标注组合后词汇的词性，并进一步识别出命名实体。

*此产品及展示信息均由百度智能云官方提供。免费试用咨询热线：400-826-7010，为您提供专业的售前咨询，让您快速了解云产品，助您轻松上云！微信咨询

免费试用、价格特惠

文档详情

词法分析接口

接口描述

词法分析：向用户提供分词、词性标注、专名识别三大功能；能够识别出文本串中的基本词汇（分词），对这些词汇进行重组、标注组合后词汇的词性，并进一步识别出命名实体。

在线调试

您可以在示例代码中心中调试该接口，可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。

请求说明

请求示例

HTTP方法: POST
请求URL: https://aip.baidubce.com/rpc/2.0/nlp/v1/lexer
URL参数：

参数	值
access_token	通过API Key和Secret Key获取的access_token,参考“Access Token获取”

Header如下：

参数	值
Content-Type	application/json

body请求示例:

{
  "text": "百度是一家高科技公司"
}

请求格式

POST方式调用

注意：要求使用JSON格式的结构体来描述一个请求的具体内容。

body整体文本内容可以支持GBK和UTF-8两种格式的编码。

1、GBK支持：默认按GBK进行编码，输入内容为GBK编码，输出内容为GBK编码，否则会接口报错编码错误

2、UTF-8支持：若文本需要使用UTF-8编码，请在url参数中添加charset=UTF-8 （大小写敏感）例如 https://aip.baidubce.com/rpc/2.0/nlp/v1/lexer?charset=UTF-8&access_token=24.f9ba9c5241b67688bb4adbed8bc91dec.2592000.1485570332.282335-8574074

请求参数

参数名称	类型	详细说明
text	string	待分析文本，长度不超过20000字节

返回格式

JSON格式

默认返回内容为GBK编码

若用户指定输入为UTF-8编码（通过指定charset参数），则返回内容为UTF-8编码

返回参数

参数名称	类型	必需	详细说明
text	string	是	原始单条请求文本
items	array of objects	是	词汇数组，每个元素对应结果中的一个词
+item	string	是	词汇的字符串
+ne	string	是	命名实体类型，命名实体识别算法使用。词性标注算法中，此项为空串
+pos	string	是	词性，词性标注算法使用。命名实体识别算法中，此项为空串
+byte_offset	int	是	在text中的字节级offset
+byte_length	int	是	字节级length
+uri	string	否	链指到知识库的URI，只对命名实体有效。对于非命名实体和链接不到知识库的命名实体，此项为空串
+formal	string	否	词汇的标准化表达，主要针对时间、数字单位，没有归一化表达的，此项为空串
+basic_words	array of strings	是	基本词成分
+loc_details	array of objects	否	地址成分，非必需，仅对地址型命名实体有效，没有地址成分的，此项为空数组。
++type	string	是	成分类型，如省、市、区、县
++byte_offset	int	是	在item中的字节级offset
++byte_length	int	是	字节级length

返回示例

{
      "text":"百度是一家高科技公司",
      "items":[
         {
           "byte_length":4,
           "byte_offset":0,
           "formal":"",
           "item":"百度",
           "ne":"ORG",
           "pos":"",
           "uri":"",
           "loc_details":[ ],
           "basic_words":["百度"]
         },
         {
           "byte_length":2,
           "byte_offset":4,
           "formal":"",
           "item":"是",
           "ne":"",
           "pos":"v",
           "uri":"",
           "loc_details":[ ],
           "basic_words":["是"]
         },
         {
           "byte_length":4,
           "byte_offset":6,
           "formal":"",
           "item":"一家",
           "ne":"",
           "pos":"m",
           "uri":"",
           "loc_details":[ ],
           "basic_words":["一","家"]
         },
         {
           "byte_length":6,
           "byte_offset":10,
           "formal":"",
           "item":"高科技",
           "ne":"",
           "pos":"n",
           "uri":"",
           "loc_details":[ ],
           "basic_words":["高","科技"]
         },
         {
           "byte_length":4,
           "byte_offset":16,
           "formal":"",
           "item":"公司",
           "ne":"",
           "pos":"n",
           "uri":"",
           "loc_details":[ ],
           "basic_words":["公司"]
         }
      ]
}

词性缩略说明

词性	含义	词性	含义	词性	含义	词性	含义
n	普通名词	f	方位名词	s	处所名词	t	时间名词
nr	人名	ns	地名	nt	机构团体名	nw	作品名
nz	其他专名	v	普通动词	vd	动副词	vn	名动词
a	形容词	ad	副形词	an	名形词	d	副词
m	数量词	q	量词	r	代词	p	介词
c	连词	u	助词	xc	其他虚词	w	标点符号

专名识别缩略词含义

缩略词	含义	缩略词	含义	缩略词	含义	缩略词	含义
PER	人名	LOC	地名	ORG	机构名	TIME	时间

相似文档

百度智能云实体分析API文档
接口描述：百度AI开放平台-实体分析接口，结合上下文，识别文本中的实体并将其关联到百科知识库中的唯一实体对象。在线调试：您可以在示例代码中心中调试该接口，可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。
百度智能云短文本相似度API文档
接口描述：本接口已于2021年10月1日升级，基于百度自研的ERNIE预训练语言模型，该算子具备更强语义理解能力，能够深层理解文本间的语义关系。
百度智能云文本纠错API文档
接口描述：识别输入文本中有错误的片段，提示错误并给出正确的文本结果。支持短文本、长文本、语音等内容的错误识别，纠错是搜索引擎、语音识别、内容审查等功能更好运行的基础模块之一。
百度智能云文本纠错（高级版）API文档
接口描述：纠错是搜索引擎、语音识别、内容审查等功能更好运行的基础模块之一。文本纠错-高级版，能够识别输入文本中有错误的片段，提示错误并给出正确的文本结果。支持字词、标点、语法、专名、地址纠错。
百度智能云关键词提取API文档
接口描述：能够从文本中自动抽取若干个反映文本主题、话题、实体等方面的关键词或短语。在线调试：您可以在示例代码中心中调试该接口，可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。