spaCy - 容器标记类
本章将帮助读者了解 spaCy 中的标记类。
标记类
如前所述,标记类表示单个标记,例如单词、标点符号、空格、符号等。
属性
下表解释了其属性 −
NAME | TYPE | DESCRIPTION |
---|---|---|
Doc | Doc | 它代表父级文档。 |
sent | Span | 在 2.0.12 版本中引入,表示此标记所属的句子跨度。 |
Text | unicode | 它是 Unicode 逐字文本内容。 |
text_with_ws | unicode | 它表示文本内容,带有尾随空格字符(如果存在)。 |
whitespace_ | unicode | 顾名思义,它是尾随空格字符(如果 |
Orth | int | Unicode 逐字文本内容的 ID。 |
orth_ | unicode | Unicode 逐字文本内容,与 Token.text 完全相同。此文本内容的存在主要是为了与其他属性保持一致。 |
Vocab | Vocab | 此属性表示父文档的 vocab 对象。 |
tensor | ndarray | 在 2.1.7 版本中引入,表示父文档张量的 token 切片。 |
Head | Token | 它是此 token 的语法父级。 |
left_edge | Token | 顾名思义,它是此 token 语法的最左边的 token后代。 |
right_edge | Token | 顾名思义,它是此 token 的语法后代中最右边的 token。 |
I | Int | 整数类型属性,表示父文档中 token 的索引。 |
ent_type | int | 命名实体类型。 |
ent_type_ | unicode | 命名实体类型。 |
ent_iob | int | 命名实体标签的 IOB 代码。其中,3 = 标记开始于实体,2 = 标记在实体之外,1 = 标记在实体之内,0 = 未设置实体标签。 |
ent_iob_ | unicode | 命名实体标签的 IOB 代码。 "B" = 标记开始于一个实体,"I" = 标记位于实体内部,"O" = 标记位于实体外部,"" = 未设置实体标记。 |
ent_kb_id | int | 在 2.2 版中引入,表示引用此标记所属命名实体的知识库 ID。 |
ent_kb_id_ | unicode | 在 2.2 版中引入,表示引用此标记所属命名实体的知识库 ID。 |
ent_id | int | 它是标记所属实体的 ID(如果有)。此属性当前未使用,但可能用于共指解析。 |
ent_id_ | unicode | 它是令牌所属实体的 ID(如果有)。此属性目前未使用,但可能用于共指解析。 |
Lemma | int | Lemma 是标记的基本形式,没有屈折后缀。 |
lemma_ | unicode | 它是标记的基本形式,没有屈折后缀。 |
Norm | int | 此属性表示标记的规范。 |
norm_ | unicode | 此属性表示标记的规范。 |
Lower | int | 顾名思义,它是 token 的小写形式。 |
lower_ | unicode | 它也是 token 文本的小写形式,相当于 Token.text.lower()。 |
Shape | int | 为了显示正字法特征,此属性用于对 token 的字符串进行转换。 |
shape_ | unicode | 为了显示正字法特征,此属性用于对 token 的字符串进行转换。 |
Prefix | int | 它是从开头开始的长度为 N 的子字符串的哈希值令牌。默认值为N = 1。 |
prefix_ | unicode | 它是从令牌开头开始的长度为N的子字符串。默认值为N = 1。 |
Suffix | int | 它是从令牌结尾开始的长度为N的子字符串的哈希值。默认值为N = 3。 |
suffix_ | unicode | 它是从令牌结尾开始的长度为N的子字符串。默认值为N=3。 |
is_alpha | bool | 此属性表示token是否由字母组成?它等同于token.text.isalpha()。 |
is_ascii | bool | 此属性表示token是否由ASCII字符组成?它等同于all(ord(c) < 128 for c in token.text)。 |
is_digit | Bool | 此属性表示token是否由数字组成?相当于 token.text.isdigit()。 |
is_lower | Bool | 此属性表示 token 是否为小写?相当于 token.text.islower()。 |
is_upper | Bool | 此属性表示 token 是否为大写?相当于 token.text.isupper()。 |
is_title | bool | 此属性表示 token 是否为标题大小写?它相当于 token.text.istitle()。 |
is_punct | bool | 此属性表示 token 是否为标点符号? |
is_left_punct | bool | 此属性表示标记是否为左标点符号,例如 '(' ? |
is_right_punct | bool | 此属性表示标记是否为右标点符号,例如 ')' ? |
is_space | bool | 此属性表示标记是否由空格字符组成?它相当于 token.text.isspace()。 |
is_bracket | bool | 此属性表示 token 是否为括号? |
is_quote | bool | 此属性表示 token 是否为引号? |
is_currency | bool | 在 2.0.8 版本中引入,此属性表示 token 是否为货币符号? |
like_url | bool | 此属性表示 token 是否类似于 URL 或不是吗? |
like_num | bool | 此属性表示该 token 是否代表数字? |
like_email | bool | 此属性表示该 token 是否类似于电子邮件地址? |
is_oov | bool | 此属性表示该 token 是否有词向量? |
is_stop | bool | 此属性表示该 token 是否属于"停止列表"的一部分或不是吗? |
Pos | int | 表示通用词性标记集中的粗粒度词性。 |
pos_ | unicode | 表示通用词性标记集中的粗粒度词性。 |
Tag | int | 表示细粒度词性。 |
tag_ | unicode | 表示细粒度词性。 |
Dep | int | 此属性表示句法依赖关系。 |
dep_ | unicode | 此属性表示句法依赖关系。 |
Lang | Int | 此属性表示父文档词汇表的语言。 |
lang_ | unicode | 此属性表示父文档词汇表的语言。 |
Prob | float | 它是 token 单词类型的平滑对数概率估计。 |
Idx | int | 它是 token 在父文档中的字符偏移量。 |
Sentiment | float | 它表示一个标量值,指示 token 的积极性或消极性。 |
lex_id | int | 它表示 token 词汇类型的顺序 ID,用于索引表。 |
Rank | int | 它表示用于索引到表中的 token 词汇类型的顺序 ID。 |
Cluster | int | 它是 Brown 集群 ID。 |
_ | 下划线 | 它表示用于添加自定义属性扩展的用户空间。 |
方法
以下是 Token 类 − 中使用的方法
Sr.No. | 方法 &描述 |
---|---|
1 | Token._ _init_ _ 用于构造Token对象。 |
2 | Token.similarity 用于计算语义相似度估计。 |
3 | Token.check_flag 用于检查布尔标志的值。 |
4 | Token._ _len_ _ 用于计算token中的Unicode字符数。 |
类方法
以下是Token类中使用的类方法−
Sr.No. | 类方法 &描述 |
---|---|
1 | Token.set_extension 它在 Token 上定义一个自定义属性。 |
2 | Token.get_extension 它将按名称查找以前的扩展。 |
3 | Token.has_extension 它将检查扩展是否已在 Token 类上注册。 |
4 | Token.remove_extension 它将删除 Token 类上先前注册的扩展。 |