spaCy - 容器标记类

本章将帮助读者了解 spaCy 中的标记类。

标记类

如前所述,标记类表示单个标记,例如单词、标点符号、空格、符号等。

属性

下表解释了其属性 −

NAME TYPE DESCRIPTION
Doc Doc 它代表父级文档。
sent Span 在 2.0.12 版本中引入,表示此标记所属的句子跨度。
Text unicode 它是 Unicode 逐字文本内容。
text_with_ws unicode 它表示文本内容,带有尾随空格字符(如果存在)。
whitespace_ unicode 顾名思义,它是尾随空格字符(如果
Orth int Unicode 逐字文本内容的 ID。
orth_ unicode Unicode 逐字文本内容,与 Token.text 完全相同。此文本内容的存在主要是为了与其他属性保持一致。
Vocab Vocab 此属性表示父文档的 vocab 对象。
tensor ndarray 在 2.1.7 版本中引入,表示父文档张量的 token 切片。
Head Token 它是此 token 的语法父级。
left_edge Token 顾名思义,它是此 token 语法的最左边的 token后代。
right_edge Token 顾名思义,它是此 token 的语法后代中最右边的 token。
I Int 整数类型属性,表示父文档中 token 的索引。
ent_type int 命名实体类型。
ent_type_ unicode 命名实体类型。
ent_iob int 命名实体标签的 IOB 代码。其中,3 = 标记开始于实体,2 = 标记在实体之外,1 = 标记在实体之内,0 = 未设置实体标签。
ent_iob_ unicode 命名实体标签的 IOB 代码。 "B" = 标记开始于一个实体,"I" = 标记位于实体内部,"O" = 标记位于实体外部,"" = 未设置实体标记。
ent_kb_id int 在 2.2 版中引入,表示引用此标记所属命名实体的知识库 ID。
ent_kb_id_ unicode 在 2.2 版中引入,表示引用此标记所属命名实体的知识库 ID。
ent_id int 它是标记所属实体的 ID(如果有)。此属性当前未使用,但可能用于共指解析。
ent_id_ unicode 它是令牌所属实体的 ID(如果有)。此属性目前未使用,但可能用于共指解析。
Lemma int Lemma 是标记的基本形式,没有屈折后缀。
lemma_ unicode 它是标记的基本形式,没有屈折后缀。
Norm int 此属性表示标记的规范。
norm_ unicode 此属性表示标记的规范。
Lower int 顾名思义,它是 token 的小写形式。
lower_ unicode 它也是 token 文本的小写形式,相当于 Token.text.lower()。
Shape int 为了显示正字法特征,此属性用于对 token 的字符串进行转换。
shape_ unicode 为了显示正字法特征,此属性用于对 token 的字符串进行转换。
Prefix int 它是从开头开始的长度为 N 的子字符串的哈希值令牌。默认值为N = 1。
prefix_ unicode 它是从令牌开头开始的长度为N的子字符串。默认值为N = 1。
Suffix int 它是从令牌结尾开始的长度为N的子字符串的哈希值。默认值为N = 3。
suffix_ unicode 它是从令牌结尾开始的长度为N的子字符串。默认值为N=3。
is_alpha bool 此属性表示token是否由字母组成?它等同于token.text.isalpha()。
is_ascii bool 此属性表示token是否由ASCII字符组成?它等同于all(ord(c) < 128 for c in token.text)。
is_digit Bool 此属性表示token是否由数字组成?相当于 token.text.isdigit()。
is_lower Bool 此属性表示 token 是否为小写?相当于 token.text.islower()。
is_upper Bool 此属性表示 token 是否为大写?相当于 token.text.isupper()。
is_title bool 此属性表示 token 是否为标题大小写?它相当于 token.text.istitle()。
is_punct bool 此属性表示 token 是否为标点符号?
is_left_punct bool 此属性表示标记是否为左标点符号,例如 '(' ?
is_right_punct bool 此属性表示标记是否为右标点符号,例如 ')' ?
is_space bool 此属性表示标记是否由空格字符组成?它相当于 token.text.isspace()。
is_bracket bool 此属性表示 token 是否为括号?
is_quote bool 此属性表示 token 是否为引号?
is_currency bool 在 2.0.8 版本中引入,此属性表示 token 是否为货币符号?
like_url bool 此属性表示 token 是否类似于 URL 或不是吗?
like_num bool 此属性表示该 token 是否代表数字?
like_email bool 此属性表示该 token 是否类似于电子邮件地址?
is_oov bool 此属性表示该 token 是否有词向量?
is_stop bool 此属性表示该 token 是否属于"停止列表"的一部分或不是吗?
Pos int 表示通用词性标记集中的粗粒度词性。
pos_ unicode 表示通用词性标记集中的粗粒度词性。
Tag int 表示细粒度词性。
tag_ unicode 表示细粒度词性。
Dep int 此属性表示句法依赖关系。
dep_ unicode 此属性表示句法依赖关系。
Lang Int 此属性表示父文档词汇表的语言。
lang_ unicode 此属性表示父文档词汇表的语言。
Prob float 它是 token 单词类型的平滑对数概率估计。
Idx int 它是 token 在父文档中的字符偏移量。
Sentiment float 它表示一个标量值,指示 token 的积极性或消极性。
lex_id int 它表示 token 词汇类型的顺序 ID,用于索引表。
Rank int 它表示用于索引到表中的 token 词汇类型的顺序 ID。
Cluster int 它是 Brown 集群 ID。
_ 下划线 它表示用于添加自定义属性扩展的用户空间。

方法

以下是 Token 类 − 中使用的方法

Sr.No. 方法 &描述
1 Token._ _init_ _

用于构造Token对象。

2 Token.similarity

用于计算语义相似度估计。

3 Token.check_flag

用于检查布尔标志的值。

4 Token._ _len_ _

用于计算token中的Unicode字符数。

类方法

以下是Token类中使用的类方法−

Sr.No. 类方法 &描述
1 Token.set_extension

它在 Token 上定义一个自定义属性。

2 Token.get_extension

它将按名称查找以前的扩展。

3 Token.has_extension

它将检查扩展是否已在 Token 类上注册。

4 Token.remove_extension

它将删除 Token 类上先前注册的扩展。