spaCy - 容器标记类

本章将帮助读者了解 spaCy 中的标记类。

标记类

如前所述，标记类表示单个标记，例如单词、标点符号、空格、符号等。

属性

下表解释了其属性 −

NAME	TYPE	DESCRIPTION
Doc	Doc	它代表父级文档。
sent	Span	在 2.0.12 版本中引入，表示此标记所属的句子跨度。
Text	unicode	它是 Unicode 逐字文本内容。
text_with_ws	unicode	它表示文本内容，带有尾随空格字符（如果存在）。
whitespace_	unicode	顾名思义，它是尾随空格字符（如果
Orth	int	Unicode 逐字文本内容的 ID。
orth_	unicode	Unicode 逐字文本内容，与 Token.text 完全相同。此文本内容的存在主要是为了与其他属性保持一致。
Vocab	Vocab	此属性表示父文档的 vocab 对象。
tensor	ndarray	在 2.1.7 版本中引入，表示父文档张量的 token 切片。
Head	Token	它是此 token 的语法父级。
left_edge	Token	顾名思义，它是此 token 语法的最左边的 token后代。
right_edge	Token	顾名思义，它是此 token 的语法后代中最右边的 token。
I	Int	整数类型属性，表示父文档中 token 的索引。
ent_type	int	命名实体类型。
ent_type_	unicode	命名实体类型。
ent_iob	int	命名实体标签的 IOB 代码。其中，3 = 标记开始于实体，2 = 标记在实体之外，1 = 标记在实体之内，0 = 未设置实体标签。
ent_iob_	unicode	命名实体标签的 IOB 代码。 "B" = 标记开始于一个实体，"I" = 标记位于实体内部，"O" = 标记位于实体外部，"" = 未设置实体标记。
ent_kb_id	int	在 2.2 版中引入，表示引用此标记所属命名实体的知识库 ID。
ent_kb_id_	unicode	在 2.2 版中引入，表示引用此标记所属命名实体的知识库 ID。
ent_id	int	它是标记所属实体的 ID（如果有）。此属性当前未使用，但可能用于共指解析。
ent_id_	unicode	它是令牌所属实体的 ID（如果有）。此属性目前未使用，但可能用于共指解析。
Lemma	int	Lemma 是标记的基本形式，没有屈折后缀。
lemma_	unicode	它是标记的基本形式，没有屈折后缀。
Norm	int	此属性表示标记的规范。
norm_	unicode	此属性表示标记的规范。
Lower	int	顾名思义，它是 token 的小写形式。
lower_	unicode	它也是 token 文本的小写形式，相当于 Token.text.lower()。
Shape	int	为了显示正字法特征，此属性用于对 token 的字符串进行转换。
shape_	unicode	为了显示正字法特征，此属性用于对 token 的字符串进行转换。
Prefix	int	它是从开头开始的长度为 N 的子字符串的哈希值令牌。默认值为N = 1。
prefix_	unicode	它是从令牌开头开始的长度为N的子字符串。默认值为N = 1。
Suffix	int	它是从令牌结尾开始的长度为N的子字符串的哈希值。默认值为N = 3。
suffix_	unicode	它是从令牌结尾开始的长度为N的子字符串。默认值为N=3。
is_alpha	bool	此属性表示token是否由字母组成？它等同于token.text.isalpha()。
is_ascii	bool	此属性表示token是否由ASCII字符组成？它等同于all(ord(c) < 128 for c in token.text)。
is_digit	Bool	此属性表示token是否由数字组成？相当于 token.text.isdigit()。
is_lower	Bool	此属性表示 token 是否为小写？相当于 token.text.islower()。
is_upper	Bool	此属性表示 token 是否为大写？相当于 token.text.isupper()。
is_title	bool	此属性表示 token 是否为标题大小写？它相当于 token.text.istitle()。
is_punct	bool	此属性表示 token 是否为标点符号？
is_left_punct	bool	此属性表示标记是否为左标点符号，例如 '(' ?
is_right_punct	bool	此属性表示标记是否为右标点符号，例如 ')' ?
is_space	bool	此属性表示标记是否由空格字符组成？它相当于 token.text.isspace()。
is_bracket	bool	此属性表示 token 是否为括号？
is_quote	bool	此属性表示 token 是否为引号？
is_currency	bool	在 2.0.8 版本中引入，此属性表示 token 是否为货币符号？
like_url	bool	此属性表示 token 是否类似于 URL 或不是吗？
like_num	bool	此属性表示该 token 是否代表数字？
like_email	bool	此属性表示该 token 是否类似于电子邮件地址？
is_oov	bool	此属性表示该 token 是否有词向量？
is_stop	bool	此属性表示该 token 是否属于"停止列表"的一部分或不是吗？
Pos	int	表示通用词性标记集中的粗粒度词性。
pos_	unicode	表示通用词性标记集中的粗粒度词性。
Tag	int	表示细粒度词性。
tag_	unicode	表示细粒度词性。
Dep	int	此属性表示句法依赖关系。
dep_	unicode	此属性表示句法依赖关系。
Lang	Int	此属性表示父文档词汇表的语言。
lang_	unicode	此属性表示父文档词汇表的语言。
Prob	float	它是 token 单词类型的平滑对数概率估计。
Idx	int	它是 token 在父文档中的字符偏移量。
Sentiment	float	它表示一个标量值，指示 token 的积极性或消极性。
lex_id	int	它表示 token 词汇类型的顺序 ID，用于索引表。
Rank	int	它表示用于索引到表中的 token 词汇类型的顺序 ID。
Cluster	int	它是 Brown 集群 ID。
_	下划线	它表示用于添加自定义属性扩展的用户空间。

方法

以下是 Token 类 − 中使用的方法

Sr.No.	方法 &描述
1	Token._ _init_ _ 用于构造Token对象。
2	Token.similarity 用于计算语义相似度估计。
3	Token.check_flag 用于检查布尔标志的值。
4	Token._ _len_ _ 用于计算token中的Unicode字符数。

类方法

以下是Token类中使用的类方法−

Sr.No.	类方法 &描述
1	Token.set_extension 它在 Token 上定义一个自定义属性。
2	Token.get_extension 它将按名称查找以前的扩展。
3	Token.has_extension 它将检查扩展是否已在 Token 类上注册。
4	Token.remove_extension 它将删除 Token 类上先前注册的扩展。

spaCy 教程

spaCy 其他

spaCy - 容器标记类

标记类

属性

方法

类方法

颜色选择器

读后有收获微信请站长喝咖啡

错误报告

您的建议:

感谢您的帮助！