spaCy - 容器 Span 类

本章将帮助您理解 spaCy 中的 Span 类。

Span 类

它是我们上面讨论过的 Doc 对象的一个​​切片。

属性

下表解释了它的参数 −

NAME TYPE DESCRIPTION
doc Doc 它代表父文档。
tensor V2.1.7 Ndarray 在 2.1.7 版本中引入,表示父 Doc 张量的 span 切片。
sent Span 它实际上是此 span 所属的句子 span。
start Int 此属性是跨度开始的标记偏移量。
end Int 此属性是跨度结束的标记偏移量。
start_char Int 表示跨度开始的字符偏移量的整数类型属性。
end_char Int 表示跨度结束的字符偏移量的整数类型属性span。
text Unicode 它是一个表示 span 文本的 Unicode。
text_with_ws Unicode 它表示 span 的文本内容,如果最后一个标记有空格字符,则后面带有空格字符。
orth Int 此属性是逐字文本内容的 ID。
orth_ Unicode 是Unicode Verbatim文本内容,与Token.text完全相同,此文本内容主要是为了与其他属性保持一致而存在。
label Int 此整数属性是span标签的哈希值。
label_ Unicode 是span的标签。
lemma_ Unicode 是span的引理。
kb_id Int 表示知识库ID的哈希值,由跨度。
kb_id_ Unicode 它表示跨度引用的知识库 ID。
ent_id Int 此属性表示标记所属命名实体的哈希值。
ent_id_ Unicode 此属性表示标记所属命名实体的字符串 ID。
情绪 浮点型 表示情绪的积极性或消极性的浮点型标量值span。
_ 下划线 表示用户添加自定义属性扩展的空间。

方法

以下是 Span 类中使用的方法 −

Sr.No. 方法 &描述
1 Span._ _init_ _

从切片 doc[start : end] 构造 Span 对象。

2 Span._ _getitem_ _

获取特定位置(例如 n)的标记对象,其中 n 是整数。

3 Span._ _iter_ _

迭代那些可以轻松从中获取注释的标记对象访问。

4 Span._ _len_ _

获取 span 中的标记数。

5 Span.similarity

进行语义相似度估计。

6 Span.merge

以将 span 合并为单个的方式重新标记文档令牌。

类方法

以下是 Span 类中使用的类方法 −

Sr.No. 类方法 &描述
1 Span.set_extension

它在 Span 上定义一个自定义属性。

2 Span.get_extension

通过名称查找以前的扩展。

3 Span.has_extension

检查扩展是否已在 Span 类上注册。

4 Span.remove_extension

删除 Span 类上先前注册的扩展。