spaCy - Retokenizer.split 方法

此 retokenizer 方法将标记一个标记以拆分为指定的正交。

参数

下表解释了其参数 −

NAME	TYPE	DESCRIPTION
Token	Token	它表示要拆分的标记。
Orths	List	它表示拆分标记的逐字文本。条件是它必须与原始 token 的文本匹配。
Heads	List	它是 token 或元组的列表，指定要将新拆分的子 token 附加到的 token。
Attrs	Dict	这些是要在所有拆分 token 上设置的属性。要求属性名称必须映射到每个 token 属性值的列表。

示例

Retokenizer.split 方法的示例如下 −

import spacy
nlp_model = spacy.load("en_core_web_sm")
doc = nlp_model("I like the Tutorialspoint.com")
with doc.retokenize() as retokenizer:
   heads = [(doc[3], 1), doc[2]]
   attrs = {"POS": ["PROPN", "PROPN"],
      "DEP": ["pobj", "compound"]}
   retokenizer.split(doc[3], ["Tutorials", "point.com"], heads=heads, attrs=attrs)
doc

输出

您将收到以下输出 −

I like the Tutorialspoint.com

spacy_doc_class_contextmanager_and_property.html

spaCy 教程

spaCy 其他

spaCy - Retokenizer.split 方法

参数

示例

输出

颜色选择器

读后有收获微信请站长喝咖啡

错误报告

您的建议:

感谢您的帮助！