spaCy - Retokenizer.split 方法

此 retokenizer 方法将标记一个标记以拆分为指定的正交。

参数

下表解释了其参数 −

NAME TYPE DESCRIPTION
Token Token 它表示要拆分的标记。
Orths List 它表示拆分标记的逐字文本。条件是它必须与原始 token 的文本匹配。
Heads List 它是 token 或元组的列表,指定要将新拆分的子 token 附加到的 token。
Attrs Dict 这些是要在所有拆分 token 上设置的属性。要求属性名称必须映射到每个 token 属性值的列表。

示例

Retokenizer.split 方法的示例如下 −

import spacy
nlp_model = spacy.load("en_core_web_sm")
doc = nlp_model("I like the Tutorialspoint.com")
with doc.retokenize() as retokenizer:
   heads = [(doc[3], 1), doc[2]]
   attrs = {"POS": ["PROPN", "PROPN"],
      "DEP": ["pobj", "compound"]}
   retokenizer.split(doc[3], ["Tutorials", "point.com"], heads=heads, attrs=attrs)
doc

输出

您将收到以下输出 −

I like the Tutorialspoint.com

spacy_doc_class_contextmanager_and_property.html