spaCy - Retokenizer.split 方法
此 retokenizer 方法将标记一个标记以拆分为指定的正交。
参数
下表解释了其参数 −
NAME | TYPE | DESCRIPTION |
---|---|---|
Token | Token | 它表示要拆分的标记。 |
Orths | List | 它表示拆分标记的逐字文本。条件是它必须与原始 token 的文本匹配。 |
Heads | List | 它是 token 或元组的列表,指定要将新拆分的子 token 附加到的 token。 |
Attrs | Dict | 这些是要在所有拆分 token 上设置的属性。要求属性名称必须映射到每个 token 属性值的列表。 |
示例
Retokenizer.split 方法的示例如下 −
import spacy nlp_model = spacy.load("en_core_web_sm") doc = nlp_model("I like the Tutorialspoint.com") with doc.retokenize() as retokenizer: heads = [(doc[3], 1), doc[2]] attrs = {"POS": ["PROPN", "PROPN"], "DEP": ["pobj", "compound"]} retokenizer.split(doc[3], ["Tutorials", "point.com"], heads=heads, attrs=attrs) doc
输出
您将收到以下输出 −
I like the Tutorialspoint.com
spacy_doc_class_contextmanager_and_property.html