spaCy - Util.compile_infix_regex
此实用函数将把一系列中缀规则编译成正则表达式对象。
参数
下表解释了其参数 −
NAME | TYPE | DESCRIPTION |
---|---|---|
entries | Tuple | 此参数表示中缀规则。例如,lang.punctuation.TOKENIZER_INFIXES</>。 |
语法
infixes = ("…", "-", "—", r"(?<=[0-9])[+-*^](?=[0-9-])") infix_reg = util.compile_infix_regex(infixes) nlp.tokenizer.infix_finditer = infix_reg.finditer
示例
import spacy nlp = spacy.load('en_core_web_sm') infixes = ('') infix_reg = spacy.util.compile_infix_regex(infixes) nlp.tokenizer.infix_finditer = infix_reg.finditer doc = nlp("[A] works for [B] in [C].") print([t.text for t in doc]) # ['[A]', 'works', 'for', '[B]', 'in', '[C]', '.']
输出
Output ['[', 'A', ']', 'w', 'o', 'r', 'k', 's', 'f', 'o', 'r', '[', 'B', ']', 'i', 'n', '[', 'C', ']', '.']