spaCy - Util.compile_suffix_regex
此实用函数将把一系列后缀规则编译成正则表达式对象。
参数
下表解释了其参数 −
NAME | TYPE | DESCRIPTION |
---|---|---|
entries | Tuple | 此参数表示后缀规则。例如,lang.punctuation.TOKENIZER_SUFFIXES</>。 |
语法
suffixes = ("'s", "'S", r"(?<=[0-9])+") suffix_reg = util.compile_suffix_regex(suffixes) nlp.tokenizer.suffix_search = suffix_reg.search
示例
import spacy nlp = spacy.load('en_core_web_sm') suffixes = list(nlp.Defaults.suffixes) suffixes.remove('\]') suffix_regex = spacy.util.compile_suffix_regex(suffixes) nlp.tokenizer.suffix_search = suffix_regex.search doc = nlp("[A] works for [B] in [C].") print([t.text for t in doc]) # ['[A]', 'works', 'for', '[B]', 'in', '[C]', '.']
输出
['[', 'A]', 'works', 'for', '[', 'B]', 'in', '[', 'C]', '.']