spaCy - Util.compile_prefix_regex
此实用函数将把一系列前缀规则编译成正则表达式对象。
参数
下表解释了其参数 −
NAME | TYPE | DESCRIPTION |
---|---|---|
entries | tuple | 此参数表示前缀规则。例如,lang.punctuation.TOKENIZER_PREFIXES</>。 |
语法
prefixes = ("§", "%", "=", r"+") prefix_reg = spacy.util.compile_prefix_regex(prefixes) nlp.tokenizer.prefix_search = prefix_reg.search
示例
import spacy nlp = spacy.load('en_core_web_sm') prefixes = list(nlp.Defaults.prefixes) prefixes.remove('\[') prefix_regex = spacy.util.compile_prefix_regex(prefixes) nlp.tokenizer.prefix_search = prefix_regex.search doc = nlp("[A] works for [B] in [C].") print([t.text for t in doc]) # ['[A]', 'works', 'for', '[B]', 'in', '[C]', '.']
输出
['[A', ']', 'works', 'for', '[B', ']', 'in', '[C', ']', '.']