spaCy - Train 训练命令

顾名思义,此命令将训练一个模型。输出将采用 spaCy 的 JSON 格式,并且在每个时期,模型都将保存到目录中。

要使用 spaCy 包命令打包模型,模型详细信息和准确度分数将添加到 meta.json 文件中。

Train 命令如下:

python -m spacy [lang] [output_path] [train_path] [dev_path]
[--base-model] [--pipeline] [--vectors] [--n-iter] [--n-early-stopping][--n-examples] [--use-gpu] [--version] [--meta-path] [--init-tok2vec][--parser-multitasks] [--entity-multitasks] [--gold-preproc] [--noise-level][--orth-variant-level] [--learn-tokens] [--textcat-arch] [--textcat-multilabel][--textcat-positive-label] [--verbose]

参数

下表解释了其参数 −

参数 类型 描述
Lang positional 此参数用于模型语言。
output_path 位置 此参数表示存储模型的目录。如果不存在,则会创建该目录。
train_path 位置 它是 JSON 格式的训练数据的位置,可以是文件或目录的文件。
dev_path positional 它是用于评估的 JSON 格式的开发数据的位置,可以是文件或文件目录。
--base-model, -b option 在 2.1 版中引入,表示要更新的基础模型的名称。它是可选的,可以是任何可加载的 spaCy 模型。
--pipeline, -p option 它也是在 2.1 版中引入的。这是要训练的管道组件的逗号分隔名称。默认值为 'tagger,parser,ner'。
--replace-components, -R flag 此参数将替换基础模型中的组件。
--vectors, -v option 它是应从中加载向量的模型。
--n-iter, -n option 它将给出迭代次数。默认值为 30。
--n-early-stopping, -ne option 它表示不提高开发准确率的最大训练周期数。
--n-examples, -ns option 它将是要使用的示例数。默认值 0 将使用所有示例。
--use-gpu, -g option 如果您想使用 GPU,请使用此参数。您需要提供 GPU-ID。默认值 -1 仅适用于 CPU。
--version, -V option 它将是模型版本。
--meta-path, -m option 在 2.0 版本中引入,表示模型 meta.json 的可选路径。它将覆盖所有相关属性,如 lang、pipeline 和 spacy_version。
--init-tok2vec, -t2v option 在 2.1 版中引入,表示模型的 token-to-vector 部分的预训练权重的路径。
--parser-multitasks, -pt option 它是 parser CNN 的次要目标。例如,'dep' 或 'dep,tag'
--entity-multitasks, -et option 它是 NER CNN 的次要目标。例如,'dep' 或 'dep,tag'
--width, -cw option 2.2.4 版本引入,表示 Tok2Vec 组件的 CNN 层的宽度。
--conv-depth, -cd option 2.2.4 版本引入,表示 Tok2Vec 组件的 CNN 层的深度。
--cnn-window, -cW option 2.2.4 版本引入,表示 Tok2Vec 的 CNN 层的窗口大小组件。
--cnn-pieces,-cP option 在 2.2.4 版本中引入,表示 Tok2Vec 组件的 CNN 层的最大大小。
--bilstm-depth,-lstm option 在 2.2.4 版本中引入,表示 Tok2Vec 组件的 BiLSTM 层的深度。
--embed-rows,-er option 此参数表示数据增强的损坏量。该值将以浮点数表示。
--orth-variant-level,-ovl option 此参数表示数据增强的正字法变体。
--gold-preproc,-G flag 此标志将使用黄金预处理。
--learn-tokens,-T flag 它是标志,通过合并子标记使解析器学习黄金标准标记化。它通常用于中文等语言。
--textcat-multilabel, -TML flag 在 2.2 版中引入,表示文本分类类别不互斥(多标签)。
--textcat-arch, -ta option 在 2.2 版中引入,表示文本分类模型架构。默认值为"bow"。
--textcat-positive-label,-tpl option 2.2版本引入,表示具有两个标签的二分类文本分类正标签。
--tag-map-path,-tm option 2.2.4版本引入,表示JSON格式的标签图的位置。
--verbose,-VV flag 2.0.13版本引入,在训练过程中显示更详细的消息。
--help, -h flag 此参数用于显示帮助消息和可用参数。

spacy_command_line_helpers.html