spaCy - Train 训练命令
顾名思义,此命令将训练一个模型。输出将采用 spaCy 的 JSON 格式,并且在每个时期,模型都将保存到目录中。
要使用 spaCy 包命令打包模型,模型详细信息和准确度分数将添加到 meta.json 文件中。
Train 命令如下:
python -m spacy [lang] [output_path] [train_path] [dev_path] [--base-model] [--pipeline] [--vectors] [--n-iter] [--n-early-stopping][--n-examples] [--use-gpu] [--version] [--meta-path] [--init-tok2vec][--parser-multitasks] [--entity-multitasks] [--gold-preproc] [--noise-level][--orth-variant-level] [--learn-tokens] [--textcat-arch] [--textcat-multilabel][--textcat-positive-label] [--verbose]
参数
下表解释了其参数 −
参数 | 类型 | 描述 |
---|---|---|
Lang | positional | 此参数用于模型语言。 |
output_path | 位置 | 此参数表示存储模型的目录。如果不存在,则会创建该目录。 |
train_path | 位置 | 它是 JSON 格式的训练数据的位置,可以是文件或目录的文件。 |
dev_path | positional | 它是用于评估的 JSON 格式的开发数据的位置,可以是文件或文件目录。 |
--base-model, -b | option | 在 2.1 版中引入,表示要更新的基础模型的名称。它是可选的,可以是任何可加载的 spaCy 模型。 |
--pipeline, -p | option | 它也是在 2.1 版中引入的。这是要训练的管道组件的逗号分隔名称。默认值为 'tagger,parser,ner'。 |
--replace-components, -R | flag | 此参数将替换基础模型中的组件。 |
--vectors, -v | option | 它是应从中加载向量的模型。 |
--n-iter, -n | option | 它将给出迭代次数。默认值为 30。 |
--n-early-stopping, -ne | option | 它表示不提高开发准确率的最大训练周期数。 |
--n-examples, -ns | option | 它将是要使用的示例数。默认值 0 将使用所有示例。 |
--use-gpu, -g | option | 如果您想使用 GPU,请使用此参数。您需要提供 GPU-ID。默认值 -1 仅适用于 CPU。 |
--version, -V | option | 它将是模型版本。 |
--meta-path, -m | option | 在 2.0 版本中引入,表示模型 meta.json 的可选路径。它将覆盖所有相关属性,如 lang、pipeline 和 spacy_version。 |
--init-tok2vec, -t2v | option | 在 2.1 版中引入,表示模型的 token-to-vector 部分的预训练权重的路径。 |
--parser-multitasks, -pt | option | 它是 parser CNN 的次要目标。例如,'dep' 或 'dep,tag' |
--entity-multitasks, -et | option | 它是 NER CNN 的次要目标。例如,'dep' 或 'dep,tag' |
--width, -cw | option | 2.2.4 版本引入,表示 Tok2Vec 组件的 CNN 层的宽度。 |
--conv-depth, -cd | option | 2.2.4 版本引入,表示 Tok2Vec 组件的 CNN 层的深度。 |
--cnn-window, -cW | option | 2.2.4 版本引入,表示 Tok2Vec 的 CNN 层的窗口大小组件。 |
--cnn-pieces,-cP | option | 在 2.2.4 版本中引入,表示 Tok2Vec 组件的 CNN 层的最大大小。 |
--bilstm-depth,-lstm | option | 在 2.2.4 版本中引入,表示 Tok2Vec 组件的 BiLSTM 层的深度。 |
--embed-rows,-er | option | 此参数表示数据增强的损坏量。该值将以浮点数表示。 |
--orth-variant-level,-ovl | option | 此参数表示数据增强的正字法变体。 |
--gold-preproc,-G | flag | 此标志将使用黄金预处理。 |
--learn-tokens,-T | flag | 它是标志,通过合并子标记使解析器学习黄金标准标记化。它通常用于中文等语言。 |
--textcat-multilabel, -TML | flag | 在 2.2 版中引入,表示文本分类类别不互斥(多标签)。 |
--textcat-arch, -ta | option | 在 2.2 版中引入,表示文本分类模型架构。默认值为"bow"。 |
--textcat-positive-label,-tpl | option | 2.2版本引入,表示具有两个标签的二分类文本分类正标签。 |
--tag-map-path,-tm | option | 2.2.4版本引入,表示JSON格式的标签图的位置。 |
--verbose,-VV | flag | 2.0.13版本引入,在训练过程中显示更详细的消息。 |
--help, -h | flag | 此参数用于显示帮助消息和可用参数。 |
spacy_command_line_helpers.html