spaCy - Convert 命令

顾名思义,此命令将文件转换为 spaCy 的 JavaScript 对象表示法 (JSON) 格式,特别适合与 train 命令和其他实验管理功能一起使用。

转换 命令如下 −

python -m spacy convert [input_file] [output_dir] [--file-type] [--converter][--n-sents] [--morphology] [--lang]

参数

下表解释了其参数 −

参数 类型 描述
input_file positional 它表示输入文件。
output_dir positional 此参数表示转换后文件的输出目录。默认为"-",表示数据将写入 stdout。
--file-type,-t option 它是要创建的文件类型。
--converter,-c option 它表示要使用的转换器的名称。
--n-sents,-n option 它表示每个文档的句子数。
--seg-sents,-s flag 它用于分段句子(用于 -c ner)。
--model, -b option 它表示基于解析器的句子分割模型(用于 -s)。
--morphology, -m option 此参数允许将形态附加到标签。
--lang, -l option 它是语言代码,如果需要标记器则使用。
--help, -h flag 此参数将显示帮助消息和其他可用参数。

以下是输出文件类型,可以使用此命令生成 −

  • json − 它是常规 JSON 和默认输出文件类型。

  • jsonl − 它是换行符分隔的 JSON。

  • msg − 它是二进制 MessagePack 格式。

转换器选项

下表显示转换器选项 −

Sr.No. ID &描述
1

Auto

它将根据文件扩展名和文件内容自动选择转换器。

2

conll、conllu、conllubio

这些是通用依赖项 .conllu 或 .conll 格式。

3

Ner

它是带有 IOB/IOB2 标签的 NER。其中,每行一个标记,列之间用空格分隔。第一列是标记,最后一列是 IOB 标签。句子之间用空行分隔,文档之间用行 -DOCSTART- -X- O O 分隔。支持 CoNLL 2003 NER 格式。

4

Iob

它是带有 IOB/IOB2 标签的 NER。其中,每行一个句子,标记用空格分隔,注释用 | 分隔,可以是 word|B-ENT 或 word|POS|B-ENT

5

Jsonl

它是格式化为 JSONL 的 NER 数据,每行一个字典,以及"text"和"spans"键。