spaCy - Convert 命令
顾名思义,此命令将文件转换为 spaCy 的 JavaScript 对象表示法 (JSON) 格式,特别适合与 train 命令和其他实验管理功能一起使用。
转换 命令如下 −
python -m spacy convert [input_file] [output_dir] [--file-type] [--converter][--n-sents] [--morphology] [--lang]
参数
下表解释了其参数 −
参数 | 类型 | 描述 |
---|---|---|
input_file | positional | 它表示输入文件。 |
output_dir | positional | 此参数表示转换后文件的输出目录。默认为"-",表示数据将写入 stdout。 |
--file-type,-t | option | 它是要创建的文件类型。 |
--converter,-c | option | 它表示要使用的转换器的名称。 |
--n-sents,-n | option | 它表示每个文档的句子数。 |
--seg-sents,-s | flag | 它用于分段句子(用于 -c ner)。 |
--model, -b | option | 它表示基于解析器的句子分割模型(用于 -s)。 |
--morphology, -m | option | 此参数允许将形态附加到标签。 |
--lang, -l | option | 它是语言代码,如果需要标记器则使用。 |
--help, -h | flag | 此参数将显示帮助消息和其他可用参数。 |
以下是输出文件类型,可以使用此命令生成 −
json − 它是常规 JSON 和默认输出文件类型。
jsonl − 它是换行符分隔的 JSON。
msg − 它是二进制 MessagePack 格式。
转换器选项
下表显示转换器选项 −
Sr.No. | ID &描述 |
---|---|
1 | Auto 它将根据文件扩展名和文件内容自动选择转换器。 |
2 | conll、conllu、conllubio 这些是通用依赖项 .conllu 或 .conll 格式。 |
3 | Ner 它是带有 IOB/IOB2 标签的 NER。其中,每行一个标记,列之间用空格分隔。第一列是标记,最后一列是 IOB 标签。句子之间用空行分隔,文档之间用行 -DOCSTART- -X- O O 分隔。支持 CoNLL 2003 NER 格式。 |
4 | Iob 它是带有 IOB/IOB2 标签的 NER。其中,每行一个句子,标记用空格分隔,注释用 | 分隔,可以是 word|B-ENT 或 word|POS|B-ENT。 |
5 | Jsonl 它是格式化为 JSONL 的 NER 数据,每行一个字典,以及"text"和"spans"键。 |