Amazon Q Business - 文档属性
在本章中,我们将了解文档属性是什么、它们在 Amazon Q Business 中的工作方式以及它们能为您的聊天解决方案做些什么。本章还列出了 Amazon Q Business 支持的文档类型。
文档属性
每个文档都附有关于其自身的信息,例如标题、作者、创建日期、上次更新和文档类型。
Amazon Q Business 索引允许您将文档属性连接到字段。这些字段可帮助管理员改进来自特定来源的搜索结果。最终用户还可以使用这些字段过滤和缩小搜索结果范围。
仅支持通过 API 在聊天中使用文档属性进行过滤。控制台和 API 均支持使用文档属性提升搜索结果。
文档属性类型
Amazon Q Business 支持两种类型的文档属性。
保留文档属性
Amazon Q Business 具有保留或默认文档属性,可创建常见文档属性的映射,帮助您高效地索引文档。
Amazon Q Business 提供以下保留文档属性或索引字段,您可以将元数据映射到这些字段:
- _authors:负责内容的一个或多个作者的列表文档。
- _category:将文档置于特定组中的类别。
- _created_at:文档创建的日期和时间(采用 ISO 8601 格式)。例如,2012-03-25T12:30:10+01:00 是 ISO 8601 日期时间格式,表示 2012 年 3 月 25 日中午 12:30(加 10 秒)(中欧时间)。
- _data_source_id:包含文档的数据源的标识符。
- _document_body:文档的内容。
- _document_id:文档的唯一标识符。
- _document_title:文档的标题。
- _file_type:文档的文件类型,例如 .pdf 或 .docx。
- _last_updated_at:文档上次更新的日期和时间(采用 ISO 8601 格式)已更新。例如,2012-03-25T12:30:10+01:00 是 ISO 8601 日期时间格式,表示 2012 年 3 月 25 日中午 12:30(加 10 秒)(中欧时间)。
- _source_uri: 文档可用的 URI。例如,公司网站上的文档 URI。
- _version: 文档特定版本的标识符。
- _view_count: 文档的查看次数。
- _language_code(字符串): 适用于文档的语言代码。如果您未指定语言,则默认为英语。
自定义文档属性
自定义属性用于将文档中的唯一信息链接到索引字段。
您可以根据自己的数据创建自定义属性,并将其映射到自定义索引字段,从而为最终用户创建更加量身定制的聊天体验。
例如,您可以创建一个名为"部门"的自定义字段或属性,其值为"HR"、"销售"和"制造"。然后,您可以使用这些字段或属性,让最终用户将聊天结果过滤到"HR"部门的文档,或将响应生成限制到特定的数据存储。
创建后,您就无法删除或重命名任何属性。
映射的文档属性
将文档属性映射到索引字段时,您可以决定在聊天期间如何使用该字段。目前,您可以配置索引字段以执行以下操作:
- 搜索:允许最终用户搜索具有指定属性的数据。
文档属性数据类型
文档属性(保留或自定义)只能是下表中显示的数据类型。此外,文档属性可用于执行上述操作。
数据类型 | 可搜索 | 可过滤 | 可增强 |
---|---|---|---|
日期 | 否 | 是 | 是 |
数字 | 否 | 是 | 是 |
字符串 | 是 | 是 | 是 |
字符串列表 | 是 | 是 | 是 |
创建索引字段类型后,您无法更改它。
将文档属性映射到索引文件
将文档属性直接映射到索引字段。在使用 API 进行聊天筛选之前,请将文档属性映射到索引字段
- 通过调用 CreateIndex API 操作创建索引。
- 然后,使用 UpdateIndex 操作创建索引字段。这是您将文档详细信息链接到索引字段的地方。
- 使用 BatchPutDocument 将文档添加到索引。Amazon Q Business 将文档详细信息与索引字段匹配。
使用 API 将文档属性映射到索引字段后。然后,选择要使用哪些属性来筛选聊天响应。使用 UpdateIndex API 添加自定义字段。
以下 JSON 示例使用 documentAttributeConfigurations 将名为"Department"的字段添加到索引。
"DocumentmetadataConfigurationUpdates": [ { "Name": "Department", "Type": "STRING_VALUE" } ]
将数据源映射到索引字段
将数据源文档属性映射到索引字段。如果您使用 Amazon Q Business 数据源连接器,则可以将默认文档属性映射到索引字段。这些属性可帮助用户筛选和缩小聊天响应范围。
仅通过 API 支持在聊天中使用数据源文档属性进行筛选。
数据源连接器会自动查找默认文档属性。您可以将这些属性映射到索引字段。例如,将"dept"字段映射到"Department"索引字段。注意:一旦映射默认属性,您就无法更改它们。
您还可以映射任何 Amazon Q Business 保留字段,例如 _created_at。如果您的数据源有一个名为 creation_date 的字段,您可以将此字段映射到名为 _created_at 的等效 Amazon Q 保留字段。
您可以添加自定义文档属性并将其映射到自定义索引字段。大多数数据源都允许字段映射,但 Amazon S3 和数据库数据源除外。这两个数据源具有特殊的映射配置。以下概述了 Amazon S3 和数据库数据源如何配置映射:
- 如果您将文档存储在 Amazon S3 中,则可以通过两种方式映射字段。您可以使用控制台指定字段映射或使用 JSON 元数据文件。要将元数据添加到文档,请在文档旁边创建一个包含元数据 JSON 文件的目录结构。然后,在属性 JSON 结构中,您最多可以添加 50 个自定义字段或属性。
以下示例使用属性定义三个自定义字段或属性和一个保留字段。
"Attributes": { "brand": "Amazon Basics", "price": 1595, "_category": "sports", "subcategories": ["outdoors", "electronics"] }
设置连接器时,您可以通过两种方式映射字段。在控制台上,您可以选择默认字段映射或创建自定义字段映射,但请注意,某些默认字段无法编辑,并且会显示为灰色。或者,您可以使用 API 映射字段,其中使用 CreateDataSource 操作映射默认属性,使用 UpdateIndex 操作创建和映射自定义字段。
使用 BatchPutDocument API 操作提取属性
使用 BatchPutDocument API 将文档添加到索引时,您可以指定属性,包括保留属性和自定义属性。您可以在单个 API 调用中添加多个字段或属性,最多可添加 50 个自定义字段。
"Attributes": { "Department": "HR", "_category": "Vacation policy" }