Amazon Q Business - 文档属性

在本章中,我们将了解文档属性是什么、它们在 Amazon Q Business 中的工作方式以及它们能为您的聊天解决方案做些什么。本章还列出了 Amazon Q Business 支持的文档类型。

文档属性

每个文档都附有关于其自身的信息,例如标题、作者、创建日期、上次更新和文档类型。

Amazon Q Business 索引允许您将文档属性连接到字段。这些字段可帮助管理员改进来自特定来源的搜索结果。最终用户还可以使用这些字段过滤和缩小搜索结果范围。

仅支持通过 API 在聊天中使用文档属性进行过滤。控制台和 API 均支持使用文档属性提升搜索结果。

文档属性类型

Amazon Q Business 支持两种类型的文档属性。

保留文档属性

Amazon Q Business 具有保留或默认文档属性,可创建常见文档属性的映射,帮助您高效地索引文档。

Amazon Q Business 提供以下保留文档属性或索引字段,您可以将元数据映射到这些字段:

  • _authors:负责内容的一个或多个作者的列表文档。
  • _category:将文档置于特定组中的类别。
  • _created_at:文档创建的日期和时间(采用 ISO 8601 格式)。例如,2012-03-25T12:30:10+01:00 是 ISO 8601 日期时间格式,表示 2012 年 3 月 25 日中午 12:30(加 10 秒)(中欧时间)。
  • _data_source_id:包含文档的数据源的标识符。
  • _document_body:文档的内容。
  • _document_id:文档的唯一标识符。
  • _document_title:文档的标题。
  • _file_type:文档的文件类型,例如 .pdf 或 .docx。
  • _last_updated_at:文档上次更新的日期和时间(采用 ISO 8601 格式)已更新。例如,2012-03-25T12:30:10+01:00 是 ISO 8601 日期时间格式,表示 2012 年 3 月 25 日中午 12:30(加 10 秒)(中欧时间)。
  • _source_uri: 文档可用的 URI。例如,公司网站上的文档 URI。
  • _version: 文档特定版本的标识符。
  • _view_count: 文档的查看次数。
  • _language_code(字符串): 适用于文档的语言代码。如果您未指定语言,则默认为英语。

自定义文档属性

自定义属性用于将文档中的唯一信息链接到索引字段。

您可以根据自己的数据创建自定义属性,并将其映射到自定义索引字段,从而为最终用户创建更加量身定制的聊天体验。

例如,您可以创建一个名为"部门"的自定义字段或属性,其值为"HR"、"销售"和"制造"。然后,您可以使用这些字段或属性,让最终用户将聊天结果过滤到"HR"部门的文档,或将响应生成限制到特定的数据存储。

创建后,您就无法删除或重命名任何属性。

映射的文档属性

将文档属性映射到索引字段时,您可以决定在聊天期间如何使用该字段。目前,您可以配置索引字段以执行以下操作:

  • 搜索:允许最终用户搜索具有指定属性的数据。

文档属性数据类型

文档属性(保留或自定义)只能是下表中显示的数据类型。此外,文档属性可用于执行上述操作。

数据类型 可搜索 可过滤 可增强
日期
数字
字符串
字符串列表
创建索引字段类型后,您无法更改它。

将文档属性映射到索引文件

将文档属性直接映射到索引字段。在使用 API 进行聊天筛选之前,请将文档属性映射到索引字段

  • 通过调用 CreateIndex API 操作创建索引。
  • 然后,使用 UpdateIndex 操作创建索引字段。这是您将文档详细信息链接到索引字段的地方。
  • 使用 BatchPutDocument 将文档添加到索引。Amazon Q Business 将文档详细信息与索引字段匹配。

使用 API 将文档属性映射到索引字段后。然后,选择要使用哪些属性来筛选聊天响应。使用 UpdateIndex API 添加自定义字段。

以下 JSON 示例使用 documentAttributeConfigurations 将名为"Department"的字段添加到索引。

"DocumentmetadataConfigurationUpdates": [
   {
       "Name": "Department",
       "Type": "STRING_VALUE"
   }
]

将数据源映射到索引字段

将数据源文档属性映射到索引字段。如果您使用 Amazon Q Business 数据源连接器,则可以将默认文档属性映射到索引字段。这些属性可帮助用户筛选和缩小聊天响应范围。

仅通过 API 支持在聊天中使用数据源文档属性进行筛选。

数据源连接器会自动查找默认文档属性。您可以将这些属性映射到索引字段。例如,将"dept"字段映射到"Department"索引字段。注意:一旦映射默认属性,您就无法更改它们。

您还可以映射任何 Amazon Q Business 保留字段,例如 _created_at。如果您的数据源有一个名为 creation_date 的字段,您可以将此字段映射到名为 _created_at 的等效 Amazon Q 保留字段。

您可以添加自定义文档属性并将其映射到自定义索引字段。大多数数据源都允许字段映射,但 Amazon S3 和数据库数据源除外。这两个数据源具有特殊的映射配置。以下概述了 Amazon S3 和数据库数据源如何配置映射:

  • 如果您将文档存储在 Amazon S3 中,则可以通过两种方式映射字段。您可以使用控制台指定字段映射或使用 JSON 元数据文件。要将元数据添加到文档,请在文档旁边创建一个包含元数据 JSON 文件的目录结构。然后,在属性 JSON 结构中,您最多可以添加 50 个自定义字段或属性。
  • 以下示例使用属性定义三个自定义字段或属性和一个保留字段。

    "Attributes": {
        "brand": "Amazon Basics",
        "price": 1595,
        "_category": "sports",
        "subcategories": ["outdoors", "electronics"]
    }
    
  • 如果数据库列与保留字段同名,则它们会自动连接。

设置连接器时,您可以通过两种方式映射字段。在控制台上,您可以选择默认字段映射或创建自定义字段映射,但请注意,某些默认字段无法编辑,并且会显示为灰色。或者,您可以使用 API 映射字段,其中使用 CreateDataSource 操作映射默认属性,使用 UpdateIndex 操作创建和映射自定义字段。

使用 BatchPutDocument API 操作提取属性

使用 BatchPutDocument API 将文档添加到索引时,您可以指定属性,包括保留属性和自定义属性。您可以在单个 API 调用中添加多个字段或属性,最多可添加 50 个自定义字段。

"Attributes": 
{
    "Department": "HR",
    "_category": "Vacation policy"
}