Amazon Q Business - 数据源连接器
数据源连接器是一种将来自不同数据源的数据组合和修改为单个容器索引的技术。Amazon Q Business 提供多个数据源连接器,以帮助以最低配置创建智能生成 AI 解决方案。
本章概述了数据源连接器的功能、其配置以及特定于数据源连接器的信息。
数据源连接器概念
要了解数据源连接器的配置,需要了解与它们相关的一些特定术语。
- 源和端点元数据:数据源配置信息位于控制台的源部分。如果您使用 API,则使用 CreateDataSource 操作的配置参数指定此信息。不同的连接源具有取决于数据源的配置信息。
- 授权:Amazon Q Business 包含连接器索引访问控制列表 (ACL),其中包含有关用户电子邮件地址、本地组的组名、联合组的组名的信息。
- 身份验证:Amazon Q Business 具有 AWS Secrets Manager 机密,可帮助 Amazon Q Business 通过您提供的数据源访问凭据验证对数据源的访问。
- 虚拟私有云:Amazon Q Business 具有虚拟私有云,用于存储数据源或数据库。您可以通过控制台或 Amazon Q Business API 使用 Amazon VPC
- Web 代理:用于将数据源实例连接到所有受支持的数据源,您必须为此提供主机名和端口号。
- IAM 角色:数据源连接器需要具有授权和身份验证的 IAM 角色。
- 身份爬虫:Amazon Q Business 具有身份爬虫功能,使其能够从受支持的数据源中爬取文档级别的 ACL 信息。
- 同步范围:Amazon Q Business 具有同步范围功能,可自定义数据源连接器抓取和索引的内容。
- 同步模式:用于自定义数据源内容更改时与索引同步的内容。
- 同步运行计划:Amazon Q Business 具有同步运行计划功能,可按照自定义计划定期将数据源与检索器同步。
- 字段映射:用于将 Amazon Q Business 索引字段与数据源文档属性进行映射。
什么是文档?
将 Amazon Q Business 连接到数据源时,将哪些内容视为单个"文档"取决于您使用的连接类型。
下表概述了每个连接器抓取的文档。
数据源连接器 | 支持抓取 | 文档定义 |
---|---|---|
Adobe Experience Manager(云和服务器) |
|
|
Alfresco(云和服务器) |
|
|
Amazon FSx (Windows) | 文件 | 每个文件都被视为一个文档。 |
Amazon S3 | 对象 | 每个对象都被视为一个文档。任何 object-name.metadata.json 文件和访问控制列表 (ACL) 文件都被视为与其关联的对象的元数据,而不会被视为单独的文档。 |
Amazon Q Business Web Crawler |
|
|
Amazon WorkDocs |
|
|
Box |
|
|
Confluence(云和服务器) |
|
|
数据库数据源
|
|
|
Dropbox |
|
|
Drupal |
|
|
GitHub(云和服务器) |
|
|
Gmail |
|
|
Google Drive |
|
|
Jira |
|
|
Microsoft Exchange |
|
|
Microsoft OneDrive |
|
|
Microsoft SharePoint(在线和服务器) |
|
|
Microsoft Teams |
|
|
Microsoft Yammer |
|
|
Quip |
|
|
Salesforce |
|
|
ServiceNow |
|
|
Slack |
|
|
Zendesk |
|
|
配置最佳实践
以下列表描述了设置和配置 Amazon Q Business 数据源连接器的最佳实践:
- 索引中的每个文档都必须是唯一的。确保您计划连接到 Amazon Q Business 检索器的数据源内或任何数据源之间没有重复的文档。
- 更改身份验证类型或凭证时,请更新 IAM 角色以访问正确的 AWS Secrets Manager 密钥 ID。
- 为了您自己的安全,请确保定期更新您的凭证和密钥。仅授予对所需内容的访问权限,不要在不同的数据源之间重复使用它们。
- 用于数据检索器的 IAM 角色不能用于数据源。如果您不确定角色的用途,请创建一个新的 IAM 角色以防止出现错误。
- 在您的应用程序中使用 AWS KMS 密钥时,请确保您的应用程序环境的 IAM 角色具有使用密钥描述、加密和解密数据的必要权限。
- Amazon Q Business 通过使用 Secrets Manager 验证用于访问本地或服务器数据源的终端节点信息来增强安全性,从而防止"混淆代理"问题,即没有直接访问权限的用户可能会通过代理间接获得访问权限。终端节点的更改会在 Secrets Manager 中创建一个新的密钥以反映更新的信息。
- 大多数数据源使用正则表达式模式,即包含或排除模式,称为过滤器。
了解用户存储
Amazon Q Business 具有用户存储功能,允许用户仅查看从他们在应用程序内有权访问的文档生成的聊天响应。这意味着用户只能看到与其权限相关的响应以及他们有权查看的数据。
用户存储如何工作?
以下步骤展示了 Amazon Q Business 用户存储的工作原理
- 在 Amazon Q Business 中,任何数据源中的每个文档都具有作为元数据固有附加的访问控制列表 (ACL)信息。
- ACL 包含有关哪些用户和组有权访问文档的信息。
- 然后,连接器可以从您的数据源抓取并使用 ACL 信息。
- 并重新同步您的数据源以捕获 ACL 更改并确保正确的用户访问权限。
- Amazon Q Business 从每个数据源抓取用户和组信息并在内部映射。
- 然后,用户和组信息存储在用户存储中以匹配文档访问详细信息。
- 如果您在用户存储中删除一个组,然后稍后使用相同的名称但具有不同的组成员重新创建它,则包含该组的文档 ACL 可能会受到影响。
- 如果新用户具有相同的电子邮件地址,请从用户存储中删除旧用户。 Amazon Q Business 将验证用户属性,如果存在差异,则拒绝访问。
使用 Amazon VPC
Amazon Q Business 可以连接到您的虚拟私有云 (VPC)以索引内容。它之所以能做到这一点,是因为您可以告诉 Amazon Q Business 访问您的 VPC 所需的安全信息。这样,Amazon Q Business 就可以安全地与您的虚拟私有云中的数据源通信。
对数据源连接器进行故障排除
现在我们将修复 Amazon Q Business 数据源连接器的一些问题。
- 我的文档未被编入索引:Amazon Q Business 有一个两步数据索引流程。错误可能发生在数据源级别或文档级别。数据源错误在控制台中报告,而文档级别错误在 Amazon CloudWatch Logs 中报告。这可以帮助您识别和修复任何阻止文档被编入索引的问题。
- 我的同步作业失败:Amazon Q Business 同步作业可能由于索引或数据源中的配置错误而失败。这些错误通常与 Amazon Q Business 访问所需资源的 IAM 权限不足有关。数据源详细信息页面的同步运行历史记录部分中的错误消息提供了有关缺少权限的详细信息。以下是您可能收到的一些错误消息:
- 无法为作业创建日志组。请确保提供的 IAM 角色具有足够的权限。
- 尝试抓取元数据文件时无法访问 Amazon S3 文件前缀(存储桶名称)。请确保提供的 IAM 角色 (ARN) 具有足够的权限。
- 无法承担提供的 IAM 角色 (ARN)。请确保 Amazon Q Business 是允许承担该角色的受信任实体。
- 我的同步作业未完成:要对未完成的同步作业进行故障排除,请先查看您的 CloudWatch 日志。
- 从详细信息列中,选择在 CloudWatch 中查看详细信息。
- 查看错误消息以了解导致文档失败的原因。
- 我的同步作业已成功,但没有索引文档:可能的原因包括:
- 检查 CloudWatch DocumentsSubmittedForIndexingFailed 指标以查看是否有任何文档同步失败。查看 CloudWatch 日志以了解详细信息。
- 对于 Amazon S3 数据源,您可能为 Amazon Q Business 提供了错误的存储桶名称或前缀。确保 Amazon Q Business 使用的 S3 存储桶是包含要索引的文档的存储桶。
- 在重新索引之前作业中未能索引的文档时,除非您更改了文档或其关联的元数据文件,否则 Amazon Q Business 不会对其进行索引。
- 我在同步数据源时遇到文件格式问题:
如果您在向数据源添加文件或同步数据源时遇到文件格式问题,请确保 Amazon Q Business 支持您的文档类型。 - 使用 SSL 证书文件时我收到 AccessDenied 错误消息:
如果您在将 SSL 证书与数据源一起使用时收到"访问被拒绝"错误,请检查 IAM 角色是否具有访问证书文件的必要权限。如果证书使用 AWS KMS 密钥加密,请确保您的 IAM 角色也具有使用 AWS KMS 密钥解密证书的权限。