如何通过 Airbyte 将数据摄取到 Elasticsearch

news2026/2/13 16:03:46

作者：来自 Elastic Andre Luiz

Airbyte 是一个数据集成工具，可自动化并可扩展地将信息从各种来源传输到不同的目的地。它使你能够从 API、数据库和其他系统提取数据，并将其加载到 Elasticsearch 等平台，以实现高级搜索和高效分析。

本文将介绍如何配置 Airbyte 将数据摄取到 Elasticsearch，涵盖关键概念、先决条件和分步集成过程。

Airbyte 基本概念

Airbyte 在使用过程中涉及多个核心概念，主要包括：

来源（Sources）： 定义要提取数据的来源。
目的地（Destinations）： 定义数据的发送和存储位置。
连接（Connections）： 配置数据来源与目的地之间的关系，包括同步频率。

Airbyte 与 Elasticsearch 的集成

在本次演示中，我们将进行一个集成操作，把存储在 S3 存储桶中的数据迁移到 Elasticsearch 索引。我们将展示如何在 Airbyte 中配置数据来源（S3）和目的地（Elasticsearch）。

前提条件

要完成本次演示，需要满足以下前提条件：

在 AWS 中创建一个存储桶，用于存放包含数据的 JSON 文件。
使用 Docker 在本地安装 Airbyte。
在 Elastic Cloud 中创建一个 Elasticsearch 集群，用于存储摄取的数据。

接下来，我们将详细介绍每个步骤。

安装 Airbyte

Airbyte 可以在本地使用 Docker 运行，也可以在云端运行（云端使用会产生费用）。本次演示将使用 Docker 运行本地版本。

安装过程可能需要几分钟。按照安装说明完成后，Airbyte 将可通过以下地址访问：http://localhost:8000

登录后，我们即可开始配置集成。

创建存储桶

在此步骤中，你需要一个 AWS 账户来创建 S3 存储桶。此外，必须设置正确的权限，通过创建策略和 IAM 用户来允许访问该存储桶。

在存储桶中，我们将上传包含不同日志记录的 JSON 文件，这些文件稍后将被迁移到 Elasticsearch。日志文件的内容如下：

{
   "timestamp": "2025-02-15T14:00:12Z",
   "level": "INFO",
   "service": "data_pipeline",
   "message": "Pipeline execution started",
   "details": {
       "pipeline_id": "abc123",
       "source": "MySQL",
       "destination": "Elasticsearch"
   }
}

以下是加载到存储桶中的文件：

Elastic Cloud 配置

为了简化演示，我们将使用 Elastic Cloud。如果你还没有账户，可以在此创建免费试用账户：Elastic Cloud 注册。

在 Elastic Cloud 配置部署后，你需要获取以下信息：

Elasticsearch 服务器的 URL。
访问 Elasticsearch 的用户。

要获取 URL，请前往 Deployments > My deployment，在应用程序中找到 Elasticsearch，然后点击 "Copy endpoint" 复制端点。

要创建用户，请按照以下步骤操作：

访问 Kibana > Stack Management > Users。
创建一个具有 superuser 角色的新用户。
填写相关字段以完成用户创建。

现在我们已经完成所有设置，可以开始在 Airbyte 中配置连接器。

配置源连接器

在此步骤中，我们将为 S3 创建源连接器。为此，我们需要访问 Airbyte 界面并在菜单中选择 “Source” 选项。然后，搜索 S3 连接器。以下是配置连接器的详细步骤：

访问 Airbyte 并进入 “Sources” 菜单。
搜索并选择 S3 连接器。
配置以下参数：
- Source Name：定义数据源的名称。
- Delivery Method：选择 “Replicate Records”（推荐用于结构化数据）。
- Data Format：选择“JSON Format”。
- Stream Name：定义在 Elasticsearch 中的索引名称。
- Bucket Name：输入 AWS 中的存储桶名称。
- AWS Access Key 和 AWS Secret Key：输入访问凭证。

点击 Set up source 并等待验证完成。

配置目标连接器

在此步骤中，我们将配置目标连接器，即 Elasticsearch。为此，我们需要访问 Airbyte 菜单并选择 “Destination” 选项。然后，搜索 Elasticsearch 并点击搜索结果。接下来，按照以下步骤进行配置：

访问 Airbyte 并进入 “Destinations” 菜单。
搜索并选择 Elasticsearch 连接器。
配置以下参数：
- Authentication Method：选择 “Username/Password”。
- Username and Password：使用在 Kibana 中创建的凭证。
- Server Endpoint：粘贴从 Elastic Cloud 复制的 URL。
点击 Set up destination 并等待验证完成。