Logstash + Filebeat-神策分析帮助中心

在使用前，请先阅读数据模型和数据格式的介绍。

概述

神策分析支持使用 Logstash + Filebeat 的方式将 后端数据实时 导入神策分析。

Logstash 是由 Elastic 公司推出的一款开源的服务器端数据处理管道，能够同时从多个来源采集数据，转换数据，然后将数据发送指定的存储库中。Logstash 官方介绍。

Filebeat 是 Elastic 公司为解决 Logstash 太重的问题推出的一款轻量级日志采集器，在处理数量众多的服务器、虚拟机和容器生成的日志时可使用 Logstash + Filebeat 的日志采集方式。Filebeat 官方介绍。

基于 Logstash + Filbeat 的数据采集流程为：后端 SDK 生成数据文件 > Filebeat 读取文件 > Logstash Beat input > Logstash sensors_analytic output > 神策分析。

结构如下图所示：

本文将介绍以下三个场景中如何使用 Logstash + Filebeat 完成数据采集并发送至神策分析。

服务器场景中的数据采集。
使用 Docker 容器化场景下的数据采集。
使用 K8s（Kubernetes）自动编排容器场景中的数据采集。

在阅读详细方案前，请先阅读 Logstash 和 Filebeat 的使用说明与版本支持信息。

Logstash 使用说明

无论使用哪种方案 Logstash 都必须装有 sensors_analytics_output 插件。

Logstash 下载与安装

请参考 installing Logstash 官方说明文档，选择您喜欢的下载与安装方式。

安装 logstash-output-sensors_analytics 插件

该插件将检查数据是否为 Json 格式，并加入一些神策需要的字段值如 lib、data 等，打包数据，压缩并经过 base64 之后发送至神策的数据接收地址。
插件已经发布至 Ruby 官方公共库，Github repository : logstash-output-sensors_analytics。直接在 Logstash 目录下执行安装即可，安装需要一段时间，请耐心等待。

bin/logstash-plugin install logstash-output-sensors_analytics

在安装完成后执行：

bin/logstash-plugin list

看见新安装的插件 logstash-output-sensors_analytics 证明安装成功。

插件在使用时直接配置在 output 里即可

output{
    sensors_analytics {
        url => "https://example.sensorsdata.cn/sa"
    }
}

sensors_analytics 参数说明：

参数名	类型	必须	说明
url	list	是	神策分析的数据接收地址，完整的 url 地址并以 sa 结尾，有端口号需要加上端口号。例如 :url => "https://example.sensorsdata.cn/sa"。集群走内网 IP 上报的，可同时配置多个数据接收地址，例如：url => ["http://10.120.157.227:8106/sa","http://10.120.72.166:8106/sa"]。
project	string	否	项目名，不写默认为 default ，配置后会覆盖事件中和 url 中指定的 project。优先级为：project 参数配置 > 事件中指定 > url 中指定。
flush_interval_sec	number	否	触发 flush 间隔的时间（单位：秒），默认值为 2。
flush_batch_size	number	否	触发批量发送的最大 record 数量，默认值为 100。
enable_filebeat_status_report	boolean	否	默认开启，在日志展示中一分钟内活动的 Filebeat 读取状态。

Logstash 配置

Logstash Pipeline 配置

Logstash 支持同时运行多个 Pipeline，各个 Pipeline 之间互不影响，拥有各自独立的输入输出配置，Pipeline 的配置文件位于 config/pipelines.yml。如果您目前正在使用 Logstash 完成一些其他的日志采集工作，可以在原有的 Logstash 上新增一条 Pipeline 专门负责收集神策的日志数据，并发送至神策分析。

Logstash 输入输出配置

配置中主要包含 input、filter 和 output 三部分，Logstash 处理神策的日志数据只需配置 input 和 output 即可。

Logstash 运行配置

Logstash 启动

Logstash 进度

Logstash 在使用 Filebeat 作为输入时，文件的读取进度是由 Filebeat 进行控制的。当使用其他的输入方式时，例如 Logstash 读取文件、消费 Kafka 等，数据的读取进度存放在 Logstash 目录 data/plugins 下，基于硬盘的数据缓冲队列存放在 data/queue 中。可在 logstash.yml 中配置 path.data 来指定 Logstash 启动时使用的 data/ 目录的位置。

sensors-output-plugin 升级与回滚

Filebeat 使用说明

Filebeat 下载与安装

Filebeat 配置

使用 Filebeat 读取后端 SDK 产生的埋点日志文件。Filebeat 默认配置文件为：filebeat.yml。修改配置文件请使用 log 类型作为 Filebeat 的输入，paths 指定数据文件所在的位置，使用通配符 * 匹配后端 SDK 输出的文件名路径。

启动 Filebeat

-c 用于指定 filebeat.yml 配置文件的位置，-e 可在终端上显示 Filebeat 的日志信息。

Filebeat 进度

如果你的目录下有多个文件未被读取，Filebeat 会同时读取多个文件，文件的读取进度存放在 Filebeat 目录下 data/registry 中，重启 Filebeat 时会根据进度继续执行发送。

服务器场景下的数据采集

如果您生产日志的后端应用直接部署在服务器上，本节内容将介绍如何使用 Filebeat + Logstash 采集产生的日志数据。该场景下也可使用 LogAgent 完成日志的收集工作。

部署 Logstash

如果您已经在使用 Logstash 做一些其他的日志收集工作请参考 Logstash 配置。

参考 Logstash 使用说明直接在您的一台或多台服务器上部署 Logstash 。

部署 Filebeat

在会产生埋点日志的服务器上部署 Filebeat 采集指定目录下的日志发送至神策分析。

神策分析各后端语言的 SDK 都支持将数据写入文件，例如使用 Java SDK 的 ConcurrentLoggingConsumer，PHP SDK 的 FileConsumer，Python SDK 的 LoggingConsumer 它们能将日志文件写入指定的目录下。

以上配置将在 /data/sa_log 目录下生成数据文件，一天一个文件，文件列表如：

Filebeat 通过配置 filebeat.yml 读取目录 /data/sa_log 下的以 service_log. 开头的日志文件，发送至部署好的 Logstash 。

当在一台服务器上有多个产生日志的目录时可配置 Filebeat 同时读取多个目录。

使用 Docker 容器化场景下的数据采集

部署 Logstash

为保证 Logstash 的稳定工作，建议直接部署 Logstash，下文为 Docker 部署方式仅供参考。

如果您已经在使用 Logstash 做一些其他的日志收集工作，请参考 Logstash 配置。为避免容器意外关闭导致丢失数据，请设法保存缓冲区内的数据。

首先，获取一个具有 sensors_analytics output 插件的 Logstash 镜像。

方式二：自行制作带有 sensors_analytics output 插件的 Logstash 镜像。

由于 Logstash 需要使用磁盘做缓冲队列，这里我们创建一个 Volume 专门用于保存 Logstash 的进度和缓冲队列，当重启该 Logstash 容器时请复用该 Volume。

部署 Filebeat

方案一：在 SDK 容器中安装 Filebeat 采集日志并发送至 Logstash（推荐）

在您能够产生埋点日志的容器上安装一个 Filebeat 采集日志并发送至部署好的 Logstash，Filebeat 为一款轻量级的日志采集器，运行内存大概 10 MB 左右，并不会给您的工作容器带来太多的负担。

在容器中要保证 SDK 的日志写入路径与 Filebeat 的日志读取路径相同。

方案二：SDK 使用共享数据保存日志 Filebeat 进行读取

后端 SDK 和 Filebeat 分别运行在不同的容器上，SDK 将生产的日志存放在数据卷上，Filebeat 从数据卷内读取数据发送至部署好的 Logstash 。

首先，创建一个数据卷选择您喜欢的存储方式，下面以本地磁盘为例，要保证你的容器对该数据卷有写权限：

启动 Filebeat 容器，将日志读取目录挂载到数据卷上。同时将存放文件读取进度的目录也挂载到数据卷上，以每一个数据卷为一个读取进度，当重启 Filebeat 时复用该进度即可继续执行发送。

如果想用多个 SDK 容器挂载同一个数据卷的，建议容器以环境变量 HOSTNAME 为路径名存放日志文件，再将上级目录挂载到数据卷上。

如果您不希望更改原容器的日志路径存放方式，可以在容器启动时建立一条软链指向日志目录，将软链挂载到 Volume 上。

使用 K8s（Kubernetes）自动编排容器场景中的数据采集

Logstash 部署

为保证 Logstash 的稳定工作，建议直接部署 Logstash 在服务器上，下文为 K8s 的部署方式供参考。
如果您已经在使用 Logstash 做一些其他的日志收集工作请参考 Logstash 配置。为避免容器意外关闭导致丢失数据，请设法保存缓冲区内的数据。

注册一份 Logstash 配置文件，使用 Filebeat 作为输入，sensors_analytics 作为输出，并指定运行配置。

为了不丢失数据，使用了基于硬盘的数据缓冲队列 (queue.type: persisted)，所以需要在容器外保存 Logstash 的进度信息，这样在重启 Logstash 的时候可以继续完成发送。

建议通过 StatefulSet 的方式进行部署从而保存 Logstash 的状态。

首先，创建一个 StorageClass 用于生成保存进度的 PV ，设置手动回收，下面以 NFS 为例。

然后，创建一个 StatefulSet 应用 logstash-nfs-storage ，通过 Headless Service 来为每个 Logstash Pod 提供网络访问方式。

StatefulSet 创建完成后 Pod name 的生成规则为 StatefulSetName - Pod - 序号。

上面的配置文件会生成 logstash-0、logstash-1，logstash-2 这样命名的 Pod。 Pod 副本也是按照序号 0 到 N-1 的顺序依次进行创建的，在删除时是按照序号 N-1 到 0 依次删除。

Headless Service 为控制的每个 Pod 副本创建了一个 DNS 域名，完整的域名规则为：(pod name).(headless server name).namespace.svc.cluster.local，因此 Filebeat 是通过域名来寻找 Logstash 的，而不是 IP 。当使用默认的 namespace 时可省略 namespace.svc.cluster.local 。

StatefulSet 根据 volumeClaimTemplates，为每个 Pod 创建一个 PVC，PVC 的命名前缀为：namespace-volumeMounts.name - volumeClaimTemplates.name - pod_name，删除一个 Pod 副本不会删除 PVC ，在重启后新的 Pod 会复用之前 PVC 中的进度继续完成发送。

之前新增的 PVC 不会被删除，当下次达到该容量时会继续复用。不用担心有 Filebeat 会向被删除的 Logstash 发送数据， Filebeat 会自行寻找另一个运行正常的 Logstash。
由于设置了 queue.drain: true 所以撤除的 Logstash 在关闭前会将缓冲区内的数据发送完毕。

部署 Filebeat

方案一：将 Filebeat 与后端 SDK 封装在同一个 Pod 里采集日志文件（推荐）

将 Filebeat 容器与能够产生日志的后端 SDK 容器配置在同一个 Pod 里，后端 SDK 将日志写入 emptyDir 中，由 Filebeat 进行读取并发送至 Logstash。

神策分析各后端语言的 SDK 都支持将数据写入文件，例如：Java SDK 的 ConcurrentLoggingConsumer，PHP SDK 的 FileConsumer，Python SDK 的 LoggingConsumer。

以上配置将在 /data/sa_log 目录下生成数据文件，一天一个文件，文件列表如下：

在部署 Pod 时首先将 SDK 容器中的 /data/sa_log 目录下的内容挂载到 emptyDir: {} 上。然后设置 Filebeat 的读取的文件目录为：/var/log/containers/service_log.*。Filebeat 将会读取该目录下所有以 service_log. 开头的文件。最后把 Filebeat 容器的 /var/log/containers/ 目录也挂载到 emptyDir: {} 上，运行时即可读取 SDK 容器产生的日志文件。

方案二：Filebeat 部署在 K8s 节点上采集日志文件

Filebeat 以 DaemonSet 的方式部署在 K8s 节点上收集日志数据。节点上运行的后端 SDK 统一将日志存放在宿主机的指定目录内由 Filebeat 进行读取并发送至 Logstash。

考虑到在同一宿主机上可能存在多个相同的后端 SDK 容器，因此需要使每个容器在向宿主机目录写入日志的时候使用不同的目录。建议在启动容器时使用系统环境变量 HOSTNAME 作为路径名存放日志文件，然后将上一级目录挂载到宿主机目录上。

容器内日志的输出路径：/mount/${HOSTNAME}-logs/service_log.20190708

因此宿主机的 /home/data/javasdk_logs/ 目录下存放的内容大致如下：

如果您不希望更改原容器的日志路径存放方式，可以在容器启动时建立一条软链指向日志目录，将软链挂载在宿主机即可。

将 Filebeat 匹配的路径设置为 /home/data/javasdk_logs/*/service_log.*，并且把 Filebeat 存放进度的目录也挂载在宿主机上，这样在重启 DaemonSet 的时候节点上的 Filebeat 会继续之前的发送进度。

Logstash 数据格式说明

神策插件是根据 Logstash 提供的标准数据格式来解析数据，完成数据上报的；在配置来源和目标插件的时候，需要保证数据格式是 Logstash 标准的格式，具体格式信息如下：

这个问题一般就是由于上报的数据没有放在 message 中导致插件解析 json 报错，需要检查一下配置文件，比如提前将信息 json 化，这样就会导致 message 为空。无需提前解析，神策插件会完成数据解析上报。