Flume的定义大数据要做什么?为什么需要数据采集工具?Flume的定义Flume官网初体验Flume组成Flume的基础架构EventSourceSinkChannelFlume的拓扑结构串联复制和多路复用聚合Flume的内部原理重要组件Channel SelectorSink Processor...
分类:大数据
30 篇文章背景我们使用Filebeat采集nginx日志,为了尽可能小的影响前置机性能,我们统一由一台Logstash进行日志的解析与ES索引写入。随着业务系统逐渐庞大,前置机日志也越来越多,为了方便开发与运维同事快速定位日志与各省项目组流量统计,我们决定将不同省份项目组前置机日志进行拆分,存储到不同的索引当...
背景系统架构我们公司用Flink来做实时流处理,并使用CEP组件进行实时风控系统,对前置机日志进行异常监控。公司系统中共有7台Nginx前置机,其中4台属于A组,另3台属于B组,我们使用Filebeat采集了各台前置机日志,统一发送给Logstash进行解析,解析后的数据一面写入ES做成流量看板,另...
背景我们都知道,ES是可以自动创建索引的,如果没有指定字段映射,ES会根据写入的数据来对字段进行动态映射的。假设我们目前有一个索引index-1,一个字段应该为number类型,但索引创建时的数据可能存在脏数据,该字段被映射为了text类型,导致整个索引创建时就将该字段设置为了text类型。我们知道...
问题背景换节点我们线上有一套ES集群,三台机器,共运行了6个节点。一直在线上跑了几个月也一直没出什么问题。然而好巧不巧,就在昨天,集群中的3号节点磁盘出现故障,导致机器直接瘫痪。本来大家觉得问题不大,ES不是有容灾吗,换个新节点上去不就能自动分配分片了。unassigned当我们信心满满换了个新节点...
问题背景我们使用ELK体系来采集与存储日志,其中我们使用Logstash接收kafka传过来的数据,按照每天一个索引写入ES。这一套体系已经跑了小半年了,一直挺稳定的,然而今天早上8点开始,突然发现没有新数据写入了。Elasticsearch版本:7.9排查过程其实之前我们也遇到过ES数据丢失的问题...
正排索引与倒排索引正排索引与倒排索引都是搜索系统中的数据结构。要解释什么是倒排索引之前,首先我们要了解什么是正排索引。所谓正排索引,就是以文本为key,以分词的列表为value,通过检索文本信息来找到对应的分词列表。然而在实际进行搜索时所需要的结果恰恰与之相反,即以分词列表为key,检索包含该词条的...
概念分区与副本都是ES索引的重要机制,那么二者具体有何不同呢?分区(shard)ES是一个分布式系统,ES中的索引可以被分解为多个较小的分片,将这些分片分配到不同的节点上。当查询该索引时,ES会将查询发送给每个相关的分片,再将查询结果进行合并。分区的目的是为了避免单分区时数据量过大,对节点的CPU、...
HDFS常用指令速查指令功能使用格式示例help查看命令参数hdfs dfs -help 要查看的指令hdfs dfs -help rmls显示目录信息hdfs dfs -ls 目录hdfs dfs -ls /tmplsr展示整个目录下的信息,等价于hdfs dfs -ls -Rhdfs dfs -...
ES健康查询查看集群健康/_cluster/health查看索引健康/_cluster/health?pretty&level=indices查看分片监健康/_cluster/health?pretty&level=shards查看恢复情况/_recovery?pretty集群健康/...