望云阁

望云阁

ElasticSearch在linux环境中集成IK分词器

1.简介 ElasticSearch默认自带的分词器,是标准分词器,对英文分词比较友好,但是对中文,只能把汉字一个个拆分。而elasticsearch-analysis-ik分词器能针对中文词项颗粒度


gxq926  681  2021-08-09 阅读全文

Flink Watermark介绍

实际问题(乱序) 在介绍Watermark相关内容之前我们先抛出一个具体的问题,在实际的流式计算中数据到来的顺序对计算结果的正确性有至关重要的影响,比如:某数据源中的某些数据由于某种原因(如:网络原因


gxq926  875  2021-07-26 阅读全文

Flink State介绍

在流计算场景中,数据会源源不断的流入Apache Flink系统,每条数据进入Apache Flink系统都会触发计算。如果我们想进行一个Count聚合计算,那么每次触发计算是将历史上所有流入的数据重


gxq926  655  2021-07-26 阅读全文

MPP大规模并行处理架构详解

面试官:说下你知道的MPP架构的计算引擎? 这个问题不少小伙伴在面试时都遇到过,因为对MPP这个概念了解较少,不少人都卡壳了,但是我们常用的大数据计算引擎有很多都是MPP架构的,像我们熟悉的Impal


gxq926  554  阅读全文

关于数仓建设及数据治理的超全概括

在谈数仓之前,先来看下面几个问题: 数仓为什么要分层? 用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;不分层的话,如果源业务系统的业务规则发生变化将


gxq926  498  2021-07-22 阅读全文

HIVE拉链表实现

背景 拉链表是针对数据仓库设计中表存储数据的方式而定义的,主要是维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录,通过拉链表可


gxq926  350  2021-07-21 阅读全文

实时数仓模型

背景 早期数据仓库构建主要指的是把企业的业务数据库如 ERP、CRM、SCM 等数据按照决策分析的要求建模并汇总到数据仓库引擎中,其应用以报表为主,目的是支持管理层和业务人员决策(中长期策略型决策)。


gxq926  368  2021-07-21 阅读全文

都在说实时数据架构,你了解多少?

随着互联网的发展进入下半场,数据的时效性对企业的精细化运营越来越重要, 商场如战场,在每天产生的海量数据中,如何能实时有效的挖掘出有价值的信息, 对企业的决策运营策略调整有很大帮助。此外,随着 5G


gxq926  515  2021-07-21 阅读全文

浅谈数仓模型(维度建模)

背景 数据仓库的核心是展现层和提供优质的服务。ETL 及其规范、分层等所做的一切都是为了一个更清晰易用的展现层。 数仓架构的原则: 1、底层业务的数据驱动为导向同时结合业务需求驱动 2、便于数据分析


gxq926  577  2021-07-21 阅读全文

用户画像标签体系——从零开始搭建实时用户画像

用户画像标签体系 用户画像的核心在于给用户“打标签”,每一个标签通常是人为规定的特征标识,用高度精炼的特征描述一类人,例如年龄、性别、兴趣偏好等,不同的标签通过结构化的数据体系整合,就可与组合出不同的


gxq926  640  2021-07-21 阅读全文

浅谈Hbase在用户画像上的应用

背景 用户画像,即用户信息标签化,是大数据精细化运营和精准营销服务的基础。设计从基础设施建设到应用层面,主要有数据平台搭建及运维管理、数据仓库开发、上层应用的统计分析、报表生成及可视化、用户画像建模、


gxq926  538  阅读全文

拆解一个 Elasticsearch Nested 类型复杂查询问题

1、线上实战问题 前置说明:本文是线上环境的实战问题拆解,涉及复杂 DSL,看着会很长,但强烈建议您耐心读完。 问题描述: 有个复杂的场景涉及到按照求和后过滤,user_id是用户编号,gender是


gxq926  319  2021-07-21 阅读全文

hadoop源码:hdfs启动流程--心跳机制

hadoop在启动namenode和datanode之后,两者之间是如何联动了?datanode如何向namenode注册?如何汇报数据?namenode又如何向datanode发送命令? 心跳机制基


gxq926  417  阅读全文

Elasticsearch数据库优化实战:让你的ES飞起来

一、方案说明 Elasticsearch主要功能是什么,不同的场景有不同的定位,在日志场景我们可以用ELK生态搭建日志分析系统,在搜索领域ES是当前最热门的搜索引擎。在大数据领域,ES可以对标Hbas


gxq926  277  阅读全文

mongodb在双活(主备)机房的部署方案和切换方案设计

1. 概述 现在很多高可用系统为了应对极端情况,比如主机宕机、网络故障以及机房宕机等灾难的发生,通常会部署主备架构(双机房),或者双活架构(双机房),甚至多活架构(三个机房或者以上),mongodb天


gxq926  656  2021-07-19 阅读全文

Kafka重复消费的原因和解决方案

在解释Kafka重复消费出现原因之前,列举一下Kafka中与消费者有关的几个重要配置参数。 enable.auto.commit:表示消费者会周期性自动提交消费的offset。默认值true。 aut


gxq926  220  阅读全文

Kafka如何消息不丢失

数据丢失的原因 生产者丢失消息的情况 生产者(Producer) 调用send方法发送消息之后,消息可能因为网络问题并没有发送过去。 解决方法: 不能认为在调用send方法发送消息之后消息消息发送成功


gxq926  161  2021-07-16 阅读全文

Dstream的转换与输出

一、DStream转换   DStream上的操作与RDD的类似,分为Transformations(转换)和Output Operations(输出)两种,此外转换操作中还有一些比较特殊的算子,如:


gxq926  204  2021-07-16 阅读全文

Kafka设计解析之Kafka Stream

本文介绍了Kafka Stream的背景,如Kafka Stream是什么,什么是流式计算,以及为什么要有Kafka Stream。接着介绍了Kafka Stream的整体架构,并行模型,状态存储,以


gxq926  169  阅读全文

Spark Core数据读取与保存

  Spark的数据读取及数据保存可以从两个维度来作区分:文件格式以及文件系统。     文件格式分为:Text文件、Json文件、Csv文件、Sequence文件以及Object文件;     文件


gxq926  229  阅读全文