望云阁

望云阁

Flink State介绍

在流计算场景中,数据会源源不断的流入Apache Flink系统,每条数据进入Apache Flink系统都会触发计算。如果我们想进行一个Count聚合计算,那么每次触发计算是将历史上所有流入的数据重


gxq926  1018  2021-07-26 阅读全文

MPP大规模并行处理架构详解

面试官:说下你知道的MPP架构的计算引擎? 这个问题不少小伙伴在面试时都遇到过,因为对MPP这个概念了解较少,不少人都卡壳了,但是我们常用的大数据计算引擎有很多都是MPP架构的,像我们熟悉的Impal


gxq926  924  阅读全文

关于数仓建设及数据治理的超全概括

在谈数仓之前,先来看下面几个问题: 数仓为什么要分层? 用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;不分层的话,如果源业务系统的业务规则发生变化将


gxq926  846  2021-07-22 阅读全文

HIVE拉链表实现

背景 拉链表是针对数据仓库设计中表存储数据的方式而定义的,主要是维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录,通过拉链表可


gxq926  720  2021-07-21 阅读全文

实时数仓模型

背景 早期数据仓库构建主要指的是把企业的业务数据库如 ERP、CRM、SCM 等数据按照决策分析的要求建模并汇总到数据仓库引擎中,其应用以报表为主,目的是支持管理层和业务人员决策(中长期策略型决策)。


gxq926  657  2021-07-21 阅读全文

都在说实时数据架构,你了解多少?

随着互联网的发展进入下半场,数据的时效性对企业的精细化运营越来越重要, 商场如战场,在每天产生的海量数据中,如何能实时有效的挖掘出有价值的信息, 对企业的决策运营策略调整有很大帮助。此外,随着 5G


gxq926  893  2021-07-21 阅读全文

浅谈数仓模型(维度建模)

背景 数据仓库的核心是展现层和提供优质的服务。ETL 及其规范、分层等所做的一切都是为了一个更清晰易用的展现层。 数仓架构的原则: 1、底层业务的数据驱动为导向同时结合业务需求驱动 2、便于数据分析


gxq926  936  2021-07-21 阅读全文

用户画像标签体系——从零开始搭建实时用户画像

用户画像标签体系 用户画像的核心在于给用户“打标签”,每一个标签通常是人为规定的特征标识,用高度精炼的特征描述一类人,例如年龄、性别、兴趣偏好等,不同的标签通过结构化的数据体系整合,就可与组合出不同的


gxq926  1510  2021-07-21 阅读全文

浅谈Hbase在用户画像上的应用

背景 用户画像,即用户信息标签化,是大数据精细化运营和精准营销服务的基础。设计从基础设施建设到应用层面,主要有数据平台搭建及运维管理、数据仓库开发、上层应用的统计分析、报表生成及可视化、用户画像建模、


gxq926  830  阅读全文

拆解一个 Elasticsearch Nested 类型复杂查询问题

1、线上实战问题 前置说明:本文是线上环境的实战问题拆解,涉及复杂 DSL,看着会很长,但强烈建议您耐心读完。 问题描述: 有个复杂的场景涉及到按照求和后过滤,user_id是用户编号,gender是


gxq926  671  2021-07-21 阅读全文

hadoop源码:hdfs启动流程--心跳机制

hadoop在启动namenode和datanode之后,两者之间是如何联动了?datanode如何向namenode注册?如何汇报数据?namenode又如何向datanode发送命令? 心跳机制基


gxq926  648  阅读全文

Elasticsearch数据库优化实战:让你的ES飞起来

一、方案说明 Elasticsearch主要功能是什么,不同的场景有不同的定位,在日志场景我们可以用ELK生态搭建日志分析系统,在搜索领域ES是当前最热门的搜索引擎。在大数据领域,ES可以对标Hbas


gxq926  629  阅读全文

mongodb在双活(主备)机房的部署方案和切换方案设计

1. 概述 现在很多高可用系统为了应对极端情况,比如主机宕机、网络故障以及机房宕机等灾难的发生,通常会部署主备架构(双机房),或者双活架构(双机房),甚至多活架构(三个机房或者以上),mongodb天


gxq926  953  2021-07-19 阅读全文

Kafka重复消费的原因和解决方案

在解释Kafka重复消费出现原因之前,列举一下Kafka中与消费者有关的几个重要配置参数。 enable.auto.commit:表示消费者会周期性自动提交消费的offset。默认值true。 aut


gxq926  719  阅读全文

Kafka如何消息不丢失

数据丢失的原因 生产者丢失消息的情况 生产者(Producer) 调用send方法发送消息之后,消息可能因为网络问题并没有发送过去。 解决方法: 不能认为在调用send方法发送消息之后消息消息发送成功


gxq926  347  2021-07-16 阅读全文

Dstream的转换与输出

一、DStream转换   DStream上的操作与RDD的类似,分为Transformations(转换)和Output Operations(输出)两种,此外转换操作中还有一些比较特殊的算子,如:


gxq926  476  2021-07-16 阅读全文

Kafka设计解析之Kafka Stream

本文介绍了Kafka Stream的背景,如Kafka Stream是什么,什么是流式计算,以及为什么要有Kafka Stream。接着介绍了Kafka Stream的整体架构,并行模型,状态存储,以


gxq926  358  阅读全文

Spark Core数据读取与保存

  Spark的数据读取及数据保存可以从两个维度来作区分:文件格式以及文件系统。     文件格式分为:Text文件、Json文件、Csv文件、Sequence文件以及Object文件;     文件


gxq926  423  阅读全文

Spark SQL编程

1、Spark Session新的起始点   在老的版本中,SparkSQL提供两种SQL查询起始点:一个叫SQLContext,用于Spark自己提供的SQL查询;一个叫HiveContext,用于


gxq926  298  2021-07-13 阅读全文

Spark运行模式

一、集群角色   从物理部署层面上来看,Spark主要分为两种类型的节点:Master节点和Worker节点。Master节点主要运行集群管理器的中心化部分,所承载的作用是分配Application到


gxq926  364  阅读全文