大数据学习

望云阁

| 注册

标签

望云阁

Flink State介绍

在流计算场景中，数据会源源不断的流入Apache Flink系统，每条数据进入Apache Flink系统都会触发计算。如果我们想进行一个Count聚合计算，那么每次触发计算是将历史上所有流入的数据重

gxq926 1500 0 2021-07-26 阅读全文

MPP大规模并行处理架构详解

面试官：说下你知道的MPP架构的计算引擎？这个问题不少小伙伴在面试时都遇到过，因为对MPP这个概念了解较少，不少人都卡壳了，但是我们常用的大数据计算引擎有很多都是MPP架构的，像我们熟悉的Impal

gxq926 1391 0 阅读全文

关于数仓建设及数据治理的超全概括

在谈数仓之前，先来看下面几个问题：数仓为什么要分层？用空间换时间，通过大量的预处理来提升应用系统的用户体验（效率），因此数据仓库会存在大量冗余的数据；不分层的话，如果源业务系统的业务规则发生变化将

gxq926 1457 0 2021-07-22 阅读全文

HIVE拉链表实现

背景拉链表是针对数据仓库设计中表存储数据的方式而定义的，主要是维护历史状态，以及最新状态数据的一种表，拉链表根据拉链粒度的不同，实际上相当于快照，只不过做了优化，去除了一部分不变的记录，通过拉链表可

gxq926 1349 0 2021-07-21 阅读全文

实时数仓模型

背景早期数据仓库构建主要指的是把企业的业务数据库如 ERP、CRM、SCM 等数据按照决策分析的要求建模并汇总到数据仓库引擎中，其应用以报表为主，目的是支持管理层和业务人员决策（中长期策略型决策）。

gxq926 1095 0 2021-07-21 阅读全文

都在说实时数据架构，你了解多少？

随着互联网的发展进入下半场，数据的时效性对企业的精细化运营越来越重要，商场如战场，在每天产生的海量数据中，如何能实时有效的挖掘出有价值的信息，对企业的决策运营策略调整有很大帮助。此外，随着 5G

gxq926 1403 0 2021-07-21 阅读全文

浅谈数仓模型（维度建模）

背景数据仓库的核心是展现层和提供优质的服务。ETL 及其规范、分层等所做的一切都是为了一个更清晰易用的展现层。数仓架构的原则： 1、底层业务的数据驱动为导向同时结合业务需求驱动 2、便于数据分析

gxq926 1646 0 2021-07-21 阅读全文

用户画像标签体系——从零开始搭建实时用户画像

用户画像标签体系用户画像的核心在于给用户“打标签”，每一个标签通常是人为规定的特征标识，用高度精炼的特征描述一类人，例如年龄、性别、兴趣偏好等，不同的标签通过结构化的数据体系整合，就可与组合出不同的

gxq926 2816 0 2021-07-21 阅读全文

浅谈Hbase在用户画像上的应用

背景用户画像，即用户信息标签化，是大数据精细化运营和精准营销服务的基础。设计从基础设施建设到应用层面，主要有数据平台搭建及运维管理、数据仓库开发、上层应用的统计分析、报表生成及可视化、用户画像建模、

gxq926 1285 0 阅读全文

拆解一个 Elasticsearch Nested 类型复杂查询问题

1、线上实战问题前置说明：本文是线上环境的实战问题拆解，涉及复杂 DSL，看着会很长，但强烈建议您耐心读完。问题描述：有个复杂的场景涉及到按照求和后过滤，user_id是用户编号，gender是

gxq926 1320 0 2021-07-21 阅读全文

hadoop源码：hdfs启动流程--心跳机制

hadoop在启动namenode和datanode之后，两者之间是如何联动了？datanode如何向namenode注册？如何汇报数据？namenode又如何向datanode发送命令？心跳机制基

gxq926 1222 0 阅读全文

Elasticsearch数据库优化实战：让你的ES飞起来

一、方案说明 Elasticsearch主要功能是什么，不同的场景有不同的定位，在日志场景我们可以用ELK生态搭建日志分析系统，在搜索领域ES是当前最热门的搜索引擎。在大数据领域，ES可以对标Hbas

gxq926 1274 0 阅读全文

mongodb在双活（主备）机房的部署方案和切换方案设计

1. 概述现在很多高可用系统为了应对极端情况，比如主机宕机、网络故障以及机房宕机等灾难的发生，通常会部署主备架构（双机房），或者双活架构（双机房），甚至多活架构（三个机房或者以上），mongodb天

gxq926 1357 0 2021-07-19 阅读全文

Kafka重复消费的原因和解决方案

在解释Kafka重复消费出现原因之前，列举一下Kafka中与消费者有关的几个重要配置参数。 enable.auto.commit：表示消费者会周期性自动提交消费的offset。默认值true。 aut

gxq926 1357 0 阅读全文

Kafka如何消息不丢失

数据丢失的原因生产者丢失消息的情况生产者(Producer) 调用send方法发送消息之后，消息可能因为网络问题并没有发送过去。解决方法：不能认为在调用send方法发送消息之后消息消息发送成功

gxq926 814 0 2021-07-16 阅读全文

Dstream的转换与输出

一、DStream转换 DStream上的操作与RDD的类似，分为Transformations（转换）和Output Operations（输出）两种，此外转换操作中还有一些比较特殊的算子，如：

gxq926 1044 0 2021-07-16 阅读全文

Kafka设计解析之Kafka Stream

本文介绍了Kafka Stream的背景，如Kafka Stream是什么，什么是流式计算，以及为什么要有Kafka Stream。接着介绍了Kafka Stream的整体架构，并行模型，状态存储，以

gxq926 778 0 阅读全文

Spark Core数据读取与保存

Spark的数据读取及数据保存可以从两个维度来作区分：文件格式以及文件系统。文件格式分为：Text文件、Json文件、Csv文件、Sequence文件以及Object文件；文件

gxq926 962 0 阅读全文

Spark SQL编程

1、Spark Session新的起始点在老的版本中，SparkSQL提供两种SQL查询起始点：一个叫SQLContext，用于Spark自己提供的SQL查询；一个叫HiveContext，用于

gxq926 689 0 2021-07-13 阅读全文

Spark运行模式

一、集群角色从物理部署层面上来看，Spark主要分为两种类型的节点：Master节点和Worker节点。Master节点主要运行集群管理器的中心化部分，所承载的作用是分配Application到

gxq926 920 0 阅读全文

上一页 1 2 3 4 5 6 7 下一页