望云阁

望云阁

Hive安装配置

一、hive的安装 注意:安装hive的前提要安装好MySQL和Hadoop 安装hive首先需要启动Hadoop 1、解压hive的安装包 tar -zxvf apache-hive-1.2.1-b


gxq926  39  阅读全文

docker实现mysql主从复制

一、概述 1、原理 master服务器将数据的改变记录二进制binlog日志,当master上的数据发生改变时,则将其改变写入二进制日志中; slave服务器会在一定时间间隔内对master二进制日志


gxq926  60  2021-08-30 阅读全文

五分钟搞定Docker安装ElasticSearch

项目准备上ElasticSearch,为了后期开发不卡壳只能笨鸟先飞,在整个安装过程中遇到以下三个问题。 Docker安装非常慢 ElasticSearch-Head连接出现跨域 ElasticSea


gxq926  62  2021-08-30 阅读全文

HDFS NameNode 的高可用机制

1 - 为什么要高可用 在 Hadoop 中,NameNode 扮演着至关重要的角色 —— 整个 HDFS 文件系统的元数据信息都由 NameNode 管理,一旦 NameNode 进程出现异常,或者


gxq926  75  2021-08-23 阅读全文

Apache HBase MTTR 优化实践:减少恢复时长

HBase介绍 HBase是Hadoop Database的简称,是建立在Hadoop文件系统之上的分布式面向列的数据库,它具有高可靠、高性能、面向列和可伸缩的特性,提供快速随机访问海量数据能力。 H


gxq926  84  2021-08-18 阅读全文

RabbitMQ和Kafka到底怎么选?

前言 开源社区有好多优秀的队列中间件,比如RabbitMQ和Kafka,每个队列都貌似有其特性,在进行工程选择时,往往眼花缭乱,不知所措。对于RabbitMQ和Kafka,到底应该选哪个? Rabbi


gxq926  74  2021-08-16 阅读全文

Kafka 原理以及分区分配策略剖析

一、简介 Apache Kafka 是一个分布式的流处理平台(分布式的基于发布/订阅模式的消息队列【Message Queue】)。 流处理平台有以下3个特性: 可以让你发布和订阅流式的记录。这一方面


gxq926  104  2021-08-16 阅读全文

ElasticSearch在linux环境中集成IK分词器

1.简介 ElasticSearch默认自带的分词器,是标准分词器,对英文分词比较友好,但是对中文,只能把汉字一个个拆分。而elasticsearch-analysis-ik分词器能针对中文词项颗粒度


gxq926  99  2021-08-09 阅读全文

Flink Watermark介绍

实际问题(乱序) 在介绍Watermark相关内容之前我们先抛出一个具体的问题,在实际的流式计算中数据到来的顺序对计算结果的正确性有至关重要的影响,比如:某数据源中的某些数据由于某种原因(如:网络原因


gxq926  123  2021-07-26 阅读全文

Flink State介绍

在流计算场景中,数据会源源不断的流入Apache Flink系统,每条数据进入Apache Flink系统都会触发计算。如果我们想进行一个Count聚合计算,那么每次触发计算是将历史上所有流入的数据重


gxq926  104  2021-07-26 阅读全文

MPP大规模并行处理架构详解

面试官:说下你知道的MPP架构的计算引擎? 这个问题不少小伙伴在面试时都遇到过,因为对MPP这个概念了解较少,不少人都卡壳了,但是我们常用的大数据计算引擎有很多都是MPP架构的,像我们熟悉的Impal


gxq926  118  阅读全文

关于数仓建设及数据治理的超全概括

在谈数仓之前,先来看下面几个问题: 数仓为什么要分层? 用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;不分层的话,如果源业务系统的业务规则发生变化将


gxq926  121  2021-07-22 阅读全文

HIVE拉链表实现

背景 拉链表是针对数据仓库设计中表存储数据的方式而定义的,主要是维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录,通过拉链表可


gxq926  87  2021-07-21 阅读全文

实时数仓模型

背景 早期数据仓库构建主要指的是把企业的业务数据库如 ERP、CRM、SCM 等数据按照决策分析的要求建模并汇总到数据仓库引擎中,其应用以报表为主,目的是支持管理层和业务人员决策(中长期策略型决策)。


gxq926  75  2021-07-21 阅读全文

都在说实时数据架构,你了解多少?

随着互联网的发展进入下半场,数据的时效性对企业的精细化运营越来越重要, 商场如战场,在每天产生的海量数据中,如何能实时有效的挖掘出有价值的信息, 对企业的决策运营策略调整有很大帮助。此外,随着 5G


gxq926  143  2021-07-21 阅读全文

浅谈数仓模型(维度建模)

背景 数据仓库的核心是展现层和提供优质的服务。ETL 及其规范、分层等所做的一切都是为了一个更清晰易用的展现层。 数仓架构的原则: 1、底层业务的数据驱动为导向同时结合业务需求驱动 2、便于数据分析


gxq926  137  2021-07-21 阅读全文

用户画像标签体系——从零开始搭建实时用户画像

用户画像标签体系 用户画像的核心在于给用户“打标签”,每一个标签通常是人为规定的特征标识,用高度精炼的特征描述一类人,例如年龄、性别、兴趣偏好等,不同的标签通过结构化的数据体系整合,就可与组合出不同的


gxq926  104  2021-07-21 阅读全文

浅谈Hbase在用户画像上的应用

背景 用户画像,即用户信息标签化,是大数据精细化运营和精准营销服务的基础。设计从基础设施建设到应用层面,主要有数据平台搭建及运维管理、数据仓库开发、上层应用的统计分析、报表生成及可视化、用户画像建模、


gxq926  135  阅读全文

拆解一个 Elasticsearch Nested 类型复杂查询问题

1、线上实战问题 前置说明:本文是线上环境的实战问题拆解,涉及复杂 DSL,看着会很长,但强烈建议您耐心读完。 问题描述: 有个复杂的场景涉及到按照求和后过滤,user_id是用户编号,gender是


gxq926  97  2021-07-21 阅读全文

hadoop源码:hdfs启动流程--心跳机制

hadoop在启动namenode和datanode之后,两者之间是如何联动了?datanode如何向namenode注册?如何汇报数据?namenode又如何向datanode发送命令? 心跳机制基


gxq926  88  阅读全文