望云阁

望云阁

Elasticsearch架构不止是搜索引擎,还可以其他业务场景

1、Elasticsearch 不适合做什么? 1.1 不支持事务 不支持:ACID(在写入或更新数据的过程中,为保证事务(transaction)是正确可靠的,所必须具备的四个特性:原子性(atom


gxq926  348  2021-06-18 阅读全文

Kafka之时间轮

kafka是一个分布式消息中间件,其高可用高吞吐的特点是大数据领域首选的消息中间件,Kafka是分布式消息队列的顺序读写文件分段组织串联起来思想的鼻祖,包括RocketMq这些消息队列都是借鉴了Kaf


gxq926  356  2021-06-18 阅读全文

flink超越Spark的Checkpoint机制

spark streaming的Checkpoint仅仅是针对driver的故障恢复做了数据和元数据的Checkpoint。而本文要讲的flink的checkpoint机制要复杂了很多,它采用的是轻量


gxq926  489  2021-06-18 阅读全文

HBase列族优化

随着大数据的越来越普及,HBase也变得越来越流行。使用HBase并不困难,但是如何用好HBase,这确是一个难点。为了合理地使用HBase,尽可能发挥HBase的功能,我们需要根据不同的场景对HBa


gxq926  366  2021-06-17 阅读全文

Sqoop导入数据命令及示例

导入数据 在Sqoop中,“导入”概念指:从非大数据集群(RDBMS)向大数据集群(HDFS,HIVE,HBASE)中传输数据,叫做:导入,即使用import关键字。 1. RDBMS到HDFS 1)


gxq926  324  阅读全文

ElasticSearch常用curl命令

1 查看es中有哪些索引 GET /_cat/indices?v es 中会默认存在一个名为.kibana的索引 表头的含义 health green(集群完整) yellow(单点正常、集群不完整)


gxq926  463  2021-06-16 阅读全文

Linux Sqoop安装配置

一、 Sqoop简介 Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQ


gxq926  307  2021-06-16 阅读全文

Hive和数据库比较

由于 Hive 采用了类似SQL 的查询语言 HQL(Hive Query Language),因此很容易将 Hive 理解为数据库。其实从结构上来看,Hive 和数据库除了拥有类似的查询语言,再无类


gxq926  283  2021-06-16 阅读全文

Hive的优缺点

优点 操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)。 避免了去写MapReduce,减少开发人员的学习成本。 Hive的执行延迟比较高,因此Hive常用于数据分析,对实时性要求不高的


gxq926  420  2021-06-16 阅读全文

spark shuffle的几种特殊情况

1.shuffle概览 一个spark的RDD有一组固定的分区组成,每个分区有一系列的记录组成。对于由窄依赖变换(例如map和filter)返回的RDD,会延续父RDD的分区信息,以pipeline的


gxq926  319  阅读全文

如何从大量数据中找出高频词

题目描述 有一个 1GB 大小的文件,文件里每一行是一个词,每个词的大小不超过 16B,内存大小限制是 1MB,要求返回频数最高的 100 个词(Top 100)。 解答思路 由于内存限制,我们依然无


gxq926  313  2021-06-15 阅读全文

如何从 5 亿个数中找出中位数

题目描述 从 5 亿个数中找出中位数。数据排序后,位置在最中间的数就是中位数。当样本数为奇数时,中位数为 第(N+1)/2个数;当样本数为偶数时,中位数为第N/2个数与第1+N/2个数的均值。 解答思


gxq926  312  阅读全文

如何关闭CDP中ranger策略的审计

1.概述 CDP集群中的ranger在添加新的策略的时候,默认会启用审计。审计可以帮助我们在查询到历史操作的详细信息。但是随着集群任务量的增长,海量的审计信息会占用大量的磁盘空间。集群使用者可以根据需


gxq926  678  阅读全文

导入 Kerberos Account Manager 凭据失败

1.问题描述 CDP7.1.6集群在启用Kerberos的操作中,导入KDC Account Manager凭证时报如下异常: /opt/cloudera/cm/bin/import_credenti


gxq926  780  2021-06-10 阅读全文

如何跨集群从CDH到CDP迁移Kudu表

1.文档说明 本文主要讲述如何通过Kudu 自带的Kudu Command Line Tools 进行Kudu 表迁移。 测试环境 1.CDH5.16.1、未启用Kerberos、Kudu 1.7.0


gxq926  635  2021-06-09 阅读全文

Hadoop生态圈技术图谱

当下Hadoop已经成长为一个庞大的体系,貌似只要和海量数据相关的,没有哪个领域缺少Hadoop的身影,下面是一个Hadoop生态系统的图谱,详细的列举了在Hadoop这个生态系统中出现的各种数据工具


gxq926  560  2021-06-09 阅读全文

通过扩展 Spark SQL ,打造自己的大数据分析引擎

Spark SQL 的 Catalyst ,这部分真的很有意思,值得去仔细研究一番,今天先来说说Spark的一些扩展机制吧,上一次写Spark,对其SQL的解析进行了一定的魔改,今天我们按套路来,使用


gxq926  630  阅读全文

一文理解Kafka如何保证消息顺序性

针对消息有序的业务需求,还分为全局有序和局部有序。 全局有序:一个Topic下的所有消息都需要按照生产顺序消费。 局部有序:一个Topic下的消息,只需要满足同一业务字段的要按照生产顺序消费。例如:T


gxq926  460  2021-06-09 阅读全文

Hbase面试题

Hbase是怎么写数据的? HDFS和HBase各自使用场景 Hbase的存储结构 热点现象(数据倾斜)怎么产生的,以及解决方法有哪些 HBase的 rowkey 设计原则 HBase的列簇设计 HB


gxq926  317  2021-06-08 阅读全文

Iceberg 数据湖 CDC 数据实时读写方案及原理

一、常见的 CDC 分析方案 我们先看一下今天的 topic 需要设计的是什么?输入是一个 CDC 或者 upsert 的数据,输出是 Database 或者是用于大数据 OLAP 分析的存储。 我们


gxq926  366  阅读全文