望云阁

望云阁

spark 3.0 sql的动态分区裁剪

spark 3.0之后引入的动态分区裁剪机制,这个会大大提升应用的性能,尤其是在bi等场景下,存在大量的where条件操作。 动态分区裁剪比谓词下推更复杂点,因为他会整合维表的过滤条件,生成filte


gxq926  179  2021-06-21 阅读全文

对 Kafka 和 Pulsar 进行性能测试后,拉卡拉将消息平台统一换成了 Pulsar

拉卡拉支付成立于 2005 年,是国内领先的第三方支付企业,致力于整合信息科技,服务线下实体,从支付切入,全维度为中小微商户的经营赋能。2011 年成为首批获得《支付业务许可证》企业的一员,2019


gxq926  463  2021-06-21 阅读全文

Elasticsearch架构不止是搜索引擎,还可以其他业务场景

1、Elasticsearch 不适合做什么? 1.1 不支持事务 不支持:ACID(在写入或更新数据的过程中,为保证事务(transaction)是正确可靠的,所必须具备的四个特性:原子性(atom


gxq926  169  2021-06-18 阅读全文

Kafka之时间轮

kafka是一个分布式消息中间件,其高可用高吞吐的特点是大数据领域首选的消息中间件,Kafka是分布式消息队列的顺序读写文件分段组织串联起来思想的鼻祖,包括RocketMq这些消息队列都是借鉴了Kaf


gxq926  149  2021-06-18 阅读全文

flink超越Spark的Checkpoint机制

spark streaming的Checkpoint仅仅是针对driver的故障恢复做了数据和元数据的Checkpoint。而本文要讲的flink的checkpoint机制要复杂了很多,它采用的是轻量


gxq926  243  2021-06-18 阅读全文

HBase列族优化

随着大数据的越来越普及,HBase也变得越来越流行。使用HBase并不困难,但是如何用好HBase,这确是一个难点。为了合理地使用HBase,尽可能发挥HBase的功能,我们需要根据不同的场景对HBa


gxq926  159  2021-06-17 阅读全文

Sqoop导入数据命令及示例

导入数据 在Sqoop中,“导入”概念指:从非大数据集群(RDBMS)向大数据集群(HDFS,HIVE,HBASE)中传输数据,叫做:导入,即使用import关键字。 1. RDBMS到HDFS 1)


gxq926  164  阅读全文

ElasticSearch常用curl命令

1 查看es中有哪些索引 GET /_cat/indices?v es 中会默认存在一个名为.kibana的索引 表头的含义 health green(集群完整) yellow(单点正常、集群不完整)


gxq926  233  2021-06-16 阅读全文

Linux Sqoop安装配置

一、 Sqoop简介 Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQ


gxq926  146  2021-06-16 阅读全文

Hive和数据库比较

由于 Hive 采用了类似SQL 的查询语言 HQL(Hive Query Language),因此很容易将 Hive 理解为数据库。其实从结构上来看,Hive 和数据库除了拥有类似的查询语言,再无类


gxq926  145  2021-06-16 阅读全文

Hive的优缺点

优点 操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)。 避免了去写MapReduce,减少开发人员的学习成本。 Hive的执行延迟比较高,因此Hive常用于数据分析,对实时性要求不高的


gxq926  179  2021-06-16 阅读全文

spark shuffle的几种特殊情况

1.shuffle概览 一个spark的RDD有一组固定的分区组成,每个分区有一系列的记录组成。对于由窄依赖变换(例如map和filter)返回的RDD,会延续父RDD的分区信息,以pipeline的


gxq926  160  阅读全文

如何从大量数据中找出高频词

题目描述 有一个 1GB 大小的文件,文件里每一行是一个词,每个词的大小不超过 16B,内存大小限制是 1MB,要求返回频数最高的 100 个词(Top 100)。 解答思路 由于内存限制,我们依然无


gxq926  157  2021-06-15 阅读全文

如何从 5 亿个数中找出中位数

题目描述 从 5 亿个数中找出中位数。数据排序后,位置在最中间的数就是中位数。当样本数为奇数时,中位数为 第(N+1)/2个数;当样本数为偶数时,中位数为第N/2个数与第1+N/2个数的均值。 解答思


gxq926  132  阅读全文

如何关闭CDP中ranger策略的审计

1.概述 CDP集群中的ranger在添加新的策略的时候,默认会启用审计。审计可以帮助我们在查询到历史操作的详细信息。但是随着集群任务量的增长,海量的审计信息会占用大量的磁盘空间。集群使用者可以根据需


gxq926  377  阅读全文

导入 Kerberos Account Manager 凭据失败

1.问题描述 CDP7.1.6集群在启用Kerberos的操作中,导入KDC Account Manager凭证时报如下异常: /opt/cloudera/cm/bin/import_credenti


gxq926  494  2021-06-10 阅读全文

如何跨集群从CDH到CDP迁移Kudu表

1.文档说明 本文主要讲述如何通过Kudu 自带的Kudu Command Line Tools 进行Kudu 表迁移。 测试环境 1.CDH5.16.1、未启用Kerberos、Kudu 1.7.0


gxq926  389  2021-06-09 阅读全文

Hadoop生态圈技术图谱

当下Hadoop已经成长为一个庞大的体系,貌似只要和海量数据相关的,没有哪个领域缺少Hadoop的身影,下面是一个Hadoop生态系统的图谱,详细的列举了在Hadoop这个生态系统中出现的各种数据工具


gxq926  312  2021-06-09 阅读全文

通过扩展 Spark SQL ,打造自己的大数据分析引擎

Spark SQL 的 Catalyst ,这部分真的很有意思,值得去仔细研究一番,今天先来说说Spark的一些扩展机制吧,上一次写Spark,对其SQL的解析进行了一定的魔改,今天我们按套路来,使用


gxq926  322  阅读全文

一文理解Kafka如何保证消息顺序性

针对消息有序的业务需求,还分为全局有序和局部有序。 全局有序:一个Topic下的所有消息都需要按照生产顺序消费。 局部有序:一个Topic下的消息,只需要满足同一业务字段的要按照生产顺序消费。例如:T


gxq926  184  2021-06-09 阅读全文