望云阁

望云阁

HDFS 2.x 升级到 3.x 实践

背景 HDFS 集群作为大数据最核心的组件,在公司承载了DW、AI、Growth 等重要业务数据的存储重任。随着业务的高速发展,数据的成倍增加,HDFS 集群出现了爆炸式的增长,使用率一直处于很高的水


gxq926  777  阅读全文

HDFS RBF 应用

背景 随着集群规模的不断扩张,文件数快速增长,目前集群的文件数已高达2.7亿,这带来了许多问题与挑战。首先是文件目录树的扩大导致的NameNode的堆内存持续上涨,其次是Full GC时间越来越长,导


gxq926  791  2021-07-05 阅读全文

分布式环境下如何保证 ID 的唯一性

前言 首先说下我们为什么需要分布式 ID,以及分布式 ID 是用来解决什么问题的。当我们的项目还处于单体架构的时候,我们使用数据库的自增 ID 就可以解决很多数据标识问题。但是随着我们的业务发展我们的


gxq926  548  2021-07-05 阅读全文

Hive之内部表和外部表

建库 创建名为test的数据库(仅当不存在时才创建),添加备注信息test database: create database if not exists test comment 'this


gxq926  505  2021-07-01 阅读全文

Flink高频面试题,附答案解析

1. Flink 的容错机制(checkpoint) Checkpoint容错机制是Flink可靠性的基石,可以保证Flink集群在某个算子因为某些原因(如 异常退出)出现故障时,能够将整个应用流图的


gxq926  734  2021-06-30 阅读全文

Flink 1.13,面向流批一体的运行时与 DataStream API 优化

一. 流批一体的 Flink 1.1 架构介绍 首先看下 Flink 流批一体的整体逻辑。Flink 在早期的时候,虽然是一个可以同时支持流处理和批处理的框架,但是它的流处理和批处理的实现,不管是在


gxq926  867  2021-06-30 阅读全文

HDFS的Java API操作

一、HDFS客户端环境准备 1)根据自己电脑的操作系统拷贝对应的编译后的hadoop jar包到非中文路径 2)配置HADOOP_HOME环境变量和path路径 二、HDFS的API操作 新建Mave


gxq926  728  2021-06-30 阅读全文

Hadoop——数据压缩

1、压缩概述   压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在Hadoop下,尤其是数据规模很大和工作负载密集的情况下,使用数据压缩显得非常重要。在这


gxq926  675  阅读全文

Spark 的性能调优

下面这些关于 Spark 的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的。 基本概念和原则 首先,要搞清楚 Spark 的几个基本概念和原则,否则系统的性能调优无从谈起:


gxq926  732  阅读全文

HDFS NameNode内存全景

一、概述 从整个HDFS系统架构上看,NameNode是其中最重要、最复杂也是最容易出现问题的地方,而且一旦NameNode出现故障,整个Hadoop集群就将处于不可服务的状态,同时随着数据规模和集群


gxq926  711  2021-06-28 阅读全文

ZooKeeper集群解析

一、ZooKeeper集群中的角色 Leader 集群工作机制中的核心事务请求的唯一调度和处理者,保证集群事务处理的顺序集群内部个服务器的调度者(管理 follower,数据同步),为客户端提供读和写


gxq926  571  2021-06-28 阅读全文

如何利用 Flink CDC 实现数据增量备份到 Clickhouse

挖了很久的CDC坑,今天打算填一填了。本文我们首先来介绍什么是CDC,以及CDC工具选型,接下来我们来介绍如何通过Flink CDC抓取mysql中的数据,并把他汇入Clickhouse里,最后我们还


gxq926  742  2021-06-25 阅读全文

大数据相关岗位及要求

一、大数据开发工程师: 1.要求 编程基础扎实,熟悉Java,熟悉Scala/Shell/Python语言中其中一种更好(社招一般要求两种); 熟悉MySQL等至少一种数据库,熟悉SQL语言,熟悉Li


gxq926  799  2021-06-24 阅读全文

大数据学习or转型

这段时间有一些小伙伴问了关于大数据学习的一些问题,都是在校学生或者已经工作了想转型转型的小伙伴,所以分为两种情况来说明 在校学生:   在校学生又可以分为计算机相关专业或非计算机相关专业;如果你是计算


gxq926  802  2021-06-24 阅读全文

深入解读 Flink SQL 1.13

一、Flink SQL 1.13 概览 Flink 1.13 是一个社区大版本,解决的 issue 在 1000 个以上,通过上图我们可以看到,解决的问题大部分是关于 Table/SQL 模块,一共


gxq926  686  2021-06-24 阅读全文

ElasticSearch常用CURL操作(下)

11 按分词查询 GET movie_index/movie/_search { "query":{ "match": {"name":&q


gxq926  553  2021-06-23 阅读全文

HBase数据结构

1 RowKey 与nosql数据库们一样,RowKey是用来检索记录的主键。访问HBASE table中的行,只有三种方式: 1.通过单个RowKey访问 2.通过RowKey的range(正则)


gxq926  534  2021-06-23 阅读全文

HBase Shell操作

1 基本操作 1.进入HBase客户端命令行 [atguigu@hadoop102 hbase]$ bin/hbase shell 2.查看帮助命令 hbase(main):001:0> hel


gxq926  600  阅读全文

spark 3.0 sql的动态分区裁剪

spark 3.0之后引入的动态分区裁剪机制,这个会大大提升应用的性能,尤其是在bi等场景下,存在大量的where条件操作。 动态分区裁剪比谓词下推更复杂点,因为他会整合维表的过滤条件,生成filte


gxq926  862  2021-06-21 阅读全文

对 Kafka 和 Pulsar 进行性能测试后,拉卡拉将消息平台统一换成了 Pulsar

拉卡拉支付成立于 2005 年,是国内领先的第三方支付企业,致力于整合信息科技,服务线下实体,从支付切入,全维度为中小微商户的经营赋能。2011 年成为首批获得《支付业务许可证》企业的一员,2019


gxq926  878  2021-06-21 阅读全文