望云阁

望云阁

基于 Apache Hudi + Presto + AWS S3 构建开放Lakehouse

认识Lakehouse 数据仓库被认为是对结构化数据执行分析的标准,但它不能处理非结构化数据。 包括诸如文本、图像、音频、视频和其他格式的信息。 此外机器学习和人工智能在业务的各个方面变得越来越普遍,


gxq926  305  阅读全文

Hive设置mapred.max.split.size报错cannot modify mapred.max.split.size at runtime的解决方法

在hive控制台设置执行 set mapred.max.split.size=100000 时报错:cannot modify mapred.max.split.size at runtime。 问题


gxq926  321  2022-09-13 阅读全文

腾讯TBDS平台HDFS组件中namenode无法启动的问题解决

前段时间维护TBDS平台时,HDFS的namenode一直启动不了,查看namenode日志,显示错误 No filter named org.apache.hadoop.hdfs.web.AuthF


gxq926  286  2022-09-13 阅读全文

事务的ACID特性

介绍事务 技术是为了解决问题而生的,通过事务我们可以解决以下问题: 多个操作不是一个整体操作,出现了部分执行成功的情况,导致数据的状态不一致问题(原子性) 一组操作只有部分完成,没有全部完成,但是此时


gxq926  296  2022-09-04 阅读全文

使用Apache Flink 和 Apache Hudi 创建低延迟数据湖管道

近年来出现了从单体架构向微服务架构的转变。微服务架构使应用程序更容易扩展和更快地开发,支持创新并加快新功能上线时间。但是这种方法会导致数据存在于不同的孤岛中,这使得执行分析变得困难。为了获得更深入和更


gxq926  296  阅读全文

ClickHouse数据类型详解

ClickHouse属于分析型数据库,ClickHouse提供了许多数据类型,它们可以划分为基础类型、复合类型和特殊类型。其中基础类型使ClickHouse具备了描述数据的基本能力,而另外两种类型则使


gxq926  1422  2022-09-03 阅读全文

NTP时间同步

NTP 同步原理 NTP最典型的授时方式是Client/Server方式,如下图所示: 客户端首先向服务端发送一个NTP请求报文,其中包含了该报文离开客户端的时间戳t1; NTP请求报文到达NTP服务


gxq926  272  2022-09-03 阅读全文

Docker部署kafka

部署kafka docker-compose 编写docker-compose.yml,通过docker容器部署单节点kafka version: '3' services:  


gxq926  148  阅读全文

windows Linux openjdk下载地址

下载地址为Redhat提供的,包括openjdk8、openjdk11、openjdk17的windows版本 下载地址为:https://developers.redhat.com/products


gxq926  129  2022-07-19 阅读全文

elasticsearch-spark的用法

Hadoop允许Elasticsearch在Spark中以两种方式使用:通过自2.1以来的原生RDD支持,或者通过自2.0以来的Map/Reduce桥接器。从5.0版本开始,elasticsearch


gxq926  215  2022-05-23 阅读全文

Kafka 万亿级消息实践之资源组流量掉零故障排查分析

一、Kafka 集群部署架构 为了让读者能与小编在后续的问题分析中有更好的共鸣,小编先与各位读者朋友对齐一下我们 Kafka 集群的部署架构及服务接入 Kafka 集群的流程。 为了避免超大集群我们按


gxq926  174  2022-05-23 阅读全文

浅谈flywaydb

一般来说,软件发布应该包含文档、代码和DB脚本等,在发布上线时,一般都需要先执行DB脚本,再启动软件,犹豫一些疏忽之类,经常容易出现数据库未升级导致软件发布失败的场景,因此一些组件提供了启动自动执行D


gxq926  280  阅读全文

画像开发方案

开发前准备 数仓架构。需要有数仓负责人很熟悉数仓架构,不仅仅是表的结构设计、数据质量,还有调度、ETL、开发流程以及整个开发团队的技术储备。 画像基础。需要了解、明确画像是什么,它能解决什么问题,这样


gxq926  281  阅读全文

如何在Docker中列出容器

要仅显示正在运行的容器,请使用给定命令: docker ps 要显示所有容器,请使用给定命令: docker ps -a 要显示最新创建的容器 (包括所有状态),请使用给定命令: docker ps


gxq926  435  2022-02-23 阅读全文

Ambari角色权限

1.在Ambari页面创建用户 该用户主要用于操作Ambari页面。 2.服务级别权限 3.主机级别权限 4.集群级别权限 5.Ambari级别权限 参考: https://www.cnblogs.c


gxq926  464  2022-02-22 阅读全文

Docker资源限制

 默认情况下,一个容器是没有任何资源限制的,它能够耗尽当前主机内核能够调度给容器的所有资源,就像拥有饥饿者能力的猪头帝一样,永远吃不饱。这显然是不合理的,因为资源吃多了会被制裁的。在 linux 系统


gxq926  508  2022-02-22 阅读全文

hadoop关于dfs.datanode.data.dir下多个目录不均衡问题

hadoop的dfs.datanode.data.dir是设置datanode节点存储数据块文件的本地路径,通常可以设置多个,用逗号隔开: <property> <name>


gxq926  742  阅读全文

HBase数据导入bulkload方式

数据导入是之前导出的备份数据,采用: hbase org.apache.hadoop.hbase.mapreduce.Driver export table /hdfs路径 的方式导出的,但是在导入的


gxq926  710  2021-12-24 阅读全文

Spark-sql执行sql语句报:Cannot safely cast xxx string to int.

原因是spark-sql执行sql有三中模式:ANSI, LEGACY, STRICT。 ANSI模式是标准sql,不允许不合理的类型转换,与PostgreSQL相同。 LEGACY模式允许类型强制转


gxq926  904  阅读全文

Cannot create staging Directory,spark-sql执行sql语句权限问题

原因是linux root执行spark-sql,但是root用户对hdfs文件没有相应权限。 解决方法是:在ranger权限管理对HDFS添加root用户 或者: hdfs dfs -chmod 7


gxq926  713  2021-12-20 阅读全文