望云阁

望云阁

基于 Apache Hudi + Presto + AWS S3 构建开放Lakehouse

认识Lakehouse 数据仓库被认为是对结构化数据执行分析的标准,但它不能处理非结构化数据。 包括诸如文本、图像、音频、视频和其他格式的信息。 此外机器学习和人工智能在业务的各个方面变得越来越普遍,


gxq926  阅读全文

Hive设置mapred.max.split.size报错cannot modify mapred.max.split.size at runtime的解决方法

在hive控制台设置执行 set mapred.max.split.size=100000 时报错:cannot modify mapred.max.split.size at runtime。 问题


gxq926  2022-09-13 阅读全文

腾讯TBDS平台HDFS组件中namenode无法启动的问题解决

前段时间维护TBDS平台时,HDFS的namenode一直启动不了,查看namenode日志,显示错误 No filter named org.apache.hadoop.hdfs.web.AuthF


gxq926  2022-09-13 阅读全文

使用Apache Flink 和 Apache Hudi 创建低延迟数据湖管道

近年来出现了从单体架构向微服务架构的转变。微服务架构使应用程序更容易扩展和更快地开发,支持创新并加快新功能上线时间。但是这种方法会导致数据存在于不同的孤岛中,这使得执行分析变得困难。为了获得更深入和更


gxq926  14  阅读全文

ClickHouse数据类型详解

ClickHouse属于分析型数据库,ClickHouse提供了许多数据类型,它们可以划分为基础类型、复合类型和特殊类型。其中基础类型使ClickHouse具备了描述数据的基本能力,而另外两种类型则使


gxq926  24  2022-09-03 阅读全文

Docker部署kafka

部署kafka docker-compose 编写docker-compose.yml,通过docker容器部署单节点kafka version: '3' services:  


gxq926  38  阅读全文

elasticsearch-spark的用法

Hadoop允许Elasticsearch在Spark中以两种方式使用:通过自2.1以来的原生RDD支持,或者通过自2.0以来的Map/Reduce桥接器。从5.0版本开始,elasticsearch


gxq926  71  2022-05-23 阅读全文

Ambari角色权限

1.在Ambari页面创建用户 该用户主要用于操作Ambari页面。 2.服务级别权限 3.主机级别权限 4.集群级别权限 5.Ambari级别权限 参考: https://www.cnblogs.c


gxq926  164  2022-02-22 阅读全文

hadoop关于dfs.datanode.data.dir下多个目录不均衡问题

hadoop的dfs.datanode.data.dir是设置datanode节点存储数据块文件的本地路径,通常可以设置多个,用逗号隔开: <property> <name>


gxq926  282  阅读全文

HBase数据导入bulkload方式

数据导入是之前导出的备份数据,采用: hbase org.apache.hadoop.hbase.mapreduce.Driver export table /hdfs路径 的方式导出的,但是在导入的


gxq926  324  2021-12-24 阅读全文

Spark-sql执行sql语句报:Cannot safely cast xxx string to int.

原因是spark-sql执行sql有三中模式:ANSI, LEGACY, STRICT。 ANSI模式是标准sql,不允许不合理的类型转换,与PostgreSQL相同。 LEGACY模式允许类型强制转


gxq926  390  阅读全文

Cannot create staging Directory,spark-sql执行sql语句权限问题

原因是linux root执行spark-sql,但是root用户对hdfs文件没有相应权限。 解决方法是:在ranger权限管理对HDFS添加root用户 或者: hdfs dfs -chmod 7


gxq926  282  2021-12-20 阅读全文

Hbase Call queue is full问题分析及解决

在hbase集群中遇到Call queue is full改了队列大小和长度怎么不管用,本文分析为什么及解决办法 Call queue is full 解决办法 在hbase集群日志中经常会看到Cal


gxq926  314  2021-12-10 阅读全文

Spark启动报Unrecognized Hadoop major version number: 3.1.0错误

apache spark版本2.4.4,HDP版本3.0.1.0-187 首先使用hadoop3编译spark, ./dev/make-distribution.sh --pip --tgz -Pha


gxq926  514  阅读全文

Hive安装配置

一、hive的安装 注意:安装hive的前提要安装好MySQL和Hadoop 安装hive首先需要启动Hadoop 1、解压hive的安装包 tar -zxvf apache-hive-1.2.1-b


gxq926  593  阅读全文

五分钟搞定Docker安装ElasticSearch

项目准备上ElasticSearch,为了后期开发不卡壳只能笨鸟先飞,在整个安装过程中遇到以下三个问题。 Docker安装非常慢 ElasticSearch-Head连接出现跨域 ElasticSea


gxq926  759  2021-08-30 阅读全文

HDFS NameNode 的高可用机制

1 - 为什么要高可用 在 Hadoop 中,NameNode 扮演着至关重要的角色 —— 整个 HDFS 文件系统的元数据信息都由 NameNode 管理,一旦 NameNode 进程出现异常,或者


gxq926  1009  2021-08-23 阅读全文

Apache HBase MTTR 优化实践:减少恢复时长

HBase介绍 HBase是Hadoop Database的简称,是建立在Hadoop文件系统之上的分布式面向列的数据库,它具有高可靠、高性能、面向列和可伸缩的特性,提供快速随机访问海量数据能力。 H


gxq926  1027  2021-08-18 阅读全文