望云阁

望云阁

elasticsearch-spark的用法

Hadoop允许Elasticsearch在Spark中以两种方式使用:通过自2.1以来的原生RDD支持,或者通过自2.0以来的Map/Reduce桥接器。从5.0版本开始,elasticsearch


gxq926  2022-05-23 阅读全文

Kafka 万亿级消息实践之资源组流量掉零故障排查分析

一、Kafka 集群部署架构 为了让读者能与小编在后续的问题分析中有更好的共鸣,小编先与各位读者朋友对齐一下我们 Kafka 集群的部署架构及服务接入 Kafka 集群的流程。 为了避免超大集群我们按


gxq926  2022-05-23 阅读全文

浅谈flywaydb

一般来说,软件发布应该包含文档、代码和DB脚本等,在发布上线时,一般都需要先执行DB脚本,再启动软件,犹豫一些疏忽之类,经常容易出现数据库未升级导致软件发布失败的场景,因此一些组件提供了启动自动执行D


gxq926  75  阅读全文

画像开发方案

开发前准备 数仓架构。需要有数仓负责人很熟悉数仓架构,不仅仅是表的结构设计、数据质量,还有调度、ETL、开发流程以及整个开发团队的技术储备。 画像基础。需要了解、明确画像是什么,它能解决什么问题,这样


gxq926  59  阅读全文

如何在Docker中列出容器

要仅显示正在运行的容器,请使用给定命令: docker ps 要显示所有容器,请使用给定命令: docker ps -a 要显示最新创建的容器 (包括所有状态),请使用给定命令: docker ps


gxq926  74  2022-02-23 阅读全文

Ambari角色权限

1.在Ambari页面创建用户 该用户主要用于操作Ambari页面。 2.服务级别权限 3.主机级别权限 4.集群级别权限 5.Ambari级别权限 参考: https://www.cnblogs.c


gxq926  67  2022-02-22 阅读全文

Docker资源限制

 默认情况下,一个容器是没有任何资源限制的,它能够耗尽当前主机内核能够调度给容器的所有资源,就像拥有饥饿者能力的猪头帝一样,永远吃不饱。这显然是不合理的,因为资源吃多了会被制裁的。在 linux 系统


gxq926  65  2022-02-22 阅读全文

hadoop关于dfs.datanode.data.dir下多个目录不均衡问题

hadoop的dfs.datanode.data.dir是设置datanode节点存储数据块文件的本地路径,通常可以设置多个,用逗号隔开: <property> <name>


gxq926  141  阅读全文

HBase数据导入bulkload方式

数据导入是之前导出的备份数据,采用: hbase org.apache.hadoop.hbase.mapreduce.Driver export table /hdfs路径 的方式导出的,但是在导入的


gxq926  171  2021-12-24 阅读全文

Spark-sql执行sql语句报:Cannot safely cast xxx string to int.

原因是spark-sql执行sql有三中模式:ANSI, LEGACY, STRICT。 ANSI模式是标准sql,不允许不合理的类型转换,与PostgreSQL相同。 LEGACY模式允许类型强制转


gxq926  168  阅读全文

Cannot create staging Directory,spark-sql执行sql语句权限问题

原因是linux root执行spark-sql,但是root用户对hdfs文件没有相应权限。 解决方法是:在ranger权限管理对HDFS添加root用户 或者: hdfs dfs -chmod 7


gxq926  129  2021-12-20 阅读全文

Hbase Call queue is full问题分析及解决

在hbase集群中遇到Call queue is full改了队列大小和长度怎么不管用,本文分析为什么及解决办法 Call queue is full 解决办法 在hbase集群日志中经常会看到Cal


gxq926  117  2021-12-10 阅读全文

Spark启动报Unrecognized Hadoop major version number: 3.1.0错误

apache spark版本2.4.4,HDP版本3.0.1.0-187 首先使用hadoop3编译spark, ./dev/make-distribution.sh --pip --tgz -Pha


gxq926  177  阅读全文

Hive安装配置

一、hive的安装 注意:安装hive的前提要安装好MySQL和Hadoop 安装hive首先需要启动Hadoop 1、解压hive的安装包 tar -zxvf apache-hive-1.2.1-b


gxq926  326  阅读全文

docker实现mysql主从复制

一、概述 1、原理 master服务器将数据的改变记录二进制binlog日志,当master上的数据发生改变时,则将其改变写入二进制日志中; slave服务器会在一定时间间隔内对master二进制日志


gxq926  369  2021-08-30 阅读全文

五分钟搞定Docker安装ElasticSearch

项目准备上ElasticSearch,为了后期开发不卡壳只能笨鸟先飞,在整个安装过程中遇到以下三个问题。 Docker安装非常慢 ElasticSearch-Head连接出现跨域 ElasticSea


gxq926  453  2021-08-30 阅读全文

HDFS NameNode 的高可用机制

1 - 为什么要高可用 在 Hadoop 中,NameNode 扮演着至关重要的角色 —— 整个 HDFS 文件系统的元数据信息都由 NameNode 管理,一旦 NameNode 进程出现异常,或者


gxq926  662  2021-08-23 阅读全文

Apache HBase MTTR 优化实践:减少恢复时长

HBase介绍 HBase是Hadoop Database的简称,是建立在Hadoop文件系统之上的分布式面向列的数据库,它具有高可靠、高性能、面向列和可伸缩的特性,提供快速随机访问海量数据能力。 H


gxq926  610  2021-08-18 阅读全文

RabbitMQ和Kafka到底怎么选?

前言 开源社区有好多优秀的队列中间件,比如RabbitMQ和Kafka,每个队列都貌似有其特性,在进行工程选择时,往往眼花缭乱,不知所措。对于RabbitMQ和Kafka,到底应该选哪个? Rabbi


gxq926  529  2021-08-16 阅读全文

Kafka 原理以及分区分配策略剖析

一、简介 Apache Kafka 是一个分布式的流处理平台(分布式的基于发布/订阅模式的消息队列【Message Queue】)。 流处理平台有以下3个特性: 可以让你发布和订阅流式的记录。这一方面


gxq926  876  2021-08-16 阅读全文