大数据学习

望云阁

| 注册

标签

望云阁

浅谈flywaydb

一般来说，软件发布应该包含文档、代码和DB脚本等，在发布上线时，一般都需要先执行DB脚本，再启动软件，犹豫一些疏忽之类，经常容易出现数据库未升级导致软件发布失败的场景，因此一些组件提供了启动自动执行D

gxq926 378 0 阅读全文

画像开发方案

开发前准备数仓架构。需要有数仓负责人很熟悉数仓架构，不仅仅是表的结构设计、数据质量，还有调度、ETL、开发流程以及整个开发团队的技术储备。画像基础。需要了解、明确画像是什么，它能解决什么问题，这样

gxq926 400 0 阅读全文

如何在Docker中列出容器

要仅显示正在运行的容器，请使用给定命令： docker ps 要显示所有容器，请使用给定命令： docker ps -a 要显示最新创建的容器（包括所有状态），请使用给定命令： docker ps

gxq926 526 0 2022-02-23 阅读全文

Ambari角色权限

1.在Ambari页面创建用户该用户主要用于操作Ambari页面。 2.服务级别权限 3.主机级别权限 4.集群级别权限 5.Ambari级别权限参考： https://www.cnblogs.c

gxq926 535 0 2022-02-22 阅读全文

Docker资源限制

默认情况下，一个容器是没有任何资源限制的，它能够耗尽当前主机内核能够调度给容器的所有资源，就像拥有饥饿者能力的猪头帝一样，永远吃不饱。这显然是不合理的，因为资源吃多了会被制裁的。在 linux 系统

gxq926 613 0 2022-02-22 阅读全文

hadoop关于dfs.datanode.data.dir下多个目录不均衡问题

hadoop的dfs.datanode.data.dir是设置datanode节点存储数据块文件的本地路径，通常可以设置多个，用逗号隔开： <property> <name>

gxq926 944 0 阅读全文

HBase数据导入bulkload方式

数据导入是之前导出的备份数据，采用: hbase org.apache.hadoop.hbase.mapreduce.Driver export table /hdfs路径的方式导出的，但是在导入的

gxq926 790 0 2021-12-24 阅读全文

Spark-sql执行sql语句报：Cannot safely cast xxx string to int.

原因是spark-sql执行sql有三中模式：ANSI, LEGACY, STRICT。 ANSI模式是标准sql,不允许不合理的类型转换，与PostgreSQL相同。 LEGACY模式允许类型强制转

gxq926 1131 0 阅读全文

Cannot create staging Directory，spark-sql执行sql语句权限问题

原因是linux root执行spark-sql,但是root用户对hdfs文件没有相应权限。解决方法是：在ranger权限管理对HDFS添加root用户或者： hdfs dfs -chmod 7

gxq926 809 0 2021-12-20 阅读全文

Hbase Call queue is full问题分析及解决

在hbase集群中遇到Call queue is full改了队列大小和长度怎么不管用，本文分析为什么及解决办法 Call queue is full 解决办法在hbase集群日志中经常会看到Cal

gxq926 576 0 2021-12-10 阅读全文

Spark启动报Unrecognized Hadoop major version number: 3.1.0错误

apache spark版本2.4.4，HDP版本3.0.1.0-187 首先使用hadoop3编译spark， ./dev/make-distribution.sh --pip --tgz -Pha

gxq926 923 0 阅读全文

Hive安装配置

一、hive的安装注意：安装hive的前提要安装好MySQL和Hadoop 安装hive首先需要启动Hadoop 1、解压hive的安装包 tar -zxvf apache-hive-1.2.1-b

gxq926 779 0 阅读全文

docker实现mysql主从复制

一、概述 1、原理 master服务器将数据的改变记录二进制binlog日志，当master上的数据发生改变时，则将其改变写入二进制日志中； slave服务器会在一定时间间隔内对master二进制日志

gxq926 799 0 2021-08-30 阅读全文

五分钟搞定Docker安装ElasticSearch

项目准备上ElasticSearch，为了后期开发不卡壳只能笨鸟先飞，在整个安装过程中遇到以下三个问题。 Docker安装非常慢 ElasticSearch-Head连接出现跨域 ElasticSea

gxq926 889 0 2021-08-30 阅读全文

HDFS NameNode 的高可用机制

1 - 为什么要高可用在 Hadoop 中，NameNode 扮演着至关重要的角色 —— 整个 HDFS 文件系统的元数据信息都由 NameNode 管理，一旦 NameNode 进程出现异常，或者

gxq926 1288 0 2021-08-23 阅读全文

Apache HBase MTTR 优化实践：减少恢复时长

HBase介绍 HBase是Hadoop Database的简称，是建立在Hadoop文件系统之上的分布式面向列的数据库，它具有高可靠、高性能、面向列和可伸缩的特性，提供快速随机访问海量数据能力。 H

gxq926 1269 0 2021-08-18 阅读全文

RabbitMQ和Kafka到底怎么选？

前言开源社区有好多优秀的队列中间件，比如RabbitMQ和Kafka，每个队列都貌似有其特性，在进行工程选择时，往往眼花缭乱，不知所措。对于RabbitMQ和Kafka，到底应该选哪个？ Rabbi

gxq926 900 0 2021-08-16 阅读全文

Kafka 原理以及分区分配策略剖析

一、简介 Apache Kafka 是一个分布式的流处理平台（分布式的基于发布/订阅模式的消息队列【Message Queue】）。流处理平台有以下3个特性：可以让你发布和订阅流式的记录。这一方面

gxq926 1832 0 2021-08-16 阅读全文

ElasticSearch在linux环境中集成IK分词器

1.简介 ElasticSearch默认自带的分词器，是标准分词器，对英文分词比较友好，但是对中文，只能把汉字一个个拆分。而elasticsearch-analysis-ik分词器能针对中文词项颗粒度

gxq926 963 0 2021-08-09 阅读全文

Flink Watermark介绍

实际问题（乱序）在介绍Watermark相关内容之前我们先抛出一个具体的问题，在实际的流式计算中数据到来的顺序对计算结果的正确性有至关重要的影响，比如：某数据源中的某些数据由于某种原因(如：网络原因

gxq926 1781 0 2021-07-26 阅读全文

上一页 1 2 3 4 5 6 7 下一页