
2020-06-30 1832

2021-08-16 1771

2021-07-26 1726

2022-09-03 1661

2020-06-29 1515
一般来说,软件发布应该包含文档、代码和DB脚本等,在发布上线时,一般都需要先执行DB脚本,再启动软件,犹豫一些疏忽之类,经常容易出现数据库未升级导致软件发布失败的场景,因此一些组件提供了启动自动执行D
要仅显示正在运行的容器,请使用给定命令: docker ps 要显示所有容器,请使用给定命令: docker ps -a 要显示最新创建的容器 (包括所有状态),请使用给定命令: docker ps
1.在Ambari页面创建用户 该用户主要用于操作Ambari页面。 2.服务级别权限 3.主机级别权限 4.集群级别权限 5.Ambari级别权限 参考: https://www.cnblogs.c
默认情况下,一个容器是没有任何资源限制的,它能够耗尽当前主机内核能够调度给容器的所有资源,就像拥有饥饿者能力的猪头帝一样,永远吃不饱。这显然是不合理的,因为资源吃多了会被制裁的。在 linux 系统
hadoop的dfs.datanode.data.dir是设置datanode节点存储数据块文件的本地路径,通常可以设置多个,用逗号隔开: <property> <name>
数据导入是之前导出的备份数据,采用: hbase org.apache.hadoop.hbase.mapreduce.Driver export table /hdfs路径 的方式导出的,但是在导入的
原因是spark-sql执行sql有三中模式:ANSI, LEGACY, STRICT。 ANSI模式是标准sql,不允许不合理的类型转换,与PostgreSQL相同。 LEGACY模式允许类型强制转
原因是linux root执行spark-sql,但是root用户对hdfs文件没有相应权限。 解决方法是:在ranger权限管理对HDFS添加root用户 或者: hdfs dfs -chmod 7
在hbase集群中遇到Call queue is full改了队列大小和长度怎么不管用,本文分析为什么及解决办法 Call queue is full 解决办法 在hbase集群日志中经常会看到Cal
apache spark版本2.4.4,HDP版本3.0.1.0-187 首先使用hadoop3编译spark, ./dev/make-distribution.sh --pip --tgz -Pha
一、概述 1、原理 master服务器将数据的改变记录二进制binlog日志,当master上的数据发生改变时,则将其改变写入二进制日志中; slave服务器会在一定时间间隔内对master二进制日志
项目准备上ElasticSearch,为了后期开发不卡壳只能笨鸟先飞,在整个安装过程中遇到以下三个问题。 Docker安装非常慢 ElasticSearch-Head连接出现跨域 ElasticSea
1 - 为什么要高可用 在 Hadoop 中,NameNode 扮演着至关重要的角色 —— 整个 HDFS 文件系统的元数据信息都由 NameNode 管理,一旦 NameNode 进程出现异常,或者
HBase介绍 HBase是Hadoop Database的简称,是建立在Hadoop文件系统之上的分布式面向列的数据库,它具有高可靠、高性能、面向列和可伸缩的特性,提供快速随机访问海量数据能力。 H
前言 开源社区有好多优秀的队列中间件,比如RabbitMQ和Kafka,每个队列都貌似有其特性,在进行工程选择时,往往眼花缭乱,不知所措。对于RabbitMQ和Kafka,到底应该选哪个? Rabbi
一、简介 Apache Kafka 是一个分布式的流处理平台(分布式的基于发布/订阅模式的消息队列【Message Queue】)。 流处理平台有以下3个特性: 可以让你发布和订阅流式的记录。这一方面
1.简介 ElasticSearch默认自带的分词器,是标准分词器,对英文分词比较友好,但是对中文,只能把汉字一个个拆分。而elasticsearch-analysis-ik分词器能针对中文词项颗粒度
实际问题(乱序) 在介绍Watermark相关内容之前我们先抛出一个具体的问题,在实际的流式计算中数据到来的顺序对计算结果的正确性有至关重要的影响,比如:某数据源中的某些数据由于某种原因(如:网络原因