望云阁

望云阁

HDFS NameNode 的高可用机制

1 - 为什么要高可用 在 Hadoop 中,NameNode 扮演着至关重要的角色 —— 整个 HDFS 文件系统的元数据信息都由 NameNode 管理,一旦 NameNode 进程出现异常,或者


gxq926  1288  2021-08-23 阅读全文

HDFS 2.x 升级到 3.x 实践

背景 HDFS 集群作为大数据最核心的组件,在公司承载了DW、AI、Growth 等重要业务数据的存储重任。随着业务的高速发展,数据的成倍增加,HDFS 集群出现了爆炸式的增长,使用率一直处于很高的水


gxq926  373  阅读全文

HDFS RBF 应用

背景 随着集群规模的不断扩张,文件数快速增长,目前集群的文件数已高达2.7亿,这带来了许多问题与挑战。首先是文件目录树的扩大导致的NameNode的堆内存持续上涨,其次是Full GC时间越来越长,导


gxq926  379  2021-07-05 阅读全文

HDFS的Java API操作

一、HDFS客户端环境准备 1)根据自己电脑的操作系统拷贝对应的编译后的hadoop jar包到非中文路径 2)配置HADOOP_HOME环境变量和path路径 二、HDFS的API操作 新建Mave


gxq926  385  2021-06-30 阅读全文

HDFS NameNode内存全景

一、概述 从整个HDFS系统架构上看,NameNode是其中最重要、最复杂也是最容易出现问题的地方,而且一旦NameNode出现故障,整个Hadoop集群就将处于不可服务的状态,同时随着数据规模和集群


gxq926  373  2021-06-28 阅读全文

HDFS 的元数据管理(FSImage、EditLog、Checkpoint)

1 - NameNode 的启动流程 1)Loading fsimage - 从 fsimage file 中读取最新的元数据快照(最近生成的 fsimage_xx); 2)Loading edits


gxq926  348  2021-06-06 阅读全文

【Hadoop】HDFS的运行原理

简介 HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Go


gxq926  324  阅读全文