望云阁

望云阁

hadoop关于dfs.datanode.data.dir下多个目录不均衡问题

hadoop的dfs.datanode.data.dir是设置datanode节点存储数据块文件的本地路径,通常可以设置多个,用逗号隔开: <property> <name>


gxq926  944  阅读全文

hadoop源码:hdfs启动流程--心跳机制

hadoop在启动namenode和datanode之后,两者之间是如何联动了?datanode如何向namenode注册?如何汇报数据?namenode又如何向datanode发送命令? 心跳机制基


gxq926  648  阅读全文

Hadoop——数据压缩

1、压缩概述   压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在Hadoop下,尤其是数据规模很大和工作负载密集的情况下,使用数据压缩显得非常重要。在这


gxq926  331  阅读全文

Hadoop生态圈技术图谱

当下Hadoop已经成长为一个庞大的体系,貌似只要和海量数据相关的,没有哪个领域缺少Hadoop的身影,下面是一个Hadoop生态系统的图谱,详细的列举了在Hadoop这个生态系统中出现的各种数据工具


gxq926  560  2021-06-09 阅读全文

如何迁移HDP2.4中的Hive表到CDP7.1.1

1.概述 随着Hadoop 3.X 版本的发展,Hadoop 2.X 版本即将淘汰。我们当前面临着集群升级的问题,在升级过程中,即使使用迁移升级方式工作量非常大,但毫无疑问最稳妥的升级办法。在迁移的过


gxq926  488  2021-06-07 阅读全文

HDFS 的元数据管理(FSImage、EditLog、Checkpoint)

1 - NameNode 的启动流程 1)Loading fsimage - 从 fsimage file 中读取最新的元数据快照(最近生成的 fsimage_xx); 2)Loading edits


gxq926  348  2021-06-06 阅读全文

Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别

Pig 一种操作hadoop的轻量级脚本语言,最初又雅虎公司推出,不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。不过现在还是有些公司在用,不过我


gxq926  359  2021-06-06 阅读全文

eclipse下编译hadoop源代码

hadoop是一个分布式存储和分布式计算的框架。在日常使用hadoop时,我们会发现hadoop不能完全满足我们的需要,我们可能需要修改hadoop的源代码并重新编译、打包。 下面将详细描述如何从sv


gxq926  346  2021-06-04 阅读全文

hadoop作业调优参数整理及原理

1 Map side tuning参数 1.1 MapTask运行内部原理 当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内


gxq926  316  阅读全文

Hadoop集群--Eclipse开发环境设置

1、Hadoop开发环境简介 1.1 Hadoop集群简介   Java版本:jdk-6u31-linux-i586.bin   Linux系统:CentOS6.0   Hadoop版本:hadoop


gxq926  379  阅读全文