望云阁

望云阁

Flink集群部署与启动之Flink On Yarn

Flink集群的部署 Flink的部署有三种模式,分别是Local,Standalone Cluster和Yarn Cluster,这里我们主要讲如何配置Yarn Cluster。 在配置Flink


gxq926  351  阅读全文

Flink 和 Pulsar 的批流融合

Apache Pulsar 相对比较新,它于 2017 年加入 Apache 软件基金会,2018 年才从 Apache 软件基金会毕业并成为一个顶级项目。Pulsar 由于原生采用了存储计算分离的架


gxq926  360  阅读全文

如何迁移HDP2.4中的Hive表到CDP7.1.1

1.概述 随着Hadoop 3.X 版本的发展,Hadoop 2.X 版本即将淘汰。我们当前面临着集群升级的问题,在升级过程中,即使使用迁移升级方式工作量非常大,但毫无疑问最稳妥的升级办法。在迁移的过


gxq926  492  2021-06-07 阅读全文

HDFS 的元数据管理(FSImage、EditLog、Checkpoint)

1 - NameNode 的启动流程 1)Loading fsimage - 从 fsimage file 中读取最新的元数据快照(最近生成的 fsimage_xx); 2)Loading edits


gxq926  350  2021-06-06 阅读全文

HBase 常用Shell命令

进入hbase shell console $HBASE_HOME/bin/hbase shell 如果有kerberos认证,需要事先使用相应的keytab进行一下认证(使用kinit命令),认证成


gxq926  325  阅读全文

Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别

Pig 一种操作hadoop的轻量级脚本语言,最初又雅虎公司推出,不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。不过现在还是有些公司在用,不过我


gxq926  361  2021-06-06 阅读全文

Hive性能优化

1.概述   本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。 2.介绍   首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生


gxq926  378  2021-06-06 阅读全文

Hive的常用HiveQL操作

一、Hive简介 Hive是Facebook开发的构建于Hadoop集群之上的数据仓库应用,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduc


gxq926  358  2021-06-06 阅读全文

eclipse下编译hadoop源代码

hadoop是一个分布式存储和分布式计算的框架。在日常使用hadoop时,我们会发现hadoop不能完全满足我们的需要,我们可能需要修改hadoop的源代码并重新编译、打包。 下面将详细描述如何从sv


gxq926  350  2021-06-04 阅读全文

hadoop作业调优参数整理及原理

1 Map side tuning参数 1.1 MapTask运行内部原理 当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内


gxq926  317  阅读全文

hive join详解

Common Join 最为普通的join策略,不受数据量的大小影响,也可以叫做reduce side join ,最没效率的一种join 方式. 它由一个mapreduce job 完成. 首先将大


gxq926  373  2021-06-04 阅读全文

【Hadoop】HDFS的运行原理

简介 HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Go


gxq926  326  阅读全文

Hadoop集群--Eclipse开发环境设置

1、Hadoop开发环境简介 1.1 Hadoop集群简介   Java版本:jdk-6u31-linux-i586.bin   Linux系统:CentOS6.0   Hadoop版本:hadoop


gxq926  380  阅读全文

深入理解Flink-On-Yarn模式

1. 前言 Flink提供了两种在yarn上运行的模式,分别为Session-Cluster和Per-Job-Cluster模式,本文分析两种模式及启动流程。 下图展示了Flink-On-Yarn模式


gxq926  422  2021-06-03 阅读全文

Kafka数据每5分钟同步到Hive

1.概述 最近有同学留言咨询Kafka数据落地到Hive的一些问题,今天笔者将为大家来介绍一种除Flink流批一体以外的方式(流批一体下次再单独写一篇给大家分享)。 2.内容 首先,我们简单来描述一下


gxq926  349  2021-06-03 阅读全文

Kafka 是什么?有什么应用场景?

1、kafka是什么? Kafka是由LinkedIn开发的一个分布式基于发布/订阅的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。 2、产生背景 Kafka是一个消息系统,用作


gxq926  394  2021-06-03 阅读全文

如何在CDP中部署Flink1.12

1、安装Flink 1.准备Flink1.12的csd文件,并放置到Cloudera Manager Server服务器的/opt/cloudera/csd目录下,然后重启Cloudera Manag


gxq926  459  2021-06-03 阅读全文

如何使用authzmigrator 工具迁移Sentry权限到Ranger

1.文档编写目的 Cloudera 提供两类 Sentry 迁移工具: Replication Manager:在定制 Hive 复制作业的时候,勾选import both Hive object a


gxq926  509  2021-06-02 阅读全文

Hue编辑器无法提交中文异常解决

1、问题描述 1.环境描述 CM和CDP集群版本为7.1.4,Hue版本为4.5.0 2.问题描述 Hue使用编辑器提交中文内容报错'ascii' codec can't de


gxq926  391  2021-06-01 阅读全文

Flink on K8s的一些方案推荐

第一种方案,是平台自己去构建和管理任务的镜像。 优点是:平台方对于构建镜像,以及运行实时任务整体流程自我掌控,具体问题能够及时修正。 缺点是:需要对 Docker 以及 K8S 相关技术要有一定了解,


gxq926  738  2021-06-01 阅读全文