
2022-09-03 2495

2021-08-16 2476

2021-07-26 2411

2021-07-21 2405

2020-06-30 2281
Flink集群的部署 Flink的部署有三种模式,分别是Local,Standalone Cluster和Yarn Cluster,这里我们主要讲如何配置Yarn Cluster。 在配置Flink
Apache Pulsar 相对比较新,它于 2017 年加入 Apache 软件基金会,2018 年才从 Apache 软件基金会毕业并成为一个顶级项目。Pulsar 由于原生采用了存储计算分离的架
1.概述 随着Hadoop 3.X 版本的发展,Hadoop 2.X 版本即将淘汰。我们当前面临着集群升级的问题,在升级过程中,即使使用迁移升级方式工作量非常大,但毫无疑问最稳妥的升级办法。在迁移的过
1 - NameNode 的启动流程 1)Loading fsimage - 从 fsimage file 中读取最新的元数据快照(最近生成的 fsimage_xx); 2)Loading edits
进入hbase shell console $HBASE_HOME/bin/hbase shell 如果有kerberos认证,需要事先使用相应的keytab进行一下认证(使用kinit命令),认证成
Pig 一种操作hadoop的轻量级脚本语言,最初又雅虎公司推出,不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。不过现在还是有些公司在用,不过我
一、Hive简介 Hive是Facebook开发的构建于Hadoop集群之上的数据仓库应用,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduc
hadoop是一个分布式存储和分布式计算的框架。在日常使用hadoop时,我们会发现hadoop不能完全满足我们的需要,我们可能需要修改hadoop的源代码并重新编译、打包。 下面将详细描述如何从sv
1 Map side tuning参数 1.1 MapTask运行内部原理 当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内
Common Join 最为普通的join策略,不受数据量的大小影响,也可以叫做reduce side join ,最没效率的一种join 方式. 它由一个mapreduce job 完成. 首先将大
简介 HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Go
1、Hadoop开发环境简介 1.1 Hadoop集群简介 Java版本:jdk-6u31-linux-i586.bin Linux系统:CentOS6.0 Hadoop版本:hadoop
1. 前言 Flink提供了两种在yarn上运行的模式,分别为Session-Cluster和Per-Job-Cluster模式,本文分析两种模式及启动流程。 下图展示了Flink-On-Yarn模式
1.概述 最近有同学留言咨询Kafka数据落地到Hive的一些问题,今天笔者将为大家来介绍一种除Flink流批一体以外的方式(流批一体下次再单独写一篇给大家分享)。 2.内容 首先,我们简单来描述一下
1、kafka是什么? Kafka是由LinkedIn开发的一个分布式基于发布/订阅的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。 2、产生背景 Kafka是一个消息系统,用作
1、安装Flink 1.准备Flink1.12的csd文件,并放置到Cloudera Manager Server服务器的/opt/cloudera/csd目录下,然后重启Cloudera Manag
1.文档编写目的 Cloudera 提供两类 Sentry 迁移工具: Replication Manager:在定制 Hive 复制作业的时候,勾选import both Hive object a
1、问题描述 1.环境描述 CM和CDP集群版本为7.1.4,Hue版本为4.5.0 2.问题描述 Hue使用编辑器提交中文内容报错'ascii' codec can't de
第一种方案,是平台自己去构建和管理任务的镜像。 优点是:平台方对于构建镜像,以及运行实时任务整体流程自我掌控,具体问题能够及时修正。 缺点是:需要对 Docker 以及 K8S 相关技术要有一定了解,