大数据学习

望云阁

| 注册

标签

望云阁

Flink集群部署与启动之Flink On Yarn

Flink集群的部署 Flink的部署有三种模式，分别是Local，Standalone Cluster和Yarn Cluster，这里我们主要讲如何配置Yarn Cluster。在配置Flink

gxq926 772 0 阅读全文

Flink 和 Pulsar 的批流融合

Apache Pulsar 相对比较新，它于 2017 年加入 Apache 软件基金会，2018 年才从 Apache 软件基金会毕业并成为一个顶级项目。Pulsar 由于原生采用了存储计算分离的架

gxq926 832 0 阅读全文

如何迁移HDP2.4中的Hive表到CDP7.1.1

1.概述随着Hadoop 3.X 版本的发展，Hadoop 2.X 版本即将淘汰。我们当前面临着集群升级的问题，在升级过程中，即使使用迁移升级方式工作量非常大，但毫无疑问最稳妥的升级办法。在迁移的过

gxq926 937 0 2021-06-07 阅读全文

HDFS 的元数据管理（FSImage、EditLog、Checkpoint）

1 - NameNode 的启动流程 1）Loading fsimage - 从 fsimage file 中读取最新的元数据快照（最近生成的 fsimage_xx）； 2）Loading edits

gxq926 1106 0 2021-06-06 阅读全文

HBase 常用Shell命令

进入hbase shell console $HBASE_HOME/bin/hbase shell 如果有kerberos认证，需要事先使用相应的keytab进行一下认证（使用kinit命令），认证成

gxq926 765 0 阅读全文

Hadoop生态上几个技术的关系与区别：hive、pig、hbase 关系与区别

Pig 一种操作hadoop的轻量级脚本语言，最初又雅虎公司推出，不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。不过现在还是有些公司在用，不过我

gxq926 910 0 2021-06-06 阅读全文

Hive性能优化

1.概述　　本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。 2.介绍　　首先，我们来看看Hadoop的计算框架特性，在此特性下会衍生

gxq926 776 0 2021-06-06 阅读全文

Hive的常用HiveQL操作

一、Hive简介 Hive是Facebook开发的构建于Hadoop集群之上的数据仓库应用，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduc

gxq926 833 0 2021-06-06 阅读全文

eclipse下编译hadoop源代码

hadoop是一个分布式存储和分布式计算的框架。在日常使用hadoop时，我们会发现hadoop不能完全满足我们的需要，我们可能需要修改hadoop的源代码并重新编译、打包。下面将详细描述如何从sv

gxq926 789 0 2021-06-04 阅读全文

hadoop作业调优参数整理及原理

1 Map side tuning参数 1.1 MapTask运行内部原理当map task开始运算，并产生中间数据时，其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂，并且利用到了内

gxq926 727 0 阅读全文

hive join详解

Common Join 最为普通的join策略，不受数据量的大小影响，也可以叫做reduce side join ,最没效率的一种join 方式. 它由一个mapreduce job 完成. 首先将大

gxq926 825 0 2021-06-04 阅读全文

【Hadoop】HDFS的运行原理

简介 HDFS（Hadoop Distributed File System ）Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS（Google File System）Go

gxq926 872 0 阅读全文

Hadoop集群--Eclipse开发环境设置

1、Hadoop开发环境简介 1.1 Hadoop集群简介　　Java版本：jdk-6u31-linux-i586.bin 　　Linux系统：CentOS6.0 　　Hadoop版本：hadoop

gxq926 810 0 阅读全文

深入理解Flink-On-Yarn模式

1. 前言 Flink提供了两种在yarn上运行的模式，分别为Session-Cluster和Per-Job-Cluster模式，本文分析两种模式及启动流程。下图展示了Flink-On-Yarn模式

gxq926 821 0 2021-06-03 阅读全文

Kafka数据每5分钟同步到Hive

1.概述最近有同学留言咨询Kafka数据落地到Hive的一些问题，今天笔者将为大家来介绍一种除Flink流批一体以外的方式（流批一体下次再单独写一篇给大家分享）。 2.内容首先，我们简单来描述一下

gxq926 838 0 2021-06-03 阅读全文

Kafka 是什么？有什么应用场景?

1、kafka是什么？ Kafka是由LinkedIn开发的一个分布式基于发布/订阅的消息系统，使用Scala编写，它以可水平扩展和高吞吐率而被广泛使用。 2、产生背景 Kafka是一个消息系统，用作

gxq926 825 0 2021-06-03 阅读全文

如何在CDP中部署Flink1.12

1、安装Flink 1.准备Flink1.12的csd文件，并放置到Cloudera Manager Server服务器的/opt/cloudera/csd目录下，然后重启Cloudera Manag

gxq926 885 0 2021-06-03 阅读全文

如何使用authzmigrator 工具迁移Sentry权限到Ranger

1.文档编写目的 Cloudera 提供两类 Sentry 迁移工具： Replication Manager：在定制 Hive 复制作业的时候，勾选import both Hive object a

gxq926 943 0 2021-06-02 阅读全文

Hue编辑器无法提交中文异常解决

1、问题描述 1.环境描述 CM和CDP集群版本为7.1.4，Hue版本为4.5.0 2.问题描述 Hue使用编辑器提交中文内容报错'ascii' codec can't de

gxq926 849 0 2021-06-01 阅读全文

Flink on K8s的一些方案推荐

第一种方案，是平台自己去构建和管理任务的镜像。优点是：平台方对于构建镜像，以及运行实时任务整体流程自我掌控，具体问题能够及时修正。缺点是：需要对 Docker 以及 K8S 相关技术要有一定了解，

gxq926 1178 0 2021-06-01 阅读全文

上一页 1 2 3 4 5 6 7 下一页