望云阁

望云阁

HIVE拉链表实现

背景 拉链表是针对数据仓库设计中表存储数据的方式而定义的,主要是维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录,通过拉链表可


gxq926  65  2021-07-21 阅读全文

Hive之内部表和外部表

建库 创建名为test的数据库(仅当不存在时才创建),添加备注信息test database: create database if not exists test comment 'this


gxq926  54  2021-07-01 阅读全文

Hive和数据库比较

由于 Hive 采用了类似SQL 的查询语言 HQL(Hive Query Language),因此很容易将 Hive 理解为数据库。其实从结构上来看,Hive 和数据库除了拥有类似的查询语言,再无类


gxq926  43  2021-06-16 阅读全文

Hive的优缺点

优点 操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)。 避免了去写MapReduce,减少开发人员的学习成本。 Hive的执行延迟比较高,因此Hive常用于数据分析,对实时性要求不高的


gxq926  51  2021-06-16 阅读全文

Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别

Pig 一种操作hadoop的轻量级脚本语言,最初又雅虎公司推出,不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。不过现在还是有些公司在用,不过我


gxq926  58  2021-06-06 阅读全文

Hive性能优化

1.概述   本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。 2.介绍   首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生


gxq926  57  2021-06-06 阅读全文

Hive的常用HiveQL操作

一、Hive简介 Hive是Facebook开发的构建于Hadoop集群之上的数据仓库应用,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduc


gxq926  52  2021-06-06 阅读全文

hive join详解

Common Join 最为普通的join策略,不受数据量的大小影响,也可以叫做reduce side join ,最没效率的一种join 方式. 它由一个mapreduce job 完成. 首先将大


gxq926  70  2021-06-04 阅读全文

Kafka数据每5分钟同步到Hive

1.概述 最近有同学留言咨询Kafka数据落地到Hive的一些问题,今天笔者将为大家来介绍一种除Flink流批一体以外的方式(流批一体下次再单独写一篇给大家分享)。 2.内容 首先,我们简单来描述一下


gxq926  43  2021-06-03 阅读全文