望云阁

望云阁

Dstream的转换与输出

一、DStream转换   DStream上的操作与RDD的类似,分为Transformations(转换)和Output Operations(输出)两种,此外转换操作中还有一些比较特殊的算子,如:


gxq926  49  2021-07-16 阅读全文

Spark Core数据读取与保存

  Spark的数据读取及数据保存可以从两个维度来作区分:文件格式以及文件系统。     文件格式分为:Text文件、Json文件、Csv文件、Sequence文件以及Object文件;     文件


gxq926  64  阅读全文

Spark运行模式

一、集群角色   从物理部署层面上来看,Spark主要分为两种类型的节点:Master节点和Worker节点。Master节点主要运行集群管理器的中心化部分,所承载的作用是分配Application到


gxq926  41  阅读全文

Spark 的性能调优

下面这些关于 Spark 的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的。 基本概念和原则 首先,要搞清楚 Spark 的几个基本概念和原则,否则系统的性能调优无从谈起:


gxq926  71  阅读全文

spark 3.0 sql的动态分区裁剪

spark 3.0之后引入的动态分区裁剪机制,这个会大大提升应用的性能,尤其是在bi等场景下,存在大量的where条件操作。 动态分区裁剪比谓词下推更复杂点,因为他会整合维表的过滤条件,生成filte


gxq926  55  2021-06-21 阅读全文

spark shuffle的几种特殊情况

1.shuffle概览 一个spark的RDD有一组固定的分区组成,每个分区有一系列的记录组成。对于由窄依赖变换(例如map和filter)返回的RDD,会延续父RDD的分区信息,以pipeline的


gxq926  50  阅读全文

通过扩展 Spark SQL ,打造自己的大数据分析引擎

Spark SQL 的 Catalyst ,这部分真的很有意思,值得去仔细研究一番,今天先来说说Spark的一些扩展机制吧,上一次写Spark,对其SQL的解析进行了一定的魔改,今天我们按套路来,使用


gxq926  65  阅读全文