Spark

| 注册

望云阁

原因是spark-sql执行sql有三中模式：ANSI, LEGACY, STRICT。 ANSI模式是标准sql,不允许不合理的类型转换，与PostgreSQL相同。 LEGACY模式允许类型强制转

gxq926 1131 0 阅读全文

一、DStream转换 DStream上的操作与RDD的类似，分为Transformations（转换）和Output Operations（输出）两种，此外转换操作中还有一些比较特殊的算子，如：

gxq926 476 0 2021-07-16 阅读全文

Spark的数据读取及数据保存可以从两个维度来作区分：文件格式以及文件系统。文件格式分为：Text文件、Json文件、Csv文件、Sequence文件以及Object文件；文件

gxq926 423 0 阅读全文

一、集群角色从物理部署层面上来看，Spark主要分为两种类型的节点：Master节点和Worker节点。Master节点主要运行集群管理器的中心化部分，所承载的作用是分配Application到

gxq926 364 0 阅读全文

下面这些关于 Spark 的性能调优项，有的是来自官方的，有的是来自别的的工程师，有的则是我自己总结的。基本概念和原则首先，要搞清楚 Spark 的几个基本概念和原则，否则系统的性能调优无从谈起：

gxq926 371 0 阅读全文

spark 3.0之后引入的动态分区裁剪机制，这个会大大提升应用的性能，尤其是在bi等场景下，存在大量的where条件操作。动态分区裁剪比谓词下推更复杂点，因为他会整合维表的过滤条件，生成filte

gxq926 493 0 2021-06-21 阅读全文

1.shuffle概览一个spark的RDD有一组固定的分区组成，每个分区有一系列的记录组成。对于由窄依赖变换（例如map和filter）返回的RDD，会延续父RDD的分区信息，以pipeline的

gxq926 319 0 阅读全文

Spark SQL 的 Catalyst ，这部分真的很有意思，值得去仔细研究一番，今天先来说说Spark的一些扩展机制吧，上一次写Spark，对其SQL的解析进行了一定的魔改，今天我们按套路来，使用

gxq926 630 0 阅读全文