望云阁

望云阁

Flink Watermark介绍

实际问题(乱序) 在介绍Watermark相关内容之前我们先抛出一个具体的问题,在实际的流式计算中数据到来的顺序对计算结果的正确性有至关重要的影响,比如:某数据源中的某些数据由于某种原因(如:网络原因


gxq926  1781  2021-07-26 阅读全文

Flink State介绍

在流计算场景中,数据会源源不断的流入Apache Flink系统,每条数据进入Apache Flink系统都会触发计算。如果我们想进行一个Count聚合计算,那么每次触发计算是将历史上所有流入的数据重


gxq926  1018  2021-07-26 阅读全文

实时数仓模型

背景 早期数据仓库构建主要指的是把企业的业务数据库如 ERP、CRM、SCM 等数据按照决策分析的要求建模并汇总到数据仓库引擎中,其应用以报表为主,目的是支持管理层和业务人员决策(中长期策略型决策)。


gxq926  657  2021-07-21 阅读全文

都在说实时数据架构,你了解多少?

随着互联网的发展进入下半场,数据的时效性对企业的精细化运营越来越重要, 商场如战场,在每天产生的海量数据中,如何能实时有效的挖掘出有价值的信息, 对企业的决策运营策略调整有很大帮助。此外,随着 5G


gxq926  893  2021-07-21 阅读全文

Flink高频面试题,附答案解析

1. Flink 的容错机制(checkpoint) Checkpoint容错机制是Flink可靠性的基石,可以保证Flink集群在某个算子因为某些原因(如 异常退出)出现故障时,能够将整个应用流图的


gxq926  502  2021-06-30 阅读全文

Flink 1.13,面向流批一体的运行时与 DataStream API 优化

一. 流批一体的 Flink 1.1 架构介绍 首先看下 Flink 流批一体的整体逻辑。Flink 在早期的时候,虽然是一个可以同时支持流处理和批处理的框架,但是它的流处理和批处理的实现,不管是在


gxq926  619  2021-06-30 阅读全文

如何利用 Flink CDC 实现数据增量备份到 Clickhouse

挖了很久的CDC坑,今天打算填一填了。本文我们首先来介绍什么是CDC,以及CDC工具选型,接下来我们来介绍如何通过Flink CDC抓取mysql中的数据,并把他汇入Clickhouse里,最后我们还


gxq926  485  2021-06-25 阅读全文

深入解读 Flink SQL 1.13

一、Flink SQL 1.13 概览 Flink 1.13 是一个社区大版本,解决的 issue 在 1000 个以上,通过上图我们可以看到,解决的问题大部分是关于 Table/SQL 模块,一共


gxq926  443  2021-06-24 阅读全文

flink超越Spark的Checkpoint机制

spark streaming的Checkpoint仅仅是针对driver的故障恢复做了数据和元数据的Checkpoint。而本文要讲的flink的checkpoint机制要复杂了很多,它采用的是轻量


gxq926  489  2021-06-18 阅读全文

Flink集群部署与启动之Flink On Yarn

Flink集群的部署 Flink的部署有三种模式,分别是Local,Standalone Cluster和Yarn Cluster,这里我们主要讲如何配置Yarn Cluster。 在配置Flink


gxq926  348  阅读全文

Flink 和 Pulsar 的批流融合

Apache Pulsar 相对比较新,它于 2017 年加入 Apache 软件基金会,2018 年才从 Apache 软件基金会毕业并成为一个顶级项目。Pulsar 由于原生采用了存储计算分离的架


gxq926  357  阅读全文

深入理解Flink-On-Yarn模式

1. 前言 Flink提供了两种在yarn上运行的模式,分别为Session-Cluster和Per-Job-Cluster模式,本文分析两种模式及启动流程。 下图展示了Flink-On-Yarn模式


gxq926  420  2021-06-03 阅读全文

如何在CDP中部署Flink1.12

1、安装Flink 1.准备Flink1.12的csd文件,并放置到Cloudera Manager Server服务器的/opt/cloudera/csd目录下,然后重启Cloudera Manag


gxq926  457  2021-06-03 阅读全文

Flink on K8s的一些方案推荐

第一种方案,是平台自己去构建和管理任务的镜像。 优点是:平台方对于构建镜像,以及运行实时任务整体流程自我掌控,具体问题能够及时修正。 缺点是:需要对 Docker 以及 K8S 相关技术要有一定了解,


gxq926  736  2021-06-01 阅读全文

Flink on k8s 的容器化流程

第一步,实时平台的 Flink Jar 任务提交,Flink Jar 任务版本管理,Docker Flink 任务镜像构建,上传镜像到 Docker 镜像仓库; 第二步,任务启动; 第三步,yaml


gxq926  490  2021-06-01 阅读全文

Flink 保存点之回溯时间

流处理通常被大家与动态数据关联起来,相应的系统差不多会在数据被创造出来的那一刻就立刻对其进行处理或响应。像延迟、吞吐量、水印和处理迟到的数据等等都是大家讨论得最多的流处理话题,通常是关注现在,而不是过


gxq926  590  阅读全文