分类: flink | 程序员笔记

首页

数据结构

DataWarehouse

DataLake

Plusar

元数据

Alluxio

数据存储

linux

yarn

Hive

flink

bigdata

jvm

Java

hadoop

kafka

默认分类

bigdataflink 未读

Flink 原理与实现：内存管理

如今，大数据领域的开源框架（Hadoop，Spark，Storm）都使用的 JVM，当然也包括 Flink。基于 JVM 的数据分析引擎都需要面对将大量数据存到内存中，这就不得不面对 JVM 存在的几个问题： Java 对象存储密度低。一个只包含 boolean 属性的对象占用了16个字节内存：对象

内存管理 2020-04-05

bigdataflink 未读

轻量级异步屏障快照（ABS）算法解析

Flink的检查点过程正是依赖于Chandy-Lamport算法的“本地化”版本——异步屏障快照（asynchronous barrier snapshotting, ABS）算法。该算法由五位大佬（其中也包含Data Artisans的两位：Stephen Ewen与Kostas Tzoumas）

checkpoint ABS算法 snapshot 2020-03-15

flink 未读

Flink Transformation

一、Transformations 分类 Flink 的 Transformations 操作主要用于将一个和多个 DataStream 按需转换成新的 DataStream。它主要分为以下三类： DataStream Transformations：进行数据流相关转换操作； Physical pa

transformation 2020-03-07

flink 未读

Flink 状态管理

一、状态分类相对于其他流计算框架，Flink 一个比较重要的特性就是其支持有状态计算。即你可以将中间的计算结果进行保存，并提供给后续的计算使用：

state 2020-02-29

bigdataflink 未读

Flink Checkpoint 问题排查实用指南

在 Flink 中，状态可靠性保证由 Checkpoint 支持，当作业出现 failover 的情况下，Flink 会从最近成功的 Checkpoint 恢复。在实际情况中，我们可能会遇到 Checkpoint 失败，或者 Checkpoint 慢的情况，本文会统一聊一聊 Flink 中 Chec

state checkpoint 2020-01-12

flink 未读

再谈Flink事件时间、水印和迟到数据处理

基于EventTime和WaterMark处理乱序和迟到数据 http://shiyuquan.cn/archives/ji-yu-eventtimehe-watermarkchu-li-luan-xu-he-chi-dao-shu-ju 事件时间与水印所谓事件时间，就是Flink DataStr

watermark window time 2019-12-07

bigdataflink 未读

Flink: Runtime 核心机制剖析

1. 综述本文主要介绍 Flink Runtime 的作业执行的核心机制。本文将首先介绍 Flink Runtime 的整体架构以及 Job 的基本执行流程，然后介绍在这个过程，Flink 是怎么进行资源管理、作业调度以及错误恢复的。最后，本文还将简要介绍 Flink Runtime 层当前正在进

2019-10-27

bigdataflink 未读

Flink 的状态管理和检查点机制

从状态说起状态 (State) 是 Flink 程序中构建复杂逻辑的基本组件。流处理中的状态可以视作算子上的记忆能力，可以保留和已经处理完的输入相关的信息，并对后续输入的处理造成影响。与之相反，流处理中的无状态操作只会考虑到当前处理的元素，不会受到处理完毕的元素的影响，也不会影响到后续待处理的元素

checkpoint savepoint state 2019-08-05

flink 未读

Flink时间/窗口/水印/迟到数据处理

Flink支持根据事件时间处理，数据流中的每条数据都需要具有各自的时间戳，代表着数据的产生时间【事件时间】。在分布式系统中，数据流的采集通常都是有延迟的，可能是网络原因啊，程序原因啊什么的。所以当数据到达Flink程序中的时候，问题就来了，这些数据都要进行处理吗？有可能其中一部分数据已经延迟了好几

time window watermark 2019-07-28