Flink 源码阅读笔记(2)- JobGraph 的生成
前面的文章我们介绍了 StreamGraph 的生成,这个实际上只对应 Flink 作业在逻辑上的执行计划图。Flink 会进一步对 StreamGraph 进行转换,得到另一个执行计划图,即 JobGraph。 JobVertex 在 StreamGraph 中,每一个算子(Operator) 对
Flink 源码阅读笔记(1)- StreamGraph 的生成
在编写 Flink 的程序的时候,核心的要点是构造出数据处理的拓扑结构,即任务执行逻辑的 DAG。我们先来看一下 Flink 任务的拓扑在逻辑上是怎么保存的。 StreamExecutionEnvironment StreamExecutionEnvironment 是 Flink 在流模式下任务执
Flink几篇核心论文
Lightweight Asynchronous Snapshots for Distributed Dataflows Lightweight Asynchronous Snapshots for Distributed Dataflows.pdf Apache Flink™: Stream an
Flink生产环境TOP难题与优化
如何规划生产中的集群大小? 第一步是仔细考虑应用程序的运维指标,以达到所需资源的基线。需要考虑的关键指标是: 每秒记录数和每条记录的大小 已有的不同键(key)的数量和每个键对应的状态大小 状态更新的次数和状态后端的访问模式 最后,一个更实际的问题是与客户之间围绕停机时间、延迟和最大吞吐量的服务级别
Flink 1.13:面向流批一体的运行时与 DataStream API 优化
本文由社区志愿者苗文婷整理,内容来源自阿里巴巴技术专家高赟(云骞) 在 5 月 22 日北京站 Flink Meetup 分享的《面向流批一体的 Flink 运行时与 DataStream API 优化》。文章主要分为 4 个部分: 回顾 Flink 流批一体的设计 介绍针对运行时的优化点 介绍针对
Flink 1.13:State Backend 优化及生产实践分享
一、鸟瞰 Flink 1.13 state-backend 变化 1. State 访问的性能监控 首先,Flink 1.13 中引入了 State 访问的性能监控,即 latency trackig state。
使用 Flink 前需要知道的 10 个『陷阱』
Contentsquare 公司的 Robin 总结了他们将 Spark 任务迁移到 Flink 遇到的 10 个『陷阱』。对于第一次将 Flink 用于生产环境的用户来说,这些经验非常有参考意义。 采用新的框架总是会带来很多惊喜。当你花了几天时间去排查为什么服务运行异常,结果发现只是因为某个功能的
生产上的坑才是真的坑 | 盘一盘Flink那些经典线上问题
数据倾斜导致子任务积压 业务背景 一个流程中,有两个重要子任务:一是数据迁移,将kafka实时数据落Es,二是将kafka数据做窗口聚合落hbase,两个子任务接的是同一个Topic GroupId。上游 Topic 的 tps 高峰达到5-6w。 问题描述 给 24个 TaskManager(CP
flink
未读
Flink 双流 Join 的3种操作示例
写在前面 在数据库中的静态表上做 OLAP 分析时,两表 join 是非常常见的操作。同理,在流式处理作业中,有时也需要在两条流上做 join 以获得更丰富的信息。Flink DataStream API 为用户提供了3个算子来实现双流 join,分别是: join() coGroup() inte