flink cdc 超大数据量如何实时同步 #3225

yuyii · 2024-04-15T05:09:59Z

yuyii
Apr 15, 2024

在公司生产环境中使用flink-cdc 3.0.1，单机模式跑从mysql到starrocks的同步，不考虑全量的情况，做增量的场景发现无论怎么设置增量同步都会延迟，binlog的增长高峰期大约在100～150w/s以上（有个日志埋点库也在一起），开的debug模式查的日志发现flink的source处理binlog最高只能达到60w/s，这里只是根据binlog的增长值来看的。如果在半夜binlog产生量小的情况，可以正常同步，但到白天基本就会疯狂延迟，可以到8小时以上。配置上做了表过滤，数据库过滤等，真实数据大概每秒不到100条的。尝试了如下各种设置：
schema-change.enabled: false
debezium.database.include.list: "test_db"
debezium.snapshot.mode: "never"
debezium.max.batch.size: 404096000
debezium.max.queue.size: 1001920000
debezium.include.schema.changes: false

flink 的task memory给到了20G，实际测下来发现和上述设置并没关系，只是一度维持在60w/s的binlog处理。flink的进程资源毫无压力，都是0。我想请教如何能加快速度来消费，看了debezium的文档也没找到合适的配置。或者有办法开启多个进程或者线程同时同步么？目前3.0的版本是只有一个进程作为source来获取binlog的，也没找到可以增加的地方。

steveGuRen · 2024-04-21T13:24:07Z

steveGuRen
Apr 21, 2024

感觉这个问题挺有挑战性，我也遇到类似的场景在想办法解决。 @yuyii 你的这种情况，开启了GTID没有，用了GTID的启动模式吗？

0 replies

WanYukun · 2024-05-15T09:33:34Z

WanYukun
May 15, 2024

有解决方案了,踢一下我

0 replies

antgeekmusk · 2024-05-17T10:49:09Z

antgeekmusk
May 17, 2024

增加线程数也不可以吗,是不是遇到了带宽瓶颈?

0 replies

WanYukun · 2024-05-17T10:49:41Z

WanYukun
May 17, 2024

这是来自QQ邮箱的自动回复邮件。你好，邮件正常收到，谢谢！ -----万玉坤

0 replies

xuzhigong · 2024-07-04T03:20:05Z

xuzhigong
Jul 4, 2024

感觉是带宽不够，可以观察一下流量

0 replies

WanYukun · 2024-07-04T03:20:40Z

WanYukun
Jul 4, 2024

这是来自QQ邮箱的自动回复邮件。你好，邮件正常收到，谢谢！ -----万玉坤

0 replies

punnpkin · 2024-08-21T01:58:56Z

punnpkin
Aug 21, 2024

增量同步只能一个进程，

0 replies

WanYukun · 2024-08-21T01:59:26Z

WanYukun
Aug 21, 2024

这是来自QQ邮箱的自动回复邮件。你好，邮件正常收到，谢谢！ -----万玉坤

0 replies

617450941 · 2024-11-16T05:12:20Z

617450941
Nov 16, 2024

在公司生产环境中使用flink-cdc 3.0.1，单机模式跑从mysql到starrocks的同步，不考虑全量的情况，做增量的场景发现无论怎么设置增量同步都会延迟，binlog的增长高峰期大约在100～150w/s以上（有个日志埋点库也在一起），开的debug模式查的日志发现flink的source处理binlog最高只能达到60w/s，这里只是根据binlog的增长值来看的。如果在半夜binlog产生量小的情况，可以正常同步，但到白天基本就会疯狂延迟，可以到8小时以上。配置上做了表过滤，数据库过滤等，真实数据大概每秒不到100条的。尝试了如下各种设置：
schema-change.enabled: false
debezium.database.include.list: "test_db"
debezium.snapshot.mode: "never"
debezium.max.batch.size: 404096000
debezium.max.queue.size: 1001920000
debezium.include.schema.changes: false

flink 的task memory给到了20G，实际测下来发现和上述设置并没关系，只是一度维持在60w/s的binlog处理。flink的进程资源毫无压力，都是0。我想请教如何能加快速度来消费，看了debezium的文档也没找到合适的配置。或者有办法开启多个进程或者线程同时同步么？目前3.0的版本是只有一个进程作为source来获取binlog的，也没找到可以增加的地方。

应该是带宽不够 cdc太消耗带宽了不知道有没解决方案解决

0 replies

WanYukun · 2024-11-16T05:12:53Z

WanYukun
Nov 16, 2024

这是来自QQ邮箱的自动回复邮件。你好，邮件正常收到，谢谢！ -----万玉坤

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

flink cdc 超大数据量如何实时同步 #3225

{{title}}

Replies: 10 comments

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

Select a reply