Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

OverlappedDistributedOptimizer 支持 pipeline parallelism > 1 和 data parallelism > 1 同时使用吗? #37

Open
Baibaifan opened this issue Sep 26, 2023 · 8 comments

Comments

@Baibaifan
Copy link

OverlappedDistributedOptimizer 似乎不支持 pipeline parallelism?

@13416157913
Copy link

藐视目前PP还有问题,作者推荐使用TP;

@Baibaifan
Copy link
Author

藐视目前PP还有问题,作者推荐使用TP;

扫了下代码感觉不支持,如果不支持,感觉和magatron的配置不是很兼容。

@uygnef
Copy link

uygnef commented Sep 27, 2023

可以跑的。
双机16卡,tp 4 pp 2 跑通了

@Baibaifan
Copy link
Author

可以跑的。 双机16卡,tp 4 pp 2 跑通了

建议你看看代码,跑通不见得是跑对了。你可以全局搜一下 backward_epilogue这个关键字,看看pipeline parallelism的时候的代码逻辑。

@li-yi-dong
Copy link
Collaborator

普通的PP 这个commit afddb84 支持了一下,virtual PP 还没支持。

@Baibaifan
Copy link
Author

普通的PP 这个commit afddb84 支持了一下,virtual PP 还没支持。

record_grad_accumulation_boundary这个函数在哪里定义的呢?

@li-yi-dong
Copy link
Collaborator

普通的PP 这个commit afddb84 支持了一下,virtual PP 还没支持。

record_grad_accumulation_boundary这个函数在哪里定义的呢?

抱歉,发布的顺序错了,在这个commit 里实现的 25306de

@Richie-yan
Copy link

@li-yi-dong
overlap dist opt 对于 virtual PP 有计划什么时候支持上吗?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants