-
Notifications
You must be signed in to change notification settings - Fork 3
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
可以在安装教程了写一下有关于你的slurm配置需要修改的东西以及启动的过程嘛? #2
Comments
error: _forkexec_slurmstepd: slurmstepd failed to send return code got 0: No error我遇到了这个问题 |
感谢您对该工件的关注。您能否提供一些有关您的计算环境和您遇到的错误的详细信息?普通话不是我的母语,所以我需要使用翻译工具来帮助您。不过,我们应该能够解决您遇到的问题——可能只是需要多进行几轮沟通。 |
我明白了。该工件包含了如何设置Docker环境和如何设置Conda环境的说明。我认为提供的Docker容器并未设置为通过Slurm运行分布式实验,但它应该能够运行单节点(1台机器上的单/多GPU)实验。 为了使用我们的脚本运行分布式实验,我们建议在您的集群上设置一个Conda环境,而不是使用Docker。 可能有一种方法可以设置Docker容器来运行分布式实验,但我们内部并不经常使用Docker,并且觉得它比较麻烦。因此,我们没有编写相关的说明,也没有明确地设置Docker容器来支持这一点。 |
谢谢你的回答,因为我的实验环境限制,导致我只能使用学校提供的容器,它应该是使用Kubernetes创建的一个容器或者pod,对于直接访问物理服务器,我曾经试着配置了一下slurm确实可以使用,但是我在你的安装过程中遇到了问题,pip install git+git://github.com/rusty1s/pytorch_sparse.git@master这个我访问不到了,导致我的实验一直运行不起来,所以我现在只能尝试使用您配置好的docker拉取下来的镜像 |
No description provided.
The text was updated successfully, but these errors were encountered: