remove useless comment

microsoft · Sep 18, 2024 · 6e1e90c · 6e1e90c
1 parent 5a44f8c
commit 6e1e90c
Showing 1 changed file with 5 additions and 3 deletions.
diff --git a/deepspeed/runtime/zero/stage_1_and_2.py b/deepspeed/runtime/zero/stage_1_and_2.py
@@ -176,6 +176,7 @@ def __init__(self,
  self.timers = timers
 
  self.reduce_scatter = reduce_scatter
+ print(f"{self.reduce_scatter=}")
 
  self.overlap_comm = overlap_comm
 
@@ -203,6 +204,7 @@ def __init__(self,
 
  # CPU-Offload requires contiguous gradients
  self.contiguous_gradients = contiguous_gradients or self.cpu_offload
+ print(f"{self.contiguous_gradients=}")
 
  self.has_moe_layers = has_moe_layers
  if self.has_moe_layers:
@@ -1042,6 +1044,9 @@ def allreduce_and_scatter(self, bucket, numel_per_bucket=500000000, log=None, di
  bucket_ranks=small_bucket_ranks)
 
  def average_tensor(self, tensor):
+ # import traceback2 as traceback
+ # traceback.print_stack()
+ # exit()
  if self.overlap_comm:
  stream = self.reduction_stream
  if not get_accelerator().resolves_data_dependency():
@@ -1070,9 +1075,6 @@ def average_tensor(self, tensor):
 
  process_group = self.dp_process_group
 
- #Averages gradients at parameter level if ipg has a moe param
- #Otherwise averaging is done at the entire buffer level at the end of the loop
- # MoE param have different groups
  if self.ipg_bucket_has_moe_params:
  process_group = self.expert_dp_process_group[param.group_name] if is_moe_param(
  param) else self.dp_process_group