fix offloading of lp grad

microsoft · Aug 20, 2024 · 37ffa02 · 37ffa02
1 parent 3f8179d
commit 37ffa02
Showing 1 changed file with 2 additions and 0 deletions.
diff --git a/deepspeed/runtime/zero/stage3.py b/deepspeed/runtime/zero/stage3.py
@@ -2851,6 +2851,7 @@ def needs_offload(target):
                         torch.empty_like(self.grad_partitions_flat_buffer, device=device))
                 self.lp_grad_partitions_flat_pin_buffers.copy_(self.grad_partitions_flat_buffer,
                                                                non_blocking=non_blocking)
+                self.grad_partitions_flat_buffer.data = self.lp_grad_partitions_flat_pin_buffers
             else:
                 self.grad_partitions_flat_buffer.data = self.grad_partitions_flat_buffer.data.to(device)
             self.averaged_gradients = {}
@@ -2919,6 +2920,7 @@ def offload_states_back(self, non_blocking: bool = False):
 
         # contiguous bucket
         if OffloadStateTypeEnum.contiguous_grad_buffer in self.offloaded_states:
+            print(f"loading contiguous_grad_buffer")
             self.__ipg_bucket_flat_buffer = torch.empty_like(self.grad_buffer_meta, device=device)
             # self.__ipg_bucket_flat_buffer.data = self.__ipg_bucket_flat_buffer.data.to(device)
             self.offloaded_states.remove(OffloadStateTypeEnum.contiguous_grad_buffer)