stanford-futuredata · peterjc123 · Jan 19, 2024
diff --git a/megatron/training.py b/megatron/training.py
@@ -844,13 +844,6 @@ def evaluate(forward_step_func,
     for key in total_loss_dict:
         total_loss_dict[key] /= args.eval_iters * get_num_microbatches()
 
-    # Sum LBLs across pipeline-model-parallel shards.
-    if args.model_type == ModelType.encoder_or_decoder_with_lbl:
-        assert "load balancing loss" in total_loss_dict
-        torch.distributed.all_reduce(
-            total_loss_dict["load balancing loss"],
-            group=mpu.get_pipeline_model_parallel_group())
-
     return total_loss_dict, collected_non_loss_data
 
 def evaluate_and_print_results(prefix, forward_step_func,

diff --git a/pretrain_gpt.py b/pretrain_gpt.py
@@ -125,7 +125,7 @@ def forward_step(data_iterator, model):
                           labels=labels)
 
     loss_fn = (
-        moe_loss_func if args.moe_num_experts is not None else loss_func)
+        moe_loss_func if args.moe_num_experts is not None and model.training else loss_func)
     return output_tensor, partial(loss_fn, loss_mask)
 
 def train_valid_test_datasets_provider(train_val_test_num_samples):