symflower · ruiAzevedo19 · Jul 4, 2024 · Jul 3, 2024 · Jul 4, 2024
diff --git a/cmd/eval-dev-quality/cmd/evaluate.go b/cmd/eval-dev-quality/cmd/evaluate.go
@@ -629,15 +629,6 @@ func (command *Evaluate) evaluateKubernetes(ctx *evaluate.Context) (err error) {
 
 // WriteCSVs writes the various CSV reports to disk.
 func writeCSVs(resultPath string, assessments *report.AssessmentStore) (err error) {
-	// Write the "evaluation.csv" containing all data.
-	csv, err := report.GenerateCSV(assessments)
-	if err != nil {
-		return pkgerrors.Wrap(err, "could not create evaluation.csv summary")
-	}
-	if err := os.WriteFile(filepath.Join(resultPath, "evaluation.csv"), []byte(csv), 0644); err != nil {
-		return pkgerrors.Wrap(err, "could not write evaluation.csv summary")
-	}
-
 	// Write the "models-summed.csv" containing the summary per model.
 	byModel := assessments.CollapseByModel()
 	csvByModel, err := report.GenerateCSV(byModel)

diff --git a/cmd/eval-dev-quality/cmd/evaluate_test.go b/cmd/eval-dev-quality/cmd/evaluate_test.go
@@ -731,27 +731,54 @@ func TestEvaluateExecute(t *testing.T) {
 				filepath.Join("result-directory", "evaluation.csv"): func(t *testing.T, filePath, data string) {
 					actualAssessments := validateMetrics(t, extractMetricsCSVMatch, data, []metrics.Assessments{
 						metrics.Assessments{
-							metrics.AssessmentKeyCoverage:         30,
-							metrics.AssessmentKeyFilesExecuted:    3,
-							metrics.AssessmentKeyResponseNoError:  3,
-							metrics.AssessmentKeyResponseNoExcess: 3,
-							metrics.AssessmentKeyResponseWithCode: 3,
+							metrics.AssessmentKeyCoverage:         10,
+							metrics.AssessmentKeyFilesExecuted:    1,
+							metrics.AssessmentKeyResponseNoError:  1,
+							metrics.AssessmentKeyResponseNoExcess: 1,
+							metrics.AssessmentKeyResponseWithCode: 1,
 						},
 						metrics.Assessments{
-							metrics.AssessmentKeyCoverage:         30,
-							metrics.AssessmentKeyFilesExecuted:    3,
-							metrics.AssessmentKeyResponseNoError:  3,
-							metrics.AssessmentKeyResponseNoExcess: 3,
-							metrics.AssessmentKeyResponseWithCode: 3,
+							metrics.AssessmentKeyCoverage:         10,
+							metrics.AssessmentKeyFilesExecuted:    1,
+							metrics.AssessmentKeyResponseNoError:  1,
+							metrics.AssessmentKeyResponseNoExcess: 1,
+							metrics.AssessmentKeyResponseWithCode: 1,
 						},
-					}, []uint64{42, 42})
+						metrics.Assessments{
+							metrics.AssessmentKeyCoverage:         10,
+							metrics.AssessmentKeyFilesExecuted:    1,
+							metrics.AssessmentKeyResponseNoError:  1,
+							metrics.AssessmentKeyResponseNoExcess: 1,
+							metrics.AssessmentKeyResponseWithCode: 1,
+						},
+						metrics.Assessments{
+							metrics.AssessmentKeyCoverage:         10,
+							metrics.AssessmentKeyFilesExecuted:    1,
+							metrics.AssessmentKeyResponseNoError:  1,
+							metrics.AssessmentKeyResponseNoExcess: 1,
+							metrics.AssessmentKeyResponseWithCode: 1,
+						},
+						metrics.Assessments{
+							metrics.AssessmentKeyCoverage:         10,
+							metrics.AssessmentKeyFilesExecuted:    1,
+							metrics.AssessmentKeyResponseNoError:  1,
+							metrics.AssessmentKeyResponseNoExcess: 1,
+							metrics.AssessmentKeyResponseWithCode: 1,
+						},
+						metrics.Assessments{
+							metrics.AssessmentKeyCoverage:         10,
+							metrics.AssessmentKeyFilesExecuted:    1,
+							metrics.AssessmentKeyResponseNoError:  1,
+							metrics.AssessmentKeyResponseNoExcess: 1,
+							metrics.AssessmentKeyResponseWithCode: 1,
+						},
+					}, []uint64{14, 14, 14, 14, 14, 14})
 					// Assert non-deterministic behavior.
-					assert.Greater(t, actualAssessments[0][metrics.AssessmentKeyProcessingTime], uint64(0))
-					assert.Equal(t, actualAssessments[0][metrics.AssessmentKeyGenerateTestsForFileCharacterCount], uint64(762))
-					assert.Equal(t, actualAssessments[0][metrics.AssessmentKeyResponseCharacterCount], uint64(762))
-					assert.Greater(t, actualAssessments[1][metrics.AssessmentKeyProcessingTime], uint64(0))
-					assert.Equal(t, actualAssessments[1][metrics.AssessmentKeyGenerateTestsForFileCharacterCount], uint64(762))
-					assert.Equal(t, actualAssessments[1][metrics.AssessmentKeyResponseCharacterCount], uint64(762))
+					for _, assessment := range actualAssessments {
+						assert.Greater(t, assessment[metrics.AssessmentKeyProcessingTime], uint64(0))
+						assert.Equal(t, assessment[metrics.AssessmentKeyGenerateTestsForFileCharacterCount], uint64(254))
+						assert.Equal(t, assessment[metrics.AssessmentKeyResponseCharacterCount], uint64(254))
+					}
 				},
 				filepath.Join("result-directory", "evaluation.log"): func(t *testing.T, filePath, data string) {
 					assert.Contains(t, data, "Run 1/3")

diff --git a/evaluate/evaluate.go b/evaluate/evaluate.go
@@ -74,6 +74,8 @@ func Evaluate(ctx *Context) (assessments *report.AssessmentStore, totalScore uin
 	// Ensure we report metrics for every model even if they are excluded.
 	assessments = report.NewAssessmentStore()
 	problemsPerModel := map[string][]error{}
+	// Write the evaluation CSV header so it's only written once.
+	report.WriteEvaluationHeader(ctx.ResultPath)
 
 	{
 		// Create temporary repositories for each language so the repository is copied only once per language.
@@ -135,7 +137,6 @@ func Evaluate(ctx *Context) (assessments *report.AssessmentStore, totalScore uin
 									Logger: ctx.Log,
 								}
 								assessment, ps, err := task.Run(taskContext)
-								assessments.AddAssessmentPerTask(model, language, repositoryPath, assessment)
 								if err != nil {
 									ps = append(ps, err)
 								}
@@ -145,6 +146,9 @@ func Evaluate(ctx *Context) (assessments *report.AssessmentStore, totalScore uin
 								} else {
 									modelSucceededBasicChecksOfLanguage[model][language] = true
 								}
+								assessments.AddAssessmentPerTask(model, language, repositoryPath, assessment)
+								// Write the task assessment to the evaluation CSV file.
+								report.WriteEvaluationRecord(ctx.ResultPath, model, language, temporaryRepository.Name(), assessment)
 							}
 						})
 					}
@@ -244,11 +248,13 @@ func Evaluate(ctx *Context) (assessments *report.AssessmentStore, totalScore uin
 									Logger: ctx.Log,
 								}
 								assessment, ps, err := task.Run(taskContext)
-								assessments.AddAssessmentPerTask(model, language, repositoryPath, assessment)
 								problemsPerModel[modelID] = append(problemsPerModel[modelID], ps...)
 								if err != nil {
 									ctx.Log.Printf("ERROR: Model %q encountered a hard error for language %q, repository %q: %+v", modelID, languageID, repositoryPath, err)
 								}
+								assessments.AddAssessmentPerTask(model, language, repositoryPath, assessment)
+								// Write the task assessment to the evaluation CSV file.
+								report.WriteEvaluationRecord(ctx.ResultPath, model, language, temporaryRepository.Name(), assessment)
 							}
 						})
 					}

diff --git a/evaluate/evaluate_test.go b/evaluate/evaluate_test.go
@@ -180,6 +180,8 @@ func TestEvaluate(t *testing.T) {
 			Before: func(t *testing.T, logger *log.Logger, resultPath string) {
 				// Set up mocks, when test is running.
 				mockedModel.MockCapabilityWriteTests.On("WriteTests", mock.Anything).Return(nil, ErrEmptyResponseFromModel)
+				mockedModel.MockModel.On("Name").Return("Empty Response Model")
+				mockedModel.MockModel.On("Cost").Return(0.0001)
 			},
 
 			Context: &Context{
@@ -211,6 +213,7 @@ func TestEvaluate(t *testing.T) {
 			ExpectedTotalScore: 2,
 			ExpectedResultFiles: map[string]func(t *testing.T, filePath string, data string){
 				filepath.Join(string(evaluatetask.IdentifierWriteTests), mockedModel.ID(), "golang", "golang", "plain.log"): nil,
+				filepath.Join("evaluation.csv"): nil,
 			},
 		})
 	}
@@ -266,6 +269,7 @@ func TestEvaluate(t *testing.T) {
 					filepath.Join(string(evaluatetask.IdentifierWriteTests), evalmodel.CleanModelNameForFileSystem(mockedModelID), "golang", "golang", "plain.log"): func(t *testing.T, filePath, data string) {
 						assert.Contains(t, data, ErrEmptyResponseFromModel.Error())
 					},
+					filepath.Join("evaluation.csv"): nil,
 				},
 			})
 		}
@@ -332,6 +336,7 @@ func TestEvaluate(t *testing.T) {
 					filepath.Join(string(evaluatetask.IdentifierWriteTests), evalmodel.CleanModelNameForFileSystem(mockedModelID), "golang", "golang", "plain.log"): func(t *testing.T, filePath, data string) {
 						assert.Contains(t, data, "Attempt 1/3: "+ErrEmptyResponseFromModel.Error())
 					},
+					filepath.Join("evaluation.csv"): nil,
 				},
 			})
 		}
@@ -397,6 +402,7 @@ func TestEvaluate(t *testing.T) {
 					filepath.Join(string(evaluatetask.IdentifierWriteTests), evalmodel.CleanModelNameForFileSystem(mockedModelID), "golang", "golang", "plain.log"): func(t *testing.T, filePath, data string) {
 						assert.Contains(t, data, "DONE 0 tests, 1 error")
 					},
+					filepath.Join("evaluation.csv"): nil,
 				},
 			})
 		}
@@ -428,6 +434,8 @@ func TestEvaluate(t *testing.T) {
 			languageGolang := &golang.Language{}
 			mockedModelID := "mocked-generation-model"
 			mockedModel := modeltesting.NewMockCapabilityWriteTestsNamed(t, mockedModelID)
+			mockedModel.MockModel.On("Name").Return("Mocked Generation Model")
+			mockedModel.MockModel.On("Cost").Return(0.0001)
 
 			validate(t, &testCase{
 				Name: "Problems of previous runs shouldn't cancel successive runs",
@@ -517,13 +525,16 @@ func TestEvaluate(t *testing.T) {
 				ExpectedResultFiles: map[string]func(t *testing.T, filePath string, data string){
 					filepath.Join(string(evaluatetask.IdentifierWriteTests), evalmodel.CleanModelNameForFileSystem(mockedModelID), "golang", "golang", "plain.log"): nil,
 					filepath.Join(string(evaluatetask.IdentifierWriteTests), evalmodel.CleanModelNameForFileSystem(mockedModelID), "golang", "golang", "next.log"):  nil,
+					filepath.Join("evaluation.csv"): nil,
 				},
 			})
 		}
 		{
 			languageGolang := &golang.Language{}
 			mockedModelID := "mocked-generation-model"
 			mockedModel := modeltesting.NewMockCapabilityWriteTestsNamed(t, mockedModelID)
+			mockedModel.MockModel.On("Name").Return("Mocked Generation Model")
+			mockedModel.MockModel.On("Cost").Return(0.0001)
 
 			validate(t, &testCase{
 				Name: "Solving basic checks once is enough",
@@ -612,13 +623,16 @@ func TestEvaluate(t *testing.T) {
 				ExpectedResultFiles: map[string]func(t *testing.T, filePath string, data string){
 					filepath.Join(string(evaluatetask.IdentifierWriteTests), evalmodel.CleanModelNameForFileSystem(mockedModelID), "golang", "golang", "plain.log"): nil,
 					filepath.Join(string(evaluatetask.IdentifierWriteTests), evalmodel.CleanModelNameForFileSystem(mockedModelID), "golang", "golang", "next.log"):  nil,
+					filepath.Join("evaluation.csv"): nil,
 				},
 			})
 		}
 		{
 			languageGolang := &golang.Language{}
 			mockedModelID := "mocked-generation-model"
 			mockedModel := modeltesting.NewMockCapabilityWriteTestsNamed(t, mockedModelID)
+			mockedModel.MockModel.On("Name").Return("Mocked Generation Model")
+			mockedModel.MockModel.On("Cost").Return(0.0001)
 
 			validate(t, &testCase{
 				Name: "Never solving basic checks leads to exclusion",
@@ -672,6 +686,7 @@ func TestEvaluate(t *testing.T) {
 				ExpectedTotalScore: 0,
 				ExpectedResultFiles: map[string]func(t *testing.T, filePath string, data string){
 					filepath.Join(string(evaluatetask.IdentifierWriteTests), evalmodel.CleanModelNameForFileSystem(mockedModelID), "golang", "golang", "plain.log"): nil,
+					filepath.Join("evaluation.csv"): nil,
 				},
 			})
 		}
@@ -684,6 +699,9 @@ func TestEvaluate(t *testing.T) {
 			languageGolang := &golang.Language{}
 			mockedModelID := "mocked-generation-model"
 			mockedModel := modeltesting.NewMockCapabilityWriteTestsNamed(t, mockedModelID)
+			mockedModel.MockModel.On("Name").Return("Mocked Generation Model")
+			mockedModel.MockModel.On("Cost").Return(0.0001)
+
 			repositoryPath := filepath.Join("golang", "plain")
 			validate(t, &testCase{
 				Name: "Interleaved",
@@ -736,6 +754,7 @@ func TestEvaluate(t *testing.T) {
 				ExpectedTotalScore: 6,
 				ExpectedResultFiles: map[string]func(t *testing.T, filePath string, data string){
 					filepath.Join(string(evaluatetask.IdentifierWriteTests), evalmodel.CleanModelNameForFileSystem(mockedModelID), "golang", "golang", "plain.log"): nil,
+					filepath.Join("evaluation.csv"): nil,
 				},
 				ExpectedOutputValidate: func(t *testing.T, output string, resultPath string) {
 					assert.Contains(t, output, "Run 1/3")
@@ -751,6 +770,9 @@ func TestEvaluate(t *testing.T) {
 			languageGolang := &golang.Language{}
 			mockedModelID := "mocked-generation-model"
 			mockedModel := modeltesting.NewMockCapabilityWriteTestsNamed(t, mockedModelID)
+			mockedModel.MockModel.On("Name").Return("Mocked Generation Model")
+			mockedModel.MockModel.On("Cost").Return(0.0001)
+
 			repositoryPath := filepath.Join("golang", "plain")
 			validate(t, &testCase{
 				Name: "Sequential",
@@ -803,6 +825,7 @@ func TestEvaluate(t *testing.T) {
 				ExpectedTotalScore: 6,
 				ExpectedResultFiles: map[string]func(t *testing.T, filePath string, data string){
 					filepath.Join(string(evaluatetask.IdentifierWriteTests), evalmodel.CleanModelNameForFileSystem(mockedModelID), "golang", "golang", "plain.log"): nil,
+					filepath.Join("evaluation.csv"): nil,
 				},
 				ExpectedOutputValidate: func(t *testing.T, output string, resultPath string) {
 					assert.Contains(t, output, "Run 1/3 for model")
@@ -826,6 +849,8 @@ func TestEvaluate(t *testing.T) {
 			languageGolang := &golang.Language{}
 			mockedModelID := "testing-provider/testing-model"
 			mockedModel := modeltesting.NewMockCapabilityWriteTestsNamed(t, mockedModelID)
+			mockedModel.MockModel.On("Name").Return("Testing Model")
+			mockedModel.MockModel.On("Cost").Return(0.0001)
 			mockedProviderID := "testing-provider"
 			mockedProvider := providertesting.NewMockProviderNamedWithModels(t, mockedProviderID, []model.Model{mockedModel})
 			mockedLoader := providertesting.NewMockLoader(t)
@@ -900,6 +925,7 @@ func TestEvaluate(t *testing.T) {
 				ExpectedTotalScore: 6,
 				ExpectedResultFiles: map[string]func(t *testing.T, filePath string, data string){
 					filepath.Join(string(evaluatetask.IdentifierWriteTests), evalmodel.CleanModelNameForFileSystem(mockedModelID), "golang", "golang", "plain.log"): nil,
+					filepath.Join("evaluation.csv"): nil,
 				},
 			})
 		}
@@ -908,6 +934,8 @@ func TestEvaluate(t *testing.T) {
 			languageGolang := &golang.Language{}
 			mockedModelID := "testing-provider/testing-model"
 			mockedModel := modeltesting.NewMockCapabilityWriteTestsNamed(t, mockedModelID)
+			mockedModel.MockModel.On("Name").Return("Testing Model")
+			mockedModel.MockModel.On("Cost").Return(0.0001)
 			mockedProviderID := "testing-provider"
 			mockedProvider := providertesting.NewMockProviderNamedWithModels(t, mockedProviderID, []model.Model{mockedModel})
 			mockedLoader := providertesting.NewMockLoader(t)
@@ -980,6 +1008,7 @@ func TestEvaluate(t *testing.T) {
 				ExpectedTotalScore: 6,
 				ExpectedResultFiles: map[string]func(t *testing.T, filePath string, data string){
 					filepath.Join(string(evaluatetask.IdentifierWriteTests), evalmodel.CleanModelNameForFileSystem(mockedModelID), "golang", "golang", "plain.log"): nil,
+					filepath.Join("evaluation.csv"): nil,
 				},
 			})
 		}
@@ -989,6 +1018,9 @@ func TestEvaluate(t *testing.T) {
 		languageGolang := &golang.Language{}
 		mockedModelID := "testing-provider/testing-model"
 		mockedModel := modeltesting.NewMockCapabilityWriteTestsNamed(t, mockedModelID)
+		mockedModel.MockModel.On("Name").Return("Testing Model")
+		mockedModel.MockModel.On("Cost").Return(0.0001)
+
 		repositoryPath := filepath.Join("golang", "plain")
 
 		validate(t, &testCase{
@@ -1041,6 +1073,7 @@ func TestEvaluate(t *testing.T) {
 			ExpectedTotalScore: 2,
 			ExpectedResultFiles: map[string]func(t *testing.T, filePath string, data string){
 				filepath.Join(string(evaluatetask.IdentifierWriteTests), evalmodel.CleanModelNameForFileSystem(mockedModelID), "golang", "golang", "plain.log"): nil,
+				filepath.Join("evaluation.csv"): nil,
 			},
 		})
 	}