symflower · bauersimon · Jul 8, 2024 · Jul 4, 2024 · Jul 8, 2024
diff --git a/cmd/eval-dev-quality/cmd/evaluate.go b/cmd/eval-dev-quality/cmd/evaluate.go
@@ -437,7 +437,7 @@ func (command *Evaluate) evaluateLocal(evaluationContext *evaluate.Context) (err
 		return nil
 	})
 
-	if err := writeCSVs(command.ResultPath, assessments); err != nil {
+	if err := report.WriteCSVs(command.ResultPath); err != nil {
 		command.logger.Panicf("ERROR: %s", err)
 	}
 
@@ -636,39 +636,3 @@ func (command *Evaluate) evaluateKubernetes(ctx *evaluate.Context) (err error) {
 
 	return nil
 }
-
-// WriteCSVs writes the various CSV reports to disk.
-func writeCSVs(resultPath string, assessments *report.AssessmentStore) (err error) {
-	// Write the "evaluation.csv" containing all data.
-	csv, err := report.GenerateCSV(assessments)
-	if err != nil {
-		return pkgerrors.Wrap(err, "could not create evaluation.csv summary")
-	}
-	if err := os.WriteFile(filepath.Join(resultPath, "evaluation.csv"), []byte(csv), 0644); err != nil {
-		return pkgerrors.Wrap(err, "could not write evaluation.csv summary")
-	}
-
-	// Write the "models-summed.csv" containing the summary per model.
-	byModel := assessments.CollapseByModel()
-	csvByModel, err := report.GenerateCSV(byModel)
-	if err != nil {
-		return pkgerrors.Wrap(err, "could not create models-summed.csv summary")
-	}
-	if err := os.WriteFile(filepath.Join(resultPath, "models-summed.csv"), []byte(csvByModel), 0644); err != nil {
-		return pkgerrors.Wrap(err, "could not write models-summed.csv summary")
-	}
-
-	// Write the individual "language-summed.csv" containing the summary per model per language.
-	byLanguage := assessments.CollapseByLanguage()
-	for language, modelsByLanguage := range byLanguage {
-		csvByLanguage, err := report.GenerateCSV(modelsByLanguage)
-		if err != nil {
-			return pkgerrors.Wrap(err, "could not create "+language.ID()+"-summed.csv summary")
-		}
-		if err := os.WriteFile(filepath.Join(resultPath, language.ID()+"-summed.csv"), []byte(csvByLanguage), 0644); err != nil {
-			return pkgerrors.Wrap(err, "could not write "+language.ID()+"-summed.csv summary")
-		}
-	}
-
-	return nil
-}
diff --git a/cmd/eval-dev-quality/cmd/evaluate_test.go b/cmd/eval-dev-quality/cmd/evaluate_test.go
@@ -731,27 +731,54 @@ func TestEvaluateExecute(t *testing.T) {
 				filepath.Join("result-directory", "evaluation.csv"): func(t *testing.T, filePath, data string) {
 					actualAssessments := validateMetrics(t, extractMetricsCSVMatch, data, []metrics.Assessments{
 						metrics.Assessments{
-							metrics.AssessmentKeyCoverage:         30,
-							metrics.AssessmentKeyFilesExecuted:    3,
-							metrics.AssessmentKeyResponseNoError:  3,
-							metrics.AssessmentKeyResponseNoExcess: 3,
-							metrics.AssessmentKeyResponseWithCode: 3,
+							metrics.AssessmentKeyCoverage:         10,
+							metrics.AssessmentKeyFilesExecuted:    1,
+							metrics.AssessmentKeyResponseNoError:  1,
+							metrics.AssessmentKeyResponseNoExcess: 1,
+							metrics.AssessmentKeyResponseWithCode: 1,
 						},
 						metrics.Assessments{
-							metrics.AssessmentKeyCoverage:         30,
-							metrics.AssessmentKeyFilesExecuted:    3,
-							metrics.AssessmentKeyResponseNoError:  3,
-							metrics.AssessmentKeyResponseNoExcess: 3,
-							metrics.AssessmentKeyResponseWithCode: 3,
+							metrics.AssessmentKeyCoverage:         10,
+							metrics.AssessmentKeyFilesExecuted:    1,
+							metrics.AssessmentKeyResponseNoError:  1,
+							metrics.AssessmentKeyResponseNoExcess: 1,
+							metrics.AssessmentKeyResponseWithCode: 1,
 						},
-					}, []uint64{42, 42})
+						metrics.Assessments{
+							metrics.AssessmentKeyCoverage:         10,
+							metrics.AssessmentKeyFilesExecuted:    1,
+							metrics.AssessmentKeyResponseNoError:  1,
+							metrics.AssessmentKeyResponseNoExcess: 1,
+							metrics.AssessmentKeyResponseWithCode: 1,
+						},
+						metrics.Assessments{
+							metrics.AssessmentKeyCoverage:         10,
+							metrics.AssessmentKeyFilesExecuted:    1,
+							metrics.AssessmentKeyResponseNoError:  1,
+							metrics.AssessmentKeyResponseNoExcess: 1,
+							metrics.AssessmentKeyResponseWithCode: 1,
+						},
+						metrics.Assessments{
+							metrics.AssessmentKeyCoverage:         10,
+							metrics.AssessmentKeyFilesExecuted:    1,
+							metrics.AssessmentKeyResponseNoError:  1,
+							metrics.AssessmentKeyResponseNoExcess: 1,
+							metrics.AssessmentKeyResponseWithCode: 1,
+						},
+						metrics.Assessments{
+							metrics.AssessmentKeyCoverage:         10,
+							metrics.AssessmentKeyFilesExecuted:    1,
+							metrics.AssessmentKeyResponseNoError:  1,
+							metrics.AssessmentKeyResponseNoExcess: 1,
+							metrics.AssessmentKeyResponseWithCode: 1,
+						},
+					}, []uint64{14, 14, 14, 14, 14, 14})
 					// Assert non-deterministic behavior.
-					assert.Greater(t, actualAssessments[0][metrics.AssessmentKeyProcessingTime], uint64(0))
-					assert.Equal(t, actualAssessments[0][metrics.AssessmentKeyGenerateTestsForFileCharacterCount], uint64(762))
-					assert.Equal(t, actualAssessments[0][metrics.AssessmentKeyResponseCharacterCount], uint64(762))
-					assert.Greater(t, actualAssessments[1][metrics.AssessmentKeyProcessingTime], uint64(0))
-					assert.Equal(t, actualAssessments[1][metrics.AssessmentKeyGenerateTestsForFileCharacterCount], uint64(762))
-					assert.Equal(t, actualAssessments[1][metrics.AssessmentKeyResponseCharacterCount], uint64(762))
+					for _, assessment := range actualAssessments {
+						assert.Greater(t, assessment[metrics.AssessmentKeyProcessingTime], uint64(0))
+						assert.Equal(t, assessment[metrics.AssessmentKeyGenerateTestsForFileCharacterCount], uint64(254))
+						assert.Equal(t, assessment[metrics.AssessmentKeyResponseCharacterCount], uint64(254))
+					}
 				},
 				filepath.Join("result-directory", "evaluation.log"): func(t *testing.T, filePath, data string) {
 					assert.Contains(t, data, "Run 1/3")

diff --git a/evaluate/evaluate.go b/evaluate/evaluate.go
@@ -74,6 +74,16 @@ func Evaluate(ctx *Context) (assessments *report.AssessmentStore, totalScore uin
 	// Ensure we report metrics for every model even if they are excluded.
 	assessments = report.NewAssessmentStore()
 	problemsPerModel := map[string][]error{}
+	// Write the evaluation CSV header so it's only written once.
+	evaluationCSVFile, err := os.OpenFile(filepath.Join(ctx.ResultPath, "evaluation.csv"), os.O_APPEND|os.O_CREATE|os.O_WRONLY, 0644)
+	if err != nil {
+		ctx.Log.Panicf("ERROR: unable to create evaluation CSV file: %+v", err)
+	}
+	defer evaluationCSVFile.Close()
+	evaluationFile, err := report.NewEvaluationFile(evaluationCSVFile)
+	if err != nil {
+		ctx.Log.Panicf("ERROR: %+v", err)
+	}
 
 	{
 		// Create temporary repositories for each language so the repository is copied only once per language.
@@ -145,6 +155,8 @@ func Evaluate(ctx *Context) (assessments *report.AssessmentStore, totalScore uin
 									modelSucceededBasicChecksOfLanguage[model][language] = true
 								}
 								assessments.AddAssessmentPerTask(model, language, repositoryPath, assessment)
+								// Write the task assessment to the evaluation CSV file.
+								evaluationFile.WriteEvaluationRecord(model, language, temporaryRepository.Name(), assessment)
 							}
 						})
 					}
@@ -249,6 +261,8 @@ func Evaluate(ctx *Context) (assessments *report.AssessmentStore, totalScore uin
 									ctx.Log.Printf("ERROR: Model %q encountered a hard error for language %q, repository %q: %+v", modelID, languageID, repositoryPath, err)
 								}
 								assessments.AddAssessmentPerTask(model, language, repositoryPath, assessment)
+								// Write the task assessment to the evaluation CSV file.
+								evaluationFile.WriteEvaluationRecord(model, language, temporaryRepository.Name(), assessment)
 							}
 						})
 					}

diff --git a/evaluate/evaluate_test.go b/evaluate/evaluate_test.go
@@ -171,7 +171,7 @@ func TestEvaluate(t *testing.T) {
 
 	{
 		languageGolang := &golang.Language{}
-		mockedModel := modeltesting.NewMockCapabilityWriteTestsNamed(t, "empty-response-model")
+		mockedModel := modeltesting.NewMockCapabilityWriteTestsNamedWithCost(t, "empty-response-model", "Empty Response Model", 0.0001)
 		repositoryPath := filepath.Join("golang", "plain")
 
 		validate(t, &testCase{
@@ -211,6 +211,7 @@ func TestEvaluate(t *testing.T) {
 			ExpectedTotalScore: 2,
 			ExpectedResultFiles: map[string]func(t *testing.T, filePath string, data string){
 				filepath.Join(string(evaluatetask.IdentifierWriteTests), mockedModel.ID(), "golang", "golang", "plain.log"): nil,
+				filepath.Join("evaluation.csv"): nil,
 			},
 		})
 	}
@@ -266,6 +267,7 @@ func TestEvaluate(t *testing.T) {
 					filepath.Join(string(evaluatetask.IdentifierWriteTests), evalmodel.CleanModelNameForFileSystem(mockedModelID), "golang", "golang", "plain.log"): func(t *testing.T, filePath, data string) {
 						assert.Contains(t, data, ErrEmptyResponseFromModel.Error())
 					},
+					filepath.Join("evaluation.csv"): nil,
 				},
 			})
 		}
@@ -332,6 +334,7 @@ func TestEvaluate(t *testing.T) {
 					filepath.Join(string(evaluatetask.IdentifierWriteTests), evalmodel.CleanModelNameForFileSystem(mockedModelID), "golang", "golang", "plain.log"): func(t *testing.T, filePath, data string) {
 						assert.Contains(t, data, "Attempt 1/3: "+ErrEmptyResponseFromModel.Error())
 					},
+					filepath.Join("evaluation.csv"): nil,
 				},
 			})
 		}
@@ -397,6 +400,7 @@ func TestEvaluate(t *testing.T) {
 					filepath.Join(string(evaluatetask.IdentifierWriteTests), evalmodel.CleanModelNameForFileSystem(mockedModelID), "golang", "golang", "plain.log"): func(t *testing.T, filePath, data string) {
 						assert.Contains(t, data, "DONE 0 tests, 1 error")
 					},
+					filepath.Join("evaluation.csv"): nil,
 				},
 			})
 		}
@@ -427,7 +431,7 @@ func TestEvaluate(t *testing.T) {
 		{
 			languageGolang := &golang.Language{}
 			mockedModelID := "mocked-generation-model"
-			mockedModel := modeltesting.NewMockCapabilityWriteTestsNamed(t, mockedModelID)
+			mockedModel := modeltesting.NewMockCapabilityWriteTestsNamedWithCost(t, mockedModelID, "Mocked Generation Model", 0.0001)
 
 			validate(t, &testCase{
 				Name: "Problems of previous runs shouldn't cancel successive runs",
@@ -517,13 +521,14 @@ func TestEvaluate(t *testing.T) {
 				ExpectedResultFiles: map[string]func(t *testing.T, filePath string, data string){
 					filepath.Join(string(evaluatetask.IdentifierWriteTests), evalmodel.CleanModelNameForFileSystem(mockedModelID), "golang", "golang", "plain.log"): nil,
 					filepath.Join(string(evaluatetask.IdentifierWriteTests), evalmodel.CleanModelNameForFileSystem(mockedModelID), "golang", "golang", "next.log"):  nil,
+					filepath.Join("evaluation.csv"): nil,
 				},
 			})
 		}
 		{
 			languageGolang := &golang.Language{}
 			mockedModelID := "mocked-generation-model"
-			mockedModel := modeltesting.NewMockCapabilityWriteTestsNamed(t, mockedModelID)
+			mockedModel := modeltesting.NewMockCapabilityWriteTestsNamedWithCost(t, mockedModelID, "Mocked Generation Model", 0.0001)
 
 			validate(t, &testCase{
 				Name: "Solving basic checks once is enough",
@@ -612,13 +617,14 @@ func TestEvaluate(t *testing.T) {
 				ExpectedResultFiles: map[string]func(t *testing.T, filePath string, data string){
 					filepath.Join(string(evaluatetask.IdentifierWriteTests), evalmodel.CleanModelNameForFileSystem(mockedModelID), "golang", "golang", "plain.log"): nil,
 					filepath.Join(string(evaluatetask.IdentifierWriteTests), evalmodel.CleanModelNameForFileSystem(mockedModelID), "golang", "golang", "next.log"):  nil,
+					filepath.Join("evaluation.csv"): nil,
 				},
 			})
 		}
 		{
 			languageGolang := &golang.Language{}
 			mockedModelID := "mocked-generation-model"
-			mockedModel := modeltesting.NewMockCapabilityWriteTestsNamed(t, mockedModelID)
+			mockedModel := modeltesting.NewMockCapabilityWriteTestsNamedWithCost(t, mockedModelID, "Mocked Generation Model", 0.0001)
 
 			validate(t, &testCase{
 				Name: "Never solving basic checks leads to exclusion",
@@ -672,6 +678,7 @@ func TestEvaluate(t *testing.T) {
 				ExpectedTotalScore: 0,
 				ExpectedResultFiles: map[string]func(t *testing.T, filePath string, data string){
 					filepath.Join(string(evaluatetask.IdentifierWriteTests), evalmodel.CleanModelNameForFileSystem(mockedModelID), "golang", "golang", "plain.log"): nil,
+					filepath.Join("evaluation.csv"): nil,
 				},
 			})
 		}
@@ -683,7 +690,8 @@ func TestEvaluate(t *testing.T) {
 		{
 			languageGolang := &golang.Language{}
 			mockedModelID := "mocked-generation-model"
-			mockedModel := modeltesting.NewMockCapabilityWriteTestsNamed(t, mockedModelID)
+			mockedModel := modeltesting.NewMockCapabilityWriteTestsNamedWithCost(t, mockedModelID, "Mocked Generation Model", 0.0001)
+
 			repositoryPath := filepath.Join("golang", "plain")
 			validate(t, &testCase{
 				Name: "Interleaved",
@@ -736,6 +744,7 @@ func TestEvaluate(t *testing.T) {
 				ExpectedTotalScore: 6,
 				ExpectedResultFiles: map[string]func(t *testing.T, filePath string, data string){
 					filepath.Join(string(evaluatetask.IdentifierWriteTests), evalmodel.CleanModelNameForFileSystem(mockedModelID), "golang", "golang", "plain.log"): nil,
+					filepath.Join("evaluation.csv"): nil,
 				},
 				ExpectedOutputValidate: func(t *testing.T, output string, resultPath string) {
 					assert.Contains(t, output, "Run 1/3")
@@ -750,7 +759,8 @@ func TestEvaluate(t *testing.T) {
 		{
 			languageGolang := &golang.Language{}
 			mockedModelID := "mocked-generation-model"
-			mockedModel := modeltesting.NewMockCapabilityWriteTestsNamed(t, mockedModelID)
+			mockedModel := modeltesting.NewMockCapabilityWriteTestsNamedWithCost(t, mockedModelID, "Mocked Generation Model", 0.0001)
+
 			repositoryPath := filepath.Join("golang", "plain")
 			validate(t, &testCase{
 				Name: "Sequential",
@@ -803,6 +813,7 @@ func TestEvaluate(t *testing.T) {
 				ExpectedTotalScore: 6,
 				ExpectedResultFiles: map[string]func(t *testing.T, filePath string, data string){
 					filepath.Join(string(evaluatetask.IdentifierWriteTests), evalmodel.CleanModelNameForFileSystem(mockedModelID), "golang", "golang", "plain.log"): nil,
+					filepath.Join("evaluation.csv"): nil,
 				},
 				ExpectedOutputValidate: func(t *testing.T, output string, resultPath string) {
 					assert.Contains(t, output, "Run 1/3 for model")
@@ -825,7 +836,7 @@ func TestEvaluate(t *testing.T) {
 			// Setup provider and model mocking.
 			languageGolang := &golang.Language{}
 			mockedModelID := "testing-provider/testing-model"
-			mockedModel := modeltesting.NewMockCapabilityWriteTestsNamed(t, mockedModelID)
+			mockedModel := modeltesting.NewMockCapabilityWriteTestsNamedWithCost(t, mockedModelID, "Testing Model", 0.0001)
 			mockedProviderID := "testing-provider"
 			mockedProvider := providertesting.NewMockProviderNamedWithModels(t, mockedProviderID, []model.Model{mockedModel})
 			mockedLoader := providertesting.NewMockLoader(t)
@@ -900,14 +911,15 @@ func TestEvaluate(t *testing.T) {
 				ExpectedTotalScore: 6,
 				ExpectedResultFiles: map[string]func(t *testing.T, filePath string, data string){
 					filepath.Join(string(evaluatetask.IdentifierWriteTests), evalmodel.CleanModelNameForFileSystem(mockedModelID), "golang", "golang", "plain.log"): nil,
+					filepath.Join("evaluation.csv"): nil,
 				},
 			})
 		}
 		{
 			// Setup provider and model mocking.
 			languageGolang := &golang.Language{}
 			mockedModelID := "testing-provider/testing-model"
-			mockedModel := modeltesting.NewMockCapabilityWriteTestsNamed(t, mockedModelID)
+			mockedModel := modeltesting.NewMockCapabilityWriteTestsNamedWithCost(t, mockedModelID, "Testing Model", 0.0001)
 			mockedProviderID := "testing-provider"
 			mockedProvider := providertesting.NewMockProviderNamedWithModels(t, mockedProviderID, []model.Model{mockedModel})
 			mockedLoader := providertesting.NewMockLoader(t)
@@ -980,6 +992,7 @@ func TestEvaluate(t *testing.T) {
 				ExpectedTotalScore: 6,
 				ExpectedResultFiles: map[string]func(t *testing.T, filePath string, data string){
 					filepath.Join(string(evaluatetask.IdentifierWriteTests), evalmodel.CleanModelNameForFileSystem(mockedModelID), "golang", "golang", "plain.log"): nil,
+					filepath.Join("evaluation.csv"): nil,
 				},
 			})
 		}
@@ -988,7 +1001,8 @@ func TestEvaluate(t *testing.T) {
 		// Setup provider and model mocking.
 		languageGolang := &golang.Language{}
 		mockedModelID := "testing-provider/testing-model"
-		mockedModel := modeltesting.NewMockCapabilityWriteTestsNamed(t, mockedModelID)
+		mockedModel := modeltesting.NewMockCapabilityWriteTestsNamedWithCost(t, mockedModelID, "Testing Model", 0.0001)
+
 		repositoryPath := filepath.Join("golang", "plain")
 
 		validate(t, &testCase{
@@ -1041,6 +1055,7 @@ func TestEvaluate(t *testing.T) {
 			ExpectedTotalScore: 2,
 			ExpectedResultFiles: map[string]func(t *testing.T, filePath string, data string){
 				filepath.Join(string(evaluatetask.IdentifierWriteTests), evalmodel.CleanModelNameForFileSystem(mockedModelID), "golang", "golang", "plain.log"): nil,
+				filepath.Join("evaluation.csv"): nil,
 			},
 		})
 	}

diff --git a/evaluate/report/collection.go b/evaluate/report/collection.go
@@ -13,9 +13,6 @@ import (
 	"github.com/symflower/eval-dev-quality/task"
 )
 
-// AssessmentPerLanguagePerModel holds a collection of assessments per language and model.
-type AssessmentPerLanguagePerModel map[language.Language]AssessmentPerModel
-
 // AssessmentPerModel holds a collection of assessments per model.
 type AssessmentPerModel map[model.Model]metrics.Assessments
 
@@ -133,23 +130,3 @@ func (a *AssessmentStore) CollapseByModel() AssessmentPerModel {
 
 	return perModel
 }
-
-// CollapseByLanguage returns all assessments aggregated per language and model.
-func (a *AssessmentStore) CollapseByLanguage() AssessmentPerLanguagePerModel {
-	assessments := AssessmentPerLanguagePerModel{}
-	_ = a.Walk(func(m model.Model, l language.Language, r string, t task.Identifier, a metrics.Assessments) (err error) {
-		if _, ok := assessments[l]; !ok {
-			assessments[l] = map[model.Model]metrics.Assessments{}
-		}
-
-		if _, ok := assessments[l][m]; !ok {
-			assessments[l][m] = metrics.NewAssessments()
-		}
-
-		assessments[l][m].Add(a)
-
-		return nil
-	})
-
-	return assessments
-}