diff --git a/dev/.documenter-siteinfo.json b/dev/.documenter-siteinfo.json
index ae1a6b4a3..a562fd335 100644
--- a/dev/.documenter-siteinfo.json
+++ b/dev/.documenter-siteinfo.json
@@ -1 +1 @@
-{"documenter":{"julia_version":"1.10.4","generation_timestamp":"2024-08-07T08:36:18","documenter_version":"1.5.0"}}
\ No newline at end of file
+{"documenter":{"julia_version":"1.10.4","generation_timestamp":"2024-08-12T20:24:34","documenter_version":"1.5.0"}}
\ No newline at end of file
diff --git a/dev/examples/compare_paid_vs_local/index.html b/dev/examples/compare_paid_vs_local/index.html
index 92daf2f79..dc5d72e68 100644
--- a/dev/examples/compare_paid_vs_local/index.html
+++ b/dev/examples/compare_paid_vs_local/index.html
@@ -89,4 +89,4 @@
     rename(_, names(_) .|&gt; unscrub_string)
 end
 # markdown_table(output, String) |&gt; clipboard
-markdown_table(output)</code></pre><table><tr><th style="text-align: right">Model</th><th style="text-align: right">Elapsed</th><th style="text-align: right">Elapsed Median</th><th style="text-align: right">Score</th><th style="text-align: right">Score Median</th><th style="text-align: right">Count Zero Score</th><th style="text-align: right">Count Full Score</th><th style="text-align: right">Is Paid</th></tr><tr><td style="text-align: right">claude-3-5-sonnet-20240620</td><td style="text-align: right">6.3</td><td style="text-align: right">6.3</td><td style="text-align: right">86.0</td><td style="text-align: right">100.0</td><td style="text-align: right">5.0</td><td style="text-align: right">179.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">claude-3-opus-20240229</td><td style="text-align: right">20.5</td><td style="text-align: right">20.5</td><td style="text-align: right">83.0</td><td style="text-align: right">90.0</td><td style="text-align: right">1.0</td><td style="text-align: right">161.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">claude-3-sonnet-20240229</td><td style="text-align: right">8.7</td><td style="text-align: right">8.7</td><td style="text-align: right">79.0</td><td style="text-align: right">95.0</td><td style="text-align: right">15.0</td><td style="text-align: right">161.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">codestral-2405</td><td style="text-align: right">1.9</td><td style="text-align: right">1.9</td><td style="text-align: right">78.0</td><td style="text-align: right">95.0</td><td style="text-align: right">16.0</td><td style="text-align: right">146.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">mistralai/Mixtral-8x22B-Instruct-v0.1</td><td style="text-align: right">14.1</td><td style="text-align: right">14.1</td><td style="text-align: right">77.6</td><td style="text-align: right">90.0</td><td style="text-align: right">5.0</td><td style="text-align: right">151.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">gpt-4o-2024-08-06</td><td style="text-align: right">4.7</td><td style="text-align: right">4.7</td><td style="text-align: right">77.3</td><td style="text-align: right">90.0</td><td style="text-align: right">12.0</td><td style="text-align: right">155.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">meta-llama/Llama-3-70b-chat-hf</td><td style="text-align: right">4.3</td><td style="text-align: right">4.3</td><td style="text-align: right">76.8</td><td style="text-align: right">88.3</td><td style="text-align: right">0.0</td><td style="text-align: right">160.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">gpt-4-turbo-2024-04-09</td><td style="text-align: right">10.9</td><td style="text-align: right">10.9</td><td style="text-align: right">74.9</td><td style="text-align: right">90.0</td><td style="text-align: right">22.0</td><td style="text-align: right">146.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">gpt-4-1106-preview</td><td style="text-align: right">22.4</td><td style="text-align: right">22.4</td><td style="text-align: right">74.4</td><td style="text-align: right">90.0</td><td style="text-align: right">19.0</td><td style="text-align: right">142.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">claude-3-haiku-20240307</td><td style="text-align: right">4.0</td><td style="text-align: right">4.0</td><td style="text-align: right">74.1</td><td style="text-align: right">84.2</td><td style="text-align: right">4.0</td><td style="text-align: right">125.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">mistral-large-2407</td><td style="text-align: right">11.3</td><td style="text-align: right">11.3</td><td style="text-align: right">73.6</td><td style="text-align: right">83.1</td><td style="text-align: right">15.0</td><td style="text-align: right">137.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">gpt-4o-mini-2024-07-18</td><td style="text-align: right">5.2</td><td style="text-align: right">5.2</td><td style="text-align: right">73.5</td><td style="text-align: right">86.7</td><td style="text-align: right">19.0</td><td style="text-align: right">137.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">gpt-4-0125-preview</td><td style="text-align: right">30.2</td><td style="text-align: right">30.2</td><td style="text-align: right">73.1</td><td style="text-align: right">88.8</td><td style="text-align: right">26.0</td><td style="text-align: right">140.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">gpt-4o-2024-05-13</td><td style="text-align: right">4.3</td><td style="text-align: right">4.3</td><td style="text-align: right">72.2</td><td style="text-align: right">86.7</td><td style="text-align: right">21.0</td><td style="text-align: right">122.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">deepseek-coder</td><td style="text-align: right">13.0</td><td style="text-align: right">13.0</td><td style="text-align: right">71.6</td><td style="text-align: right">83.3</td><td style="text-align: right">39.0</td><td style="text-align: right">115.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">deepseek-chat</td><td style="text-align: right">17.9</td><td style="text-align: right">17.9</td><td style="text-align: right">71.3</td><td style="text-align: right">80.6</td><td style="text-align: right">30.0</td><td style="text-align: right">138.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">mistral-large-2402</td><td style="text-align: right">8.6</td><td style="text-align: right">8.6</td><td style="text-align: right">71.1</td><td style="text-align: right">80.0</td><td style="text-align: right">5.0</td><td style="text-align: right">103.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">meta-llama/Llama-3-8b-chat-hf</td><td style="text-align: right">1.5</td><td style="text-align: right">1.5</td><td style="text-align: right">67.7</td><td style="text-align: right">66.7</td><td style="text-align: right">5.0</td><td style="text-align: right">70.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">claude-2.1</td><td style="text-align: right">10.1</td><td style="text-align: right">10.1</td><td style="text-align: right">67.3</td><td style="text-align: right">75.0</td><td style="text-align: right">27.0</td><td style="text-align: right">116.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">microsoft/WizardLM-2-8x22B</td><td style="text-align: right">34.7</td><td style="text-align: right">34.7</td><td style="text-align: right">62.7</td><td style="text-align: right">60.0</td><td style="text-align: right">33.0</td><td style="text-align: right">118.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">gpt-3.5-turbo-0125</td><td style="text-align: right">1.2</td><td style="text-align: right">1.2</td><td style="text-align: right">62.1</td><td style="text-align: right">67.1</td><td style="text-align: right">62.0</td><td style="text-align: right">95.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">phind-codellama:34b-v2</td><td style="text-align: right">37.1</td><td style="text-align: right">37.1</td><td style="text-align: right">61.8</td><td style="text-align: right">62.5</td><td style="text-align: right">36.0</td><td style="text-align: right">58.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">mistral-medium</td><td style="text-align: right">18.1</td><td style="text-align: right">18.1</td><td style="text-align: right">60.8</td><td style="text-align: right">60.0</td><td style="text-align: right">22.0</td><td style="text-align: right">90.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">mistral-small-2402</td><td style="text-align: right">5.0</td><td style="text-align: right">5.0</td><td style="text-align: right">60.2</td><td style="text-align: right">55.0</td><td style="text-align: right">15.0</td><td style="text-align: right">84.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">mistral-small</td><td style="text-align: right">5.9</td><td style="text-align: right">5.9</td><td style="text-align: right">60.1</td><td style="text-align: right">55.0</td><td style="text-align: right">27.0</td><td style="text-align: right">76.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">magicoder:7b-s-cl-q6_K</td><td style="text-align: right">15.6</td><td style="text-align: right">15.6</td><td style="text-align: right">59.9</td><td style="text-align: right">60.0</td><td style="text-align: right">18.0</td><td style="text-align: right">35.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">gpt-3.5-turbo-1106</td><td style="text-align: right">2.1</td><td style="text-align: right">2.1</td><td style="text-align: right">58.4</td><td style="text-align: right">62.5</td><td style="text-align: right">82.0</td><td style="text-align: right">97.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">codellama:13b-instruct-q4<em>K</em>M</td><td style="text-align: right">3.2</td><td style="text-align: right">3.2</td><td style="text-align: right">56.4</td><td style="text-align: right">54.6</td><td style="text-align: right">56.0</td><td style="text-align: right">61.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">deepseek-coder:33b-instruct-q4<em>K</em>M</td><td style="text-align: right">46.7</td><td style="text-align: right">46.7</td><td style="text-align: right">55.0</td><td style="text-align: right">50.0</td><td style="text-align: right">62.0</td><td style="text-align: right">68.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">magicoder</td><td style="text-align: right">12.8</td><td style="text-align: right">12.8</td><td style="text-align: right">53.7</td><td style="text-align: right">50.0</td><td style="text-align: right">49.0</td><td style="text-align: right">52.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">nous-hermes2:34b-yi-q4<em>K</em>M</td><td style="text-align: right">56.8</td><td style="text-align: right">56.8</td><td style="text-align: right">50.7</td><td style="text-align: right">50.0</td><td style="text-align: right">78.0</td><td style="text-align: right">56.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">accounts/fireworks/models/dbrx-instruct</td><td style="text-align: right">3.7</td><td style="text-align: right">3.7</td><td style="text-align: right">50.0</td><td style="text-align: right">50.0</td><td style="text-align: right">121.0</td><td style="text-align: right">75.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">codellama:13b-instruct</td><td style="text-align: right">18.1</td><td style="text-align: right">18.1</td><td style="text-align: right">50.0</td><td style="text-align: right">50.0</td><td style="text-align: right">65.0</td><td style="text-align: right">44.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">openchat:7b-v3.5-1210-q4<em>K</em>M</td><td style="text-align: right">14.4</td><td style="text-align: right">14.4</td><td style="text-align: right">49.4</td><td style="text-align: right">50.0</td><td style="text-align: right">48.0</td><td style="text-align: right">23.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">openhermes2.5-mistral</td><td style="text-align: right">12.9</td><td style="text-align: right">12.9</td><td style="text-align: right">48.9</td><td style="text-align: right">50.0</td><td style="text-align: right">55.0</td><td style="text-align: right">27.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">starling-lm:latest</td><td style="text-align: right">13.7</td><td style="text-align: right">13.7</td><td style="text-align: right">48.4</td><td style="text-align: right">50.0</td><td style="text-align: right">58.0</td><td style="text-align: right">26.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">codellama:7b-instruct-q4<em>K</em>M</td><td style="text-align: right">2.1</td><td style="text-align: right">2.1</td><td style="text-align: right">47.8</td><td style="text-align: right">50.0</td><td style="text-align: right">95.0</td><td style="text-align: right">38.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">mistral-tiny</td><td style="text-align: right">4.6</td><td style="text-align: right">4.6</td><td style="text-align: right">46.9</td><td style="text-align: right">50.0</td><td style="text-align: right">75.0</td><td style="text-align: right">42.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">yi:34b-chat</td><td style="text-align: right">43.9</td><td style="text-align: right">43.9</td><td style="text-align: right">45.6</td><td style="text-align: right">50.0</td><td style="text-align: right">45.0</td><td style="text-align: right">34.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q6_K</td><td style="text-align: right">21.7</td><td style="text-align: right">21.7</td><td style="text-align: right">45.4</td><td style="text-align: right">50.0</td><td style="text-align: right">44.0</td><td style="text-align: right">23.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q4_0</td><td style="text-align: right">12.4</td><td style="text-align: right">12.4</td><td style="text-align: right">44.3</td><td style="text-align: right">50.0</td><td style="text-align: right">75.0</td><td style="text-align: right">32.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q4<em>K</em>M</td><td style="text-align: right">15.6</td><td style="text-align: right">15.6</td><td style="text-align: right">42.6</td><td style="text-align: right">50.0</td><td style="text-align: right">71.0</td><td style="text-align: right">23.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">gpt-3.5-turbo</td><td style="text-align: right">3.6</td><td style="text-align: right">3.6</td><td style="text-align: right">42.3</td><td style="text-align: right">50.0</td><td style="text-align: right">132.0</td><td style="text-align: right">54.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">codellama:34b-instruct-q4<em>K</em>M</td><td style="text-align: right">7.5</td><td style="text-align: right">7.5</td><td style="text-align: right">39.7</td><td style="text-align: right">50.0</td><td style="text-align: right">127.0</td><td style="text-align: right">35.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">codellama:70b-instruct-q4<em>K</em>M</td><td style="text-align: right">16.3</td><td style="text-align: right">16.3</td><td style="text-align: right">36.4</td><td style="text-align: right">0.0</td><td style="text-align: right">179.0</td><td style="text-align: right">58.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">gemini-1.0-pro-latest</td><td style="text-align: right">4.2</td><td style="text-align: right">4.2</td><td style="text-align: right">35.9</td><td style="text-align: right">50.0</td><td style="text-align: right">76.0</td><td style="text-align: right">9.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">solar:10.7b-instruct-v1-q4<em>K</em>M</td><td style="text-align: right">18.8</td><td style="text-align: right">18.8</td><td style="text-align: right">35.2</td><td style="text-align: right">50.0</td><td style="text-align: right">107.0</td><td style="text-align: right">10.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">mistral:7b-instruct-q4<em>K</em>M</td><td style="text-align: right">13.9</td><td style="text-align: right">13.9</td><td style="text-align: right">34.8</td><td style="text-align: right">50.0</td><td style="text-align: right">80.0</td><td style="text-align: right">0.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">codellama:70b-instruct-q2_K</td><td style="text-align: right">11.2</td><td style="text-align: right">11.2</td><td style="text-align: right">29.8</td><td style="text-align: right">0.0</td><td style="text-align: right">198.0</td><td style="text-align: right">29.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">llama2</td><td style="text-align: right">17.1</td><td style="text-align: right">17.1</td><td style="text-align: right">26.5</td><td style="text-align: right">25.0</td><td style="text-align: right">131.0</td><td style="text-align: right">0.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">gemma:7b-instruct-q6_K</td><td style="text-align: right">20.9</td><td style="text-align: right">20.9</td><td style="text-align: right">25.9</td><td style="text-align: right">25.0</td><td style="text-align: right">147.0</td><td style="text-align: right">2.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">orca2:13b</td><td style="text-align: right">20.1</td><td style="text-align: right">20.1</td><td style="text-align: right">23.1</td><td style="text-align: right">0.0</td><td style="text-align: right">166.0</td><td style="text-align: right">11.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">stablelm-zephyr</td><td style="text-align: right">9.9</td><td style="text-align: right">9.9</td><td style="text-align: right">15.4</td><td style="text-align: right">0.0</td><td style="text-align: right">192.0</td><td style="text-align: right">1.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">dolphin-phi:2.7b-v2.6-q6_K</td><td style="text-align: right">8.9</td><td style="text-align: right">8.9</td><td style="text-align: right">14.9</td><td style="text-align: right">0.0</td><td style="text-align: right">188.0</td><td style="text-align: right">0.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">codellama:13b-python</td><td style="text-align: right">12.5</td><td style="text-align: right">12.5</td><td style="text-align: right">12.8</td><td style="text-align: right">0.0</td><td style="text-align: right">155.0</td><td style="text-align: right">0.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">phi:2.7b-chat-v2-q6_K</td><td style="text-align: right">13.0</td><td style="text-align: right">13.0</td><td style="text-align: right">8.9</td><td style="text-align: right">0.0</td><td style="text-align: right">222.0</td><td style="text-align: right">0.0</td><td style="text-align: right">false</td></tr></table><hr/><p><em>This page was generated using <a href="https://github.com/fredrikekre/Literate.jl">Literate.jl</a>.</em></p></article><nav class="docs-footer"><a class="docs-footer-prevpage" href="../summarize_results_local/">« Local Models</a><a class="docs-footer-nextpage" href="../summarize_results_prompts/">By Prompts »</a><div class="flexbox-break"></div><p class="footer-message">Powered by <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> and the <a href="https://julialang.org/">Julia Programming Language</a>.</p></nav></div><div class="modal" id="documenter-settings"><div class="modal-background"></div><div class="modal-card"><header class="modal-card-head"><p class="modal-card-title">Settings</p><button class="delete"></button></header><section class="modal-card-body"><p><label class="label">Theme</label><div class="select"><select id="documenter-themepicker"><option value="auto">Automatic (OS)</option><option value="documenter-light">documenter-light</option><option value="documenter-dark">documenter-dark</option><option value="catppuccin-latte">catppuccin-latte</option><option value="catppuccin-frappe">catppuccin-frappe</option><option value="catppuccin-macchiato">catppuccin-macchiato</option><option value="catppuccin-mocha">catppuccin-mocha</option></select></div></p><hr/><p>This document was generated with <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> version 1.5.0 on <span class="colophon-date" title="Wednesday 7 August 2024 08:36">Wednesday 7 August 2024</span>. Using Julia version 1.10.4.</p></section><footer class="modal-card-foot"></footer></div></div></div></body></html>
+markdown_table(output)</code></pre><table><tr><th style="text-align: right">Model</th><th style="text-align: right">Elapsed</th><th style="text-align: right">Elapsed Median</th><th style="text-align: right">Score</th><th style="text-align: right">Score Median</th><th style="text-align: right">Count Zero Score</th><th style="text-align: right">Count Full Score</th><th style="text-align: right">Is Paid</th></tr><tr><td style="text-align: right">claude-3-5-sonnet-20240620</td><td style="text-align: right">6.3</td><td style="text-align: right">6.3</td><td style="text-align: right">86.0</td><td style="text-align: right">100.0</td><td style="text-align: right">5.0</td><td style="text-align: right">179.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">claude-3-opus-20240229</td><td style="text-align: right">20.5</td><td style="text-align: right">20.5</td><td style="text-align: right">83.0</td><td style="text-align: right">90.0</td><td style="text-align: right">1.0</td><td style="text-align: right">161.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">claude-3-sonnet-20240229</td><td style="text-align: right">8.7</td><td style="text-align: right">8.7</td><td style="text-align: right">79.0</td><td style="text-align: right">95.0</td><td style="text-align: right">15.0</td><td style="text-align: right">161.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">codestral-2405</td><td style="text-align: right">1.9</td><td style="text-align: right">1.9</td><td style="text-align: right">78.0</td><td style="text-align: right">95.0</td><td style="text-align: right">16.0</td><td style="text-align: right">146.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">mistralai/Mixtral-8x22B-Instruct-v0.1</td><td style="text-align: right">14.1</td><td style="text-align: right">14.1</td><td style="text-align: right">77.6</td><td style="text-align: right">90.0</td><td style="text-align: right">5.0</td><td style="text-align: right">151.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">gpt-4o-2024-08-06</td><td style="text-align: right">4.7</td><td style="text-align: right">4.7</td><td style="text-align: right">77.3</td><td style="text-align: right">90.0</td><td style="text-align: right">12.0</td><td style="text-align: right">155.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">meta-llama/Llama-3-70b-chat-hf</td><td style="text-align: right">4.3</td><td style="text-align: right">4.3</td><td style="text-align: right">76.8</td><td style="text-align: right">88.3</td><td style="text-align: right">0.0</td><td style="text-align: right">160.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">gpt-4-turbo-2024-04-09</td><td style="text-align: right">10.9</td><td style="text-align: right">10.9</td><td style="text-align: right">74.9</td><td style="text-align: right">90.0</td><td style="text-align: right">22.0</td><td style="text-align: right">146.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">gpt-4-1106-preview</td><td style="text-align: right">22.4</td><td style="text-align: right">22.4</td><td style="text-align: right">74.4</td><td style="text-align: right">90.0</td><td style="text-align: right">19.0</td><td style="text-align: right">142.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">claude-3-haiku-20240307</td><td style="text-align: right">4.0</td><td style="text-align: right">4.0</td><td style="text-align: right">74.1</td><td style="text-align: right">84.2</td><td style="text-align: right">4.0</td><td style="text-align: right">125.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">mistral-large-2407</td><td style="text-align: right">11.3</td><td style="text-align: right">11.3</td><td style="text-align: right">73.6</td><td style="text-align: right">83.1</td><td style="text-align: right">15.0</td><td style="text-align: right">137.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">gpt-4o-mini-2024-07-18</td><td style="text-align: right">5.2</td><td style="text-align: right">5.2</td><td style="text-align: right">73.5</td><td style="text-align: right">86.7</td><td style="text-align: right">19.0</td><td style="text-align: right">137.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">gpt-4-0125-preview</td><td style="text-align: right">30.2</td><td style="text-align: right">30.2</td><td style="text-align: right">73.1</td><td style="text-align: right">88.8</td><td style="text-align: right">26.0</td><td style="text-align: right">140.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">gpt-4o-2024-05-13</td><td style="text-align: right">4.3</td><td style="text-align: right">4.3</td><td style="text-align: right">72.2</td><td style="text-align: right">86.7</td><td style="text-align: right">21.0</td><td style="text-align: right">122.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">deepseek-coder</td><td style="text-align: right">13.0</td><td style="text-align: right">13.0</td><td style="text-align: right">71.6</td><td style="text-align: right">83.3</td><td style="text-align: right">39.0</td><td style="text-align: right">115.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">deepseek-chat</td><td style="text-align: right">17.9</td><td style="text-align: right">17.9</td><td style="text-align: right">71.3</td><td style="text-align: right">80.6</td><td style="text-align: right">30.0</td><td style="text-align: right">138.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">mistral-large-2402</td><td style="text-align: right">8.6</td><td style="text-align: right">8.6</td><td style="text-align: right">71.1</td><td style="text-align: right">80.0</td><td style="text-align: right">5.0</td><td style="text-align: right">103.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">meta-llama/Llama-3-8b-chat-hf</td><td style="text-align: right">1.5</td><td style="text-align: right">1.5</td><td style="text-align: right">67.7</td><td style="text-align: right">66.7</td><td style="text-align: right">5.0</td><td style="text-align: right">70.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">claude-2.1</td><td style="text-align: right">10.1</td><td style="text-align: right">10.1</td><td style="text-align: right">67.3</td><td style="text-align: right">75.0</td><td style="text-align: right">27.0</td><td style="text-align: right">116.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">microsoft/WizardLM-2-8x22B</td><td style="text-align: right">34.7</td><td style="text-align: right">34.7</td><td style="text-align: right">62.7</td><td style="text-align: right">60.0</td><td style="text-align: right">33.0</td><td style="text-align: right">118.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">gpt-3.5-turbo-0125</td><td style="text-align: right">1.2</td><td style="text-align: right">1.2</td><td style="text-align: right">62.1</td><td style="text-align: right">67.1</td><td style="text-align: right">62.0</td><td style="text-align: right">95.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">phind-codellama:34b-v2</td><td style="text-align: right">37.1</td><td style="text-align: right">37.1</td><td style="text-align: right">61.8</td><td style="text-align: right">62.5</td><td style="text-align: right">36.0</td><td style="text-align: right">58.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">mistral-medium</td><td style="text-align: right">18.1</td><td style="text-align: right">18.1</td><td style="text-align: right">60.8</td><td style="text-align: right">60.0</td><td style="text-align: right">22.0</td><td style="text-align: right">90.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">mistral-small-2402</td><td style="text-align: right">5.0</td><td style="text-align: right">5.0</td><td style="text-align: right">60.2</td><td style="text-align: right">55.0</td><td style="text-align: right">15.0</td><td style="text-align: right">84.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">mistral-small</td><td style="text-align: right">5.9</td><td style="text-align: right">5.9</td><td style="text-align: right">60.1</td><td style="text-align: right">55.0</td><td style="text-align: right">27.0</td><td style="text-align: right">76.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">magicoder:7b-s-cl-q6_K</td><td style="text-align: right">15.6</td><td style="text-align: right">15.6</td><td style="text-align: right">59.9</td><td style="text-align: right">60.0</td><td style="text-align: right">18.0</td><td style="text-align: right">35.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">gpt-3.5-turbo-1106</td><td style="text-align: right">2.1</td><td style="text-align: right">2.1</td><td style="text-align: right">58.4</td><td style="text-align: right">62.5</td><td style="text-align: right">82.0</td><td style="text-align: right">97.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">codellama:13b-instruct-q4<em>K</em>M</td><td style="text-align: right">3.2</td><td style="text-align: right">3.2</td><td style="text-align: right">56.4</td><td style="text-align: right">54.6</td><td style="text-align: right">56.0</td><td style="text-align: right">61.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">deepseek-coder:33b-instruct-q4<em>K</em>M</td><td style="text-align: right">46.7</td><td style="text-align: right">46.7</td><td style="text-align: right">55.0</td><td style="text-align: right">50.0</td><td style="text-align: right">62.0</td><td style="text-align: right">68.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">magicoder</td><td style="text-align: right">12.8</td><td style="text-align: right">12.8</td><td style="text-align: right">53.7</td><td style="text-align: right">50.0</td><td style="text-align: right">49.0</td><td style="text-align: right">52.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">nous-hermes2:34b-yi-q4<em>K</em>M</td><td style="text-align: right">56.8</td><td style="text-align: right">56.8</td><td style="text-align: right">50.7</td><td style="text-align: right">50.0</td><td style="text-align: right">78.0</td><td style="text-align: right">56.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">accounts/fireworks/models/dbrx-instruct</td><td style="text-align: right">3.7</td><td style="text-align: right">3.7</td><td style="text-align: right">50.0</td><td style="text-align: right">50.0</td><td style="text-align: right">121.0</td><td style="text-align: right">75.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">codellama:13b-instruct</td><td style="text-align: right">18.1</td><td style="text-align: right">18.1</td><td style="text-align: right">50.0</td><td style="text-align: right">50.0</td><td style="text-align: right">65.0</td><td style="text-align: right">44.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">openchat:7b-v3.5-1210-q4<em>K</em>M</td><td style="text-align: right">14.4</td><td style="text-align: right">14.4</td><td style="text-align: right">49.4</td><td style="text-align: right">50.0</td><td style="text-align: right">48.0</td><td style="text-align: right">23.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">openhermes2.5-mistral</td><td style="text-align: right">12.9</td><td style="text-align: right">12.9</td><td style="text-align: right">48.9</td><td style="text-align: right">50.0</td><td style="text-align: right">55.0</td><td style="text-align: right">27.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">starling-lm:latest</td><td style="text-align: right">13.7</td><td style="text-align: right">13.7</td><td style="text-align: right">48.4</td><td style="text-align: right">50.0</td><td style="text-align: right">58.0</td><td style="text-align: right">26.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">codellama:7b-instruct-q4<em>K</em>M</td><td style="text-align: right">2.1</td><td style="text-align: right">2.1</td><td style="text-align: right">47.8</td><td style="text-align: right">50.0</td><td style="text-align: right">95.0</td><td style="text-align: right">38.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">mistral-tiny</td><td style="text-align: right">4.6</td><td style="text-align: right">4.6</td><td style="text-align: right">46.9</td><td style="text-align: right">50.0</td><td style="text-align: right">75.0</td><td style="text-align: right">42.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">yi:34b-chat</td><td style="text-align: right">43.9</td><td style="text-align: right">43.9</td><td style="text-align: right">45.6</td><td style="text-align: right">50.0</td><td style="text-align: right">45.0</td><td style="text-align: right">34.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q6_K</td><td style="text-align: right">21.7</td><td style="text-align: right">21.7</td><td style="text-align: right">45.4</td><td style="text-align: right">50.0</td><td style="text-align: right">44.0</td><td style="text-align: right">23.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q4_0</td><td style="text-align: right">12.4</td><td style="text-align: right">12.4</td><td style="text-align: right">44.3</td><td style="text-align: right">50.0</td><td style="text-align: right">75.0</td><td style="text-align: right">32.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q4<em>K</em>M</td><td style="text-align: right">15.6</td><td style="text-align: right">15.6</td><td style="text-align: right">42.6</td><td style="text-align: right">50.0</td><td style="text-align: right">71.0</td><td style="text-align: right">23.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">gpt-3.5-turbo</td><td style="text-align: right">3.6</td><td style="text-align: right">3.6</td><td style="text-align: right">42.3</td><td style="text-align: right">50.0</td><td style="text-align: right">132.0</td><td style="text-align: right">54.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">codellama:34b-instruct-q4<em>K</em>M</td><td style="text-align: right">7.5</td><td style="text-align: right">7.5</td><td style="text-align: right">39.7</td><td style="text-align: right">50.0</td><td style="text-align: right">127.0</td><td style="text-align: right">35.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">codellama:70b-instruct-q4<em>K</em>M</td><td style="text-align: right">16.3</td><td style="text-align: right">16.3</td><td style="text-align: right">36.4</td><td style="text-align: right">0.0</td><td style="text-align: right">179.0</td><td style="text-align: right">58.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">gemini-1.0-pro-latest</td><td style="text-align: right">4.2</td><td style="text-align: right">4.2</td><td style="text-align: right">35.9</td><td style="text-align: right">50.0</td><td style="text-align: right">76.0</td><td style="text-align: right">9.0</td><td style="text-align: right">true</td></tr><tr><td style="text-align: right">solar:10.7b-instruct-v1-q4<em>K</em>M</td><td style="text-align: right">18.8</td><td style="text-align: right">18.8</td><td style="text-align: right">35.2</td><td style="text-align: right">50.0</td><td style="text-align: right">107.0</td><td style="text-align: right">10.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">mistral:7b-instruct-q4<em>K</em>M</td><td style="text-align: right">13.9</td><td style="text-align: right">13.9</td><td style="text-align: right">34.8</td><td style="text-align: right">50.0</td><td style="text-align: right">80.0</td><td style="text-align: right">0.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">codellama:70b-instruct-q2_K</td><td style="text-align: right">11.2</td><td style="text-align: right">11.2</td><td style="text-align: right">29.8</td><td style="text-align: right">0.0</td><td style="text-align: right">198.0</td><td style="text-align: right">29.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">llama2</td><td style="text-align: right">17.1</td><td style="text-align: right">17.1</td><td style="text-align: right">26.5</td><td style="text-align: right">25.0</td><td style="text-align: right">131.0</td><td style="text-align: right">0.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">gemma:7b-instruct-q6_K</td><td style="text-align: right">20.9</td><td style="text-align: right">20.9</td><td style="text-align: right">25.9</td><td style="text-align: right">25.0</td><td style="text-align: right">147.0</td><td style="text-align: right">2.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">orca2:13b</td><td style="text-align: right">20.1</td><td style="text-align: right">20.1</td><td style="text-align: right">23.1</td><td style="text-align: right">0.0</td><td style="text-align: right">166.0</td><td style="text-align: right">11.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">stablelm-zephyr</td><td style="text-align: right">9.9</td><td style="text-align: right">9.9</td><td style="text-align: right">15.4</td><td style="text-align: right">0.0</td><td style="text-align: right">192.0</td><td style="text-align: right">1.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">dolphin-phi:2.7b-v2.6-q6_K</td><td style="text-align: right">8.9</td><td style="text-align: right">8.9</td><td style="text-align: right">14.9</td><td style="text-align: right">0.0</td><td style="text-align: right">188.0</td><td style="text-align: right">0.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">codellama:13b-python</td><td style="text-align: right">12.5</td><td style="text-align: right">12.5</td><td style="text-align: right">12.8</td><td style="text-align: right">0.0</td><td style="text-align: right">155.0</td><td style="text-align: right">0.0</td><td style="text-align: right">false</td></tr><tr><td style="text-align: right">phi:2.7b-chat-v2-q6_K</td><td style="text-align: right">13.0</td><td style="text-align: right">13.0</td><td style="text-align: right">8.9</td><td style="text-align: right">0.0</td><td style="text-align: right">222.0</td><td style="text-align: right">0.0</td><td style="text-align: right">false</td></tr></table><hr/><p><em>This page was generated using <a href="https://github.com/fredrikekre/Literate.jl">Literate.jl</a>.</em></p></article><nav class="docs-footer"><a class="docs-footer-prevpage" href="../summarize_results_local/">« Local Models</a><a class="docs-footer-nextpage" href="../summarize_results_prompts/">By Prompts »</a><div class="flexbox-break"></div><p class="footer-message">Powered by <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> and the <a href="https://julialang.org/">Julia Programming Language</a>.</p></nav></div><div class="modal" id="documenter-settings"><div class="modal-background"></div><div class="modal-card"><header class="modal-card-head"><p class="modal-card-title">Settings</p><button class="delete"></button></header><section class="modal-card-body"><p><label class="label">Theme</label><div class="select"><select id="documenter-themepicker"><option value="auto">Automatic (OS)</option><option value="documenter-light">documenter-light</option><option value="documenter-dark">documenter-dark</option><option value="catppuccin-latte">catppuccin-latte</option><option value="catppuccin-frappe">catppuccin-frappe</option><option value="catppuccin-macchiato">catppuccin-macchiato</option><option value="catppuccin-mocha">catppuccin-mocha</option></select></div></p><hr/><p>This document was generated with <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> version 1.5.0 on <span class="colophon-date" title="Monday 12 August 2024 20:24">Monday 12 August 2024</span>. Using Julia version 1.10.4.</p></section><footer class="modal-card-foot"></footer></div></div></div></body></html>
diff --git a/dev/examples/summarize_results_local/index.html b/dev/examples/summarize_results_local/index.html
index b709667a0..40b7c00a9 100644
--- a/dev/examples/summarize_results_local/index.html
+++ b/dev/examples/summarize_results_local/index.html
@@ -218,4 +218,4 @@
     rename(_, names(_) .|&gt; unscrub_string)
 end
 # markdown_table(output, String) |&gt; clipboard
-markdown_table(output)</code></pre><table><tr><th style="text-align: right">Model</th><th style="text-align: right">Prompt Label</th><th style="text-align: right">Elapsed</th><th style="text-align: right">Elapsed Median</th><th style="text-align: right">Score Avg</th><th style="text-align: right">Score Median</th><th style="text-align: right">Cnt</th><th style="text-align: right">Point Per Second</th></tr><tr><td style="text-align: right">codellama:13b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">2.0</td><td style="text-align: right">1.9</td><td style="text-align: right">63.4</td><td style="text-align: right">75.0</td><td style="text-align: right">70.0</td><td style="text-align: right">32.1</td></tr><tr><td style="text-align: right">codellama:7b-instruct-q4<em>K</em>M</td><td style="text-align: right">InJulia</td><td style="text-align: right">2.0</td><td style="text-align: right">2.0</td><td style="text-align: right">57.7</td><td style="text-align: right">55.0</td><td style="text-align: right">70.0</td><td style="text-align: right">29.1</td></tr><tr><td style="text-align: right">codellama:7b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">1.2</td><td style="text-align: right">0.9</td><td style="text-align: right">33.1</td><td style="text-align: right">0.0</td><td style="text-align: right">70.0</td><td style="text-align: right">26.5</td></tr><tr><td style="text-align: right">codellama:7b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">2.6</td><td style="text-align: right">2.5</td><td style="text-align: right">60.4</td><td style="text-align: right">60.0</td><td style="text-align: right">70.0</td><td style="text-align: right">23.3</td></tr><tr><td style="text-align: right">codellama:7b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">1.6</td><td style="text-align: right">1.4</td><td style="text-align: right">32.6</td><td style="text-align: right">0.0</td><td style="text-align: right">70.0</td><td style="text-align: right">20.6</td></tr><tr><td style="text-align: right">codellama:13b-instruct-q4<em>K</em>M</td><td style="text-align: right">InJulia</td><td style="text-align: right">3.6</td><td style="text-align: right">3.4</td><td style="text-align: right">67.6</td><td style="text-align: right">61.2</td><td style="text-align: right">70.0</td><td style="text-align: right">18.7</td></tr><tr><td style="text-align: right">codellama:7b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">3.0</td><td style="text-align: right">2.7</td><td style="text-align: right">55.4</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">18.3</td></tr><tr><td style="text-align: right">codellama:13b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">2.7</td><td style="text-align: right">2.3</td><td style="text-align: right">42.8</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">15.9</td></tr><tr><td style="text-align: right">codellama:13b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">3.9</td><td style="text-align: right">3.6</td><td style="text-align: right">55.8</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">14.2</td></tr><tr><td style="text-align: right">codellama:13b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">3.9</td><td style="text-align: right">4.1</td><td style="text-align: right">52.5</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">13.5</td></tr><tr><td style="text-align: right">codellama:34b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">6.3</td><td style="text-align: right">5.8</td><td style="text-align: right">53.0</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">8.4</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q4_0</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">5.8</td><td style="text-align: right">5.6</td><td style="text-align: right">40.3</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">6.9</td></tr><tr><td style="text-align: right">openchat:7b-v3.5-1210-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">7.8</td><td style="text-align: right">6.9</td><td style="text-align: right">51.0</td><td style="text-align: right">50.0</td><td style="text-align: right">55.0</td><td style="text-align: right">6.5</td></tr><tr><td style="text-align: right">codellama:34b-instruct-q4<em>K</em>M</td><td style="text-align: right">InJulia</td><td style="text-align: right">8.1</td><td style="text-align: right">7.9</td><td style="text-align: right">50.1</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">6.2</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">8.1</td><td style="text-align: right">6.9</td><td style="text-align: right">48.4</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">6.0</td></tr><tr><td style="text-align: right">openhermes2.5-mistral</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">8.7</td><td style="text-align: right">8.9</td><td style="text-align: right">50.7</td><td style="text-align: right">52.5</td><td style="text-align: right">58.0</td><td style="text-align: right">5.8</td></tr><tr><td style="text-align: right">starling-lm:latest</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">9.9</td><td style="text-align: right">9.8</td><td style="text-align: right">55.5</td><td style="text-align: right">50.0</td><td style="text-align: right">58.0</td><td style="text-align: right">5.6</td></tr><tr><td style="text-align: right">magicoder</td><td style="text-align: right">InJulia</td><td style="text-align: right">11.0</td><td style="text-align: right">9.6</td><td style="text-align: right">60.8</td><td style="text-align: right">60.0</td><td style="text-align: right">57.0</td><td style="text-align: right">5.6</td></tr><tr><td style="text-align: right">codellama:34b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">6.4</td><td style="text-align: right">6.4</td><td style="text-align: right">34.8</td><td style="text-align: right">25.0</td><td style="text-align: right">70.0</td><td style="text-align: right">5.4</td></tr><tr><td style="text-align: right">magicoder</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">9.8</td><td style="text-align: right">8.7</td><td style="text-align: right">50.2</td><td style="text-align: right">50.0</td><td style="text-align: right">58.0</td><td style="text-align: right">5.1</td></tr><tr><td style="text-align: right">codellama:13b-instruct</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">10.4</td><td style="text-align: right">8.5</td><td style="text-align: right">51.1</td><td style="text-align: right">50.0</td><td style="text-align: right">58.0</td><td style="text-align: right">4.9</td></tr><tr><td style="text-align: right">mistral:7b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">7.7</td><td style="text-align: right">7.4</td><td style="text-align: right">37.3</td><td style="text-align: right">50.0</td><td style="text-align: right">57.0</td><td style="text-align: right">4.9</td></tr><tr><td style="text-align: right">openhermes2.5-mistral</td><td style="text-align: right">InJulia</td><td style="text-align: right">10.8</td><td style="text-align: right">9.8</td><td style="text-align: right">49.6</td><td style="text-align: right">50.0</td><td style="text-align: right">58.0</td><td style="text-align: right">4.6</td></tr><tr><td style="text-align: right">starling-lm:latest</td><td style="text-align: right">InJulia</td><td style="text-align: right">11.1</td><td style="text-align: right">11.1</td><td style="text-align: right">51.1</td><td style="text-align: right">50.0</td><td style="text-align: right">58.0</td><td style="text-align: right">4.6</td></tr><tr><td style="text-align: right">openchat:7b-v3.5-1210-q4<em>K</em>M</td><td style="text-align: right">InJulia</td><td style="text-align: right">11.9</td><td style="text-align: right">11.7</td><td style="text-align: right">50.9</td><td style="text-align: right">50.0</td><td style="text-align: right">55.0</td><td style="text-align: right">4.3</td></tr><tr><td style="text-align: right">magicoder:7b-s-cl-q6_K</td><td style="text-align: right">InJulia</td><td style="text-align: right">14.6</td><td style="text-align: right">15.3</td><td style="text-align: right">62.2</td><td style="text-align: right">55.0</td><td style="text-align: right">42.0</td><td style="text-align: right">4.3</td></tr><tr><td style="text-align: right">magicoder</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">13.4</td><td style="text-align: right">12.0</td><td style="text-align: right">56.6</td><td style="text-align: right">50.0</td><td style="text-align: right">57.0</td><td style="text-align: right">4.2</td></tr><tr><td style="text-align: right">magicoder</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">13.4</td><td style="text-align: right">10.9</td><td style="text-align: right">56.3</td><td style="text-align: right">50.0</td><td style="text-align: right">57.0</td><td style="text-align: right">4.2</td></tr><tr><td style="text-align: right">codellama:34b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">7.6</td><td style="text-align: right">6.2</td><td style="text-align: right">31.6</td><td style="text-align: right">0.0</td><td style="text-align: right">70.0</td><td style="text-align: right">4.2</td></tr><tr><td style="text-align: right">magicoder:7b-s-cl-q6_K</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">14.6</td><td style="text-align: right">14.7</td><td style="text-align: right">60.1</td><td style="text-align: right">58.1</td><td style="text-align: right">42.0</td><td style="text-align: right">4.1</td></tr><tr><td style="text-align: right">magicoder:7b-s-cl-q6_K</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">16.1</td><td style="text-align: right">16.5</td><td style="text-align: right">65.2</td><td style="text-align: right">60.0</td><td style="text-align: right">42.0</td><td style="text-align: right">4.1</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q6_K</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">10.0</td><td style="text-align: right">8.2</td><td style="text-align: right">39.8</td><td style="text-align: right">50.0</td><td style="text-align: right">42.0</td><td style="text-align: right">4.0</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q4_0</td><td style="text-align: right">InJulia</td><td style="text-align: right">12.1</td><td style="text-align: right">11.3</td><td style="text-align: right">47.4</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">3.9</td></tr><tr><td style="text-align: right">mistral:7b-instruct-q4<em>K</em>M</td><td style="text-align: right">InJulia</td><td style="text-align: right">10.3</td><td style="text-align: right">10.0</td><td style="text-align: right">37.3</td><td style="text-align: right">50.0</td><td style="text-align: right">57.0</td><td style="text-align: right">3.6</td></tr><tr><td style="text-align: right">magicoder:7b-s-cl-q6_K</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">16.9</td><td style="text-align: right">16.4</td><td style="text-align: right">59.4</td><td style="text-align: right">55.6</td><td style="text-align: right">42.0</td><td style="text-align: right">3.5</td></tr><tr><td style="text-align: right">openhermes2.5-mistral</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">15.0</td><td style="text-align: right">14.7</td><td style="text-align: right">51.3</td><td style="text-align: right">50.0</td><td style="text-align: right">58.0</td><td style="text-align: right">3.4</td></tr><tr><td style="text-align: right">magicoder:7b-s-cl-q6_K</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">16.0</td><td style="text-align: right">16.5</td><td style="text-align: right">52.8</td><td style="text-align: right">58.1</td><td style="text-align: right">42.0</td><td style="text-align: right">3.3</td></tr><tr><td style="text-align: right">starling-lm:latest</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">16.0</td><td style="text-align: right">13.6</td><td style="text-align: right">52.6</td><td style="text-align: right">50.0</td><td style="text-align: right">58.0</td><td style="text-align: right">3.3</td></tr><tr><td style="text-align: right">codellama:34b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">8.8</td><td style="text-align: right">7.4</td><td style="text-align: right">29.0</td><td style="text-align: right">12.5</td><td style="text-align: right">70.0</td><td style="text-align: right">3.3</td></tr><tr><td style="text-align: right">codellama:13b-instruct</td><td style="text-align: right">InJulia</td><td style="text-align: right">16.4</td><td style="text-align: right">14.7</td><td style="text-align: right">53.2</td><td style="text-align: right">50.0</td><td style="text-align: right">58.0</td><td style="text-align: right">3.2</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q4_0</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">13.2</td><td style="text-align: right">12.9</td><td style="text-align: right">42.8</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">3.2</td></tr><tr><td style="text-align: right">codellama:70b-instruct-q2_K</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">11.7</td><td style="text-align: right">9.5</td><td style="text-align: right">37.4</td><td style="text-align: right">25.0</td><td style="text-align: right">70.0</td><td style="text-align: right">3.2</td></tr><tr><td style="text-align: right">llama2</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">9.8</td><td style="text-align: right">9.1</td><td style="text-align: right">31.4</td><td style="text-align: right">50.0</td><td style="text-align: right">59.0</td><td style="text-align: right">3.2</td></tr><tr><td style="text-align: right">openhermes2.5-mistral</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">16.6</td><td style="text-align: right">16.0</td><td style="text-align: right">51.9</td><td style="text-align: right">50.0</td><td style="text-align: right">57.0</td><td style="text-align: right">3.1</td></tr><tr><td style="text-align: right">starling-lm:latest</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">14.8</td><td style="text-align: right">13.2</td><td style="text-align: right">46.1</td><td style="text-align: right">50.0</td><td style="text-align: right">58.0</td><td style="text-align: right">3.1</td></tr><tr><td style="text-align: right">openhermes2.5-mistral</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">13.3</td><td style="text-align: right">13.5</td><td style="text-align: right">40.9</td><td style="text-align: right">50.0</td><td style="text-align: right">58.0</td><td style="text-align: right">3.1</td></tr><tr><td style="text-align: right">openchat:7b-v3.5-1210-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">17.2</td><td style="text-align: right">15.8</td><td style="text-align: right">52.9</td><td style="text-align: right">50.0</td><td style="text-align: right">55.0</td><td style="text-align: right">3.1</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q4<em>K</em>M</td><td style="text-align: right">InJulia</td><td style="text-align: right">14.1</td><td style="text-align: right">13.9</td><td style="text-align: right">41.8</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">3.0</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q4_0</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">14.8</td><td style="text-align: right">14.2</td><td style="text-align: right">43.8</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">3.0</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q4_0</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">16.2</td><td style="text-align: right">15.4</td><td style="text-align: right">47.3</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">2.9</td></tr><tr><td style="text-align: right">openchat:7b-v3.5-1210-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">16.9</td><td style="text-align: right">15.7</td><td style="text-align: right">49.1</td><td style="text-align: right">50.0</td><td style="text-align: right">55.0</td><td style="text-align: right">2.9</td></tr><tr><td style="text-align: right">solar:10.7b-instruct-v1-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">13.0</td><td style="text-align: right">12.5</td><td style="text-align: right">36.9</td><td style="text-align: right">50.0</td><td style="text-align: right">57.0</td><td style="text-align: right">2.8</td></tr><tr><td style="text-align: right">codellama:70b-instruct-q2_K</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">9.1</td><td style="text-align: right">8.4</td><td style="text-align: right">25.5</td><td style="text-align: right">0.0</td><td style="text-align: right">70.0</td><td style="text-align: right">2.8</td></tr><tr><td style="text-align: right">magicoder</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">16.2</td><td style="text-align: right">15.1</td><td style="text-align: right">44.7</td><td style="text-align: right">37.5</td><td style="text-align: right">58.0</td><td style="text-align: right">2.8</td></tr><tr><td style="text-align: right">orca2:13b</td><td style="text-align: right">InJulia</td><td style="text-align: right">11.4</td><td style="text-align: right">10.5</td><td style="text-align: right">31.3</td><td style="text-align: right">25.0</td><td style="text-align: right">57.0</td><td style="text-align: right">2.7</td></tr><tr><td style="text-align: right">codellama:70b-instruct-q4<em>K</em>M</td><td style="text-align: right">InJulia</td><td style="text-align: right">16.5</td><td style="text-align: right">14.7</td><td style="text-align: right">43.9</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">2.7</td></tr><tr><td style="text-align: right">codellama:70b-instruct-q2_K</td><td style="text-align: right">InJulia</td><td style="text-align: right">13.0</td><td style="text-align: right">10.9</td><td style="text-align: right">34.6</td><td style="text-align: right">25.0</td><td style="text-align: right">70.0</td><td style="text-align: right">2.7</td></tr><tr><td style="text-align: right">solar:10.7b-instruct-v1-q4<em>K</em>M</td><td style="text-align: right">InJulia</td><td style="text-align: right">17.4</td><td style="text-align: right">15.7</td><td style="text-align: right">43.9</td><td style="text-align: right">50.0</td><td style="text-align: right">57.0</td><td style="text-align: right">2.5</td></tr><tr><td style="text-align: right">stablelm-zephyr</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">6.3</td><td style="text-align: right">6.6</td><td style="text-align: right">15.6</td><td style="text-align: right">0.0</td><td style="text-align: right">57.0</td><td style="text-align: right">2.5</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">16.4</td><td style="text-align: right">15.9</td><td style="text-align: right">40.5</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">2.5</td></tr><tr><td style="text-align: right">codellama:70b-instruct-q2_K</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">12.3</td><td style="text-align: right">9.7</td><td style="text-align: right">30.0</td><td style="text-align: right">0.0</td><td style="text-align: right">70.0</td><td style="text-align: right">2.4</td></tr><tr><td style="text-align: right">codellama:13b-instruct</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">21.9</td><td style="text-align: right">20.6</td><td style="text-align: right">53.0</td><td style="text-align: right">50.0</td><td style="text-align: right">58.0</td><td style="text-align: right">2.4</td></tr><tr><td style="text-align: right">gemma:7b-instruct-q6_K</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">10.5</td><td style="text-align: right">6.2</td><td style="text-align: right">25.3</td><td style="text-align: right">25.0</td><td style="text-align: right">70.0</td><td style="text-align: right">2.4</td></tr><tr><td style="text-align: right">dolphin-phi:2.7b-v2.6-q6_K</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">6.8</td><td style="text-align: right">6.3</td><td style="text-align: right">16.1</td><td style="text-align: right">0.0</td><td style="text-align: right">56.0</td><td style="text-align: right">2.4</td></tr><tr><td style="text-align: right">openchat:7b-v3.5-1210-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">18.2</td><td style="text-align: right">17.9</td><td style="text-align: right">43.1</td><td style="text-align: right">50.0</td><td style="text-align: right">55.0</td><td style="text-align: right">2.4</td></tr><tr><td style="text-align: right">codellama:70b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">17.9</td><td style="text-align: right">14.1</td><td style="text-align: right">42.4</td><td style="text-align: right">37.5</td><td style="text-align: right">70.0</td><td style="text-align: right">2.4</td></tr><tr><td style="text-align: right">phind-codellama:34b-v2</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">29.5</td><td style="text-align: right">27.7</td><td style="text-align: right">68.1</td><td style="text-align: right">66.7</td><td style="text-align: right">57.0</td><td style="text-align: right">2.3</td></tr><tr><td style="text-align: right">codellama:13b-instruct</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">21.7</td><td style="text-align: right">20.8</td><td style="text-align: right">48.5</td><td style="text-align: right">50.0</td><td style="text-align: right">58.0</td><td style="text-align: right">2.2</td></tr><tr><td style="text-align: right">codellama:13b-instruct</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">20.0</td><td style="text-align: right">19.3</td><td style="text-align: right">44.5</td><td style="text-align: right">50.0</td><td style="text-align: right">58.0</td><td style="text-align: right">2.2</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q6_K</td><td style="text-align: right">InJulia</td><td style="text-align: right">19.4</td><td style="text-align: right">17.1</td><td style="text-align: right">43.2</td><td style="text-align: right">50.0</td><td style="text-align: right">42.0</td><td style="text-align: right">2.2</td></tr><tr><td style="text-align: right">starling-lm:latest</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">16.6</td><td style="text-align: right">16.2</td><td style="text-align: right">36.8</td><td style="text-align: right">50.0</td><td style="text-align: right">58.0</td><td style="text-align: right">2.2</td></tr><tr><td style="text-align: right">codellama:70b-instruct-q2_K</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">9.8</td><td style="text-align: right">8.8</td><td style="text-align: right">21.3</td><td style="text-align: right">0.0</td><td style="text-align: right">70.0</td><td style="text-align: right">2.2</td></tr><tr><td style="text-align: right">mistral:7b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">16.3</td><td style="text-align: right">15.8</td><td style="text-align: right">35.0</td><td style="text-align: right">25.0</td><td style="text-align: right">57.0</td><td style="text-align: right">2.1</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">20.5</td><td style="text-align: right">18.7</td><td style="text-align: right">44.0</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">2.1</td></tr><tr><td style="text-align: right">codellama:70b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">16.7</td><td style="text-align: right">12.8</td><td style="text-align: right">35.2</td><td style="text-align: right">0.0</td><td style="text-align: right">70.0</td><td style="text-align: right">2.1</td></tr><tr><td style="text-align: right">codellama:70b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">14.8</td><td style="text-align: right">13.3</td><td style="text-align: right">30.8</td><td style="text-align: right">0.0</td><td style="text-align: right">70.0</td><td style="text-align: right">2.1</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">18.9</td><td style="text-align: right">17.9</td><td style="text-align: right">38.5</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">2.0</td></tr><tr><td style="text-align: right">yi:34b-chat</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">26.1</td><td style="text-align: right">22.8</td><td style="text-align: right">52.7</td><td style="text-align: right">52.5</td><td style="text-align: right">58.0</td><td style="text-align: right">2.0</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q6_K</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">23.8</td><td style="text-align: right">25.1</td><td style="text-align: right">47.5</td><td style="text-align: right">50.0</td><td style="text-align: right">42.0</td><td style="text-align: right">2.0</td></tr><tr><td style="text-align: right">mistral:7b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">16.7</td><td style="text-align: right">15.9</td><td style="text-align: right">33.0</td><td style="text-align: right">25.0</td><td style="text-align: right">55.0</td><td style="text-align: right">2.0</td></tr><tr><td style="text-align: right">codellama:70b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">15.7</td><td style="text-align: right">13.3</td><td style="text-align: right">29.9</td><td style="text-align: right">0.0</td><td style="text-align: right">70.0</td><td style="text-align: right">1.9</td></tr><tr><td style="text-align: right">solar:10.7b-instruct-v1-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">19.7</td><td style="text-align: right">19.1</td><td style="text-align: right">36.7</td><td style="text-align: right">50.0</td><td style="text-align: right">57.0</td><td style="text-align: right">1.9</td></tr><tr><td style="text-align: right">solar:10.7b-instruct-v1-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">21.3</td><td style="text-align: right">21.0</td><td style="text-align: right">38.9</td><td style="text-align: right">50.0</td><td style="text-align: right">57.0</td><td style="text-align: right">1.8</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q6_K</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">26.9</td><td style="text-align: right">24.7</td><td style="text-align: right">48.2</td><td style="text-align: right">50.0</td><td style="text-align: right">42.0</td><td style="text-align: right">1.8</td></tr><tr><td style="text-align: right">phind-codellama:34b-v2</td><td style="text-align: right">InJulia</td><td style="text-align: right">33.2</td><td style="text-align: right">34.3</td><td style="text-align: right">59.0</td><td style="text-align: right">61.2</td><td style="text-align: right">57.0</td><td style="text-align: right">1.8</td></tr><tr><td style="text-align: right">dolphin-phi:2.7b-v2.6-q6_K</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">9.5</td><td style="text-align: right">9.3</td><td style="text-align: right">16.3</td><td style="text-align: right">0.0</td><td style="text-align: right">56.0</td><td style="text-align: right">1.7</td></tr><tr><td style="text-align: right">llama2</td><td style="text-align: right">InJulia</td><td style="text-align: right">15.3</td><td style="text-align: right">13.9</td><td style="text-align: right">26.4</td><td style="text-align: right">25.0</td><td style="text-align: right">59.0</td><td style="text-align: right">1.7</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q6_K</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">28.3</td><td style="text-align: right">27.2</td><td style="text-align: right">48.6</td><td style="text-align: right">50.0</td><td style="text-align: right">42.0</td><td style="text-align: right">1.7</td></tr><tr><td style="text-align: right">mistral:7b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">18.7</td><td style="text-align: right">17.6</td><td style="text-align: right">31.5</td><td style="text-align: right">50.0</td><td style="text-align: right">55.0</td><td style="text-align: right">1.7</td></tr><tr><td style="text-align: right">phind-codellama:34b-v2</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">37.1</td><td style="text-align: right">36.9</td><td style="text-align: right">59.8</td><td style="text-align: right">61.2</td><td style="text-align: right">57.0</td><td style="text-align: right">1.6</td></tr><tr><td style="text-align: right">stablelm-zephyr</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">12.1</td><td style="text-align: right">8.3</td><td style="text-align: right">19.2</td><td style="text-align: right">0.0</td><td style="text-align: right">57.0</td><td style="text-align: right">1.6</td></tr><tr><td style="text-align: right">stablelm-zephyr</td><td style="text-align: right">InJulia</td><td style="text-align: right">8.5</td><td style="text-align: right">6.6</td><td style="text-align: right">13.3</td><td style="text-align: right">0.0</td><td style="text-align: right">57.0</td><td style="text-align: right">1.6</td></tr><tr><td style="text-align: right">phind-codellama:34b-v2</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">41.1</td><td style="text-align: right">40.6</td><td style="text-align: right">62.0</td><td style="text-align: right">61.2</td><td style="text-align: right">57.0</td><td style="text-align: right">1.5</td></tr><tr><td style="text-align: right">dolphin-phi:2.7b-v2.6-q6_K</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">8.1</td><td style="text-align: right">8.0</td><td style="text-align: right">12.2</td><td style="text-align: right">0.0</td><td style="text-align: right">56.0</td><td style="text-align: right">1.5</td></tr><tr><td style="text-align: right">dolphin-phi:2.7b-v2.6-q6_K</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">9.4</td><td style="text-align: right">8.9</td><td style="text-align: right">14.1</td><td style="text-align: right">0.0</td><td style="text-align: right">56.0</td><td style="text-align: right">1.5</td></tr><tr><td style="text-align: right">orca2:13b</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">11.0</td><td style="text-align: right">9.2</td><td style="text-align: right">16.5</td><td style="text-align: right">0.0</td><td style="text-align: right">57.0</td><td style="text-align: right">1.5</td></tr><tr><td style="text-align: right">dolphin-phi:2.7b-v2.6-q6_K</td><td style="text-align: right">InJulia</td><td style="text-align: right">10.6</td><td style="text-align: right">9.4</td><td style="text-align: right">15.6</td><td style="text-align: right">0.0</td><td style="text-align: right">56.0</td><td style="text-align: right">1.5</td></tr><tr><td style="text-align: right">stablelm-zephyr</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">11.4</td><td style="text-align: right">8.8</td><td style="text-align: right">16.5</td><td style="text-align: right">0.0</td><td style="text-align: right">57.0</td><td style="text-align: right">1.4</td></tr><tr><td style="text-align: right">llama2</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">18.9</td><td style="text-align: right">17.3</td><td style="text-align: right">27.2</td><td style="text-align: right">25.0</td><td style="text-align: right">59.0</td><td style="text-align: right">1.4</td></tr><tr><td style="text-align: right">gemma:7b-instruct-q6_K</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">25.7</td><td style="text-align: right">25.0</td><td style="text-align: right">34.9</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">1.4</td></tr><tr><td style="text-align: right">phind-codellama:34b-v2</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">44.6</td><td style="text-align: right">46.5</td><td style="text-align: right">60.1</td><td style="text-align: right">66.7</td><td style="text-align: right">57.0</td><td style="text-align: right">1.3</td></tr><tr><td style="text-align: right">codellama:13b-python</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">9.5</td><td style="text-align: right">6.4</td><td style="text-align: right">12.4</td><td style="text-align: right">0.0</td><td style="text-align: right">42.0</td><td style="text-align: right">1.3</td></tr><tr><td style="text-align: right">llama2</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">19.3</td><td style="text-align: right">19.2</td><td style="text-align: right">25.0</td><td style="text-align: right">25.0</td><td style="text-align: right">59.0</td><td style="text-align: right">1.3</td></tr><tr><td style="text-align: right">codellama:13b-python</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">10.4</td><td style="text-align: right">7.9</td><td style="text-align: right">13.3</td><td style="text-align: right">0.0</td><td style="text-align: right">44.0</td><td style="text-align: right">1.3</td></tr><tr><td style="text-align: right">nous-hermes2:34b-yi-q4<em>K</em>M</td><td style="text-align: right">InJulia</td><td style="text-align: right">52.0</td><td style="text-align: right">45.5</td><td style="text-align: right">61.8</td><td style="text-align: right">60.0</td><td style="text-align: right">67.0</td><td style="text-align: right">1.2</td></tr><tr><td style="text-align: right">gemma:7b-instruct-q6_K</td><td style="text-align: right">InJulia</td><td style="text-align: right">19.7</td><td style="text-align: right">20.3</td><td style="text-align: right">22.6</td><td style="text-align: right">25.0</td><td style="text-align: right">70.0</td><td style="text-align: right">1.1</td></tr><tr><td style="text-align: right">gemma:7b-instruct-q6_K</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">24.8</td><td style="text-align: right">23.6</td><td style="text-align: right">26.9</td><td style="text-align: right">25.0</td><td style="text-align: right">70.0</td><td style="text-align: right">1.1</td></tr><tr><td style="text-align: right">phi:2.7b-chat-v2-q6_K</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">9.3</td><td style="text-align: right">5.7</td><td style="text-align: right">9.9</td><td style="text-align: right">0.0</td><td style="text-align: right">55.0</td><td style="text-align: right">1.1</td></tr><tr><td style="text-align: right">stablelm-zephyr</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">11.4</td><td style="text-align: right">9.6</td><td style="text-align: right">12.2</td><td style="text-align: right">0.0</td><td style="text-align: right">57.0</td><td style="text-align: right">1.1</td></tr><tr><td style="text-align: right">nous-hermes2:34b-yi-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">35.9</td><td style="text-align: right">32.9</td><td style="text-align: right">37.4</td><td style="text-align: right">50.0</td><td style="text-align: right">67.0</td><td style="text-align: right">1.0</td></tr><tr><td style="text-align: right">codellama:13b-python</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">12.8</td><td style="text-align: right">12.9</td><td style="text-align: right">13.3</td><td style="text-align: right">0.0</td><td style="text-align: right">43.0</td><td style="text-align: right">1.0</td></tr><tr><td style="text-align: right">llama2</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">22.1</td><td style="text-align: right">22.2</td><td style="text-align: right">22.4</td><td style="text-align: right">0.0</td><td style="text-align: right">59.0</td><td style="text-align: right">1.0</td></tr><tr><td style="text-align: right">orca2:13b</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">23.9</td><td style="text-align: right">23.1</td><td style="text-align: right">24.2</td><td style="text-align: right">0.0</td><td style="text-align: right">57.0</td><td style="text-align: right">1.0</td></tr><tr><td style="text-align: right">yi:34b-chat</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">50.8</td><td style="text-align: right">48.8</td><td style="text-align: right">47.6</td><td style="text-align: right">50.0</td><td style="text-align: right">58.0</td><td style="text-align: right">0.9</td></tr><tr><td style="text-align: right">yi:34b-chat</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">42.1</td><td style="text-align: right">40.6</td><td style="text-align: right">39.2</td><td style="text-align: right">25.0</td><td style="text-align: right">58.0</td><td style="text-align: right">0.9</td></tr><tr><td style="text-align: right">yi:34b-chat</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">49.5</td><td style="text-align: right">45.6</td><td style="text-align: right">44.0</td><td style="text-align: right">50.0</td><td style="text-align: right">57.0</td><td style="text-align: right">0.9</td></tr><tr><td style="text-align: right">solar:10.7b-instruct-v1-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">22.5</td><td style="text-align: right">22.4</td><td style="text-align: right">19.7</td><td style="text-align: right">0.0</td><td style="text-align: right">58.0</td><td style="text-align: right">0.9</td></tr><tr><td style="text-align: right">yi:34b-chat</td><td style="text-align: right">InJulia</td><td style="text-align: right">51.1</td><td style="text-align: right">48.6</td><td style="text-align: right">44.5</td><td style="text-align: right">50.0</td><td style="text-align: right">58.0</td><td style="text-align: right">0.9</td></tr><tr><td style="text-align: right">codellama:13b-python</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">16.3</td><td style="text-align: right">10.9</td><td style="text-align: right">13.9</td><td style="text-align: right">0.0</td><td style="text-align: right">43.0</td><td style="text-align: right">0.9</td></tr><tr><td style="text-align: right">nous-hermes2:34b-yi-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">67.6</td><td style="text-align: right">61.9</td><td style="text-align: right">56.6</td><td style="text-align: right">50.0</td><td style="text-align: right">65.0</td><td style="text-align: right">0.8</td></tr><tr><td style="text-align: right">gemma:7b-instruct-q6_K</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">23.8</td><td style="text-align: right">23.3</td><td style="text-align: right">19.9</td><td style="text-align: right">25.0</td><td style="text-align: right">70.0</td><td style="text-align: right">0.8</td></tr><tr><td style="text-align: right">phi:2.7b-chat-v2-q6_K</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">12.1</td><td style="text-align: right">10.8</td><td style="text-align: right">9.9</td><td style="text-align: right">0.0</td><td style="text-align: right">55.0</td><td style="text-align: right">0.8</td></tr><tr><td style="text-align: right">codellama:13b-python</td><td style="text-align: right">InJulia</td><td style="text-align: right">13.7</td><td style="text-align: right">12.5</td><td style="text-align: right">11.0</td><td style="text-align: right">0.0</td><td style="text-align: right">44.0</td><td style="text-align: right">0.8</td></tr><tr><td style="text-align: right">orca2:13b</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">26.7</td><td style="text-align: right">25.4</td><td style="text-align: right">21.5</td><td style="text-align: right">0.0</td><td style="text-align: right">57.0</td><td style="text-align: right">0.8</td></tr><tr><td style="text-align: right">phi:2.7b-chat-v2-q6_K</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">13.6</td><td style="text-align: right">12.9</td><td style="text-align: right">10.8</td><td style="text-align: right">0.0</td><td style="text-align: right">55.0</td><td style="text-align: right">0.8</td></tr><tr><td style="text-align: right">orca2:13b</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">27.5</td><td style="text-align: right">24.8</td><td style="text-align: right">21.9</td><td style="text-align: right">0.0</td><td style="text-align: right">57.0</td><td style="text-align: right">0.8</td></tr><tr><td style="text-align: right">nous-hermes2:34b-yi-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">58.5</td><td style="text-align: right">60.0</td><td style="text-align: right">46.1</td><td style="text-align: right">50.0</td><td style="text-align: right">65.0</td><td style="text-align: right">0.8</td></tr><tr><td style="text-align: right">nous-hermes2:34b-yi-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">70.4</td><td style="text-align: right">65.5</td><td style="text-align: right">51.4</td><td style="text-align: right">55.0</td><td style="text-align: right">67.0</td><td style="text-align: right">0.7</td></tr><tr><td style="text-align: right">phi:2.7b-chat-v2-q6_K</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">14.6</td><td style="text-align: right">13.4</td><td style="text-align: right">8.1</td><td style="text-align: right">0.0</td><td style="text-align: right">55.0</td><td style="text-align: right">0.6</td></tr><tr><td style="text-align: right">phi:2.7b-chat-v2-q6_K</td><td style="text-align: right">InJulia</td><td style="text-align: right">15.7</td><td style="text-align: right">17.8</td><td style="text-align: right">6.0</td><td style="text-align: right">0.0</td><td style="text-align: right">55.0</td><td style="text-align: right">0.4</td></tr></table><hr/><p><em>This page was generated using <a href="https://github.com/fredrikekre/Literate.jl">Literate.jl</a>.</em></p></article><nav class="docs-footer"><a class="docs-footer-prevpage" href="../summarize_results_paid/">« Paid APIs</a><a class="docs-footer-nextpage" href="../compare_paid_vs_local/">Paid vs Local Models »</a><div class="flexbox-break"></div><p class="footer-message">Powered by <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> and the <a href="https://julialang.org/">Julia Programming Language</a>.</p></nav></div><div class="modal" id="documenter-settings"><div class="modal-background"></div><div class="modal-card"><header class="modal-card-head"><p class="modal-card-title">Settings</p><button class="delete"></button></header><section class="modal-card-body"><p><label class="label">Theme</label><div class="select"><select id="documenter-themepicker"><option value="auto">Automatic (OS)</option><option value="documenter-light">documenter-light</option><option value="documenter-dark">documenter-dark</option><option value="catppuccin-latte">catppuccin-latte</option><option value="catppuccin-frappe">catppuccin-frappe</option><option value="catppuccin-macchiato">catppuccin-macchiato</option><option value="catppuccin-mocha">catppuccin-mocha</option></select></div></p><hr/><p>This document was generated with <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> version 1.5.0 on <span class="colophon-date" title="Wednesday 7 August 2024 08:36">Wednesday 7 August 2024</span>. Using Julia version 1.10.4.</p></section><footer class="modal-card-foot"></footer></div></div></div></body></html>
+markdown_table(output)</code></pre><table><tr><th style="text-align: right">Model</th><th style="text-align: right">Prompt Label</th><th style="text-align: right">Elapsed</th><th style="text-align: right">Elapsed Median</th><th style="text-align: right">Score Avg</th><th style="text-align: right">Score Median</th><th style="text-align: right">Cnt</th><th style="text-align: right">Point Per Second</th></tr><tr><td style="text-align: right">codellama:13b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">2.0</td><td style="text-align: right">1.9</td><td style="text-align: right">63.4</td><td style="text-align: right">75.0</td><td style="text-align: right">70.0</td><td style="text-align: right">32.1</td></tr><tr><td style="text-align: right">codellama:7b-instruct-q4<em>K</em>M</td><td style="text-align: right">InJulia</td><td style="text-align: right">2.0</td><td style="text-align: right">2.0</td><td style="text-align: right">57.7</td><td style="text-align: right">55.0</td><td style="text-align: right">70.0</td><td style="text-align: right">29.1</td></tr><tr><td style="text-align: right">codellama:7b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">1.2</td><td style="text-align: right">0.9</td><td style="text-align: right">33.1</td><td style="text-align: right">0.0</td><td style="text-align: right">70.0</td><td style="text-align: right">26.5</td></tr><tr><td style="text-align: right">codellama:7b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">2.6</td><td style="text-align: right">2.5</td><td style="text-align: right">60.4</td><td style="text-align: right">60.0</td><td style="text-align: right">70.0</td><td style="text-align: right">23.3</td></tr><tr><td style="text-align: right">codellama:7b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">1.6</td><td style="text-align: right">1.4</td><td style="text-align: right">32.6</td><td style="text-align: right">0.0</td><td style="text-align: right">70.0</td><td style="text-align: right">20.6</td></tr><tr><td style="text-align: right">codellama:13b-instruct-q4<em>K</em>M</td><td style="text-align: right">InJulia</td><td style="text-align: right">3.6</td><td style="text-align: right">3.4</td><td style="text-align: right">67.6</td><td style="text-align: right">61.2</td><td style="text-align: right">70.0</td><td style="text-align: right">18.7</td></tr><tr><td style="text-align: right">codellama:7b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">3.0</td><td style="text-align: right">2.7</td><td style="text-align: right">55.4</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">18.3</td></tr><tr><td style="text-align: right">codellama:13b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">2.7</td><td style="text-align: right">2.3</td><td style="text-align: right">42.8</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">15.9</td></tr><tr><td style="text-align: right">codellama:13b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">3.9</td><td style="text-align: right">3.6</td><td style="text-align: right">55.8</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">14.2</td></tr><tr><td style="text-align: right">codellama:13b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">3.9</td><td style="text-align: right">4.1</td><td style="text-align: right">52.5</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">13.5</td></tr><tr><td style="text-align: right">codellama:34b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">6.3</td><td style="text-align: right">5.8</td><td style="text-align: right">53.0</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">8.4</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q4_0</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">5.8</td><td style="text-align: right">5.6</td><td style="text-align: right">40.3</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">6.9</td></tr><tr><td style="text-align: right">openchat:7b-v3.5-1210-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">7.8</td><td style="text-align: right">6.9</td><td style="text-align: right">51.0</td><td style="text-align: right">50.0</td><td style="text-align: right">55.0</td><td style="text-align: right">6.5</td></tr><tr><td style="text-align: right">codellama:34b-instruct-q4<em>K</em>M</td><td style="text-align: right">InJulia</td><td style="text-align: right">8.1</td><td style="text-align: right">7.9</td><td style="text-align: right">50.1</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">6.2</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">8.1</td><td style="text-align: right">6.9</td><td style="text-align: right">48.4</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">6.0</td></tr><tr><td style="text-align: right">openhermes2.5-mistral</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">8.7</td><td style="text-align: right">8.9</td><td style="text-align: right">50.7</td><td style="text-align: right">52.5</td><td style="text-align: right">58.0</td><td style="text-align: right">5.8</td></tr><tr><td style="text-align: right">starling-lm:latest</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">9.9</td><td style="text-align: right">9.8</td><td style="text-align: right">55.5</td><td style="text-align: right">50.0</td><td style="text-align: right">58.0</td><td style="text-align: right">5.6</td></tr><tr><td style="text-align: right">magicoder</td><td style="text-align: right">InJulia</td><td style="text-align: right">11.0</td><td style="text-align: right">9.6</td><td style="text-align: right">60.8</td><td style="text-align: right">60.0</td><td style="text-align: right">57.0</td><td style="text-align: right">5.6</td></tr><tr><td style="text-align: right">codellama:34b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">6.4</td><td style="text-align: right">6.4</td><td style="text-align: right">34.8</td><td style="text-align: right">25.0</td><td style="text-align: right">70.0</td><td style="text-align: right">5.4</td></tr><tr><td style="text-align: right">magicoder</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">9.8</td><td style="text-align: right">8.7</td><td style="text-align: right">50.2</td><td style="text-align: right">50.0</td><td style="text-align: right">58.0</td><td style="text-align: right">5.1</td></tr><tr><td style="text-align: right">codellama:13b-instruct</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">10.4</td><td style="text-align: right">8.5</td><td style="text-align: right">51.1</td><td style="text-align: right">50.0</td><td style="text-align: right">58.0</td><td style="text-align: right">4.9</td></tr><tr><td style="text-align: right">mistral:7b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">7.7</td><td style="text-align: right">7.4</td><td style="text-align: right">37.3</td><td style="text-align: right">50.0</td><td style="text-align: right">57.0</td><td style="text-align: right">4.9</td></tr><tr><td style="text-align: right">openhermes2.5-mistral</td><td style="text-align: right">InJulia</td><td style="text-align: right">10.8</td><td style="text-align: right">9.8</td><td style="text-align: right">49.6</td><td style="text-align: right">50.0</td><td style="text-align: right">58.0</td><td style="text-align: right">4.6</td></tr><tr><td style="text-align: right">starling-lm:latest</td><td style="text-align: right">InJulia</td><td style="text-align: right">11.1</td><td style="text-align: right">11.1</td><td style="text-align: right">51.1</td><td style="text-align: right">50.0</td><td style="text-align: right">58.0</td><td style="text-align: right">4.6</td></tr><tr><td style="text-align: right">openchat:7b-v3.5-1210-q4<em>K</em>M</td><td style="text-align: right">InJulia</td><td style="text-align: right">11.9</td><td style="text-align: right">11.7</td><td style="text-align: right">50.9</td><td style="text-align: right">50.0</td><td style="text-align: right">55.0</td><td style="text-align: right">4.3</td></tr><tr><td style="text-align: right">magicoder:7b-s-cl-q6_K</td><td style="text-align: right">InJulia</td><td style="text-align: right">14.6</td><td style="text-align: right">15.3</td><td style="text-align: right">62.2</td><td style="text-align: right">55.0</td><td style="text-align: right">42.0</td><td style="text-align: right">4.3</td></tr><tr><td style="text-align: right">magicoder</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">13.4</td><td style="text-align: right">12.0</td><td style="text-align: right">56.6</td><td style="text-align: right">50.0</td><td style="text-align: right">57.0</td><td style="text-align: right">4.2</td></tr><tr><td style="text-align: right">magicoder</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">13.4</td><td style="text-align: right">10.9</td><td style="text-align: right">56.3</td><td style="text-align: right">50.0</td><td style="text-align: right">57.0</td><td style="text-align: right">4.2</td></tr><tr><td style="text-align: right">codellama:34b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">7.6</td><td style="text-align: right">6.2</td><td style="text-align: right">31.6</td><td style="text-align: right">0.0</td><td style="text-align: right">70.0</td><td style="text-align: right">4.2</td></tr><tr><td style="text-align: right">magicoder:7b-s-cl-q6_K</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">14.6</td><td style="text-align: right">14.7</td><td style="text-align: right">60.1</td><td style="text-align: right">58.1</td><td style="text-align: right">42.0</td><td style="text-align: right">4.1</td></tr><tr><td style="text-align: right">magicoder:7b-s-cl-q6_K</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">16.1</td><td style="text-align: right">16.5</td><td style="text-align: right">65.2</td><td style="text-align: right">60.0</td><td style="text-align: right">42.0</td><td style="text-align: right">4.1</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q6_K</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">10.0</td><td style="text-align: right">8.2</td><td style="text-align: right">39.8</td><td style="text-align: right">50.0</td><td style="text-align: right">42.0</td><td style="text-align: right">4.0</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q4_0</td><td style="text-align: right">InJulia</td><td style="text-align: right">12.1</td><td style="text-align: right">11.3</td><td style="text-align: right">47.4</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">3.9</td></tr><tr><td style="text-align: right">mistral:7b-instruct-q4<em>K</em>M</td><td style="text-align: right">InJulia</td><td style="text-align: right">10.3</td><td style="text-align: right">10.0</td><td style="text-align: right">37.3</td><td style="text-align: right">50.0</td><td style="text-align: right">57.0</td><td style="text-align: right">3.6</td></tr><tr><td style="text-align: right">magicoder:7b-s-cl-q6_K</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">16.9</td><td style="text-align: right">16.4</td><td style="text-align: right">59.4</td><td style="text-align: right">55.6</td><td style="text-align: right">42.0</td><td style="text-align: right">3.5</td></tr><tr><td style="text-align: right">openhermes2.5-mistral</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">15.0</td><td style="text-align: right">14.7</td><td style="text-align: right">51.3</td><td style="text-align: right">50.0</td><td style="text-align: right">58.0</td><td style="text-align: right">3.4</td></tr><tr><td style="text-align: right">magicoder:7b-s-cl-q6_K</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">16.0</td><td style="text-align: right">16.5</td><td style="text-align: right">52.8</td><td style="text-align: right">58.1</td><td style="text-align: right">42.0</td><td style="text-align: right">3.3</td></tr><tr><td style="text-align: right">starling-lm:latest</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">16.0</td><td style="text-align: right">13.6</td><td style="text-align: right">52.6</td><td style="text-align: right">50.0</td><td style="text-align: right">58.0</td><td style="text-align: right">3.3</td></tr><tr><td style="text-align: right">codellama:34b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">8.8</td><td style="text-align: right">7.4</td><td style="text-align: right">29.0</td><td style="text-align: right">12.5</td><td style="text-align: right">70.0</td><td style="text-align: right">3.3</td></tr><tr><td style="text-align: right">codellama:13b-instruct</td><td style="text-align: right">InJulia</td><td style="text-align: right">16.4</td><td style="text-align: right">14.7</td><td style="text-align: right">53.2</td><td style="text-align: right">50.0</td><td style="text-align: right">58.0</td><td style="text-align: right">3.2</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q4_0</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">13.2</td><td style="text-align: right">12.9</td><td style="text-align: right">42.8</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">3.2</td></tr><tr><td style="text-align: right">codellama:70b-instruct-q2_K</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">11.7</td><td style="text-align: right">9.5</td><td style="text-align: right">37.4</td><td style="text-align: right">25.0</td><td style="text-align: right">70.0</td><td style="text-align: right">3.2</td></tr><tr><td style="text-align: right">llama2</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">9.8</td><td style="text-align: right">9.1</td><td style="text-align: right">31.4</td><td style="text-align: right">50.0</td><td style="text-align: right">59.0</td><td style="text-align: right">3.2</td></tr><tr><td style="text-align: right">openhermes2.5-mistral</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">16.6</td><td style="text-align: right">16.0</td><td style="text-align: right">51.9</td><td style="text-align: right">50.0</td><td style="text-align: right">57.0</td><td style="text-align: right">3.1</td></tr><tr><td style="text-align: right">starling-lm:latest</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">14.8</td><td style="text-align: right">13.2</td><td style="text-align: right">46.1</td><td style="text-align: right">50.0</td><td style="text-align: right">58.0</td><td style="text-align: right">3.1</td></tr><tr><td style="text-align: right">openhermes2.5-mistral</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">13.3</td><td style="text-align: right">13.5</td><td style="text-align: right">40.9</td><td style="text-align: right">50.0</td><td style="text-align: right">58.0</td><td style="text-align: right">3.1</td></tr><tr><td style="text-align: right">openchat:7b-v3.5-1210-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">17.2</td><td style="text-align: right">15.8</td><td style="text-align: right">52.9</td><td style="text-align: right">50.0</td><td style="text-align: right">55.0</td><td style="text-align: right">3.1</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q4<em>K</em>M</td><td style="text-align: right">InJulia</td><td style="text-align: right">14.1</td><td style="text-align: right">13.9</td><td style="text-align: right">41.8</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">3.0</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q4_0</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">14.8</td><td style="text-align: right">14.2</td><td style="text-align: right">43.8</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">3.0</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q4_0</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">16.2</td><td style="text-align: right">15.4</td><td style="text-align: right">47.3</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">2.9</td></tr><tr><td style="text-align: right">openchat:7b-v3.5-1210-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">16.9</td><td style="text-align: right">15.7</td><td style="text-align: right">49.1</td><td style="text-align: right">50.0</td><td style="text-align: right">55.0</td><td style="text-align: right">2.9</td></tr><tr><td style="text-align: right">solar:10.7b-instruct-v1-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">13.0</td><td style="text-align: right">12.5</td><td style="text-align: right">36.9</td><td style="text-align: right">50.0</td><td style="text-align: right">57.0</td><td style="text-align: right">2.8</td></tr><tr><td style="text-align: right">codellama:70b-instruct-q2_K</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">9.1</td><td style="text-align: right">8.4</td><td style="text-align: right">25.5</td><td style="text-align: right">0.0</td><td style="text-align: right">70.0</td><td style="text-align: right">2.8</td></tr><tr><td style="text-align: right">magicoder</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">16.2</td><td style="text-align: right">15.1</td><td style="text-align: right">44.7</td><td style="text-align: right">37.5</td><td style="text-align: right">58.0</td><td style="text-align: right">2.8</td></tr><tr><td style="text-align: right">orca2:13b</td><td style="text-align: right">InJulia</td><td style="text-align: right">11.4</td><td style="text-align: right">10.5</td><td style="text-align: right">31.3</td><td style="text-align: right">25.0</td><td style="text-align: right">57.0</td><td style="text-align: right">2.7</td></tr><tr><td style="text-align: right">codellama:70b-instruct-q4<em>K</em>M</td><td style="text-align: right">InJulia</td><td style="text-align: right">16.5</td><td style="text-align: right">14.7</td><td style="text-align: right">43.9</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">2.7</td></tr><tr><td style="text-align: right">codellama:70b-instruct-q2_K</td><td style="text-align: right">InJulia</td><td style="text-align: right">13.0</td><td style="text-align: right">10.9</td><td style="text-align: right">34.6</td><td style="text-align: right">25.0</td><td style="text-align: right">70.0</td><td style="text-align: right">2.7</td></tr><tr><td style="text-align: right">solar:10.7b-instruct-v1-q4<em>K</em>M</td><td style="text-align: right">InJulia</td><td style="text-align: right">17.4</td><td style="text-align: right">15.7</td><td style="text-align: right">43.9</td><td style="text-align: right">50.0</td><td style="text-align: right">57.0</td><td style="text-align: right">2.5</td></tr><tr><td style="text-align: right">stablelm-zephyr</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">6.3</td><td style="text-align: right">6.6</td><td style="text-align: right">15.6</td><td style="text-align: right">0.0</td><td style="text-align: right">57.0</td><td style="text-align: right">2.5</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">16.4</td><td style="text-align: right">15.9</td><td style="text-align: right">40.5</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">2.5</td></tr><tr><td style="text-align: right">codellama:70b-instruct-q2_K</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">12.3</td><td style="text-align: right">9.7</td><td style="text-align: right">30.0</td><td style="text-align: right">0.0</td><td style="text-align: right">70.0</td><td style="text-align: right">2.4</td></tr><tr><td style="text-align: right">codellama:13b-instruct</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">21.9</td><td style="text-align: right">20.6</td><td style="text-align: right">53.0</td><td style="text-align: right">50.0</td><td style="text-align: right">58.0</td><td style="text-align: right">2.4</td></tr><tr><td style="text-align: right">gemma:7b-instruct-q6_K</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">10.5</td><td style="text-align: right">6.2</td><td style="text-align: right">25.3</td><td style="text-align: right">25.0</td><td style="text-align: right">70.0</td><td style="text-align: right">2.4</td></tr><tr><td style="text-align: right">dolphin-phi:2.7b-v2.6-q6_K</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">6.8</td><td style="text-align: right">6.3</td><td style="text-align: right">16.1</td><td style="text-align: right">0.0</td><td style="text-align: right">56.0</td><td style="text-align: right">2.4</td></tr><tr><td style="text-align: right">openchat:7b-v3.5-1210-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">18.2</td><td style="text-align: right">17.9</td><td style="text-align: right">43.1</td><td style="text-align: right">50.0</td><td style="text-align: right">55.0</td><td style="text-align: right">2.4</td></tr><tr><td style="text-align: right">codellama:70b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">17.9</td><td style="text-align: right">14.1</td><td style="text-align: right">42.4</td><td style="text-align: right">37.5</td><td style="text-align: right">70.0</td><td style="text-align: right">2.4</td></tr><tr><td style="text-align: right">phind-codellama:34b-v2</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">29.5</td><td style="text-align: right">27.7</td><td style="text-align: right">68.1</td><td style="text-align: right">66.7</td><td style="text-align: right">57.0</td><td style="text-align: right">2.3</td></tr><tr><td style="text-align: right">codellama:13b-instruct</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">21.7</td><td style="text-align: right">20.8</td><td style="text-align: right">48.5</td><td style="text-align: right">50.0</td><td style="text-align: right">58.0</td><td style="text-align: right">2.2</td></tr><tr><td style="text-align: right">codellama:13b-instruct</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">20.0</td><td style="text-align: right">19.3</td><td style="text-align: right">44.5</td><td style="text-align: right">50.0</td><td style="text-align: right">58.0</td><td style="text-align: right">2.2</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q6_K</td><td style="text-align: right">InJulia</td><td style="text-align: right">19.4</td><td style="text-align: right">17.1</td><td style="text-align: right">43.2</td><td style="text-align: right">50.0</td><td style="text-align: right">42.0</td><td style="text-align: right">2.2</td></tr><tr><td style="text-align: right">starling-lm:latest</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">16.6</td><td style="text-align: right">16.2</td><td style="text-align: right">36.8</td><td style="text-align: right">50.0</td><td style="text-align: right">58.0</td><td style="text-align: right">2.2</td></tr><tr><td style="text-align: right">codellama:70b-instruct-q2_K</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">9.8</td><td style="text-align: right">8.8</td><td style="text-align: right">21.3</td><td style="text-align: right">0.0</td><td style="text-align: right">70.0</td><td style="text-align: right">2.2</td></tr><tr><td style="text-align: right">mistral:7b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">16.3</td><td style="text-align: right">15.8</td><td style="text-align: right">35.0</td><td style="text-align: right">25.0</td><td style="text-align: right">57.0</td><td style="text-align: right">2.1</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">20.5</td><td style="text-align: right">18.7</td><td style="text-align: right">44.0</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">2.1</td></tr><tr><td style="text-align: right">codellama:70b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">16.7</td><td style="text-align: right">12.8</td><td style="text-align: right">35.2</td><td style="text-align: right">0.0</td><td style="text-align: right">70.0</td><td style="text-align: right">2.1</td></tr><tr><td style="text-align: right">codellama:70b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">14.8</td><td style="text-align: right">13.3</td><td style="text-align: right">30.8</td><td style="text-align: right">0.0</td><td style="text-align: right">70.0</td><td style="text-align: right">2.1</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">18.9</td><td style="text-align: right">17.9</td><td style="text-align: right">38.5</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">2.0</td></tr><tr><td style="text-align: right">yi:34b-chat</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">26.1</td><td style="text-align: right">22.8</td><td style="text-align: right">52.7</td><td style="text-align: right">52.5</td><td style="text-align: right">58.0</td><td style="text-align: right">2.0</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q6_K</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">23.8</td><td style="text-align: right">25.1</td><td style="text-align: right">47.5</td><td style="text-align: right">50.0</td><td style="text-align: right">42.0</td><td style="text-align: right">2.0</td></tr><tr><td style="text-align: right">mistral:7b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">16.7</td><td style="text-align: right">15.9</td><td style="text-align: right">33.0</td><td style="text-align: right">25.0</td><td style="text-align: right">55.0</td><td style="text-align: right">2.0</td></tr><tr><td style="text-align: right">codellama:70b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">15.7</td><td style="text-align: right">13.3</td><td style="text-align: right">29.9</td><td style="text-align: right">0.0</td><td style="text-align: right">70.0</td><td style="text-align: right">1.9</td></tr><tr><td style="text-align: right">solar:10.7b-instruct-v1-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">19.7</td><td style="text-align: right">19.1</td><td style="text-align: right">36.7</td><td style="text-align: right">50.0</td><td style="text-align: right">57.0</td><td style="text-align: right">1.9</td></tr><tr><td style="text-align: right">solar:10.7b-instruct-v1-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">21.3</td><td style="text-align: right">21.0</td><td style="text-align: right">38.9</td><td style="text-align: right">50.0</td><td style="text-align: right">57.0</td><td style="text-align: right">1.8</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q6_K</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">26.9</td><td style="text-align: right">24.7</td><td style="text-align: right">48.2</td><td style="text-align: right">50.0</td><td style="text-align: right">42.0</td><td style="text-align: right">1.8</td></tr><tr><td style="text-align: right">phind-codellama:34b-v2</td><td style="text-align: right">InJulia</td><td style="text-align: right">33.2</td><td style="text-align: right">34.3</td><td style="text-align: right">59.0</td><td style="text-align: right">61.2</td><td style="text-align: right">57.0</td><td style="text-align: right">1.8</td></tr><tr><td style="text-align: right">dolphin-phi:2.7b-v2.6-q6_K</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">9.5</td><td style="text-align: right">9.3</td><td style="text-align: right">16.3</td><td style="text-align: right">0.0</td><td style="text-align: right">56.0</td><td style="text-align: right">1.7</td></tr><tr><td style="text-align: right">llama2</td><td style="text-align: right">InJulia</td><td style="text-align: right">15.3</td><td style="text-align: right">13.9</td><td style="text-align: right">26.4</td><td style="text-align: right">25.0</td><td style="text-align: right">59.0</td><td style="text-align: right">1.7</td></tr><tr><td style="text-align: right">mistral:7b-instruct-v0.2-q6_K</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">28.3</td><td style="text-align: right">27.2</td><td style="text-align: right">48.6</td><td style="text-align: right">50.0</td><td style="text-align: right">42.0</td><td style="text-align: right">1.7</td></tr><tr><td style="text-align: right">mistral:7b-instruct-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">18.7</td><td style="text-align: right">17.6</td><td style="text-align: right">31.5</td><td style="text-align: right">50.0</td><td style="text-align: right">55.0</td><td style="text-align: right">1.7</td></tr><tr><td style="text-align: right">phind-codellama:34b-v2</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">37.1</td><td style="text-align: right">36.9</td><td style="text-align: right">59.8</td><td style="text-align: right">61.2</td><td style="text-align: right">57.0</td><td style="text-align: right">1.6</td></tr><tr><td style="text-align: right">stablelm-zephyr</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">12.1</td><td style="text-align: right">8.3</td><td style="text-align: right">19.2</td><td style="text-align: right">0.0</td><td style="text-align: right">57.0</td><td style="text-align: right">1.6</td></tr><tr><td style="text-align: right">stablelm-zephyr</td><td style="text-align: right">InJulia</td><td style="text-align: right">8.5</td><td style="text-align: right">6.6</td><td style="text-align: right">13.3</td><td style="text-align: right">0.0</td><td style="text-align: right">57.0</td><td style="text-align: right">1.6</td></tr><tr><td style="text-align: right">phind-codellama:34b-v2</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">41.1</td><td style="text-align: right">40.6</td><td style="text-align: right">62.0</td><td style="text-align: right">61.2</td><td style="text-align: right">57.0</td><td style="text-align: right">1.5</td></tr><tr><td style="text-align: right">dolphin-phi:2.7b-v2.6-q6_K</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">8.1</td><td style="text-align: right">8.0</td><td style="text-align: right">12.2</td><td style="text-align: right">0.0</td><td style="text-align: right">56.0</td><td style="text-align: right">1.5</td></tr><tr><td style="text-align: right">dolphin-phi:2.7b-v2.6-q6_K</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">9.4</td><td style="text-align: right">8.9</td><td style="text-align: right">14.1</td><td style="text-align: right">0.0</td><td style="text-align: right">56.0</td><td style="text-align: right">1.5</td></tr><tr><td style="text-align: right">orca2:13b</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">11.0</td><td style="text-align: right">9.2</td><td style="text-align: right">16.5</td><td style="text-align: right">0.0</td><td style="text-align: right">57.0</td><td style="text-align: right">1.5</td></tr><tr><td style="text-align: right">dolphin-phi:2.7b-v2.6-q6_K</td><td style="text-align: right">InJulia</td><td style="text-align: right">10.6</td><td style="text-align: right">9.4</td><td style="text-align: right">15.6</td><td style="text-align: right">0.0</td><td style="text-align: right">56.0</td><td style="text-align: right">1.5</td></tr><tr><td style="text-align: right">stablelm-zephyr</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">11.4</td><td style="text-align: right">8.8</td><td style="text-align: right">16.5</td><td style="text-align: right">0.0</td><td style="text-align: right">57.0</td><td style="text-align: right">1.4</td></tr><tr><td style="text-align: right">llama2</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">18.9</td><td style="text-align: right">17.3</td><td style="text-align: right">27.2</td><td style="text-align: right">25.0</td><td style="text-align: right">59.0</td><td style="text-align: right">1.4</td></tr><tr><td style="text-align: right">gemma:7b-instruct-q6_K</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">25.7</td><td style="text-align: right">25.0</td><td style="text-align: right">34.9</td><td style="text-align: right">50.0</td><td style="text-align: right">70.0</td><td style="text-align: right">1.4</td></tr><tr><td style="text-align: right">phind-codellama:34b-v2</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">44.6</td><td style="text-align: right">46.5</td><td style="text-align: right">60.1</td><td style="text-align: right">66.7</td><td style="text-align: right">57.0</td><td style="text-align: right">1.3</td></tr><tr><td style="text-align: right">codellama:13b-python</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">9.5</td><td style="text-align: right">6.4</td><td style="text-align: right">12.4</td><td style="text-align: right">0.0</td><td style="text-align: right">42.0</td><td style="text-align: right">1.3</td></tr><tr><td style="text-align: right">llama2</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">19.3</td><td style="text-align: right">19.2</td><td style="text-align: right">25.0</td><td style="text-align: right">25.0</td><td style="text-align: right">59.0</td><td style="text-align: right">1.3</td></tr><tr><td style="text-align: right">codellama:13b-python</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">10.4</td><td style="text-align: right">7.9</td><td style="text-align: right">13.3</td><td style="text-align: right">0.0</td><td style="text-align: right">44.0</td><td style="text-align: right">1.3</td></tr><tr><td style="text-align: right">nous-hermes2:34b-yi-q4<em>K</em>M</td><td style="text-align: right">InJulia</td><td style="text-align: right">52.0</td><td style="text-align: right">45.5</td><td style="text-align: right">61.8</td><td style="text-align: right">60.0</td><td style="text-align: right">67.0</td><td style="text-align: right">1.2</td></tr><tr><td style="text-align: right">gemma:7b-instruct-q6_K</td><td style="text-align: right">InJulia</td><td style="text-align: right">19.7</td><td style="text-align: right">20.3</td><td style="text-align: right">22.6</td><td style="text-align: right">25.0</td><td style="text-align: right">70.0</td><td style="text-align: right">1.1</td></tr><tr><td style="text-align: right">gemma:7b-instruct-q6_K</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">24.8</td><td style="text-align: right">23.6</td><td style="text-align: right">26.9</td><td style="text-align: right">25.0</td><td style="text-align: right">70.0</td><td style="text-align: right">1.1</td></tr><tr><td style="text-align: right">phi:2.7b-chat-v2-q6_K</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">9.3</td><td style="text-align: right">5.7</td><td style="text-align: right">9.9</td><td style="text-align: right">0.0</td><td style="text-align: right">55.0</td><td style="text-align: right">1.1</td></tr><tr><td style="text-align: right">stablelm-zephyr</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">11.4</td><td style="text-align: right">9.6</td><td style="text-align: right">12.2</td><td style="text-align: right">0.0</td><td style="text-align: right">57.0</td><td style="text-align: right">1.1</td></tr><tr><td style="text-align: right">nous-hermes2:34b-yi-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">35.9</td><td style="text-align: right">32.9</td><td style="text-align: right">37.4</td><td style="text-align: right">50.0</td><td style="text-align: right">67.0</td><td style="text-align: right">1.0</td></tr><tr><td style="text-align: right">codellama:13b-python</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">12.8</td><td style="text-align: right">12.9</td><td style="text-align: right">13.3</td><td style="text-align: right">0.0</td><td style="text-align: right">43.0</td><td style="text-align: right">1.0</td></tr><tr><td style="text-align: right">llama2</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">22.1</td><td style="text-align: right">22.2</td><td style="text-align: right">22.4</td><td style="text-align: right">0.0</td><td style="text-align: right">59.0</td><td style="text-align: right">1.0</td></tr><tr><td style="text-align: right">orca2:13b</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">23.9</td><td style="text-align: right">23.1</td><td style="text-align: right">24.2</td><td style="text-align: right">0.0</td><td style="text-align: right">57.0</td><td style="text-align: right">1.0</td></tr><tr><td style="text-align: right">yi:34b-chat</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">50.8</td><td style="text-align: right">48.8</td><td style="text-align: right">47.6</td><td style="text-align: right">50.0</td><td style="text-align: right">58.0</td><td style="text-align: right">0.9</td></tr><tr><td style="text-align: right">yi:34b-chat</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">42.1</td><td style="text-align: right">40.6</td><td style="text-align: right">39.2</td><td style="text-align: right">25.0</td><td style="text-align: right">58.0</td><td style="text-align: right">0.9</td></tr><tr><td style="text-align: right">yi:34b-chat</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">49.5</td><td style="text-align: right">45.6</td><td style="text-align: right">44.0</td><td style="text-align: right">50.0</td><td style="text-align: right">57.0</td><td style="text-align: right">0.9</td></tr><tr><td style="text-align: right">solar:10.7b-instruct-v1-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">22.5</td><td style="text-align: right">22.4</td><td style="text-align: right">19.7</td><td style="text-align: right">0.0</td><td style="text-align: right">58.0</td><td style="text-align: right">0.9</td></tr><tr><td style="text-align: right">yi:34b-chat</td><td style="text-align: right">InJulia</td><td style="text-align: right">51.1</td><td style="text-align: right">48.6</td><td style="text-align: right">44.5</td><td style="text-align: right">50.0</td><td style="text-align: right">58.0</td><td style="text-align: right">0.9</td></tr><tr><td style="text-align: right">codellama:13b-python</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">16.3</td><td style="text-align: right">10.9</td><td style="text-align: right">13.9</td><td style="text-align: right">0.0</td><td style="text-align: right">43.0</td><td style="text-align: right">0.9</td></tr><tr><td style="text-align: right">nous-hermes2:34b-yi-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">67.6</td><td style="text-align: right">61.9</td><td style="text-align: right">56.6</td><td style="text-align: right">50.0</td><td style="text-align: right">65.0</td><td style="text-align: right">0.8</td></tr><tr><td style="text-align: right">gemma:7b-instruct-q6_K</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">23.8</td><td style="text-align: right">23.3</td><td style="text-align: right">19.9</td><td style="text-align: right">25.0</td><td style="text-align: right">70.0</td><td style="text-align: right">0.8</td></tr><tr><td style="text-align: right">phi:2.7b-chat-v2-q6_K</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">12.1</td><td style="text-align: right">10.8</td><td style="text-align: right">9.9</td><td style="text-align: right">0.0</td><td style="text-align: right">55.0</td><td style="text-align: right">0.8</td></tr><tr><td style="text-align: right">codellama:13b-python</td><td style="text-align: right">InJulia</td><td style="text-align: right">13.7</td><td style="text-align: right">12.5</td><td style="text-align: right">11.0</td><td style="text-align: right">0.0</td><td style="text-align: right">44.0</td><td style="text-align: right">0.8</td></tr><tr><td style="text-align: right">orca2:13b</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">26.7</td><td style="text-align: right">25.4</td><td style="text-align: right">21.5</td><td style="text-align: right">0.0</td><td style="text-align: right">57.0</td><td style="text-align: right">0.8</td></tr><tr><td style="text-align: right">phi:2.7b-chat-v2-q6_K</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">13.6</td><td style="text-align: right">12.9</td><td style="text-align: right">10.8</td><td style="text-align: right">0.0</td><td style="text-align: right">55.0</td><td style="text-align: right">0.8</td></tr><tr><td style="text-align: right">orca2:13b</td><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">27.5</td><td style="text-align: right">24.8</td><td style="text-align: right">21.9</td><td style="text-align: right">0.0</td><td style="text-align: right">57.0</td><td style="text-align: right">0.8</td></tr><tr><td style="text-align: right">nous-hermes2:34b-yi-q4<em>K</em>M</td><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">58.5</td><td style="text-align: right">60.0</td><td style="text-align: right">46.1</td><td style="text-align: right">50.0</td><td style="text-align: right">65.0</td><td style="text-align: right">0.8</td></tr><tr><td style="text-align: right">nous-hermes2:34b-yi-q4<em>K</em>M</td><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">70.4</td><td style="text-align: right">65.5</td><td style="text-align: right">51.4</td><td style="text-align: right">55.0</td><td style="text-align: right">67.0</td><td style="text-align: right">0.7</td></tr><tr><td style="text-align: right">phi:2.7b-chat-v2-q6_K</td><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">14.6</td><td style="text-align: right">13.4</td><td style="text-align: right">8.1</td><td style="text-align: right">0.0</td><td style="text-align: right">55.0</td><td style="text-align: right">0.6</td></tr><tr><td style="text-align: right">phi:2.7b-chat-v2-q6_K</td><td style="text-align: right">InJulia</td><td style="text-align: right">15.7</td><td style="text-align: right">17.8</td><td style="text-align: right">6.0</td><td style="text-align: right">0.0</td><td style="text-align: right">55.0</td><td style="text-align: right">0.4</td></tr></table><hr/><p><em>This page was generated using <a href="https://github.com/fredrikekre/Literate.jl">Literate.jl</a>.</em></p></article><nav class="docs-footer"><a class="docs-footer-prevpage" href="../summarize_results_paid/">« Paid APIs</a><a class="docs-footer-nextpage" href="../compare_paid_vs_local/">Paid vs Local Models »</a><div class="flexbox-break"></div><p class="footer-message">Powered by <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> and the <a href="https://julialang.org/">Julia Programming Language</a>.</p></nav></div><div class="modal" id="documenter-settings"><div class="modal-background"></div><div class="modal-card"><header class="modal-card-head"><p class="modal-card-title">Settings</p><button class="delete"></button></header><section class="modal-card-body"><p><label class="label">Theme</label><div class="select"><select id="documenter-themepicker"><option value="auto">Automatic (OS)</option><option value="documenter-light">documenter-light</option><option value="documenter-dark">documenter-dark</option><option value="catppuccin-latte">catppuccin-latte</option><option value="catppuccin-frappe">catppuccin-frappe</option><option value="catppuccin-macchiato">catppuccin-macchiato</option><option value="catppuccin-mocha">catppuccin-mocha</option></select></div></p><hr/><p>This document was generated with <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> version 1.5.0 on <span class="colophon-date" title="Monday 12 August 2024 20:24">Monday 12 August 2024</span>. Using Julia version 1.10.4.</p></section><footer class="modal-card-foot"></footer></div></div></div></body></html>
diff --git a/dev/examples/summarize_results_paid/index.html b/dev/examples/summarize_results_paid/index.html
index 60cc8c947..982d2b46b 100644
--- a/dev/examples/summarize_results_paid/index.html
+++ b/dev/examples/summarize_results_paid/index.html
@@ -200,4 +200,4 @@
     leftjoin(average_, on = :name)
     @orderby -:AverageScore
 end
-markdown_table(output)</code></pre><table><tr><th style="text-align: right">name</th><th style="text-align: right">claude-2.1</th><th style="text-align: right">claude-3-5-sonnet-20240620</th><th style="text-align: right">claude-3-haiku-20240307</th><th style="text-align: right">claude-3-opus-20240229</th><th style="text-align: right">claude-3-sonnet-20240229</th><th style="text-align: right">codestral-2405</th><th style="text-align: right">deepseek-chat</th><th style="text-align: right">deepseek-coder</th><th style="text-align: right">gemini-1.0-pro-latest</th><th style="text-align: right">gpt-3.5-turbo</th><th style="text-align: right">gpt-3.5-turbo-0125</th><th style="text-align: right">gpt-3.5-turbo-1106</th><th style="text-align: right">gpt-4-0125-preview</th><th style="text-align: right">gpt-4-1106-preview</th><th style="text-align: right">gpt-4-turbo-2024-04-09</th><th style="text-align: right">gpt-4o-2024-05-13</th><th style="text-align: right">gpt-4o-2024-08-06</th><th style="text-align: right">gpt-4o-mini-2024-07-18</th><th style="text-align: right">mistral-large-2402</th><th style="text-align: right">mistral-large-2407</th><th style="text-align: right">mistral-medium</th><th style="text-align: right">mistral-small</th><th style="text-align: right">mistral-small-2402</th><th style="text-align: right">mistral-tiny</th><th style="text-align: right">AverageScore</th></tr><tr><td style="text-align: right">FloatWithUnits</td><td style="text-align: right">62.0</td><td style="text-align: right">97.5</td><td style="text-align: right">98.0</td><td style="text-align: right">100.0</td><td style="text-align: right">100.0</td><td style="text-align: right">98.0</td><td style="text-align: right">100.0</td><td style="text-align: right">100.0</td><td style="text-align: right">57.0</td><td style="text-align: right">76.0</td><td style="text-align: right">91.5</td><td style="text-align: right">80.0</td><td style="text-align: right">60.5</td><td style="text-align: right">72.0</td><td style="text-align: right">78.5</td><td style="text-align: right">93.5</td><td style="text-align: right">99.5</td><td style="text-align: right">96.5</td><td style="text-align: right">99.5</td><td style="text-align: right">100.0</td><td style="text-align: right">98.0</td><td style="text-align: right">70.0</td><td style="text-align: right">100.0</td><td style="text-align: right">80.2</td><td style="text-align: right">87.8</td></tr><tr><td style="text-align: right">timezone_bumper</td><td style="text-align: right">82.1</td><td style="text-align: right">100.0</td><td style="text-align: right">98.1</td><td style="text-align: right">99.7</td><td style="text-align: right">95.5</td><td style="text-align: right">89.5</td><td style="text-align: right">100.0</td><td style="text-align: right">100.0</td><td style="text-align: right">39.9</td><td style="text-align: right">48.0</td><td style="text-align: right">77.4</td><td style="text-align: right">79.2</td><td style="text-align: right">90.0</td><td style="text-align: right">90.0</td><td style="text-align: right">94.8</td><td style="text-align: right">95.0</td><td style="text-align: right">98.5</td><td style="text-align: right">99.1</td><td style="text-align: right">96.4</td><td style="text-align: right">100.0</td><td style="text-align: right">97.0</td><td style="text-align: right">76.6</td><td style="text-align: right">78.1</td><td style="text-align: right">62.0</td><td style="text-align: right">87.0</td></tr><tr><td style="text-align: right">clean_column</td><td style="text-align: right">100.0</td><td style="text-align: right">97.3</td><td style="text-align: right">89.8</td><td style="text-align: right">100.0</td><td style="text-align: right">96.4</td><td style="text-align: right">92.3</td><td style="text-align: right">78.4</td><td style="text-align: right">71.2</td><td style="text-align: right">41.5</td><td style="text-align: right">35.5</td><td style="text-align: right">66.7</td><td style="text-align: right">69.8</td><td style="text-align: right">88.8</td><td style="text-align: right">90.5</td><td style="text-align: right">90.0</td><td style="text-align: right">89.3</td><td style="text-align: right">87.4</td><td style="text-align: right">88.0</td><td style="text-align: right">91.6</td><td style="text-align: right">92.0</td><td style="text-align: right">81.0</td><td style="text-align: right">84.6</td><td style="text-align: right">99.7</td><td style="text-align: right">80.8</td><td style="text-align: right">83.4</td></tr><tr><td style="text-align: right">keep<em>only</em>names</td><td style="text-align: right">90.1</td><td style="text-align: right">91.6</td><td style="text-align: right">65.0</td><td style="text-align: right">85.3</td><td style="text-align: right">94.9</td><td style="text-align: right">95.4</td><td style="text-align: right">88.4</td><td style="text-align: right">74.4</td><td style="text-align: right">54.0</td><td style="text-align: right">50.8</td><td style="text-align: right">80.6</td><td style="text-align: right">74.2</td><td style="text-align: right">90.9</td><td style="text-align: right">91.0</td><td style="text-align: right">86.2</td><td style="text-align: right">77.5</td><td style="text-align: right">78.7</td><td style="text-align: right">80.9</td><td style="text-align: right">98.7</td><td style="text-align: right">89.4</td><td style="text-align: right">66.2</td><td style="text-align: right">76.6</td><td style="text-align: right">67.9</td><td style="text-align: right">51.0</td><td style="text-align: right">79.2</td></tr><tr><td style="text-align: right">wrap_string</td><td style="text-align: right">93.8</td><td style="text-align: right">94.8</td><td style="text-align: right">77.2</td><td style="text-align: right">64.5</td><td style="text-align: right">70.2</td><td style="text-align: right">88.0</td><td style="text-align: right">81.7</td><td style="text-align: right">82.5</td><td style="text-align: right">32.6</td><td style="text-align: right">64.0</td><td style="text-align: right">50.1</td><td style="text-align: right">55.3</td><td style="text-align: right">94.9</td><td style="text-align: right">97.8</td><td style="text-align: right">94.6</td><td style="text-align: right">97.0</td><td style="text-align: right">94.6</td><td style="text-align: right">94.3</td><td style="text-align: right">71.9</td><td style="text-align: right">94.5</td><td style="text-align: right">84.7</td><td style="text-align: right">68.0</td><td style="text-align: right">68.6</td><td style="text-align: right">48.3</td><td style="text-align: right">77.7</td></tr><tr><td style="text-align: right">count<em>model</em>rows</td><td style="text-align: right">58.0</td><td style="text-align: right">100.0</td><td style="text-align: right">82.6</td><td style="text-align: right">98.8</td><td style="text-align: right">94.8</td><td style="text-align: right">84.4</td><td style="text-align: right">67.2</td><td style="text-align: right">60.7</td><td style="text-align: right">36.6</td><td style="text-align: right">52.8</td><td style="text-align: right">75.7</td><td style="text-align: right">56.2</td><td style="text-align: right">97.4</td><td style="text-align: right">98.4</td><td style="text-align: right">89.3</td><td style="text-align: right">89.0</td><td style="text-align: right">95.4</td><td style="text-align: right">75.5</td><td style="text-align: right">78.6</td><td style="text-align: right">90.2</td><td style="text-align: right">79.0</td><td style="text-align: right">67.2</td><td style="text-align: right">61.7</td><td style="text-align: right">53.2</td><td style="text-align: right">76.8</td></tr><tr><td style="text-align: right">weather<em>data</em>analyzer</td><td style="text-align: right">74.1</td><td style="text-align: right">85.0</td><td style="text-align: right">93.3</td><td style="text-align: right">86.8</td><td style="text-align: right">86.8</td><td style="text-align: right">89.3</td><td style="text-align: right">93.0</td><td style="text-align: right">83.8</td><td style="text-align: right">26.5</td><td style="text-align: right">35.2</td><td style="text-align: right">64.2</td><td style="text-align: right">59.0</td><td style="text-align: right">85.4</td><td style="text-align: right">85.0</td><td style="text-align: right">81.0</td><td style="text-align: right">67.4</td><td style="text-align: right">73.5</td><td style="text-align: right">76.5</td><td style="text-align: right">86.0</td><td style="text-align: right">54.6</td><td style="text-align: right">85.4</td><td style="text-align: right">55.4</td><td style="text-align: right">52.6</td><td style="text-align: right">56.8</td><td style="text-align: right">72.4</td></tr><tr><td style="text-align: right">add_yearmonth</td><td style="text-align: right">53.8</td><td style="text-align: right">88.5</td><td style="text-align: right">86.2</td><td style="text-align: right">92.0</td><td style="text-align: right">81.0</td><td style="text-align: right">62.5</td><td style="text-align: right">71.2</td><td style="text-align: right">62.5</td><td style="text-align: right">35.8</td><td style="text-align: right">33.0</td><td style="text-align: right">67.6</td><td style="text-align: right">65.2</td><td style="text-align: right">78.6</td><td style="text-align: right">72.8</td><td style="text-align: right">75.9</td><td style="text-align: right">68.0</td><td style="text-align: right">74.9</td><td style="text-align: right">67.2</td><td style="text-align: right">72.2</td><td style="text-align: right">71.2</td><td style="text-align: right">48.0</td><td style="text-align: right">62.2</td><td style="text-align: right">40.2</td><td style="text-align: right">33.2</td><td style="text-align: right">65.2</td></tr><tr><td style="text-align: right">event_scheduler</td><td style="text-align: right">86.5</td><td style="text-align: right">84.4</td><td style="text-align: right">76.6</td><td style="text-align: right">90.2</td><td style="text-align: right">77.2</td><td style="text-align: right">56.8</td><td style="text-align: right">76.0</td><td style="text-align: right">82.4</td><td style="text-align: right">37.8</td><td style="text-align: right">29.0</td><td style="text-align: right">44.4</td><td style="text-align: right">42.8</td><td style="text-align: right">87.9</td><td style="text-align: right">66.6</td><td style="text-align: right">82.5</td><td style="text-align: right">73.8</td><td style="text-align: right">67.7</td><td style="text-align: right">37.5</td><td style="text-align: right">57.3</td><td style="text-align: right">32.8</td><td style="text-align: right">36.0</td><td style="text-align: right">59.0</td><td style="text-align: right">38.7</td><td style="text-align: right">37.2</td><td style="text-align: right">60.9</td></tr><tr><td style="text-align: right">ispersonal</td><td style="text-align: right">52.0</td><td style="text-align: right">62.0</td><td style="text-align: right">69.0</td><td style="text-align: right">54.0</td><td style="text-align: right">72.0</td><td style="text-align: right">90.0</td><td style="text-align: right">61.0</td><td style="text-align: right">84.0</td><td style="text-align: right">16.0</td><td style="text-align: right">43.0</td><td style="text-align: right">72.0</td><td style="text-align: right">68.6</td><td style="text-align: right">54.3</td><td style="text-align: right">56.0</td><td style="text-align: right">66.5</td><td style="text-align: right">62.0</td><td style="text-align: right">66.3</td><td style="text-align: right">94.0</td><td style="text-align: right">67.2</td><td style="text-align: right">57.0</td><td style="text-align: right">35.0</td><td style="text-align: right">48.0</td><td style="text-align: right">48.0</td><td style="text-align: right">29.5</td><td style="text-align: right">59.5</td></tr><tr><td style="text-align: right">audi_filter</td><td style="text-align: right">38.0</td><td style="text-align: right">93.0</td><td style="text-align: right">56.0</td><td style="text-align: right">93.0</td><td style="text-align: right">63.8</td><td style="text-align: right">59.5</td><td style="text-align: right">47.0</td><td style="text-align: right">57.8</td><td style="text-align: right">28.1</td><td style="text-align: right">27.0</td><td style="text-align: right">55.0</td><td style="text-align: right">58.0</td><td style="text-align: right">47.5</td><td style="text-align: right">58.0</td><td style="text-align: right">49.0</td><td style="text-align: right">56.2</td><td style="text-align: right">81.0</td><td style="text-align: right">78.8</td><td style="text-align: right">58.0</td><td style="text-align: right">92.0</td><td style="text-align: right">43.0</td><td style="text-align: right">48.5</td><td style="text-align: right">44.8</td><td style="text-align: right">27.0</td><td style="text-align: right">56.7</td></tr><tr><td style="text-align: right">extract<em>julia</em>code</td><td style="text-align: right">56.4</td><td style="text-align: right">63.3</td><td style="text-align: right">60.4</td><td style="text-align: right">65.4</td><td style="text-align: right">48.2</td><td style="text-align: right">47.9</td><td style="text-align: right">41.3</td><td style="text-align: right">48.6</td><td style="text-align: right">36.4</td><td style="text-align: right">41.0</td><td style="text-align: right">43.6</td><td style="text-align: right">48.4</td><td style="text-align: right">54.5</td><td style="text-align: right">48.7</td><td style="text-align: right">56.1</td><td style="text-align: right">52.5</td><td style="text-align: right">50.4</td><td style="text-align: right">45.3</td><td style="text-align: right">44.1</td><td style="text-align: right">63.8</td><td style="text-align: right">31.8</td><td style="text-align: right">52.2</td><td style="text-align: right">50.4</td><td style="text-align: right">30.1</td><td style="text-align: right">49.2</td></tr><tr><td style="text-align: right">q<em>and</em>a_extractor</td><td style="text-align: right">73.5</td><td style="text-align: right">63.7</td><td style="text-align: right">62.3</td><td style="text-align: right">68.0</td><td style="text-align: right">65.5</td><td style="text-align: right">57.0</td><td style="text-align: right">43.3</td><td style="text-align: right">26.7</td><td style="text-align: right">26.2</td><td style="text-align: right">31.7</td><td style="text-align: right">35.5</td><td style="text-align: right">36.7</td><td style="text-align: right">56.7</td><td style="text-align: right">53.3</td><td style="text-align: right">49.3</td><td style="text-align: right">45.3</td><td style="text-align: right">50.2</td><td style="text-align: right">54.7</td><td style="text-align: right">46.8</td><td style="text-align: right">31.0</td><td style="text-align: right">38.7</td><td style="text-align: right">44.7</td><td style="text-align: right">55.8</td><td style="text-align: right">36.0</td><td style="text-align: right">48.0</td></tr><tr><td style="text-align: right">pig_latinify</td><td style="text-align: right">30.6</td><td style="text-align: right">79.8</td><td style="text-align: right">34.6</td><td style="text-align: right">67.1</td><td style="text-align: right">57.0</td><td style="text-align: right">56.5</td><td style="text-align: right">49.0</td><td style="text-align: right">67.1</td><td style="text-align: right">18.7</td><td style="text-align: right">24.7</td><td style="text-align: right">39.8</td><td style="text-align: right">23.1</td><td style="text-align: right">54.7</td><td style="text-align: right">61.4</td><td style="text-align: right">60.1</td><td style="text-align: right">54.2</td><td style="text-align: right">54.8</td><td style="text-align: right">48.0</td><td style="text-align: right">33.6</td><td style="text-align: right">61.7</td><td style="text-align: right">27.8</td><td style="text-align: right">28.8</td><td style="text-align: right">31.6</td><td style="text-align: right">33.1</td><td style="text-align: right">45.7</td></tr></table><hr/><p><em>This page was generated using <a href="https://github.com/fredrikekre/Literate.jl">Literate.jl</a>.</em></p></article><nav class="docs-footer"><a class="docs-footer-prevpage" href="../../test_definitions/">« Test Definitions</a><a class="docs-footer-nextpage" href="../summarize_results_local/">Local Models »</a><div class="flexbox-break"></div><p class="footer-message">Powered by <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> and the <a href="https://julialang.org/">Julia Programming Language</a>.</p></nav></div><div class="modal" id="documenter-settings"><div class="modal-background"></div><div class="modal-card"><header class="modal-card-head"><p class="modal-card-title">Settings</p><button class="delete"></button></header><section class="modal-card-body"><p><label class="label">Theme</label><div class="select"><select id="documenter-themepicker"><option value="auto">Automatic (OS)</option><option value="documenter-light">documenter-light</option><option value="documenter-dark">documenter-dark</option><option value="catppuccin-latte">catppuccin-latte</option><option value="catppuccin-frappe">catppuccin-frappe</option><option value="catppuccin-macchiato">catppuccin-macchiato</option><option value="catppuccin-mocha">catppuccin-mocha</option></select></div></p><hr/><p>This document was generated with <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> version 1.5.0 on <span class="colophon-date" title="Wednesday 7 August 2024 08:36">Wednesday 7 August 2024</span>. Using Julia version 1.10.4.</p></section><footer class="modal-card-foot"></footer></div></div></div></body></html>
+markdown_table(output)</code></pre><table><tr><th style="text-align: right">name</th><th style="text-align: right">claude-2.1</th><th style="text-align: right">claude-3-5-sonnet-20240620</th><th style="text-align: right">claude-3-haiku-20240307</th><th style="text-align: right">claude-3-opus-20240229</th><th style="text-align: right">claude-3-sonnet-20240229</th><th style="text-align: right">codestral-2405</th><th style="text-align: right">deepseek-chat</th><th style="text-align: right">deepseek-coder</th><th style="text-align: right">gemini-1.0-pro-latest</th><th style="text-align: right">gpt-3.5-turbo</th><th style="text-align: right">gpt-3.5-turbo-0125</th><th style="text-align: right">gpt-3.5-turbo-1106</th><th style="text-align: right">gpt-4-0125-preview</th><th style="text-align: right">gpt-4-1106-preview</th><th style="text-align: right">gpt-4-turbo-2024-04-09</th><th style="text-align: right">gpt-4o-2024-05-13</th><th style="text-align: right">gpt-4o-2024-08-06</th><th style="text-align: right">gpt-4o-mini-2024-07-18</th><th style="text-align: right">mistral-large-2402</th><th style="text-align: right">mistral-large-2407</th><th style="text-align: right">mistral-medium</th><th style="text-align: right">mistral-small</th><th style="text-align: right">mistral-small-2402</th><th style="text-align: right">mistral-tiny</th><th style="text-align: right">AverageScore</th></tr><tr><td style="text-align: right">FloatWithUnits</td><td style="text-align: right">62.0</td><td style="text-align: right">97.5</td><td style="text-align: right">98.0</td><td style="text-align: right">100.0</td><td style="text-align: right">100.0</td><td style="text-align: right">98.0</td><td style="text-align: right">100.0</td><td style="text-align: right">100.0</td><td style="text-align: right">57.0</td><td style="text-align: right">76.0</td><td style="text-align: right">91.5</td><td style="text-align: right">80.0</td><td style="text-align: right">60.5</td><td style="text-align: right">72.0</td><td style="text-align: right">78.5</td><td style="text-align: right">93.5</td><td style="text-align: right">99.5</td><td style="text-align: right">96.5</td><td style="text-align: right">99.5</td><td style="text-align: right">100.0</td><td style="text-align: right">98.0</td><td style="text-align: right">70.0</td><td style="text-align: right">100.0</td><td style="text-align: right">80.2</td><td style="text-align: right">87.8</td></tr><tr><td style="text-align: right">timezone_bumper</td><td style="text-align: right">82.1</td><td style="text-align: right">100.0</td><td style="text-align: right">98.1</td><td style="text-align: right">99.7</td><td style="text-align: right">95.5</td><td style="text-align: right">89.5</td><td style="text-align: right">100.0</td><td style="text-align: right">100.0</td><td style="text-align: right">39.9</td><td style="text-align: right">48.0</td><td style="text-align: right">77.4</td><td style="text-align: right">79.2</td><td style="text-align: right">90.0</td><td style="text-align: right">90.0</td><td style="text-align: right">94.8</td><td style="text-align: right">95.0</td><td style="text-align: right">98.5</td><td style="text-align: right">99.1</td><td style="text-align: right">96.4</td><td style="text-align: right">100.0</td><td style="text-align: right">97.0</td><td style="text-align: right">76.6</td><td style="text-align: right">78.1</td><td style="text-align: right">62.0</td><td style="text-align: right">87.0</td></tr><tr><td style="text-align: right">clean_column</td><td style="text-align: right">100.0</td><td style="text-align: right">97.3</td><td style="text-align: right">89.8</td><td style="text-align: right">100.0</td><td style="text-align: right">96.4</td><td style="text-align: right">92.3</td><td style="text-align: right">78.4</td><td style="text-align: right">71.2</td><td style="text-align: right">41.5</td><td style="text-align: right">35.5</td><td style="text-align: right">66.7</td><td style="text-align: right">69.8</td><td style="text-align: right">88.8</td><td style="text-align: right">90.5</td><td style="text-align: right">90.0</td><td style="text-align: right">89.3</td><td style="text-align: right">87.4</td><td style="text-align: right">88.0</td><td style="text-align: right">91.6</td><td style="text-align: right">92.0</td><td style="text-align: right">81.0</td><td style="text-align: right">84.6</td><td style="text-align: right">99.7</td><td style="text-align: right">80.8</td><td style="text-align: right">83.4</td></tr><tr><td style="text-align: right">keep<em>only</em>names</td><td style="text-align: right">90.1</td><td style="text-align: right">91.6</td><td style="text-align: right">65.0</td><td style="text-align: right">85.3</td><td style="text-align: right">94.9</td><td style="text-align: right">95.4</td><td style="text-align: right">88.4</td><td style="text-align: right">74.4</td><td style="text-align: right">54.0</td><td style="text-align: right">50.8</td><td style="text-align: right">80.6</td><td style="text-align: right">74.2</td><td style="text-align: right">90.9</td><td style="text-align: right">91.0</td><td style="text-align: right">86.2</td><td style="text-align: right">77.5</td><td style="text-align: right">78.7</td><td style="text-align: right">80.9</td><td style="text-align: right">98.7</td><td style="text-align: right">89.4</td><td style="text-align: right">66.2</td><td style="text-align: right">76.6</td><td style="text-align: right">67.9</td><td style="text-align: right">51.0</td><td style="text-align: right">79.2</td></tr><tr><td style="text-align: right">wrap_string</td><td style="text-align: right">93.8</td><td style="text-align: right">94.8</td><td style="text-align: right">77.2</td><td style="text-align: right">64.5</td><td style="text-align: right">70.2</td><td style="text-align: right">88.0</td><td style="text-align: right">81.7</td><td style="text-align: right">82.5</td><td style="text-align: right">32.6</td><td style="text-align: right">64.0</td><td style="text-align: right">50.1</td><td style="text-align: right">55.3</td><td style="text-align: right">94.9</td><td style="text-align: right">97.8</td><td style="text-align: right">94.6</td><td style="text-align: right">97.0</td><td style="text-align: right">94.6</td><td style="text-align: right">94.3</td><td style="text-align: right">71.9</td><td style="text-align: right">94.5</td><td style="text-align: right">84.7</td><td style="text-align: right">68.0</td><td style="text-align: right">68.6</td><td style="text-align: right">48.3</td><td style="text-align: right">77.7</td></tr><tr><td style="text-align: right">count<em>model</em>rows</td><td style="text-align: right">58.0</td><td style="text-align: right">100.0</td><td style="text-align: right">82.6</td><td style="text-align: right">98.8</td><td style="text-align: right">94.8</td><td style="text-align: right">84.4</td><td style="text-align: right">67.2</td><td style="text-align: right">60.7</td><td style="text-align: right">36.6</td><td style="text-align: right">52.8</td><td style="text-align: right">75.7</td><td style="text-align: right">56.2</td><td style="text-align: right">97.4</td><td style="text-align: right">98.4</td><td style="text-align: right">89.3</td><td style="text-align: right">89.0</td><td style="text-align: right">95.4</td><td style="text-align: right">75.5</td><td style="text-align: right">78.6</td><td style="text-align: right">90.2</td><td style="text-align: right">79.0</td><td style="text-align: right">67.2</td><td style="text-align: right">61.7</td><td style="text-align: right">53.2</td><td style="text-align: right">76.8</td></tr><tr><td style="text-align: right">weather<em>data</em>analyzer</td><td style="text-align: right">74.1</td><td style="text-align: right">85.0</td><td style="text-align: right">93.3</td><td style="text-align: right">86.8</td><td style="text-align: right">86.8</td><td style="text-align: right">89.3</td><td style="text-align: right">93.0</td><td style="text-align: right">83.8</td><td style="text-align: right">26.5</td><td style="text-align: right">35.2</td><td style="text-align: right">64.2</td><td style="text-align: right">59.0</td><td style="text-align: right">85.4</td><td style="text-align: right">85.0</td><td style="text-align: right">81.0</td><td style="text-align: right">67.4</td><td style="text-align: right">73.5</td><td style="text-align: right">76.5</td><td style="text-align: right">86.0</td><td style="text-align: right">54.6</td><td style="text-align: right">85.4</td><td style="text-align: right">55.4</td><td style="text-align: right">52.6</td><td style="text-align: right">56.8</td><td style="text-align: right">72.4</td></tr><tr><td style="text-align: right">add_yearmonth</td><td style="text-align: right">53.8</td><td style="text-align: right">88.5</td><td style="text-align: right">86.2</td><td style="text-align: right">92.0</td><td style="text-align: right">81.0</td><td style="text-align: right">62.5</td><td style="text-align: right">71.2</td><td style="text-align: right">62.5</td><td style="text-align: right">35.8</td><td style="text-align: right">33.0</td><td style="text-align: right">67.6</td><td style="text-align: right">65.2</td><td style="text-align: right">78.6</td><td style="text-align: right">72.8</td><td style="text-align: right">75.9</td><td style="text-align: right">68.0</td><td style="text-align: right">74.9</td><td style="text-align: right">67.2</td><td style="text-align: right">72.2</td><td style="text-align: right">71.2</td><td style="text-align: right">48.0</td><td style="text-align: right">62.2</td><td style="text-align: right">40.2</td><td style="text-align: right">33.2</td><td style="text-align: right">65.2</td></tr><tr><td style="text-align: right">event_scheduler</td><td style="text-align: right">86.5</td><td style="text-align: right">84.4</td><td style="text-align: right">76.6</td><td style="text-align: right">90.2</td><td style="text-align: right">77.2</td><td style="text-align: right">56.8</td><td style="text-align: right">76.0</td><td style="text-align: right">82.4</td><td style="text-align: right">37.8</td><td style="text-align: right">29.0</td><td style="text-align: right">44.4</td><td style="text-align: right">42.8</td><td style="text-align: right">87.9</td><td style="text-align: right">66.6</td><td style="text-align: right">82.5</td><td style="text-align: right">73.8</td><td style="text-align: right">67.7</td><td style="text-align: right">37.5</td><td style="text-align: right">57.3</td><td style="text-align: right">32.8</td><td style="text-align: right">36.0</td><td style="text-align: right">59.0</td><td style="text-align: right">38.7</td><td style="text-align: right">37.2</td><td style="text-align: right">60.9</td></tr><tr><td style="text-align: right">ispersonal</td><td style="text-align: right">52.0</td><td style="text-align: right">62.0</td><td style="text-align: right">69.0</td><td style="text-align: right">54.0</td><td style="text-align: right">72.0</td><td style="text-align: right">90.0</td><td style="text-align: right">61.0</td><td style="text-align: right">84.0</td><td style="text-align: right">16.0</td><td style="text-align: right">43.0</td><td style="text-align: right">72.0</td><td style="text-align: right">68.6</td><td style="text-align: right">54.3</td><td style="text-align: right">56.0</td><td style="text-align: right">66.5</td><td style="text-align: right">62.0</td><td style="text-align: right">66.3</td><td style="text-align: right">94.0</td><td style="text-align: right">67.2</td><td style="text-align: right">57.0</td><td style="text-align: right">35.0</td><td style="text-align: right">48.0</td><td style="text-align: right">48.0</td><td style="text-align: right">29.5</td><td style="text-align: right">59.5</td></tr><tr><td style="text-align: right">audi_filter</td><td style="text-align: right">38.0</td><td style="text-align: right">93.0</td><td style="text-align: right">56.0</td><td style="text-align: right">93.0</td><td style="text-align: right">63.8</td><td style="text-align: right">59.5</td><td style="text-align: right">47.0</td><td style="text-align: right">57.8</td><td style="text-align: right">28.1</td><td style="text-align: right">27.0</td><td style="text-align: right">55.0</td><td style="text-align: right">58.0</td><td style="text-align: right">47.5</td><td style="text-align: right">58.0</td><td style="text-align: right">49.0</td><td style="text-align: right">56.2</td><td style="text-align: right">81.0</td><td style="text-align: right">78.8</td><td style="text-align: right">58.0</td><td style="text-align: right">92.0</td><td style="text-align: right">43.0</td><td style="text-align: right">48.5</td><td style="text-align: right">44.8</td><td style="text-align: right">27.0</td><td style="text-align: right">56.7</td></tr><tr><td style="text-align: right">extract<em>julia</em>code</td><td style="text-align: right">56.4</td><td style="text-align: right">63.3</td><td style="text-align: right">60.4</td><td style="text-align: right">65.4</td><td style="text-align: right">48.2</td><td style="text-align: right">47.9</td><td style="text-align: right">41.3</td><td style="text-align: right">48.6</td><td style="text-align: right">36.4</td><td style="text-align: right">41.0</td><td style="text-align: right">43.6</td><td style="text-align: right">48.4</td><td style="text-align: right">54.5</td><td style="text-align: right">48.7</td><td style="text-align: right">56.1</td><td style="text-align: right">52.5</td><td style="text-align: right">50.4</td><td style="text-align: right">45.3</td><td style="text-align: right">44.1</td><td style="text-align: right">63.8</td><td style="text-align: right">31.8</td><td style="text-align: right">52.2</td><td style="text-align: right">50.4</td><td style="text-align: right">30.1</td><td style="text-align: right">49.2</td></tr><tr><td style="text-align: right">q<em>and</em>a_extractor</td><td style="text-align: right">73.5</td><td style="text-align: right">63.7</td><td style="text-align: right">62.3</td><td style="text-align: right">68.0</td><td style="text-align: right">65.5</td><td style="text-align: right">57.0</td><td style="text-align: right">43.3</td><td style="text-align: right">26.7</td><td style="text-align: right">26.2</td><td style="text-align: right">31.7</td><td style="text-align: right">35.5</td><td style="text-align: right">36.7</td><td style="text-align: right">56.7</td><td style="text-align: right">53.3</td><td style="text-align: right">49.3</td><td style="text-align: right">45.3</td><td style="text-align: right">50.2</td><td style="text-align: right">54.7</td><td style="text-align: right">46.8</td><td style="text-align: right">31.0</td><td style="text-align: right">38.7</td><td style="text-align: right">44.7</td><td style="text-align: right">55.8</td><td style="text-align: right">36.0</td><td style="text-align: right">48.0</td></tr><tr><td style="text-align: right">pig_latinify</td><td style="text-align: right">30.6</td><td style="text-align: right">79.8</td><td style="text-align: right">34.6</td><td style="text-align: right">67.1</td><td style="text-align: right">57.0</td><td style="text-align: right">56.5</td><td style="text-align: right">49.0</td><td style="text-align: right">67.1</td><td style="text-align: right">18.7</td><td style="text-align: right">24.7</td><td style="text-align: right">39.8</td><td style="text-align: right">23.1</td><td style="text-align: right">54.7</td><td style="text-align: right">61.4</td><td style="text-align: right">60.1</td><td style="text-align: right">54.2</td><td style="text-align: right">54.8</td><td style="text-align: right">48.0</td><td style="text-align: right">33.6</td><td style="text-align: right">61.7</td><td style="text-align: right">27.8</td><td style="text-align: right">28.8</td><td style="text-align: right">31.6</td><td style="text-align: right">33.1</td><td style="text-align: right">45.7</td></tr></table><hr/><p><em>This page was generated using <a href="https://github.com/fredrikekre/Literate.jl">Literate.jl</a>.</em></p></article><nav class="docs-footer"><a class="docs-footer-prevpage" href="../../test_definitions/">« Test Definitions</a><a class="docs-footer-nextpage" href="../summarize_results_local/">Local Models »</a><div class="flexbox-break"></div><p class="footer-message">Powered by <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> and the <a href="https://julialang.org/">Julia Programming Language</a>.</p></nav></div><div class="modal" id="documenter-settings"><div class="modal-background"></div><div class="modal-card"><header class="modal-card-head"><p class="modal-card-title">Settings</p><button class="delete"></button></header><section class="modal-card-body"><p><label class="label">Theme</label><div class="select"><select id="documenter-themepicker"><option value="auto">Automatic (OS)</option><option value="documenter-light">documenter-light</option><option value="documenter-dark">documenter-dark</option><option value="catppuccin-latte">catppuccin-latte</option><option value="catppuccin-frappe">catppuccin-frappe</option><option value="catppuccin-macchiato">catppuccin-macchiato</option><option value="catppuccin-mocha">catppuccin-mocha</option></select></div></p><hr/><p>This document was generated with <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> version 1.5.0 on <span class="colophon-date" title="Monday 12 August 2024 20:24">Monday 12 August 2024</span>. Using Julia version 1.10.4.</p></section><footer class="modal-card-foot"></footer></div></div></div></body></html>
diff --git a/dev/examples/summarize_results_prompts/index.html b/dev/examples/summarize_results_prompts/index.html
index c845c7855..bb5774bae 100644
--- a/dev/examples/summarize_results_prompts/index.html
+++ b/dev/examples/summarize_results_prompts/index.html
@@ -84,4 +84,4 @@
         &quot;score_median&quot; =&gt; &quot;Median Score (Max 100 pts)&quot;)
 end
 # markdown_table(output, String) |&gt; clipboard
-markdown_table(output)</code></pre><table><tr><th style="text-align: right">Prompt Template</th><th style="text-align: right">Elapsed (s, average)</th><th style="text-align: right">Elapsed (s, median)</th><th style="text-align: right">Avg. Score (Max 100 pts)</th><th style="text-align: right">Median Score (Max 100 pts)</th></tr><tr><td style="text-align: right">InJulia</td><td style="text-align: right">13.2</td><td style="text-align: right">8.8</td><td style="text-align: right">58.5</td><td style="text-align: right">58.3</td></tr><tr><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">9.2</td><td style="text-align: right">5.7</td><td style="text-align: right">57.0</td><td style="text-align: right">55.0</td></tr><tr><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">15.6</td><td style="text-align: right">10.6</td><td style="text-align: right">55.4</td><td style="text-align: right">55.0</td></tr><tr><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">14.2</td><td style="text-align: right">9.3</td><td style="text-align: right">53.5</td><td style="text-align: right">55.0</td></tr><tr><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">15.1</td><td style="text-align: right">10.6</td><td style="text-align: right">52.5</td><td style="text-align: right">50.0</td></tr></table><hr/><p><em>This page was generated using <a href="https://github.com/fredrikekre/Literate.jl">Literate.jl</a>.</em></p></article><nav class="docs-footer"><a class="docs-footer-prevpage" href="../compare_paid_vs_local/">« Paid vs Local Models</a><a class="docs-footer-nextpage" href="../summarize_results_test_cases/">By Test Case »</a><div class="flexbox-break"></div><p class="footer-message">Powered by <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> and the <a href="https://julialang.org/">Julia Programming Language</a>.</p></nav></div><div class="modal" id="documenter-settings"><div class="modal-background"></div><div class="modal-card"><header class="modal-card-head"><p class="modal-card-title">Settings</p><button class="delete"></button></header><section class="modal-card-body"><p><label class="label">Theme</label><div class="select"><select id="documenter-themepicker"><option value="auto">Automatic (OS)</option><option value="documenter-light">documenter-light</option><option value="documenter-dark">documenter-dark</option><option value="catppuccin-latte">catppuccin-latte</option><option value="catppuccin-frappe">catppuccin-frappe</option><option value="catppuccin-macchiato">catppuccin-macchiato</option><option value="catppuccin-mocha">catppuccin-mocha</option></select></div></p><hr/><p>This document was generated with <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> version 1.5.0 on <span class="colophon-date" title="Wednesday 7 August 2024 08:36">Wednesday 7 August 2024</span>. Using Julia version 1.10.4.</p></section><footer class="modal-card-foot"></footer></div></div></div></body></html>
+markdown_table(output)</code></pre><table><tr><th style="text-align: right">Prompt Template</th><th style="text-align: right">Elapsed (s, average)</th><th style="text-align: right">Elapsed (s, median)</th><th style="text-align: right">Avg. Score (Max 100 pts)</th><th style="text-align: right">Median Score (Max 100 pts)</th></tr><tr><td style="text-align: right">InJulia</td><td style="text-align: right">13.2</td><td style="text-align: right">8.8</td><td style="text-align: right">58.5</td><td style="text-align: right">58.3</td></tr><tr><td style="text-align: right">JuliaExpertAsk</td><td style="text-align: right">9.2</td><td style="text-align: right">5.7</td><td style="text-align: right">57.0</td><td style="text-align: right">55.0</td></tr><tr><td style="text-align: right">JuliaRecapTask</td><td style="text-align: right">15.6</td><td style="text-align: right">10.6</td><td style="text-align: right">55.4</td><td style="text-align: right">55.0</td></tr><tr><td style="text-align: right">JuliaExpertCoTTask</td><td style="text-align: right">14.2</td><td style="text-align: right">9.3</td><td style="text-align: right">53.5</td><td style="text-align: right">55.0</td></tr><tr><td style="text-align: right">JuliaRecapCoTTask</td><td style="text-align: right">15.1</td><td style="text-align: right">10.6</td><td style="text-align: right">52.5</td><td style="text-align: right">50.0</td></tr></table><hr/><p><em>This page was generated using <a href="https://github.com/fredrikekre/Literate.jl">Literate.jl</a>.</em></p></article><nav class="docs-footer"><a class="docs-footer-prevpage" href="../compare_paid_vs_local/">« Paid vs Local Models</a><a class="docs-footer-nextpage" href="../summarize_results_test_cases/">By Test Case »</a><div class="flexbox-break"></div><p class="footer-message">Powered by <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> and the <a href="https://julialang.org/">Julia Programming Language</a>.</p></nav></div><div class="modal" id="documenter-settings"><div class="modal-background"></div><div class="modal-card"><header class="modal-card-head"><p class="modal-card-title">Settings</p><button class="delete"></button></header><section class="modal-card-body"><p><label class="label">Theme</label><div class="select"><select id="documenter-themepicker"><option value="auto">Automatic (OS)</option><option value="documenter-light">documenter-light</option><option value="documenter-dark">documenter-dark</option><option value="catppuccin-latte">catppuccin-latte</option><option value="catppuccin-frappe">catppuccin-frappe</option><option value="catppuccin-macchiato">catppuccin-macchiato</option><option value="catppuccin-mocha">catppuccin-mocha</option></select></div></p><hr/><p>This document was generated with <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> version 1.5.0 on <span class="colophon-date" title="Monday 12 August 2024 20:24">Monday 12 August 2024</span>. Using Julia version 1.10.4.</p></section><footer class="modal-card-foot"></footer></div></div></div></body></html>
diff --git a/dev/examples/summarize_results_test_cases/index.html b/dev/examples/summarize_results_test_cases/index.html
index 4b46526b5..d2af0b51a 100644
--- a/dev/examples/summarize_results_test_cases/index.html
+++ b/dev/examples/summarize_results_test_cases/index.html
@@ -270,4 +270,4 @@
     end
     return strip(wrapped_text)
 end
-</code></pre><p><strong>Winning Paid Model:</strong> &quot;gpt-4-1106-preview&quot; with average score 97.8 (Full score: 14/25, Zero score: 0/25) </p><p><strong>Winning Locally-hosted Model:</strong> &quot;claude-2.1&quot; with average score 92.8 (Full score: 12/25, Zero score: 0/25) </p><hr/><p><em>This page was generated using <a href="https://github.com/fredrikekre/Literate.jl">Literate.jl</a>.</em></p></article><nav class="docs-footer"><a class="docs-footer-prevpage" href="../summarize_results_prompts/">« By Prompts</a><a class="docs-footer-nextpage" href="../../frequently_asked_questions/">F.A.Q. »</a><div class="flexbox-break"></div><p class="footer-message">Powered by <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> and the <a href="https://julialang.org/">Julia Programming Language</a>.</p></nav></div><div class="modal" id="documenter-settings"><div class="modal-background"></div><div class="modal-card"><header class="modal-card-head"><p class="modal-card-title">Settings</p><button class="delete"></button></header><section class="modal-card-body"><p><label class="label">Theme</label><div class="select"><select id="documenter-themepicker"><option value="auto">Automatic (OS)</option><option value="documenter-light">documenter-light</option><option value="documenter-dark">documenter-dark</option><option value="catppuccin-latte">catppuccin-latte</option><option value="catppuccin-frappe">catppuccin-frappe</option><option value="catppuccin-macchiato">catppuccin-macchiato</option><option value="catppuccin-mocha">catppuccin-mocha</option></select></div></p><hr/><p>This document was generated with <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> version 1.5.0 on <span class="colophon-date" title="Wednesday 7 August 2024 08:36">Wednesday 7 August 2024</span>. Using Julia version 1.10.4.</p></section><footer class="modal-card-foot"></footer></div></div></div></body></html>
+</code></pre><p><strong>Winning Paid Model:</strong> &quot;gpt-4-1106-preview&quot; with average score 97.8 (Full score: 14/25, Zero score: 0/25) </p><p><strong>Winning Locally-hosted Model:</strong> &quot;claude-2.1&quot; with average score 92.8 (Full score: 12/25, Zero score: 0/25) </p><hr/><p><em>This page was generated using <a href="https://github.com/fredrikekre/Literate.jl">Literate.jl</a>.</em></p></article><nav class="docs-footer"><a class="docs-footer-prevpage" href="../summarize_results_prompts/">« By Prompts</a><a class="docs-footer-nextpage" href="../../frequently_asked_questions/">F.A.Q. »</a><div class="flexbox-break"></div><p class="footer-message">Powered by <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> and the <a href="https://julialang.org/">Julia Programming Language</a>.</p></nav></div><div class="modal" id="documenter-settings"><div class="modal-background"></div><div class="modal-card"><header class="modal-card-head"><p class="modal-card-title">Settings</p><button class="delete"></button></header><section class="modal-card-body"><p><label class="label">Theme</label><div class="select"><select id="documenter-themepicker"><option value="auto">Automatic (OS)</option><option value="documenter-light">documenter-light</option><option value="documenter-dark">documenter-dark</option><option value="catppuccin-latte">catppuccin-latte</option><option value="catppuccin-frappe">catppuccin-frappe</option><option value="catppuccin-macchiato">catppuccin-macchiato</option><option value="catppuccin-mocha">catppuccin-mocha</option></select></div></p><hr/><p>This document was generated with <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> version 1.5.0 on <span class="colophon-date" title="Monday 12 August 2024 20:24">Monday 12 August 2024</span>. Using Julia version 1.10.4.</p></section><footer class="modal-card-foot"></footer></div></div></div></body></html>
diff --git a/dev/examples/summarize_results_test_cases_waitlist/index.html b/dev/examples/summarize_results_test_cases_waitlist/index.html
index c6b83b8c7..3d8a44b92 100644
--- a/dev/examples/summarize_results_test_cases_waitlist/index.html
+++ b/dev/examples/summarize_results_test_cases_waitlist/index.html
@@ -155,4 +155,4 @@
         return middle(m[1], m[2])
     end
 end
-</code></pre><p><strong>Winning Paid Model:</strong> &quot;gpt-4-0125-preview&quot; with average score 81.3 (Full score: 1/25, Zero score: 1/25) </p><hr/><p><em>This page was generated using <a href="https://github.com/fredrikekre/Literate.jl">Literate.jl</a>.</em></p></article><nav class="docs-footer"><p class="footer-message">Powered by <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> and the <a href="https://julialang.org/">Julia Programming Language</a>.</p></nav></div><div class="modal" id="documenter-settings"><div class="modal-background"></div><div class="modal-card"><header class="modal-card-head"><p class="modal-card-title">Settings</p><button class="delete"></button></header><section class="modal-card-body"><p><label class="label">Theme</label><div class="select"><select id="documenter-themepicker"><option value="auto">Automatic (OS)</option><option value="documenter-light">documenter-light</option><option value="documenter-dark">documenter-dark</option><option value="catppuccin-latte">catppuccin-latte</option><option value="catppuccin-frappe">catppuccin-frappe</option><option value="catppuccin-macchiato">catppuccin-macchiato</option><option value="catppuccin-mocha">catppuccin-mocha</option></select></div></p><hr/><p>This document was generated with <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> version 1.5.0 on <span class="colophon-date" title="Wednesday 7 August 2024 08:36">Wednesday 7 August 2024</span>. Using Julia version 1.10.4.</p></section><footer class="modal-card-foot"></footer></div></div></div></body></html>
+</code></pre><p><strong>Winning Paid Model:</strong> &quot;gpt-4-0125-preview&quot; with average score 81.3 (Full score: 1/25, Zero score: 1/25) </p><hr/><p><em>This page was generated using <a href="https://github.com/fredrikekre/Literate.jl">Literate.jl</a>.</em></p></article><nav class="docs-footer"><p class="footer-message">Powered by <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> and the <a href="https://julialang.org/">Julia Programming Language</a>.</p></nav></div><div class="modal" id="documenter-settings"><div class="modal-background"></div><div class="modal-card"><header class="modal-card-head"><p class="modal-card-title">Settings</p><button class="delete"></button></header><section class="modal-card-body"><p><label class="label">Theme</label><div class="select"><select id="documenter-themepicker"><option value="auto">Automatic (OS)</option><option value="documenter-light">documenter-light</option><option value="documenter-dark">documenter-dark</option><option value="catppuccin-latte">catppuccin-latte</option><option value="catppuccin-frappe">catppuccin-frappe</option><option value="catppuccin-macchiato">catppuccin-macchiato</option><option value="catppuccin-mocha">catppuccin-mocha</option></select></div></p><hr/><p>This document was generated with <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> version 1.5.0 on <span class="colophon-date" title="Monday 12 August 2024 20:24">Monday 12 August 2024</span>. Using Julia version 1.10.4.</p></section><footer class="modal-card-foot"></footer></div></div></div></body></html>
diff --git a/dev/frequently_asked_questions/index.html b/dev/frequently_asked_questions/index.html
index beb62dc71..da77619f5 100644
--- a/dev/frequently_asked_questions/index.html
+++ b/dev/frequently_asked_questions/index.html
@@ -1,2 +1,2 @@
 <!DOCTYPE html>
-<html lang="en"><head><meta charset="UTF-8"/><meta name="viewport" content="width=device-width, initial-scale=1.0"/><title>F.A.Q. · JuliaLLMLeaderboard.jl</title><meta name="title" content="F.A.Q. · JuliaLLMLeaderboard.jl"/><meta property="og:title" content="F.A.Q. · JuliaLLMLeaderboard.jl"/><meta property="twitter:title" content="F.A.Q. · JuliaLLMLeaderboard.jl"/><meta name="description" content="Documentation for JuliaLLMLeaderboard.jl."/><meta property="og:description" content="Documentation for JuliaLLMLeaderboard.jl."/><meta property="twitter:description" content="Documentation for JuliaLLMLeaderboard.jl."/><meta property="og:url" content="https://svilupp.github.io/Julia-LLM-Leaderboard/frequently_asked_questions/"/><meta property="twitter:url" content="https://svilupp.github.io/Julia-LLM-Leaderboard/frequently_asked_questions/"/><link rel="canonical" href="https://svilupp.github.io/Julia-LLM-Leaderboard/frequently_asked_questions/"/><script data-outdated-warner src="../assets/warner.js"></script><link href="https://cdnjs.cloudflare.com/ajax/libs/lato-font/3.0.0/css/lato-font.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/juliamono/0.050/juliamono.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/fontawesome.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/solid.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/brands.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/KaTeX/0.16.8/katex.min.css" rel="stylesheet" type="text/css"/><script>documenterBaseURL=".."</script><script src="https://cdnjs.cloudflare.com/ajax/libs/require.js/2.3.6/require.min.js" data-main="../assets/documenter.js"></script><script src="../search_index.js"></script><script src="../siteinfo.js"></script><script src="../../versions.js"></script><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-mocha.css" data-theme-name="catppuccin-mocha"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-macchiato.css" data-theme-name="catppuccin-macchiato"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-frappe.css" data-theme-name="catppuccin-frappe"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-latte.css" data-theme-name="catppuccin-latte"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/documenter-dark.css" data-theme-name="documenter-dark" data-theme-primary-dark/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/documenter-light.css" data-theme-name="documenter-light" data-theme-primary/><script src="../assets/themeswap.js"></script></head><body><div id="documenter"><nav class="docs-sidebar"><div class="docs-package-name"><span class="docs-autofit"><a href="../">JuliaLLMLeaderboard.jl</a></span></div><button class="docs-search-query input is-rounded is-small is-clickable my-2 mx-auto py-1 px-2" id="documenter-search-query">Search docs (Ctrl + /)</button><ul class="docs-menu"><li><a class="tocitem" href="../">Home</a></li><li><a class="tocitem" href="../getting_started/">Getting Started</a></li><li><a class="tocitem" href="../methodology/">Methodology</a></li><li><a class="tocitem" href="../test_definitions/">Test Definitions</a></li><li><span class="tocitem">Results</span><ul><li><a class="tocitem" href="../examples/summarize_results_paid/">Paid APIs</a></li><li><a class="tocitem" href="../examples/summarize_results_local/">Local Models</a></li><li><a class="tocitem" href="../examples/compare_paid_vs_local/">Paid vs Local Models</a></li><li><a class="tocitem" href="../examples/summarize_results_prompts/">By Prompts</a></li><li><a class="tocitem" href="../examples/summarize_results_test_cases/">By Test Case</a></li></ul></li><li class="is-active"><a class="tocitem" href>F.A.Q.</a><ul class="internal"><li><a class="tocitem" href="#What-are-the-so-whats?"><span>What are the so-whats?</span></a></li><li><a class="tocitem" href="#Want-to-add-a-new-model?"><span>Want to add a new model?</span></a></li><li><a class="tocitem" href="#What’s-Next?"><span>What’s Next?</span></a></li></ul></li><li><a class="tocitem" href="../reference/">Reference</a></li></ul><div class="docs-version-selector field has-addons"><div class="control"><span class="docs-label button is-static is-size-7">Version</span></div><div class="docs-selector control is-expanded"><div class="select is-fullwidth is-size-7"><select id="documenter-version-selector"></select></div></div></div></nav><div class="docs-main"><header class="docs-navbar"><a class="docs-sidebar-button docs-navbar-link fa-solid fa-bars is-hidden-desktop" id="documenter-sidebar-button" href="#"></a><nav class="breadcrumb"><ul class="is-hidden-mobile"><li class="is-active"><a href>F.A.Q.</a></li></ul><ul class="is-hidden-tablet"><li class="is-active"><a href>F.A.Q.</a></li></ul></nav><div class="docs-right"><a class="docs-navbar-link" href="https://github.com/svilupp/Julia-LLM-Leaderboard" title="View the repository on GitHub"><span class="docs-icon fa-brands"></span><span class="docs-label is-hidden-touch">GitHub</span></a><a class="docs-navbar-link" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/main/docs/src/frequently_asked_questions.md#" title="Edit source on GitHub"><span class="docs-icon fa-solid"></span></a><a class="docs-settings-button docs-navbar-link fa-solid fa-gear" id="documenter-settings-button" href="#" title="Settings"></a><a class="docs-article-toggle-button fa-solid fa-chevron-up" id="documenter-article-toggle-button" href="javascript:;" title="Collapse all docstrings"></a></div></header><article class="content" id="documenter-page"><h1 id="Frequently-Asked-Questions"><a class="docs-heading-anchor" href="#Frequently-Asked-Questions">Frequently Asked Questions</a><a id="Frequently-Asked-Questions-1"></a><a class="docs-heading-anchor-permalink" href="#Frequently-Asked-Questions" title="Permalink"></a></h1><h2 id="What-are-the-so-whats?"><a class="docs-heading-anchor" href="#What-are-the-so-whats?">What are the so-whats?</a><a id="What-are-the-so-whats?-1"></a><a class="docs-heading-anchor-permalink" href="#What-are-the-so-whats?" title="Permalink"></a></h2><p>There is limited guidance or comments in the docs, because it’s meant to be automatically generated (and, hence, can move around slightly). For the resulting insights, see the associated blog posts!</p><h2 id="Want-to-add-a-new-model?"><a class="docs-heading-anchor" href="#Want-to-add-a-new-model?">Want to add a new model?</a><a id="Want-to-add-a-new-model?-1"></a><a class="docs-heading-anchor-permalink" href="#Want-to-add-a-new-model?" title="Permalink"></a></h2><p>In the short term, we don&#39;t foresee adding more models, unless there is some <em>transformative</em> new option that runs on a consumer-grade hardware. </p><p>If you want to add the benchmark for some specific model, submit your evals in a PR. We&#39;ll review it and, if it&#39;s good, we&#39;ll merge it.</p><p>The expectations for a successful PR are:</p><ul><li>the model is publicly available and the submission can be verified</li><li>you have executed at least 5 different samples for each of the 5 basic prompt templates (see <code>examples/code_gen_benchmark.jl</code> for the list of templates) and for each test cases</li><li>ie, 14 * 5 * 5 = 350 evaluations and conversations are to be submitted in the PR</li></ul><h2 id="What’s-Next?"><a class="docs-heading-anchor" href="#What’s-Next?">What’s Next?</a><a id="What’s-Next?-1"></a><a class="docs-heading-anchor-permalink" href="#What’s-Next?" title="Permalink"></a></h2><p>We&#39;d like to add more tests and, potentially, also types of tests (code questions).</p><p>It would be good to grow the number of prompt templates tested, as those are more versatile.</p></article><nav class="docs-footer"><a class="docs-footer-prevpage" href="../examples/summarize_results_test_cases/">« By Test Case</a><a class="docs-footer-nextpage" href="../reference/">Reference »</a><div class="flexbox-break"></div><p class="footer-message">Powered by <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> and the <a href="https://julialang.org/">Julia Programming Language</a>.</p></nav></div><div class="modal" id="documenter-settings"><div class="modal-background"></div><div class="modal-card"><header class="modal-card-head"><p class="modal-card-title">Settings</p><button class="delete"></button></header><section class="modal-card-body"><p><label class="label">Theme</label><div class="select"><select id="documenter-themepicker"><option value="auto">Automatic (OS)</option><option value="documenter-light">documenter-light</option><option value="documenter-dark">documenter-dark</option><option value="catppuccin-latte">catppuccin-latte</option><option value="catppuccin-frappe">catppuccin-frappe</option><option value="catppuccin-macchiato">catppuccin-macchiato</option><option value="catppuccin-mocha">catppuccin-mocha</option></select></div></p><hr/><p>This document was generated with <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> version 1.5.0 on <span class="colophon-date" title="Wednesday 7 August 2024 08:36">Wednesday 7 August 2024</span>. Using Julia version 1.10.4.</p></section><footer class="modal-card-foot"></footer></div></div></div></body></html>
+<html lang="en"><head><meta charset="UTF-8"/><meta name="viewport" content="width=device-width, initial-scale=1.0"/><title>F.A.Q. · JuliaLLMLeaderboard.jl</title><meta name="title" content="F.A.Q. · JuliaLLMLeaderboard.jl"/><meta property="og:title" content="F.A.Q. · JuliaLLMLeaderboard.jl"/><meta property="twitter:title" content="F.A.Q. · JuliaLLMLeaderboard.jl"/><meta name="description" content="Documentation for JuliaLLMLeaderboard.jl."/><meta property="og:description" content="Documentation for JuliaLLMLeaderboard.jl."/><meta property="twitter:description" content="Documentation for JuliaLLMLeaderboard.jl."/><meta property="og:url" content="https://svilupp.github.io/Julia-LLM-Leaderboard/frequently_asked_questions/"/><meta property="twitter:url" content="https://svilupp.github.io/Julia-LLM-Leaderboard/frequently_asked_questions/"/><link rel="canonical" href="https://svilupp.github.io/Julia-LLM-Leaderboard/frequently_asked_questions/"/><script data-outdated-warner src="../assets/warner.js"></script><link href="https://cdnjs.cloudflare.com/ajax/libs/lato-font/3.0.0/css/lato-font.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/juliamono/0.050/juliamono.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/fontawesome.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/solid.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/brands.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/KaTeX/0.16.8/katex.min.css" rel="stylesheet" type="text/css"/><script>documenterBaseURL=".."</script><script src="https://cdnjs.cloudflare.com/ajax/libs/require.js/2.3.6/require.min.js" data-main="../assets/documenter.js"></script><script src="../search_index.js"></script><script src="../siteinfo.js"></script><script src="../../versions.js"></script><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-mocha.css" data-theme-name="catppuccin-mocha"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-macchiato.css" data-theme-name="catppuccin-macchiato"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-frappe.css" data-theme-name="catppuccin-frappe"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-latte.css" data-theme-name="catppuccin-latte"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/documenter-dark.css" data-theme-name="documenter-dark" data-theme-primary-dark/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/documenter-light.css" data-theme-name="documenter-light" data-theme-primary/><script src="../assets/themeswap.js"></script></head><body><div id="documenter"><nav class="docs-sidebar"><div class="docs-package-name"><span class="docs-autofit"><a href="../">JuliaLLMLeaderboard.jl</a></span></div><button class="docs-search-query input is-rounded is-small is-clickable my-2 mx-auto py-1 px-2" id="documenter-search-query">Search docs (Ctrl + /)</button><ul class="docs-menu"><li><a class="tocitem" href="../">Home</a></li><li><a class="tocitem" href="../getting_started/">Getting Started</a></li><li><a class="tocitem" href="../methodology/">Methodology</a></li><li><a class="tocitem" href="../test_definitions/">Test Definitions</a></li><li><span class="tocitem">Results</span><ul><li><a class="tocitem" href="../examples/summarize_results_paid/">Paid APIs</a></li><li><a class="tocitem" href="../examples/summarize_results_local/">Local Models</a></li><li><a class="tocitem" href="../examples/compare_paid_vs_local/">Paid vs Local Models</a></li><li><a class="tocitem" href="../examples/summarize_results_prompts/">By Prompts</a></li><li><a class="tocitem" href="../examples/summarize_results_test_cases/">By Test Case</a></li></ul></li><li class="is-active"><a class="tocitem" href>F.A.Q.</a><ul class="internal"><li><a class="tocitem" href="#What-are-the-so-whats?"><span>What are the so-whats?</span></a></li><li><a class="tocitem" href="#Want-to-add-a-new-model?"><span>Want to add a new model?</span></a></li><li><a class="tocitem" href="#What’s-Next?"><span>What’s Next?</span></a></li></ul></li><li><a class="tocitem" href="../reference/">Reference</a></li></ul><div class="docs-version-selector field has-addons"><div class="control"><span class="docs-label button is-static is-size-7">Version</span></div><div class="docs-selector control is-expanded"><div class="select is-fullwidth is-size-7"><select id="documenter-version-selector"></select></div></div></div></nav><div class="docs-main"><header class="docs-navbar"><a class="docs-sidebar-button docs-navbar-link fa-solid fa-bars is-hidden-desktop" id="documenter-sidebar-button" href="#"></a><nav class="breadcrumb"><ul class="is-hidden-mobile"><li class="is-active"><a href>F.A.Q.</a></li></ul><ul class="is-hidden-tablet"><li class="is-active"><a href>F.A.Q.</a></li></ul></nav><div class="docs-right"><a class="docs-navbar-link" href="https://github.com/svilupp/Julia-LLM-Leaderboard" title="View the repository on GitHub"><span class="docs-icon fa-brands"></span><span class="docs-label is-hidden-touch">GitHub</span></a><a class="docs-navbar-link" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/main/docs/src/frequently_asked_questions.md#" title="Edit source on GitHub"><span class="docs-icon fa-solid"></span></a><a class="docs-settings-button docs-navbar-link fa-solid fa-gear" id="documenter-settings-button" href="#" title="Settings"></a><a class="docs-article-toggle-button fa-solid fa-chevron-up" id="documenter-article-toggle-button" href="javascript:;" title="Collapse all docstrings"></a></div></header><article class="content" id="documenter-page"><h1 id="Frequently-Asked-Questions"><a class="docs-heading-anchor" href="#Frequently-Asked-Questions">Frequently Asked Questions</a><a id="Frequently-Asked-Questions-1"></a><a class="docs-heading-anchor-permalink" href="#Frequently-Asked-Questions" title="Permalink"></a></h1><h2 id="What-are-the-so-whats?"><a class="docs-heading-anchor" href="#What-are-the-so-whats?">What are the so-whats?</a><a id="What-are-the-so-whats?-1"></a><a class="docs-heading-anchor-permalink" href="#What-are-the-so-whats?" title="Permalink"></a></h2><p>There is limited guidance or comments in the docs, because it’s meant to be automatically generated (and, hence, can move around slightly). For the resulting insights, see the associated blog posts!</p><h2 id="Want-to-add-a-new-model?"><a class="docs-heading-anchor" href="#Want-to-add-a-new-model?">Want to add a new model?</a><a id="Want-to-add-a-new-model?-1"></a><a class="docs-heading-anchor-permalink" href="#Want-to-add-a-new-model?" title="Permalink"></a></h2><p>In the short term, we don&#39;t foresee adding more models, unless there is some <em>transformative</em> new option that runs on a consumer-grade hardware. </p><p>If you want to add the benchmark for some specific model, submit your evals in a PR. We&#39;ll review it and, if it&#39;s good, we&#39;ll merge it.</p><p>The expectations for a successful PR are:</p><ul><li>the model is publicly available and the submission can be verified</li><li>you have executed at least 5 different samples for each of the 5 basic prompt templates (see <code>examples/code_gen_benchmark.jl</code> for the list of templates) and for each test cases</li><li>ie, 14 * 5 * 5 = 350 evaluations and conversations are to be submitted in the PR</li></ul><h2 id="What’s-Next?"><a class="docs-heading-anchor" href="#What’s-Next?">What’s Next?</a><a id="What’s-Next?-1"></a><a class="docs-heading-anchor-permalink" href="#What’s-Next?" title="Permalink"></a></h2><p>We&#39;d like to add more tests and, potentially, also types of tests (code questions).</p><p>It would be good to grow the number of prompt templates tested, as those are more versatile.</p></article><nav class="docs-footer"><a class="docs-footer-prevpage" href="../examples/summarize_results_test_cases/">« By Test Case</a><a class="docs-footer-nextpage" href="../reference/">Reference »</a><div class="flexbox-break"></div><p class="footer-message">Powered by <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> and the <a href="https://julialang.org/">Julia Programming Language</a>.</p></nav></div><div class="modal" id="documenter-settings"><div class="modal-background"></div><div class="modal-card"><header class="modal-card-head"><p class="modal-card-title">Settings</p><button class="delete"></button></header><section class="modal-card-body"><p><label class="label">Theme</label><div class="select"><select id="documenter-themepicker"><option value="auto">Automatic (OS)</option><option value="documenter-light">documenter-light</option><option value="documenter-dark">documenter-dark</option><option value="catppuccin-latte">catppuccin-latte</option><option value="catppuccin-frappe">catppuccin-frappe</option><option value="catppuccin-macchiato">catppuccin-macchiato</option><option value="catppuccin-mocha">catppuccin-mocha</option></select></div></p><hr/><p>This document was generated with <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> version 1.5.0 on <span class="colophon-date" title="Monday 12 August 2024 20:24">Monday 12 August 2024</span>. Using Julia version 1.10.4.</p></section><footer class="modal-card-foot"></footer></div></div></div></body></html>
diff --git a/dev/getting_started/index.html b/dev/getting_started/index.html
index 1521ca76e..756c663cc 100644
--- a/dev/getting_started/index.html
+++ b/dev/getting_started/index.html
@@ -37,4 +37,4 @@
     num_samples = 1, http_kwargs = (; readtimeout = 150));
 
 # You can then easily score each of these evaluation runs
-scores = score_evals.(evals)</code></pre><h2 id="Create-Your-Analysis"><a class="docs-heading-anchor" href="#Create-Your-Analysis">Create Your Analysis</a><a id="Create-Your-Analysis-1"></a><a class="docs-heading-anchor-permalink" href="#Create-Your-Analysis" title="Permalink"></a></h2><p>To inspect individual model answers and their associated scores, see <code>examples/inspect_results.jl</code> or <code>examples/debugging_results.jl</code>.</p><p>To compare different models, see <code>examples/summarize_results_paid.jl</code></p><h2 id="Run-an-Experiment"><a class="docs-heading-anchor" href="#Run-an-Experiment">Run an Experiment</a><a id="Run-an-Experiment-1"></a><a class="docs-heading-anchor-permalink" href="#Run-an-Experiment" title="Permalink"></a></h2><p>Want to run some experiments and save the results? Check out <code>examples/experiment_hyperparameter_scan.jl</code> for finding the optimal <code>temperature</code> and <code>top_p</code> !</p><h2 id="Contributing-Results"><a class="docs-heading-anchor" href="#Contributing-Results">Contributing Results</a><a id="Contributing-Results-1"></a><a class="docs-heading-anchor-permalink" href="#Contributing-Results" title="Permalink"></a></h2><ol><li><strong>Run Your Evaluation</strong>: Choose your model and prompt, and run the test.</li><li><strong>Save Results</strong>: Store both the conversation and the evaluation.</li><li><strong>Open a PR</strong>: Include the part of the code snippet you changed in the PR comments. We generally require 1-2 independent verifications of your result or at least 3 samples for each combination (for validity).</li></ol></article><nav class="docs-footer"><a class="docs-footer-prevpage" href="../">« Home</a><a class="docs-footer-nextpage" href="../methodology/">Methodology »</a><div class="flexbox-break"></div><p class="footer-message">Powered by <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> and the <a href="https://julialang.org/">Julia Programming Language</a>.</p></nav></div><div class="modal" id="documenter-settings"><div class="modal-background"></div><div class="modal-card"><header class="modal-card-head"><p class="modal-card-title">Settings</p><button class="delete"></button></header><section class="modal-card-body"><p><label class="label">Theme</label><div class="select"><select id="documenter-themepicker"><option value="auto">Automatic (OS)</option><option value="documenter-light">documenter-light</option><option value="documenter-dark">documenter-dark</option><option value="catppuccin-latte">catppuccin-latte</option><option value="catppuccin-frappe">catppuccin-frappe</option><option value="catppuccin-macchiato">catppuccin-macchiato</option><option value="catppuccin-mocha">catppuccin-mocha</option></select></div></p><hr/><p>This document was generated with <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> version 1.5.0 on <span class="colophon-date" title="Wednesday 7 August 2024 08:36">Wednesday 7 August 2024</span>. Using Julia version 1.10.4.</p></section><footer class="modal-card-foot"></footer></div></div></div></body></html>
+scores = score_evals.(evals)</code></pre><h2 id="Create-Your-Analysis"><a class="docs-heading-anchor" href="#Create-Your-Analysis">Create Your Analysis</a><a id="Create-Your-Analysis-1"></a><a class="docs-heading-anchor-permalink" href="#Create-Your-Analysis" title="Permalink"></a></h2><p>To inspect individual model answers and their associated scores, see <code>examples/inspect_results.jl</code> or <code>examples/debugging_results.jl</code>.</p><p>To compare different models, see <code>examples/summarize_results_paid.jl</code></p><h2 id="Run-an-Experiment"><a class="docs-heading-anchor" href="#Run-an-Experiment">Run an Experiment</a><a id="Run-an-Experiment-1"></a><a class="docs-heading-anchor-permalink" href="#Run-an-Experiment" title="Permalink"></a></h2><p>Want to run some experiments and save the results? Check out <code>examples/experiment_hyperparameter_scan.jl</code> for finding the optimal <code>temperature</code> and <code>top_p</code> !</p><h2 id="Contributing-Results"><a class="docs-heading-anchor" href="#Contributing-Results">Contributing Results</a><a id="Contributing-Results-1"></a><a class="docs-heading-anchor-permalink" href="#Contributing-Results" title="Permalink"></a></h2><ol><li><strong>Run Your Evaluation</strong>: Choose your model and prompt, and run the test.</li><li><strong>Save Results</strong>: Store both the conversation and the evaluation.</li><li><strong>Open a PR</strong>: Include the part of the code snippet you changed in the PR comments. We generally require 1-2 independent verifications of your result or at least 3 samples for each combination (for validity).</li></ol></article><nav class="docs-footer"><a class="docs-footer-prevpage" href="../">« Home</a><a class="docs-footer-nextpage" href="../methodology/">Methodology »</a><div class="flexbox-break"></div><p class="footer-message">Powered by <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> and the <a href="https://julialang.org/">Julia Programming Language</a>.</p></nav></div><div class="modal" id="documenter-settings"><div class="modal-background"></div><div class="modal-card"><header class="modal-card-head"><p class="modal-card-title">Settings</p><button class="delete"></button></header><section class="modal-card-body"><p><label class="label">Theme</label><div class="select"><select id="documenter-themepicker"><option value="auto">Automatic (OS)</option><option value="documenter-light">documenter-light</option><option value="documenter-dark">documenter-dark</option><option value="catppuccin-latte">catppuccin-latte</option><option value="catppuccin-frappe">catppuccin-frappe</option><option value="catppuccin-macchiato">catppuccin-macchiato</option><option value="catppuccin-mocha">catppuccin-mocha</option></select></div></p><hr/><p>This document was generated with <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> version 1.5.0 on <span class="colophon-date" title="Monday 12 August 2024 20:24">Monday 12 August 2024</span>. Using Julia version 1.10.4.</p></section><footer class="modal-card-foot"></footer></div></div></div></body></html>
diff --git a/dev/index.html b/dev/index.html
index 698fc0613..7d96e0d69 100644
--- a/dev/index.html
+++ b/dev/index.html
@@ -1,2 +1,2 @@
 <!DOCTYPE html>
-<html lang="en"><head><meta charset="UTF-8"/><meta name="viewport" content="width=device-width, initial-scale=1.0"/><title>Home · JuliaLLMLeaderboard.jl</title><meta name="title" content="Home · JuliaLLMLeaderboard.jl"/><meta property="og:title" content="Home · JuliaLLMLeaderboard.jl"/><meta property="twitter:title" content="Home · JuliaLLMLeaderboard.jl"/><meta name="description" content="Documentation for JuliaLLMLeaderboard.jl."/><meta property="og:description" content="Documentation for JuliaLLMLeaderboard.jl."/><meta property="twitter:description" content="Documentation for JuliaLLMLeaderboard.jl."/><meta property="og:url" content="https://svilupp.github.io/Julia-LLM-Leaderboard/"/><meta property="twitter:url" content="https://svilupp.github.io/Julia-LLM-Leaderboard/"/><link rel="canonical" href="https://svilupp.github.io/Julia-LLM-Leaderboard/"/><script data-outdated-warner src="assets/warner.js"></script><link href="https://cdnjs.cloudflare.com/ajax/libs/lato-font/3.0.0/css/lato-font.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/juliamono/0.050/juliamono.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/fontawesome.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/solid.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/brands.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/KaTeX/0.16.8/katex.min.css" rel="stylesheet" type="text/css"/><script>documenterBaseURL="."</script><script src="https://cdnjs.cloudflare.com/ajax/libs/require.js/2.3.6/require.min.js" data-main="assets/documenter.js"></script><script src="search_index.js"></script><script src="siteinfo.js"></script><script src="../versions.js"></script><link class="docs-theme-link" rel="stylesheet" type="text/css" href="assets/themes/catppuccin-mocha.css" data-theme-name="catppuccin-mocha"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="assets/themes/catppuccin-macchiato.css" data-theme-name="catppuccin-macchiato"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="assets/themes/catppuccin-frappe.css" data-theme-name="catppuccin-frappe"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="assets/themes/catppuccin-latte.css" data-theme-name="catppuccin-latte"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="assets/themes/documenter-dark.css" data-theme-name="documenter-dark" data-theme-primary-dark/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="assets/themes/documenter-light.css" data-theme-name="documenter-light" data-theme-primary/><script src="assets/themeswap.js"></script></head><body><div id="documenter"><nav class="docs-sidebar"><div class="docs-package-name"><span class="docs-autofit"><a href>JuliaLLMLeaderboard.jl</a></span></div><button class="docs-search-query input is-rounded is-small is-clickable my-2 mx-auto py-1 px-2" id="documenter-search-query">Search docs (Ctrl + /)</button><ul class="docs-menu"><li class="is-active"><a class="tocitem" href>Home</a><ul class="internal"><li><a class="tocitem" href="#Introduction"><span>Introduction</span></a></li><li><a class="tocitem" href="#First-Steps"><span>First Steps</span></a></li><li><a class="tocitem" href="#Feedback-and-Improvements"><span>Feedback and Improvements</span></a></li></ul></li><li><a class="tocitem" href="getting_started/">Getting Started</a></li><li><a class="tocitem" href="methodology/">Methodology</a></li><li><a class="tocitem" href="test_definitions/">Test Definitions</a></li><li><span class="tocitem">Results</span><ul><li><a class="tocitem" href="examples/summarize_results_paid/">Paid APIs</a></li><li><a class="tocitem" href="examples/summarize_results_local/">Local Models</a></li><li><a class="tocitem" href="examples/compare_paid_vs_local/">Paid vs Local Models</a></li><li><a class="tocitem" href="examples/summarize_results_prompts/">By Prompts</a></li><li><a class="tocitem" href="examples/summarize_results_test_cases/">By Test Case</a></li></ul></li><li><a class="tocitem" href="frequently_asked_questions/">F.A.Q.</a></li><li><a class="tocitem" href="reference/">Reference</a></li></ul><div class="docs-version-selector field has-addons"><div class="control"><span class="docs-label button is-static is-size-7">Version</span></div><div class="docs-selector control is-expanded"><div class="select is-fullwidth is-size-7"><select id="documenter-version-selector"></select></div></div></div></nav><div class="docs-main"><header class="docs-navbar"><a class="docs-sidebar-button docs-navbar-link fa-solid fa-bars is-hidden-desktop" id="documenter-sidebar-button" href="#"></a><nav class="breadcrumb"><ul class="is-hidden-mobile"><li class="is-active"><a href>Home</a></li></ul><ul class="is-hidden-tablet"><li class="is-active"><a href>Home</a></li></ul></nav><div class="docs-right"><a class="docs-navbar-link" href="https://github.com/svilupp/Julia-LLM-Leaderboard" title="View the repository on GitHub"><span class="docs-icon fa-brands"></span><span class="docs-label is-hidden-touch">GitHub</span></a><a class="docs-navbar-link" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/main/docs/src/index.md#" title="Edit source on GitHub"><span class="docs-icon fa-solid"></span></a><a class="docs-settings-button docs-navbar-link fa-solid fa-gear" id="documenter-settings-button" href="#" title="Settings"></a><a class="docs-article-toggle-button fa-solid fa-chevron-up" id="documenter-article-toggle-button" href="javascript:;" title="Collapse all docstrings"></a></div></header><article class="content" id="documenter-page"><h1 id="JuliaLLMLeaderboard"><a class="docs-heading-anchor" href="#JuliaLLMLeaderboard">JuliaLLMLeaderboard</a><a id="JuliaLLMLeaderboard-1"></a><a class="docs-heading-anchor-permalink" href="#JuliaLLMLeaderboard" title="Permalink"></a></h1><p>Documentation for <a href="https://github.com/svilupp/Julia-LLM-Leaderboard">Julia LLM Leaderboard</a>.</p><h2 id="Introduction"><a class="docs-heading-anchor" href="#Introduction">Introduction</a><a id="Introduction-1"></a><a class="docs-heading-anchor-permalink" href="#Introduction" title="Permalink"></a></h2><p>Welcome to the Julia Code Generation Benchmark Repository! </p><p>This project is designed for the Julia community to compare the code generation capabilities of various AI models. Unlike academic benchmarks, our focus is practicality and simplicity: &quot;Generate code, run it, and see if it works(-ish).&quot;</p><p>This repository aims to understand how different AI models and prompting strategies perform in generating syntactically correct Julia code to guide users in choosing the best model for their needs.</p><p>Itchy fingers? Open the Results section or just run your own benchmark with <code>run_benchmark()</code> (eg, <code>examples/code_gen_benchmark.jl</code>).</p><h2 id="First-Steps"><a class="docs-heading-anchor" href="#First-Steps">First Steps</a><a id="First-Steps-1"></a><a class="docs-heading-anchor-permalink" href="#First-Steps" title="Permalink"></a></h2><p>To get started with benchmarking, see the <a href="getting_started/#Getting-Started">Getting Started</a> section, or simply continue to results: </p><ul><li><a href="examples/summarize_results_local/#Results-for-Local-LLM-Models">Results for Local LLM Models</a></li><li><a href="examples/summarize_results_paid/#Results-for-Paid-LLM-APIs">Results for Paid LLM APIs</a></li><li><a href="examples/summarize_results_prompts/#Results-by-Prompt-Templates">Results by Prompt Templates</a></li><li><a href="examples/summarize_results_test_cases/#Results-by-Test-Cases">Results by Test Cases</a></li></ul><h2 id="Feedback-and-Improvements"><a class="docs-heading-anchor" href="#Feedback-and-Improvements">Feedback and Improvements</a><a id="Feedback-and-Improvements-1"></a><a class="docs-heading-anchor-permalink" href="#Feedback-and-Improvements" title="Permalink"></a></h2><p>We highly value community input. If you have suggestions or ideas for improvement, please open an issue. All contributions are welcome!</p></article><nav class="docs-footer"><a class="docs-footer-nextpage" href="getting_started/">Getting Started »</a><div class="flexbox-break"></div><p class="footer-message">Powered by <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> and the <a href="https://julialang.org/">Julia Programming Language</a>.</p></nav></div><div class="modal" id="documenter-settings"><div class="modal-background"></div><div class="modal-card"><header class="modal-card-head"><p class="modal-card-title">Settings</p><button class="delete"></button></header><section class="modal-card-body"><p><label class="label">Theme</label><div class="select"><select id="documenter-themepicker"><option value="auto">Automatic (OS)</option><option value="documenter-light">documenter-light</option><option value="documenter-dark">documenter-dark</option><option value="catppuccin-latte">catppuccin-latte</option><option value="catppuccin-frappe">catppuccin-frappe</option><option value="catppuccin-macchiato">catppuccin-macchiato</option><option value="catppuccin-mocha">catppuccin-mocha</option></select></div></p><hr/><p>This document was generated with <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> version 1.5.0 on <span class="colophon-date" title="Wednesday 7 August 2024 08:36">Wednesday 7 August 2024</span>. Using Julia version 1.10.4.</p></section><footer class="modal-card-foot"></footer></div></div></div></body></html>
+<html lang="en"><head><meta charset="UTF-8"/><meta name="viewport" content="width=device-width, initial-scale=1.0"/><title>Home · JuliaLLMLeaderboard.jl</title><meta name="title" content="Home · JuliaLLMLeaderboard.jl"/><meta property="og:title" content="Home · JuliaLLMLeaderboard.jl"/><meta property="twitter:title" content="Home · JuliaLLMLeaderboard.jl"/><meta name="description" content="Documentation for JuliaLLMLeaderboard.jl."/><meta property="og:description" content="Documentation for JuliaLLMLeaderboard.jl."/><meta property="twitter:description" content="Documentation for JuliaLLMLeaderboard.jl."/><meta property="og:url" content="https://svilupp.github.io/Julia-LLM-Leaderboard/"/><meta property="twitter:url" content="https://svilupp.github.io/Julia-LLM-Leaderboard/"/><link rel="canonical" href="https://svilupp.github.io/Julia-LLM-Leaderboard/"/><script data-outdated-warner src="assets/warner.js"></script><link href="https://cdnjs.cloudflare.com/ajax/libs/lato-font/3.0.0/css/lato-font.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/juliamono/0.050/juliamono.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/fontawesome.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/solid.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/brands.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/KaTeX/0.16.8/katex.min.css" rel="stylesheet" type="text/css"/><script>documenterBaseURL="."</script><script src="https://cdnjs.cloudflare.com/ajax/libs/require.js/2.3.6/require.min.js" data-main="assets/documenter.js"></script><script src="search_index.js"></script><script src="siteinfo.js"></script><script src="../versions.js"></script><link class="docs-theme-link" rel="stylesheet" type="text/css" href="assets/themes/catppuccin-mocha.css" data-theme-name="catppuccin-mocha"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="assets/themes/catppuccin-macchiato.css" data-theme-name="catppuccin-macchiato"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="assets/themes/catppuccin-frappe.css" data-theme-name="catppuccin-frappe"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="assets/themes/catppuccin-latte.css" data-theme-name="catppuccin-latte"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="assets/themes/documenter-dark.css" data-theme-name="documenter-dark" data-theme-primary-dark/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="assets/themes/documenter-light.css" data-theme-name="documenter-light" data-theme-primary/><script src="assets/themeswap.js"></script></head><body><div id="documenter"><nav class="docs-sidebar"><div class="docs-package-name"><span class="docs-autofit"><a href>JuliaLLMLeaderboard.jl</a></span></div><button class="docs-search-query input is-rounded is-small is-clickable my-2 mx-auto py-1 px-2" id="documenter-search-query">Search docs (Ctrl + /)</button><ul class="docs-menu"><li class="is-active"><a class="tocitem" href>Home</a><ul class="internal"><li><a class="tocitem" href="#Introduction"><span>Introduction</span></a></li><li><a class="tocitem" href="#First-Steps"><span>First Steps</span></a></li><li><a class="tocitem" href="#Feedback-and-Improvements"><span>Feedback and Improvements</span></a></li></ul></li><li><a class="tocitem" href="getting_started/">Getting Started</a></li><li><a class="tocitem" href="methodology/">Methodology</a></li><li><a class="tocitem" href="test_definitions/">Test Definitions</a></li><li><span class="tocitem">Results</span><ul><li><a class="tocitem" href="examples/summarize_results_paid/">Paid APIs</a></li><li><a class="tocitem" href="examples/summarize_results_local/">Local Models</a></li><li><a class="tocitem" href="examples/compare_paid_vs_local/">Paid vs Local Models</a></li><li><a class="tocitem" href="examples/summarize_results_prompts/">By Prompts</a></li><li><a class="tocitem" href="examples/summarize_results_test_cases/">By Test Case</a></li></ul></li><li><a class="tocitem" href="frequently_asked_questions/">F.A.Q.</a></li><li><a class="tocitem" href="reference/">Reference</a></li></ul><div class="docs-version-selector field has-addons"><div class="control"><span class="docs-label button is-static is-size-7">Version</span></div><div class="docs-selector control is-expanded"><div class="select is-fullwidth is-size-7"><select id="documenter-version-selector"></select></div></div></div></nav><div class="docs-main"><header class="docs-navbar"><a class="docs-sidebar-button docs-navbar-link fa-solid fa-bars is-hidden-desktop" id="documenter-sidebar-button" href="#"></a><nav class="breadcrumb"><ul class="is-hidden-mobile"><li class="is-active"><a href>Home</a></li></ul><ul class="is-hidden-tablet"><li class="is-active"><a href>Home</a></li></ul></nav><div class="docs-right"><a class="docs-navbar-link" href="https://github.com/svilupp/Julia-LLM-Leaderboard" title="View the repository on GitHub"><span class="docs-icon fa-brands"></span><span class="docs-label is-hidden-touch">GitHub</span></a><a class="docs-navbar-link" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/main/docs/src/index.md#" title="Edit source on GitHub"><span class="docs-icon fa-solid"></span></a><a class="docs-settings-button docs-navbar-link fa-solid fa-gear" id="documenter-settings-button" href="#" title="Settings"></a><a class="docs-article-toggle-button fa-solid fa-chevron-up" id="documenter-article-toggle-button" href="javascript:;" title="Collapse all docstrings"></a></div></header><article class="content" id="documenter-page"><h1 id="JuliaLLMLeaderboard"><a class="docs-heading-anchor" href="#JuliaLLMLeaderboard">JuliaLLMLeaderboard</a><a id="JuliaLLMLeaderboard-1"></a><a class="docs-heading-anchor-permalink" href="#JuliaLLMLeaderboard" title="Permalink"></a></h1><p>Documentation for <a href="https://github.com/svilupp/Julia-LLM-Leaderboard">Julia LLM Leaderboard</a>.</p><h2 id="Introduction"><a class="docs-heading-anchor" href="#Introduction">Introduction</a><a id="Introduction-1"></a><a class="docs-heading-anchor-permalink" href="#Introduction" title="Permalink"></a></h2><p>Welcome to the Julia Code Generation Benchmark Repository! </p><p>This project is designed for the Julia community to compare the code generation capabilities of various AI models. Unlike academic benchmarks, our focus is practicality and simplicity: &quot;Generate code, run it, and see if it works(-ish).&quot;</p><p>This repository aims to understand how different AI models and prompting strategies perform in generating syntactically correct Julia code to guide users in choosing the best model for their needs.</p><p>Itchy fingers? Open the Results section or just run your own benchmark with <code>run_benchmark()</code> (eg, <code>examples/code_gen_benchmark.jl</code>).</p><h2 id="First-Steps"><a class="docs-heading-anchor" href="#First-Steps">First Steps</a><a id="First-Steps-1"></a><a class="docs-heading-anchor-permalink" href="#First-Steps" title="Permalink"></a></h2><p>To get started with benchmarking, see the <a href="getting_started/#Getting-Started">Getting Started</a> section, or simply continue to results: </p><ul><li><a href="examples/summarize_results_local/#Results-for-Local-LLM-Models">Results for Local LLM Models</a></li><li><a href="examples/summarize_results_paid/#Results-for-Paid-LLM-APIs">Results for Paid LLM APIs</a></li><li><a href="examples/summarize_results_prompts/#Results-by-Prompt-Templates">Results by Prompt Templates</a></li><li><a href="examples/summarize_results_test_cases/#Results-by-Test-Cases">Results by Test Cases</a></li></ul><h2 id="Feedback-and-Improvements"><a class="docs-heading-anchor" href="#Feedback-and-Improvements">Feedback and Improvements</a><a id="Feedback-and-Improvements-1"></a><a class="docs-heading-anchor-permalink" href="#Feedback-and-Improvements" title="Permalink"></a></h2><p>We highly value community input. If you have suggestions or ideas for improvement, please open an issue. All contributions are welcome!</p></article><nav class="docs-footer"><a class="docs-footer-nextpage" href="getting_started/">Getting Started »</a><div class="flexbox-break"></div><p class="footer-message">Powered by <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> and the <a href="https://julialang.org/">Julia Programming Language</a>.</p></nav></div><div class="modal" id="documenter-settings"><div class="modal-background"></div><div class="modal-card"><header class="modal-card-head"><p class="modal-card-title">Settings</p><button class="delete"></button></header><section class="modal-card-body"><p><label class="label">Theme</label><div class="select"><select id="documenter-themepicker"><option value="auto">Automatic (OS)</option><option value="documenter-light">documenter-light</option><option value="documenter-dark">documenter-dark</option><option value="catppuccin-latte">catppuccin-latte</option><option value="catppuccin-frappe">catppuccin-frappe</option><option value="catppuccin-macchiato">catppuccin-macchiato</option><option value="catppuccin-mocha">catppuccin-mocha</option></select></div></p><hr/><p>This document was generated with <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> version 1.5.0 on <span class="colophon-date" title="Monday 12 August 2024 20:24">Monday 12 August 2024</span>. Using Julia version 1.10.4.</p></section><footer class="modal-card-foot"></footer></div></div></div></body></html>
diff --git a/dev/methodology/index.html b/dev/methodology/index.html
index d0e86f160..cdc290121 100644
--- a/dev/methodology/index.html
+++ b/dev/methodology/index.html
@@ -1,2 +1,2 @@
 <!DOCTYPE html>
-<html lang="en"><head><meta charset="UTF-8"/><meta name="viewport" content="width=device-width, initial-scale=1.0"/><title>Methodology · JuliaLLMLeaderboard.jl</title><meta name="title" content="Methodology · JuliaLLMLeaderboard.jl"/><meta property="og:title" content="Methodology · JuliaLLMLeaderboard.jl"/><meta property="twitter:title" content="Methodology · JuliaLLMLeaderboard.jl"/><meta name="description" content="Documentation for JuliaLLMLeaderboard.jl."/><meta property="og:description" content="Documentation for JuliaLLMLeaderboard.jl."/><meta property="twitter:description" content="Documentation for JuliaLLMLeaderboard.jl."/><meta property="og:url" content="https://svilupp.github.io/Julia-LLM-Leaderboard/methodology/"/><meta property="twitter:url" content="https://svilupp.github.io/Julia-LLM-Leaderboard/methodology/"/><link rel="canonical" href="https://svilupp.github.io/Julia-LLM-Leaderboard/methodology/"/><script data-outdated-warner src="../assets/warner.js"></script><link href="https://cdnjs.cloudflare.com/ajax/libs/lato-font/3.0.0/css/lato-font.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/juliamono/0.050/juliamono.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/fontawesome.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/solid.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/brands.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/KaTeX/0.16.8/katex.min.css" rel="stylesheet" type="text/css"/><script>documenterBaseURL=".."</script><script src="https://cdnjs.cloudflare.com/ajax/libs/require.js/2.3.6/require.min.js" data-main="../assets/documenter.js"></script><script src="../search_index.js"></script><script src="../siteinfo.js"></script><script src="../../versions.js"></script><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-mocha.css" data-theme-name="catppuccin-mocha"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-macchiato.css" data-theme-name="catppuccin-macchiato"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-frappe.css" data-theme-name="catppuccin-frappe"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-latte.css" data-theme-name="catppuccin-latte"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/documenter-dark.css" data-theme-name="documenter-dark" data-theme-primary-dark/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/documenter-light.css" data-theme-name="documenter-light" data-theme-primary/><script src="../assets/themeswap.js"></script></head><body><div id="documenter"><nav class="docs-sidebar"><div class="docs-package-name"><span class="docs-autofit"><a href="../">JuliaLLMLeaderboard.jl</a></span></div><button class="docs-search-query input is-rounded is-small is-clickable my-2 mx-auto py-1 px-2" id="documenter-search-query">Search docs (Ctrl + /)</button><ul class="docs-menu"><li><a class="tocitem" href="../">Home</a></li><li><a class="tocitem" href="../getting_started/">Getting Started</a></li><li class="is-active"><a class="tocitem" href>Methodology</a><ul class="internal"><li><a class="tocitem" href="#Definition.toml"><span>Definition.toml</span></a></li><li><a class="tocitem" href="#Repo-Structure-/-Naming-Convention"><span>Repo Structure / Naming Convention</span></a></li></ul></li><li><a class="tocitem" href="../test_definitions/">Test Definitions</a></li><li><span class="tocitem">Results</span><ul><li><a class="tocitem" href="../examples/summarize_results_paid/">Paid APIs</a></li><li><a class="tocitem" href="../examples/summarize_results_local/">Local Models</a></li><li><a class="tocitem" href="../examples/compare_paid_vs_local/">Paid vs Local Models</a></li><li><a class="tocitem" href="../examples/summarize_results_prompts/">By Prompts</a></li><li><a class="tocitem" href="../examples/summarize_results_test_cases/">By Test Case</a></li></ul></li><li><a class="tocitem" href="../frequently_asked_questions/">F.A.Q.</a></li><li><a class="tocitem" href="../reference/">Reference</a></li></ul><div class="docs-version-selector field has-addons"><div class="control"><span class="docs-label button is-static is-size-7">Version</span></div><div class="docs-selector control is-expanded"><div class="select is-fullwidth is-size-7"><select id="documenter-version-selector"></select></div></div></div></nav><div class="docs-main"><header class="docs-navbar"><a class="docs-sidebar-button docs-navbar-link fa-solid fa-bars is-hidden-desktop" id="documenter-sidebar-button" href="#"></a><nav class="breadcrumb"><ul class="is-hidden-mobile"><li class="is-active"><a href>Methodology</a></li></ul><ul class="is-hidden-tablet"><li class="is-active"><a href>Methodology</a></li></ul></nav><div class="docs-right"><a class="docs-navbar-link" href="https://github.com/svilupp/Julia-LLM-Leaderboard" title="View the repository on GitHub"><span class="docs-icon fa-brands"></span><span class="docs-label is-hidden-touch">GitHub</span></a><a class="docs-navbar-link" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/main/docs/src/methodology.md#" title="Edit source on GitHub"><span class="docs-icon fa-solid"></span></a><a class="docs-settings-button docs-navbar-link fa-solid fa-gear" id="documenter-settings-button" href="#" title="Settings"></a><a class="docs-article-toggle-button fa-solid fa-chevron-up" id="documenter-article-toggle-button" href="javascript:;" title="Collapse all docstrings"></a></div></header><article class="content" id="documenter-page"><h1 id="Automated-Evaluation-Methodology"><a class="docs-heading-anchor" href="#Automated-Evaluation-Methodology">Automated Evaluation Methodology</a><a id="Automated-Evaluation-Methodology-1"></a><a class="docs-heading-anchor-permalink" href="#Automated-Evaluation-Methodology" title="Permalink"></a></h1><p>Each model&#39;s and prompt&#39;s performance is evaluated based on several criteria:</p><ol><li><strong>Parsing</strong>: Does the generated code parse correctly in Julia?</li><li><strong>Execution</strong>: Can the code execute without errors?</li><li><strong>Unit Tests</strong>: Do the included unit tests pass?</li><li><strong>Example Runs</strong>: Does the code run in a provided example scenario?</li></ol><p>At the moment, all criteria are weighed equally and each test case can earn a maximum of 100 points. </p><p>If a code passes all criteria, it gets 100/100 points. </p><p>If it fails one criterion (eg, all unit tests), it gets 75/100 points. </p><p>If it fails two criteria (eg, it runs but all examples and unit tests are broken), it gets 50 points, and so on.</p><h2 id="Definition.toml"><a class="docs-heading-anchor" href="#Definition.toml">Definition.toml</a><a id="Definition.toml-1"></a><a class="docs-heading-anchor-permalink" href="#Definition.toml" title="Permalink"></a></h2><p>Each test case is defined in a <code>definition.toml</code> file with the structure described in <a href="../test_definitions/#Anatomy-of-definition.toml">Anatomy of <code>definition.toml</code></a>.</p><p>We chose TOML format because it is human-readable and easy to edit in a text editor / GITHub.</p><h2 id="Repo-Structure-/-Naming-Convention"><a class="docs-heading-anchor" href="#Repo-Structure-/-Naming-Convention">Repo Structure / Naming Convention</a><a id="Repo-Structure-/-Naming-Convention-1"></a><a class="docs-heading-anchor-permalink" href="#Repo-Structure-/-Naming-Convention" title="Permalink"></a></h2><p>To enhance transparency and reproducibility, we save all conversations and evaluations in a nested folder structure.</p><p><strong>Folder Convention</strong>:  </p><ul><li>Definitions are saved in nested folders following the format <code>code_generation/category/test_case_name/definition.toml</code></li><li>Evaluation results are saved in nested sub-folders, keyed by the model:<ul><li>Evaluation result: <code>code_generation/category/test_case_name/model/evaluation__PROMPT__STRATEGY__TIMESTAMP.json</code></li><li>Conversation: <code>code_generation/category/test_case_name/model/conversation__PROMPT__STRATEGY__TIMESTAMP.json</code></li></ul></li></ul><p>You can load any conversation with <code>PromptingTools.load_conversation()</code> and display it with <code>edit</code> or <code>preview</code> depending on your IDE/preference.</p><p>You can load any evaluation with <code>JSON3.read</code> and score it with <code>score_eval</code>.</p></article><nav class="docs-footer"><a class="docs-footer-prevpage" href="../getting_started/">« Getting Started</a><a class="docs-footer-nextpage" href="../test_definitions/">Test Definitions »</a><div class="flexbox-break"></div><p class="footer-message">Powered by <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> and the <a href="https://julialang.org/">Julia Programming Language</a>.</p></nav></div><div class="modal" id="documenter-settings"><div class="modal-background"></div><div class="modal-card"><header class="modal-card-head"><p class="modal-card-title">Settings</p><button class="delete"></button></header><section class="modal-card-body"><p><label class="label">Theme</label><div class="select"><select id="documenter-themepicker"><option value="auto">Automatic (OS)</option><option value="documenter-light">documenter-light</option><option value="documenter-dark">documenter-dark</option><option value="catppuccin-latte">catppuccin-latte</option><option value="catppuccin-frappe">catppuccin-frappe</option><option value="catppuccin-macchiato">catppuccin-macchiato</option><option value="catppuccin-mocha">catppuccin-mocha</option></select></div></p><hr/><p>This document was generated with <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> version 1.5.0 on <span class="colophon-date" title="Wednesday 7 August 2024 08:36">Wednesday 7 August 2024</span>. Using Julia version 1.10.4.</p></section><footer class="modal-card-foot"></footer></div></div></div></body></html>
+<html lang="en"><head><meta charset="UTF-8"/><meta name="viewport" content="width=device-width, initial-scale=1.0"/><title>Methodology · JuliaLLMLeaderboard.jl</title><meta name="title" content="Methodology · JuliaLLMLeaderboard.jl"/><meta property="og:title" content="Methodology · JuliaLLMLeaderboard.jl"/><meta property="twitter:title" content="Methodology · JuliaLLMLeaderboard.jl"/><meta name="description" content="Documentation for JuliaLLMLeaderboard.jl."/><meta property="og:description" content="Documentation for JuliaLLMLeaderboard.jl."/><meta property="twitter:description" content="Documentation for JuliaLLMLeaderboard.jl."/><meta property="og:url" content="https://svilupp.github.io/Julia-LLM-Leaderboard/methodology/"/><meta property="twitter:url" content="https://svilupp.github.io/Julia-LLM-Leaderboard/methodology/"/><link rel="canonical" href="https://svilupp.github.io/Julia-LLM-Leaderboard/methodology/"/><script data-outdated-warner src="../assets/warner.js"></script><link href="https://cdnjs.cloudflare.com/ajax/libs/lato-font/3.0.0/css/lato-font.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/juliamono/0.050/juliamono.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/fontawesome.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/solid.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/brands.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/KaTeX/0.16.8/katex.min.css" rel="stylesheet" type="text/css"/><script>documenterBaseURL=".."</script><script src="https://cdnjs.cloudflare.com/ajax/libs/require.js/2.3.6/require.min.js" data-main="../assets/documenter.js"></script><script src="../search_index.js"></script><script src="../siteinfo.js"></script><script src="../../versions.js"></script><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-mocha.css" data-theme-name="catppuccin-mocha"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-macchiato.css" data-theme-name="catppuccin-macchiato"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-frappe.css" data-theme-name="catppuccin-frappe"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-latte.css" data-theme-name="catppuccin-latte"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/documenter-dark.css" data-theme-name="documenter-dark" data-theme-primary-dark/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/documenter-light.css" data-theme-name="documenter-light" data-theme-primary/><script src="../assets/themeswap.js"></script></head><body><div id="documenter"><nav class="docs-sidebar"><div class="docs-package-name"><span class="docs-autofit"><a href="../">JuliaLLMLeaderboard.jl</a></span></div><button class="docs-search-query input is-rounded is-small is-clickable my-2 mx-auto py-1 px-2" id="documenter-search-query">Search docs (Ctrl + /)</button><ul class="docs-menu"><li><a class="tocitem" href="../">Home</a></li><li><a class="tocitem" href="../getting_started/">Getting Started</a></li><li class="is-active"><a class="tocitem" href>Methodology</a><ul class="internal"><li><a class="tocitem" href="#Definition.toml"><span>Definition.toml</span></a></li><li><a class="tocitem" href="#Repo-Structure-/-Naming-Convention"><span>Repo Structure / Naming Convention</span></a></li></ul></li><li><a class="tocitem" href="../test_definitions/">Test Definitions</a></li><li><span class="tocitem">Results</span><ul><li><a class="tocitem" href="../examples/summarize_results_paid/">Paid APIs</a></li><li><a class="tocitem" href="../examples/summarize_results_local/">Local Models</a></li><li><a class="tocitem" href="../examples/compare_paid_vs_local/">Paid vs Local Models</a></li><li><a class="tocitem" href="../examples/summarize_results_prompts/">By Prompts</a></li><li><a class="tocitem" href="../examples/summarize_results_test_cases/">By Test Case</a></li></ul></li><li><a class="tocitem" href="../frequently_asked_questions/">F.A.Q.</a></li><li><a class="tocitem" href="../reference/">Reference</a></li></ul><div class="docs-version-selector field has-addons"><div class="control"><span class="docs-label button is-static is-size-7">Version</span></div><div class="docs-selector control is-expanded"><div class="select is-fullwidth is-size-7"><select id="documenter-version-selector"></select></div></div></div></nav><div class="docs-main"><header class="docs-navbar"><a class="docs-sidebar-button docs-navbar-link fa-solid fa-bars is-hidden-desktop" id="documenter-sidebar-button" href="#"></a><nav class="breadcrumb"><ul class="is-hidden-mobile"><li class="is-active"><a href>Methodology</a></li></ul><ul class="is-hidden-tablet"><li class="is-active"><a href>Methodology</a></li></ul></nav><div class="docs-right"><a class="docs-navbar-link" href="https://github.com/svilupp/Julia-LLM-Leaderboard" title="View the repository on GitHub"><span class="docs-icon fa-brands"></span><span class="docs-label is-hidden-touch">GitHub</span></a><a class="docs-navbar-link" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/main/docs/src/methodology.md#" title="Edit source on GitHub"><span class="docs-icon fa-solid"></span></a><a class="docs-settings-button docs-navbar-link fa-solid fa-gear" id="documenter-settings-button" href="#" title="Settings"></a><a class="docs-article-toggle-button fa-solid fa-chevron-up" id="documenter-article-toggle-button" href="javascript:;" title="Collapse all docstrings"></a></div></header><article class="content" id="documenter-page"><h1 id="Automated-Evaluation-Methodology"><a class="docs-heading-anchor" href="#Automated-Evaluation-Methodology">Automated Evaluation Methodology</a><a id="Automated-Evaluation-Methodology-1"></a><a class="docs-heading-anchor-permalink" href="#Automated-Evaluation-Methodology" title="Permalink"></a></h1><p>Each model&#39;s and prompt&#39;s performance is evaluated based on several criteria:</p><ol><li><strong>Parsing</strong>: Does the generated code parse correctly in Julia?</li><li><strong>Execution</strong>: Can the code execute without errors?</li><li><strong>Unit Tests</strong>: Do the included unit tests pass?</li><li><strong>Example Runs</strong>: Does the code run in a provided example scenario?</li></ol><p>At the moment, all criteria are weighed equally and each test case can earn a maximum of 100 points. </p><p>If a code passes all criteria, it gets 100/100 points. </p><p>If it fails one criterion (eg, all unit tests), it gets 75/100 points. </p><p>If it fails two criteria (eg, it runs but all examples and unit tests are broken), it gets 50 points, and so on.</p><h2 id="Definition.toml"><a class="docs-heading-anchor" href="#Definition.toml">Definition.toml</a><a id="Definition.toml-1"></a><a class="docs-heading-anchor-permalink" href="#Definition.toml" title="Permalink"></a></h2><p>Each test case is defined in a <code>definition.toml</code> file with the structure described in <a href="../test_definitions/#Anatomy-of-definition.toml">Anatomy of <code>definition.toml</code></a>.</p><p>We chose TOML format because it is human-readable and easy to edit in a text editor / GITHub.</p><h2 id="Repo-Structure-/-Naming-Convention"><a class="docs-heading-anchor" href="#Repo-Structure-/-Naming-Convention">Repo Structure / Naming Convention</a><a id="Repo-Structure-/-Naming-Convention-1"></a><a class="docs-heading-anchor-permalink" href="#Repo-Structure-/-Naming-Convention" title="Permalink"></a></h2><p>To enhance transparency and reproducibility, we save all conversations and evaluations in a nested folder structure.</p><p><strong>Folder Convention</strong>:  </p><ul><li>Definitions are saved in nested folders following the format <code>code_generation/category/test_case_name/definition.toml</code></li><li>Evaluation results are saved in nested sub-folders, keyed by the model:<ul><li>Evaluation result: <code>code_generation/category/test_case_name/model/evaluation__PROMPT__STRATEGY__TIMESTAMP.json</code></li><li>Conversation: <code>code_generation/category/test_case_name/model/conversation__PROMPT__STRATEGY__TIMESTAMP.json</code></li></ul></li></ul><p>You can load any conversation with <code>PromptingTools.load_conversation()</code> and display it with <code>edit</code> or <code>preview</code> depending on your IDE/preference.</p><p>You can load any evaluation with <code>JSON3.read</code> and score it with <code>score_eval</code>.</p></article><nav class="docs-footer"><a class="docs-footer-prevpage" href="../getting_started/">« Getting Started</a><a class="docs-footer-nextpage" href="../test_definitions/">Test Definitions »</a><div class="flexbox-break"></div><p class="footer-message">Powered by <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> and the <a href="https://julialang.org/">Julia Programming Language</a>.</p></nav></div><div class="modal" id="documenter-settings"><div class="modal-background"></div><div class="modal-card"><header class="modal-card-head"><p class="modal-card-title">Settings</p><button class="delete"></button></header><section class="modal-card-body"><p><label class="label">Theme</label><div class="select"><select id="documenter-themepicker"><option value="auto">Automatic (OS)</option><option value="documenter-light">documenter-light</option><option value="documenter-dark">documenter-dark</option><option value="catppuccin-latte">catppuccin-latte</option><option value="catppuccin-frappe">catppuccin-frappe</option><option value="catppuccin-macchiato">catppuccin-macchiato</option><option value="catppuccin-mocha">catppuccin-mocha</option></select></div></p><hr/><p>This document was generated with <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> version 1.5.0 on <span class="colophon-date" title="Monday 12 August 2024 20:24">Monday 12 August 2024</span>. Using Julia version 1.10.4.</p></section><footer class="modal-card-foot"></footer></div></div></div></body></html>
diff --git a/dev/objects.inv b/dev/objects.inv
index 317d6b39b..84eff8b1a 100644
Binary files a/dev/objects.inv and b/dev/objects.inv differ
diff --git a/dev/reference/index.html b/dev/reference/index.html
index 5fa154b42..8ddd4fc0c 100644
--- a/dev/reference/index.html
+++ b/dev/reference/index.html
@@ -1,5 +1,5 @@
 <!DOCTYPE html>
-<html lang="en"><head><meta charset="UTF-8"/><meta name="viewport" content="width=device-width, initial-scale=1.0"/><title>Reference · JuliaLLMLeaderboard.jl</title><meta name="title" content="Reference · JuliaLLMLeaderboard.jl"/><meta property="og:title" content="Reference · JuliaLLMLeaderboard.jl"/><meta property="twitter:title" content="Reference · JuliaLLMLeaderboard.jl"/><meta name="description" content="Documentation for JuliaLLMLeaderboard.jl."/><meta property="og:description" content="Documentation for JuliaLLMLeaderboard.jl."/><meta property="twitter:description" content="Documentation for JuliaLLMLeaderboard.jl."/><meta property="og:url" content="https://svilupp.github.io/Julia-LLM-Leaderboard/reference/"/><meta property="twitter:url" content="https://svilupp.github.io/Julia-LLM-Leaderboard/reference/"/><link rel="canonical" href="https://svilupp.github.io/Julia-LLM-Leaderboard/reference/"/><script data-outdated-warner src="../assets/warner.js"></script><link href="https://cdnjs.cloudflare.com/ajax/libs/lato-font/3.0.0/css/lato-font.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/juliamono/0.050/juliamono.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/fontawesome.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/solid.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/brands.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/KaTeX/0.16.8/katex.min.css" rel="stylesheet" type="text/css"/><script>documenterBaseURL=".."</script><script src="https://cdnjs.cloudflare.com/ajax/libs/require.js/2.3.6/require.min.js" data-main="../assets/documenter.js"></script><script src="../search_index.js"></script><script src="../siteinfo.js"></script><script src="../../versions.js"></script><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-mocha.css" data-theme-name="catppuccin-mocha"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-macchiato.css" data-theme-name="catppuccin-macchiato"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-frappe.css" data-theme-name="catppuccin-frappe"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-latte.css" data-theme-name="catppuccin-latte"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/documenter-dark.css" data-theme-name="documenter-dark" data-theme-primary-dark/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/documenter-light.css" data-theme-name="documenter-light" data-theme-primary/><script src="../assets/themeswap.js"></script></head><body><div id="documenter"><nav class="docs-sidebar"><div class="docs-package-name"><span class="docs-autofit"><a href="../">JuliaLLMLeaderboard.jl</a></span></div><button class="docs-search-query input is-rounded is-small is-clickable my-2 mx-auto py-1 px-2" id="documenter-search-query">Search docs (Ctrl + /)</button><ul class="docs-menu"><li><a class="tocitem" href="../">Home</a></li><li><a class="tocitem" href="../getting_started/">Getting Started</a></li><li><a class="tocitem" href="../methodology/">Methodology</a></li><li><a class="tocitem" href="../test_definitions/">Test Definitions</a></li><li><span class="tocitem">Results</span><ul><li><a class="tocitem" href="../examples/summarize_results_paid/">Paid APIs</a></li><li><a class="tocitem" href="../examples/summarize_results_local/">Local Models</a></li><li><a class="tocitem" href="../examples/compare_paid_vs_local/">Paid vs Local Models</a></li><li><a class="tocitem" href="../examples/summarize_results_prompts/">By Prompts</a></li><li><a class="tocitem" href="../examples/summarize_results_test_cases/">By Test Case</a></li></ul></li><li><a class="tocitem" href="../frequently_asked_questions/">F.A.Q.</a></li><li class="is-active"><a class="tocitem" href>Reference</a></li></ul><div class="docs-version-selector field has-addons"><div class="control"><span class="docs-label button is-static is-size-7">Version</span></div><div class="docs-selector control is-expanded"><div class="select is-fullwidth is-size-7"><select id="documenter-version-selector"></select></div></div></div></nav><div class="docs-main"><header class="docs-navbar"><a class="docs-sidebar-button docs-navbar-link fa-solid fa-bars is-hidden-desktop" id="documenter-sidebar-button" href="#"></a><nav class="breadcrumb"><ul class="is-hidden-mobile"><li class="is-active"><a href>Reference</a></li></ul><ul class="is-hidden-tablet"><li class="is-active"><a href>Reference</a></li></ul></nav><div class="docs-right"><a class="docs-navbar-link" href="https://github.com/svilupp/Julia-LLM-Leaderboard" title="View the repository on GitHub"><span class="docs-icon fa-brands"></span><span class="docs-label is-hidden-touch">GitHub</span></a><a class="docs-navbar-link" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/main/docs/src/reference.md#" title="Edit source on GitHub"><span class="docs-icon fa-solid"></span></a><a class="docs-settings-button docs-navbar-link fa-solid fa-gear" id="documenter-settings-button" href="#" title="Settings"></a><a class="docs-article-toggle-button fa-solid fa-chevron-up" id="documenter-article-toggle-button" href="javascript:;" title="Collapse all docstrings"></a></div></header><article class="content" id="documenter-page"><h1 id="Reference"><a class="docs-heading-anchor" href="#Reference">Reference</a><a id="Reference-1"></a><a class="docs-heading-anchor-permalink" href="#Reference" title="Permalink"></a></h1><ul><li><a href="#InteractiveUtils.edit"><code>InteractiveUtils.edit</code></a></li><li><a href="#JuliaLLMLeaderboard.evaluate_1shot-Tuple{}"><code>JuliaLLMLeaderboard.evaluate_1shot</code></a></li><li><a href="#JuliaLLMLeaderboard.find_definitions"><code>JuliaLLMLeaderboard.find_definitions</code></a></li><li><a href="#JuliaLLMLeaderboard.load_conversation_from_eval-Tuple{AbstractString}"><code>JuliaLLMLeaderboard.load_conversation_from_eval</code></a></li><li><a href="#JuliaLLMLeaderboard.load_definition-Tuple{Any}"><code>JuliaLLMLeaderboard.load_definition</code></a></li><li><a href="#JuliaLLMLeaderboard.load_evals-Tuple{AbstractString}"><code>JuliaLLMLeaderboard.load_evals</code></a></li><li><a href="#JuliaLLMLeaderboard.preview-Tuple{AbstractVector{&lt;:PromptingTools.AbstractMessage}}"><code>JuliaLLMLeaderboard.preview</code></a></li><li><a href="#JuliaLLMLeaderboard.preview-Tuple{PromptingTools.AbstractMessage}"><code>JuliaLLMLeaderboard.preview</code></a></li><li><a href="#JuliaLLMLeaderboard.run_benchmark-Tuple{}"><code>JuliaLLMLeaderboard.run_benchmark</code></a></li><li><a href="#JuliaLLMLeaderboard.run_code_blocks_additive-Tuple{AICode, AbstractVector{&lt;:AbstractString}}"><code>JuliaLLMLeaderboard.run_code_blocks_additive</code></a></li><li><a href="#JuliaLLMLeaderboard.run_code_main-Tuple{AIMessage}"><code>JuliaLLMLeaderboard.run_code_main</code></a></li><li><a href="#JuliaLLMLeaderboard.save_definition-Tuple{AbstractString, AbstractDict}"><code>JuliaLLMLeaderboard.save_definition</code></a></li><li><a href="#JuliaLLMLeaderboard.score_eval-NTuple{4, Any}"><code>JuliaLLMLeaderboard.score_eval</code></a></li><li><a href="#JuliaLLMLeaderboard.score_eval-Tuple{AbstractDict}"><code>JuliaLLMLeaderboard.score_eval</code></a></li><li><a href="#JuliaLLMLeaderboard.timestamp_now-Tuple{}"><code>JuliaLLMLeaderboard.timestamp_now</code></a></li><li><a href="#JuliaLLMLeaderboard.tmapreduce-Tuple{Any, Any, Any}"><code>JuliaLLMLeaderboard.tmapreduce</code></a></li><li><a href="#JuliaLLMLeaderboard.validate_definition-Tuple{AbstractDict}"><code>JuliaLLMLeaderboard.validate_definition</code></a></li></ul><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="InteractiveUtils.edit" href="#InteractiveUtils.edit"><code>InteractiveUtils.edit</code></a> — <span class="docstring-category">Function</span></header><section><div><pre><code class="language-julia hljs">InteractiveUtils.edit(conversation::AbstractVector{&lt;:PT.AbstractMessage}, bookmark::Int=-1)</code></pre><p>Opens the conversation in a preview window formatted as markdown (In VSCode, right click on the tab and select &quot;Open Preview&quot; to format it nicely).</p><p>See also: <code>preview</code> (for rendering as markdown in REPL)</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/accd0e087a4360dbaaed214d70fc35d995a94f22/src/conversations.jl#L96-L103">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="JuliaLLMLeaderboard.evaluate_1shot-Tuple{}" href="#JuliaLLMLeaderboard.evaluate_1shot-Tuple{}"><code>JuliaLLMLeaderboard.evaluate_1shot</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">evaluate_1shot(; conversation, fn_definition, definition, model, prompt_label, schema, parameters::NamedTuple=NamedTuple(), device=&quot;UNKNOWN&quot;, timestamp=timestamp_now(), version_pt=string(pkgversion(PromptingTools)), prompt_strategy=&quot;1SHOT&quot;, verbose::Bool=false,
+<html lang="en"><head><meta charset="UTF-8"/><meta name="viewport" content="width=device-width, initial-scale=1.0"/><title>Reference · JuliaLLMLeaderboard.jl</title><meta name="title" content="Reference · JuliaLLMLeaderboard.jl"/><meta property="og:title" content="Reference · JuliaLLMLeaderboard.jl"/><meta property="twitter:title" content="Reference · JuliaLLMLeaderboard.jl"/><meta name="description" content="Documentation for JuliaLLMLeaderboard.jl."/><meta property="og:description" content="Documentation for JuliaLLMLeaderboard.jl."/><meta property="twitter:description" content="Documentation for JuliaLLMLeaderboard.jl."/><meta property="og:url" content="https://svilupp.github.io/Julia-LLM-Leaderboard/reference/"/><meta property="twitter:url" content="https://svilupp.github.io/Julia-LLM-Leaderboard/reference/"/><link rel="canonical" href="https://svilupp.github.io/Julia-LLM-Leaderboard/reference/"/><script data-outdated-warner src="../assets/warner.js"></script><link href="https://cdnjs.cloudflare.com/ajax/libs/lato-font/3.0.0/css/lato-font.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/juliamono/0.050/juliamono.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/fontawesome.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/solid.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/brands.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/KaTeX/0.16.8/katex.min.css" rel="stylesheet" type="text/css"/><script>documenterBaseURL=".."</script><script src="https://cdnjs.cloudflare.com/ajax/libs/require.js/2.3.6/require.min.js" data-main="../assets/documenter.js"></script><script src="../search_index.js"></script><script src="../siteinfo.js"></script><script src="../../versions.js"></script><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-mocha.css" data-theme-name="catppuccin-mocha"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-macchiato.css" data-theme-name="catppuccin-macchiato"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-frappe.css" data-theme-name="catppuccin-frappe"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-latte.css" data-theme-name="catppuccin-latte"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/documenter-dark.css" data-theme-name="documenter-dark" data-theme-primary-dark/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/documenter-light.css" data-theme-name="documenter-light" data-theme-primary/><script src="../assets/themeswap.js"></script></head><body><div id="documenter"><nav class="docs-sidebar"><div class="docs-package-name"><span class="docs-autofit"><a href="../">JuliaLLMLeaderboard.jl</a></span></div><button class="docs-search-query input is-rounded is-small is-clickable my-2 mx-auto py-1 px-2" id="documenter-search-query">Search docs (Ctrl + /)</button><ul class="docs-menu"><li><a class="tocitem" href="../">Home</a></li><li><a class="tocitem" href="../getting_started/">Getting Started</a></li><li><a class="tocitem" href="../methodology/">Methodology</a></li><li><a class="tocitem" href="../test_definitions/">Test Definitions</a></li><li><span class="tocitem">Results</span><ul><li><a class="tocitem" href="../examples/summarize_results_paid/">Paid APIs</a></li><li><a class="tocitem" href="../examples/summarize_results_local/">Local Models</a></li><li><a class="tocitem" href="../examples/compare_paid_vs_local/">Paid vs Local Models</a></li><li><a class="tocitem" href="../examples/summarize_results_prompts/">By Prompts</a></li><li><a class="tocitem" href="../examples/summarize_results_test_cases/">By Test Case</a></li></ul></li><li><a class="tocitem" href="../frequently_asked_questions/">F.A.Q.</a></li><li class="is-active"><a class="tocitem" href>Reference</a></li></ul><div class="docs-version-selector field has-addons"><div class="control"><span class="docs-label button is-static is-size-7">Version</span></div><div class="docs-selector control is-expanded"><div class="select is-fullwidth is-size-7"><select id="documenter-version-selector"></select></div></div></div></nav><div class="docs-main"><header class="docs-navbar"><a class="docs-sidebar-button docs-navbar-link fa-solid fa-bars is-hidden-desktop" id="documenter-sidebar-button" href="#"></a><nav class="breadcrumb"><ul class="is-hidden-mobile"><li class="is-active"><a href>Reference</a></li></ul><ul class="is-hidden-tablet"><li class="is-active"><a href>Reference</a></li></ul></nav><div class="docs-right"><a class="docs-navbar-link" href="https://github.com/svilupp/Julia-LLM-Leaderboard" title="View the repository on GitHub"><span class="docs-icon fa-brands"></span><span class="docs-label is-hidden-touch">GitHub</span></a><a class="docs-navbar-link" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/main/docs/src/reference.md#" title="Edit source on GitHub"><span class="docs-icon fa-solid"></span></a><a class="docs-settings-button docs-navbar-link fa-solid fa-gear" id="documenter-settings-button" href="#" title="Settings"></a><a class="docs-article-toggle-button fa-solid fa-chevron-up" id="documenter-article-toggle-button" href="javascript:;" title="Collapse all docstrings"></a></div></header><article class="content" id="documenter-page"><h1 id="Reference"><a class="docs-heading-anchor" href="#Reference">Reference</a><a id="Reference-1"></a><a class="docs-heading-anchor-permalink" href="#Reference" title="Permalink"></a></h1><ul><li><a href="#InteractiveUtils.edit"><code>InteractiveUtils.edit</code></a></li><li><a href="#JuliaLLMLeaderboard.evaluate_1shot-Tuple{}"><code>JuliaLLMLeaderboard.evaluate_1shot</code></a></li><li><a href="#JuliaLLMLeaderboard.find_definitions"><code>JuliaLLMLeaderboard.find_definitions</code></a></li><li><a href="#JuliaLLMLeaderboard.load_conversation_from_eval-Tuple{AbstractString}"><code>JuliaLLMLeaderboard.load_conversation_from_eval</code></a></li><li><a href="#JuliaLLMLeaderboard.load_definition-Tuple{Any}"><code>JuliaLLMLeaderboard.load_definition</code></a></li><li><a href="#JuliaLLMLeaderboard.load_evals-Tuple{AbstractString}"><code>JuliaLLMLeaderboard.load_evals</code></a></li><li><a href="#JuliaLLMLeaderboard.preview-Tuple{AbstractVector{&lt;:PromptingTools.AbstractMessage}}"><code>JuliaLLMLeaderboard.preview</code></a></li><li><a href="#JuliaLLMLeaderboard.preview-Tuple{PromptingTools.AbstractMessage}"><code>JuliaLLMLeaderboard.preview</code></a></li><li><a href="#JuliaLLMLeaderboard.run_benchmark-Tuple{}"><code>JuliaLLMLeaderboard.run_benchmark</code></a></li><li><a href="#JuliaLLMLeaderboard.run_code_blocks_additive-Tuple{AICode, AbstractVector{&lt;:AbstractString}}"><code>JuliaLLMLeaderboard.run_code_blocks_additive</code></a></li><li><a href="#JuliaLLMLeaderboard.run_code_main-Tuple{AIMessage}"><code>JuliaLLMLeaderboard.run_code_main</code></a></li><li><a href="#JuliaLLMLeaderboard.save_definition-Tuple{AbstractString, AbstractDict}"><code>JuliaLLMLeaderboard.save_definition</code></a></li><li><a href="#JuliaLLMLeaderboard.score_eval-NTuple{4, Any}"><code>JuliaLLMLeaderboard.score_eval</code></a></li><li><a href="#JuliaLLMLeaderboard.score_eval-Tuple{AbstractDict}"><code>JuliaLLMLeaderboard.score_eval</code></a></li><li><a href="#JuliaLLMLeaderboard.timestamp_now-Tuple{}"><code>JuliaLLMLeaderboard.timestamp_now</code></a></li><li><a href="#JuliaLLMLeaderboard.tmapreduce-Tuple{Any, Any, Any}"><code>JuliaLLMLeaderboard.tmapreduce</code></a></li><li><a href="#JuliaLLMLeaderboard.validate_definition-Tuple{AbstractDict}"><code>JuliaLLMLeaderboard.validate_definition</code></a></li></ul><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="InteractiveUtils.edit" href="#InteractiveUtils.edit"><code>InteractiveUtils.edit</code></a> — <span class="docstring-category">Function</span></header><section><div><pre><code class="language-julia hljs">InteractiveUtils.edit(conversation::AbstractVector{&lt;:PT.AbstractMessage}, bookmark::Int=-1)</code></pre><p>Opens the conversation in a preview window formatted as markdown (In VSCode, right click on the tab and select &quot;Open Preview&quot; to format it nicely).</p><p>See also: <code>preview</code> (for rendering as markdown in REPL)</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/ff08d222d01238df9ff12963c0d442beb9935ee0/src/conversations.jl#L96-L103">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="JuliaLLMLeaderboard.evaluate_1shot-Tuple{}" href="#JuliaLLMLeaderboard.evaluate_1shot-Tuple{}"><code>JuliaLLMLeaderboard.evaluate_1shot</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">evaluate_1shot(; conversation, fn_definition, definition, model, prompt_label, schema, parameters::NamedTuple=NamedTuple(), device=&quot;UNKNOWN&quot;, timestamp=timestamp_now(), version_pt=string(pkgversion(PromptingTools)), prompt_strategy=&quot;1SHOT&quot;, verbose::Bool=false,
 auto_save::Bool=true, save_dir::AbstractString=dirname(fn_definition), experiment::AbstractString=&quot;&quot;,
 execution_timeout::Int=60, capture_stdout::Bool=true)</code></pre><p>Runs evaluation for a single test case (parse, execute, run examples, run unit tests), including saving the files.</p><p>If <code>auto_save=true</code>, it saves the following files</p><ul><li><code>&lt;model-name&gt;/evaluation__PROMPTABC__1SHOT__TIMESTAMP.json</code></li><li><code>&lt;model-name&gt;/conversation__PROMPTABC__1SHOT__TIMESTAMP.json</code> </li></ul><p>into a sub-folder of where the definition file was stored.</p><p><strong>Keyword Arguments</strong></p><ul><li><code>conversation</code>: the conversation to evaluate (vector of messages), eg, from <code>aigenerate</code> when <code>return_all=true</code></li><li><code>fn_definition</code>: path to the definition file (eg, <code>joinpath(&quot;code_generation&quot;, &quot;utility_functions&quot;, &quot;event_scheduler&quot;, &quot;definition.toml&quot;)</code>)</li><li><code>definition</code>: the test case definition dict loaded from the definition file. It&#39;s subset to only the relevant keys for code generation, eg, <code>definition=load_definition(fn_definition)[&quot;code_generation&quot;]</code></li><li><code>model</code>: the model name, eg, <code>model=&quot;gpt4t&quot;</code></li><li><code>prompt_label</code>: the prompt label, eg, <code>prompt_label=&quot;JuliaExpertAsk&quot;</code></li><li><code>schema</code>: the schema used for the prompt, eg, <code>schema=&quot;-&quot;</code> or <code>schema=&quot;OllamaManagedSchema()&quot;</code></li><li><code>parameters</code>: the parameters used for the generation like <code>temperature</code> or <code>top_p</code>, eg, <code>parameters=(; top_p=0.9)</code></li><li><code>device</code>: the device used for the generation, eg, <code>device=&quot;Apple-MacBook-Pro-M1&quot;</code></li><li><code>timestamp</code>: the timestamp used for the generation. Defaults to <code>timestamp=timestamp_now()</code> which is like &quot;20231201_120000&quot;</li><li><code>version_pt</code>: the version of PromptingTools used for the generation, eg, <code>version_pt=&quot;0.1.0&quot;</code></li><li><code>prompt_strategy</code>: the prompt strategy used for the generation, eg, <code>prompt_strategy=&quot;1SHOT&quot;</code>. Fixed for now!</li><li><code>verbose</code>: if <code>verbose=true</code>, it will print out more information about the evaluation process, eg, the evaluation errors</li><li><code>auto_save</code>: if <code>auto_save=true</code>, it will save the evaluation and conversation files into a sub-folder of where the definition file was stored.</li><li><code>save_dir</code>: the directory where the evaluation and conversation files are saved. Defaults to <code>dirname(fn_definition)</code>.</li><li><code>experiment</code>: the experiment name, eg, <code>experiment=&quot;my_experiment&quot;</code> (eg, when you&#39;re doing a parameter search). Defaults to <code>&quot;&quot;</code> for standard benchmark run.</li><li><code>execution_timeout</code>: the timeout for the AICode code execution in seconds. Defaults to 60s.</li><li><code>capture_stdout</code>: if <code>capture_stdout=true</code>, AICode will capture the stdout of the code execution. Set to <code>false</code> if you&#39;re evaluating with multithreading (stdout capture is not thread-safe). Defaults to <code>true</code> to avoid poluting the benchmark.</li><li><code>remove_tests</code>: if <code>remove_tests=true</code>, AICode will remove any @testset blocks and unit tests from the main code definition (shields against model defining wrong unit tests inadvertedly).</li></ul><p><strong>Examples</strong></p><pre><code class="language-julia hljs">using JuliaLLMLeaderboard
 using PromptingTools
@@ -10,7 +10,7 @@
 msg = aigenerate(:JuliaExpertAsk; ask=d[&quot;code_generation&quot;][&quot;prompt&quot;], model=&quot;gpt4t&quot;, return_all=true)
 
 # Try evaluating it -- auto_save=false not to polute our benchmark
-evals = evaluate_1shot(; conversation=msg, fn_definition, definition=d[&quot;code_generation&quot;], model=&quot;gpt4t&quot;, prompt_label=&quot;JuliaExpertAsk&quot;, timestamp=timestamp_now(), device=&quot;Apple-MacBook-Pro-M1&quot;, schema=&quot;-&quot;, prompt_strategy=&quot;1SHOT&quot;, verbose=true, auto_save=false)</code></pre></div><a class="docs-sourcelink" target="_blank" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/accd0e087a4360dbaaed214d70fc35d995a94f22/src/evaluation.jl#L174-L220">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="JuliaLLMLeaderboard.find_definitions" href="#JuliaLLMLeaderboard.find_definitions"><code>JuliaLLMLeaderboard.find_definitions</code></a> — <span class="docstring-category">Function</span></header><section><div><p>Finds all <code>definition.toml</code> filenames in the given path. Returns a list of filenames to load.</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/accd0e087a4360dbaaed214d70fc35d995a94f22/src/definitions.jl#L167">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="JuliaLLMLeaderboard.load_conversation_from_eval-Tuple{AbstractString}" href="#JuliaLLMLeaderboard.load_conversation_from_eval-Tuple{AbstractString}"><code>JuliaLLMLeaderboard.load_conversation_from_eval</code></a> — <span class="docstring-category">Method</span></header><section><div><p>Loads the conversation from the corresponding evaluation file.</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/accd0e087a4360dbaaed214d70fc35d995a94f22/src/conversations.jl#L1">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="JuliaLLMLeaderboard.load_definition-Tuple{Any}" href="#JuliaLLMLeaderboard.load_definition-Tuple{Any}"><code>JuliaLLMLeaderboard.load_definition</code></a> — <span class="docstring-category">Method</span></header><section><div><p>Loads the test case definition from a TOML file under <code>filename</code>.</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/accd0e087a4360dbaaed214d70fc35d995a94f22/src/definitions.jl#L162">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="JuliaLLMLeaderboard.load_evals-Tuple{AbstractString}" href="#JuliaLLMLeaderboard.load_evals-Tuple{AbstractString}"><code>JuliaLLMLeaderboard.load_evals</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">load_evals(base_dir::AbstractString; score::Bool=true, max_history::Int=5, new_columns::Vector{Symbol}=Symbol[], kwargs...)</code></pre><p>Loads all evaluation JSONs from a given director loaded in a DataFrame as rows.  The directory is searched recursively, and all files starting with the prefix <code>evaluation__</code> are loaded.</p><p><strong>Keyword Arguments</strong></p><ul><li><code>score::Bool=true</code>: If <code>score=true</code>, the function will also call <code>score_eval</code> on the resulting DataFrame.</li><li><code>max_history::Int=5</code>: Only <code>max_history</code> most recent evaluations are loaded. If <code>max_history=0</code>, all evaluations are loaded.</li></ul><p>Returns: DataFrame</p><p>Note: It loads a fixed set of columns (set in a local variable <code>eval_cols</code>), so if you added some new columns, you&#39;ll need to pass them to <code>new_columns::Vector{Symbol}</code> argument.</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/accd0e087a4360dbaaed214d70fc35d995a94f22/src/evaluation.jl#L331-L344">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="JuliaLLMLeaderboard.preview-Tuple{AbstractVector{&lt;:PromptingTools.AbstractMessage}}" href="#JuliaLLMLeaderboard.preview-Tuple{AbstractVector{&lt;:PromptingTools.AbstractMessage}}"><code>JuliaLLMLeaderboard.preview</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">preview(conversation::AbstractVector{&lt;:PT.AbstractMessage})</code></pre><p>Render a conversation, which is a vector of <code>AbstractMessage</code> objects, as a single markdown-formatted string. Each message is rendered individually and concatenated with separators for clear readability.</p><p>This function is particularly useful for displaying the flow of a conversation in a structured and readable format. It leverages the <code>PT.preview</code> method for individual messages to create a cohesive view of the entire conversation.</p><p><strong>Arguments</strong></p><ul><li><code>conversation::AbstractVector{&lt;:PT.AbstractMessage}</code>: A vector of messages representing the conversation.</li></ul><p><strong>Returns</strong></p><ul><li><code>String</code>: A markdown-formatted string representing the entire conversation.</li></ul><p><strong>Example</strong></p><pre><code class="language-julia hljs">conversation = [
+evals = evaluate_1shot(; conversation=msg, fn_definition, definition=d[&quot;code_generation&quot;], model=&quot;gpt4t&quot;, prompt_label=&quot;JuliaExpertAsk&quot;, timestamp=timestamp_now(), device=&quot;Apple-MacBook-Pro-M1&quot;, schema=&quot;-&quot;, prompt_strategy=&quot;1SHOT&quot;, verbose=true, auto_save=false)</code></pre></div><a class="docs-sourcelink" target="_blank" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/ff08d222d01238df9ff12963c0d442beb9935ee0/src/evaluation.jl#L176-L222">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="JuliaLLMLeaderboard.find_definitions" href="#JuliaLLMLeaderboard.find_definitions"><code>JuliaLLMLeaderboard.find_definitions</code></a> — <span class="docstring-category">Function</span></header><section><div><p>Finds all <code>definition.toml</code> filenames in the given path. Returns a list of filenames to load.</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/ff08d222d01238df9ff12963c0d442beb9935ee0/src/definitions.jl#L167">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="JuliaLLMLeaderboard.load_conversation_from_eval-Tuple{AbstractString}" href="#JuliaLLMLeaderboard.load_conversation_from_eval-Tuple{AbstractString}"><code>JuliaLLMLeaderboard.load_conversation_from_eval</code></a> — <span class="docstring-category">Method</span></header><section><div><p>Loads the conversation from the corresponding evaluation file.</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/ff08d222d01238df9ff12963c0d442beb9935ee0/src/conversations.jl#L1">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="JuliaLLMLeaderboard.load_definition-Tuple{Any}" href="#JuliaLLMLeaderboard.load_definition-Tuple{Any}"><code>JuliaLLMLeaderboard.load_definition</code></a> — <span class="docstring-category">Method</span></header><section><div><p>Loads the test case definition from a TOML file under <code>filename</code>.</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/ff08d222d01238df9ff12963c0d442beb9935ee0/src/definitions.jl#L162">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="JuliaLLMLeaderboard.load_evals-Tuple{AbstractString}" href="#JuliaLLMLeaderboard.load_evals-Tuple{AbstractString}"><code>JuliaLLMLeaderboard.load_evals</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">load_evals(base_dir::AbstractString; score::Bool=true, max_history::Int=5, new_columns::Vector{Symbol}=Symbol[], kwargs...)</code></pre><p>Loads all evaluation JSONs from a given director loaded in a DataFrame as rows.  The directory is searched recursively, and all files starting with the prefix <code>evaluation__</code> are loaded.</p><p><strong>Keyword Arguments</strong></p><ul><li><code>score::Bool=true</code>: If <code>score=true</code>, the function will also call <code>score_eval</code> on the resulting DataFrame.</li><li><code>max_history::Int=5</code>: Only <code>max_history</code> most recent evaluations are loaded. If <code>max_history=0</code>, all evaluations are loaded.</li></ul><p>Returns: DataFrame</p><p>Note: It loads a fixed set of columns (set in a local variable <code>eval_cols</code>), so if you added some new columns, you&#39;ll need to pass them to <code>new_columns::Vector{Symbol}</code> argument.</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/ff08d222d01238df9ff12963c0d442beb9935ee0/src/evaluation.jl#L333-L346">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="JuliaLLMLeaderboard.preview-Tuple{AbstractVector{&lt;:PromptingTools.AbstractMessage}}" href="#JuliaLLMLeaderboard.preview-Tuple{AbstractVector{&lt;:PromptingTools.AbstractMessage}}"><code>JuliaLLMLeaderboard.preview</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">preview(conversation::AbstractVector{&lt;:PT.AbstractMessage})</code></pre><p>Render a conversation, which is a vector of <code>AbstractMessage</code> objects, as a single markdown-formatted string. Each message is rendered individually and concatenated with separators for clear readability.</p><p>This function is particularly useful for displaying the flow of a conversation in a structured and readable format. It leverages the <code>PT.preview</code> method for individual messages to create a cohesive view of the entire conversation.</p><p><strong>Arguments</strong></p><ul><li><code>conversation::AbstractVector{&lt;:PT.AbstractMessage}</code>: A vector of messages representing the conversation.</li></ul><p><strong>Returns</strong></p><ul><li><code>String</code>: A markdown-formatted string representing the entire conversation.</li></ul><p><strong>Example</strong></p><pre><code class="language-julia hljs">conversation = [
     PT.SystemMessage(&quot;Welcome&quot;),
     PT.UserMessage(&quot;Hello&quot;),
     PT.AIMessage(&quot;Hi, how can I help you?&quot;)
@@ -23,9 +23,9 @@
 ---
 # AI Message
 Hi, how can I help you?
----</code></pre></div><a class="docs-sourcelink" target="_blank" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/accd0e087a4360dbaaed214d70fc35d995a94f22/src/conversations.jl#L53-L88">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="JuliaLLMLeaderboard.preview-Tuple{PromptingTools.AbstractMessage}" href="#JuliaLLMLeaderboard.preview-Tuple{PromptingTools.AbstractMessage}"><code>JuliaLLMLeaderboard.preview</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">preview(msg::PT.AbstractMessage)</code></pre><p>Render a single <code>AbstractMessage</code> as a markdown-formatted string, highlighting the role of the message sender and the content of the message.</p><p>This function identifies the type of the message (User, Data, System, AI, or Unknown) and formats it with a header indicating the sender&#39;s role, followed by the content of the message. The output is suitable for nicer rendering, especially in REPL or markdown environments.</p><p><strong>Arguments</strong></p><ul><li><code>msg::PT.AbstractMessage</code>: The message to be rendered.</li></ul><p><strong>Returns</strong></p><ul><li><code>String</code>: A markdown-formatted string representing the message.</li></ul><p><strong>Example</strong></p><pre><code class="language-julia hljs">msg = PT.UserMessage(&quot;Hello, world!&quot;)
+---</code></pre></div><a class="docs-sourcelink" target="_blank" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/ff08d222d01238df9ff12963c0d442beb9935ee0/src/conversations.jl#L53-L88">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="JuliaLLMLeaderboard.preview-Tuple{PromptingTools.AbstractMessage}" href="#JuliaLLMLeaderboard.preview-Tuple{PromptingTools.AbstractMessage}"><code>JuliaLLMLeaderboard.preview</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">preview(msg::PT.AbstractMessage)</code></pre><p>Render a single <code>AbstractMessage</code> as a markdown-formatted string, highlighting the role of the message sender and the content of the message.</p><p>This function identifies the type of the message (User, Data, System, AI, or Unknown) and formats it with a header indicating the sender&#39;s role, followed by the content of the message. The output is suitable for nicer rendering, especially in REPL or markdown environments.</p><p><strong>Arguments</strong></p><ul><li><code>msg::PT.AbstractMessage</code>: The message to be rendered.</li></ul><p><strong>Returns</strong></p><ul><li><code>String</code>: A markdown-formatted string representing the message.</li></ul><p><strong>Example</strong></p><pre><code class="language-julia hljs">msg = PT.UserMessage(&quot;Hello, world!&quot;)
 println(PT.preview(msg))</code></pre><p>This will output:</p><pre><code class="nohighlight hljs"># User Message
-Hello, world!</code></pre></div><a class="docs-sourcelink" target="_blank" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/accd0e087a4360dbaaed214d70fc35d995a94f22/src/conversations.jl#L7-L31">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="JuliaLLMLeaderboard.run_benchmark-Tuple{}" href="#JuliaLLMLeaderboard.run_benchmark-Tuple{}"><code>JuliaLLMLeaderboard.run_benchmark</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">run_benchmark(; fn_definitions::Vector{&lt;:AbstractString}=find_definitons(joinpath(@__DIR__, &quot;..&quot;, &quot;code_generation&quot;)),
+Hello, world!</code></pre></div><a class="docs-sourcelink" target="_blank" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/ff08d222d01238df9ff12963c0d442beb9935ee0/src/conversations.jl#L7-L31">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="JuliaLLMLeaderboard.run_benchmark-Tuple{}" href="#JuliaLLMLeaderboard.run_benchmark-Tuple{}"><code>JuliaLLMLeaderboard.run_benchmark</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">run_benchmark(; fn_definitions::Vector{&lt;:AbstractString}=find_definitons(joinpath(@__DIR__, &quot;..&quot;, &quot;code_generation&quot;)),
 models::Vector{String}=[&quot;gpt-3.5-turbo-1106&quot;], model_suffix::String=&quot;&quot;, prompt_labels::Vector{&lt;:AbstractString}=[&quot;JuliaExpertCoTTask&quot;, &quot;JuliaExpertAsk&quot;, &quot;InJulia&quot;, &quot;AsIs&quot;, &quot;JuliaRecapTask&quot;, &quot;JuliaRecapCoTTask&quot;],
 api_kwargs::NamedTuple=NamedTuple(), http_kwargs::NamedTuple=(; readtimeout=300),
 experiment::AbstractString=&quot;&quot;, save_dir::AbstractString=&quot;&quot;, auto_save::Bool=true, verbose::Union{Int,Bool}=true, device::AbstractString=&quot;-&quot;,
@@ -35,7 +35,7 @@
     experiment=&quot;my-first-run&quot;, save_dir=&quot;temp&quot;, auto_save=true, verbose=true, device=&quot;Apple-MacBook-Pro-M1&quot;,
     num_samples=1);
 
-# not using `schema_lookup` as it&#39;s not needed for OpenAI models</code></pre><p>Or if you want only one test case use: <code>fn_definitions = [joinpath(&quot;code_generation&quot;, &quot;utility_functions&quot;, &quot;event_scheduler&quot;, &quot;definition.toml&quot;)]</code></p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/accd0e087a4360dbaaed214d70fc35d995a94f22/src/workflow.jl#L1-L57">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="JuliaLLMLeaderboard.run_code_blocks_additive-Tuple{AICode, AbstractVector{&lt;:AbstractString}}" href="#JuliaLLMLeaderboard.run_code_blocks_additive-Tuple{AICode, AbstractVector{&lt;:AbstractString}}"><code>JuliaLLMLeaderboard.run_code_blocks_additive</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">run_code_blocks_additive(cb::AICode, code_blocks::AbstractVector{&lt;:AbstractString};
+# not using `schema_lookup` as it&#39;s not needed for OpenAI models</code></pre><p>Or if you want only one test case use: <code>fn_definitions = [joinpath(&quot;code_generation&quot;, &quot;utility_functions&quot;, &quot;event_scheduler&quot;, &quot;definition.toml&quot;)]</code></p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/ff08d222d01238df9ff12963c0d442beb9935ee0/src/workflow.jl#L1-L57">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="JuliaLLMLeaderboard.run_code_blocks_additive-Tuple{AICode, AbstractVector{&lt;:AbstractString}}" href="#JuliaLLMLeaderboard.run_code_blocks_additive-Tuple{AICode, AbstractVector{&lt;:AbstractString}}"><code>JuliaLLMLeaderboard.run_code_blocks_additive</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">run_code_blocks_additive(cb::AICode, code_blocks::AbstractVector{&lt;:AbstractString};
     verbose::Bool = false,
     setup_code::AbstractString = &quot;&quot;, teardown_code::AbstractString = &quot;&quot;,
     capture_stdout::Bool = true, execution_timeout::Int = 60)</code></pre><p>Runner for the additional <code>code_blocks</code> (can be either unit tests or examples), returns count of examples executed without an error. </p><p><code>code_blocks</code> should be a vector of strings, each of which is a valid Julia expression that can be evaluated without an error thrown. Each successful run (no error thrown) is counted as a successful example.</p><p><strong>Keyword Arguments</strong></p><ul><li><code>verbose=true</code> will provide more information about the test failures.</li><li><code>setup_code</code> is a string that will be prepended to each code block before it&#39;s evaluated. Useful for setting up the environment/test objects.</li><li><code>teardown_code</code> is a string that will be appended to each code block before it&#39;s evaluated. Useful for cleaning up the environment/test objects.</li><li><code>capture_stdout</code> is a boolean whether to capture the stdout of the code execution. Set to <code>false</code> if you&#39;re evaluating with multithreading (stdout capture is not thread-safe).</li><li><code>execution_timeout</code> is the timeout for the AICode code execution in seconds. Defaults to 60s.</li></ul><p><strong>Returns</strong></p><ul><li><code>count_successful</code> the number of examples that were executed without an error thrown.</li></ul><p><strong>Example</strong></p><pre><code class="language-julia hljs">using JuliaLLMLeaderboard: run_code_blocks
@@ -44,14 +44,14 @@
 cb = AICode(&quot;mysum(a,b)=a+b&quot;)
 code = &quot;mysum(1,2)&quot;
 run_code_blocks(cb, [code])
-# Output: 1 (= 1 example executed without an error thrown)</code></pre></div><a class="docs-sourcelink" target="_blank" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/accd0e087a4360dbaaed214d70fc35d995a94f22/src/evaluation.jl#L90-L121">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="JuliaLLMLeaderboard.run_code_main-Tuple{AIMessage}" href="#JuliaLLMLeaderboard.run_code_main-Tuple{AIMessage}"><code>JuliaLLMLeaderboard.run_code_main</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">run_code_main(msg::PT.AIMessage; verbose::Bool = true, function_name::AbstractString = &quot;&quot;,
+# Output: 1 (= 1 example executed without an error thrown)</code></pre></div><a class="docs-sourcelink" target="_blank" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/ff08d222d01238df9ff12963c0d442beb9935ee0/src/evaluation.jl#L90-L121">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="JuliaLLMLeaderboard.run_code_main-Tuple{AIMessage}" href="#JuliaLLMLeaderboard.run_code_main-Tuple{AIMessage}"><code>JuliaLLMLeaderboard.run_code_main</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">run_code_main(msg::PT.AIMessage; verbose::Bool = true, function_name::AbstractString = &quot;&quot;,
     prefix::String = &quot;&quot;,
     execution_timeout::Int = 60,
     capture_stdout::Bool = true,
-    expression_transform::Symbol = :remove_all_tests)</code></pre><p>Runs the code block in the message <code>msg</code> and returns the result as an <code>AICode</code> object.</p><p>Logic:</p><ul><li>Always execute with a timeout</li><li>Always execute in a &quot;safe mode&quot; (inside a custom module, <code>safe_eval=true</code>)</li><li>Skip any package imports or environment changes (<code>skip_unsafe=true</code>)</li><li>Skip invalid/broken lines (<code>skip_invalid=true</code>)</li><li>Remove any unit tests (<code>expression_transform=:remove_all_tests</code>), because model might have added some without being asked for it explicitly</li><li>First, evaluate the code block as a whole, and if it fails, try to extract the function definition and evaluate it separately (fallback)</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/accd0e087a4360dbaaed214d70fc35d995a94f22/src/evaluation.jl#L10-L26">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="JuliaLLMLeaderboard.save_definition-Tuple{AbstractString, AbstractDict}" href="#JuliaLLMLeaderboard.save_definition-Tuple{AbstractString, AbstractDict}"><code>JuliaLLMLeaderboard.save_definition</code></a> — <span class="docstring-category">Method</span></header><section><div><p>Saves the test case <code>definition</code> to a TOML file under <code>filename</code>.</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/accd0e087a4360dbaaed214d70fc35d995a94f22/src/definitions.jl#L148">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="JuliaLLMLeaderboard.score_eval-NTuple{4, Any}" href="#JuliaLLMLeaderboard.score_eval-NTuple{4, Any}"><code>JuliaLLMLeaderboard.score_eval</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">score_eval(parsed, executed, unit_tests_success_ratio, examples_success_ratio; max_points::Int=100)</code></pre><p>Score the evaluation result by distributing <code>max_points</code> equally across the available criteria.</p><p><strong>Example</strong></p><pre><code class="language-julia hljs">df=@rtransform df :score = score_eval(:parsed, :executed, :unit_tests_passed / :unit_tests_count, :examples_executed / :examples_count)</code></pre></div><a class="docs-sourcelink" target="_blank" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/accd0e087a4360dbaaed214d70fc35d995a94f22/src/evaluation.jl#L443-L452">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="JuliaLLMLeaderboard.score_eval-Tuple{AbstractDict}" href="#JuliaLLMLeaderboard.score_eval-Tuple{AbstractDict}"><code>JuliaLLMLeaderboard.score_eval</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">score_eval(eval::AbstractDict; max_points::Int=100)
+    expression_transform::Symbol = :remove_all_tests)</code></pre><p>Runs the code block in the message <code>msg</code> and returns the result as an <code>AICode</code> object.</p><p>Logic:</p><ul><li>Always execute with a timeout</li><li>Always execute in a &quot;safe mode&quot; (inside a custom module, <code>safe_eval=true</code>)</li><li>Skip any package imports or environment changes (<code>skip_unsafe=true</code>)</li><li>Skip invalid/broken lines (<code>skip_invalid=true</code>)</li><li>Remove any unit tests (<code>expression_transform=:remove_all_tests</code>), because model might have added some without being asked for it explicitly</li><li>First, evaluate the code block as a whole, and if it fails, try to extract the function definition and evaluate it separately (fallback)</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/ff08d222d01238df9ff12963c0d442beb9935ee0/src/evaluation.jl#L10-L26">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="JuliaLLMLeaderboard.save_definition-Tuple{AbstractString, AbstractDict}" href="#JuliaLLMLeaderboard.save_definition-Tuple{AbstractString, AbstractDict}"><code>JuliaLLMLeaderboard.save_definition</code></a> — <span class="docstring-category">Method</span></header><section><div><p>Saves the test case <code>definition</code> to a TOML file under <code>filename</code>.</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/ff08d222d01238df9ff12963c0d442beb9935ee0/src/definitions.jl#L148">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="JuliaLLMLeaderboard.score_eval-NTuple{4, Any}" href="#JuliaLLMLeaderboard.score_eval-NTuple{4, Any}"><code>JuliaLLMLeaderboard.score_eval</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">score_eval(parsed, executed, unit_tests_success_ratio, examples_success_ratio; max_points::Int=100)</code></pre><p>Score the evaluation result by distributing <code>max_points</code> equally across the available criteria.</p><p><strong>Example</strong></p><pre><code class="language-julia hljs">df=@rtransform df :score = score_eval(:parsed, :executed, :unit_tests_passed / :unit_tests_count, :examples_executed / :examples_count)</code></pre></div><a class="docs-sourcelink" target="_blank" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/ff08d222d01238df9ff12963c0d442beb9935ee0/src/evaluation.jl#L445-L454">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="JuliaLLMLeaderboard.score_eval-Tuple{AbstractDict}" href="#JuliaLLMLeaderboard.score_eval-Tuple{AbstractDict}"><code>JuliaLLMLeaderboard.score_eval</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">score_eval(eval::AbstractDict; max_points::Int=100)
 
-score_eval(parsed, executed, unit_tests_success_ratio, examples_success_ratio; max_points::Int=100)</code></pre><p>Scores the evaluation result <code>eval</code> by distributing <code>max_points</code> equally across the available criteria. Alternatively, you can provide the individual scores as arguments (see above) with values in the 0-1 range.</p><p>Eg, if all 4 criteria are available, each will be worth 25% of points:</p><ul><li><code>parsed</code> (25% if true)</li><li><code>executed</code> (25% if true)</li><li><code>unit_tests</code> (25% if all unit tests passed)</li><li><code>examples</code> (25% if all examples executed without an error thrown)</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/accd0e087a4360dbaaed214d70fc35d995a94f22/src/evaluation.jl#L411-L424">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="JuliaLLMLeaderboard.timestamp_now-Tuple{}" href="#JuliaLLMLeaderboard.timestamp_now-Tuple{}"><code>JuliaLLMLeaderboard.timestamp_now</code></a> — <span class="docstring-category">Method</span></header><section><div><p>Provide a current timestamp in the format yyyymmdd<em>HHMMSS. If `add</em>random` is true, a random number between 100 and 999 is appended to avoid overrides.</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/accd0e087a4360dbaaed214d70fc35d995a94f22/src/utils.jl#L1">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="JuliaLLMLeaderboard.tmapreduce-Tuple{Any, Any, Any}" href="#JuliaLLMLeaderboard.tmapreduce-Tuple{Any, Any, Any}"><code>JuliaLLMLeaderboard.tmapreduce</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">tmapreduce(f, op, itr; tasks_per_thread::Int = 2, kwargs...)</code></pre><p>A parallelized version of the <code>mapreduce</code> function leveraging multi-threading.</p><p>The function <code>f</code> is applied to each element of <code>itr</code>, and then the results are reduced using an associative two-argument function <code>op</code>.</p><p><strong>Arguments</strong></p><ul><li><code>f</code>: A function to apply to each element of <code>itr</code>.</li><li><code>op</code>: An associative two-argument reduction function.</li><li><code>itr</code>: An iterable collection of data.</li></ul><p><strong>Keyword Arguments</strong></p><ul><li><code>tasks_per_thread::Int = 2</code>: The number of tasks spawned per thread. Determines the granularity of parallelism.</li><li><code>kwargs...</code>: Additional keyword arguments to pass to the inner <code>mapreduce</code> calls.</li></ul><p><strong>Implementation Details</strong></p><p>The function divides <code>itr</code> into chunks, spawning tasks for processing each chunk in parallel. The size of each chunk is determined by <code>tasks_per_thread</code> and the number of available threads (<code>nthreads</code>). The results from each task are then aggregated using the <code>op</code> function.</p><p><strong>Notes</strong></p><p>This implementation serves as a general replacement for older patterns. The goal is to introduce this function or a version of it to base Julia in the future.</p><p><strong>Example</strong></p><pre><code class="language-julia hljs">using Base.Threads: nthreads, @spawn
-result = tmapreduce(x -&gt; x^2, +, 1:10)</code></pre><p>The above example squares each number in the range 1 through 10 and then sums them up in parallel.</p><p>Source: <a href="https://julialang.org/blog/2023/07/PSA-dont-use-threadid/#better_fix_work_directly_with_tasks">Julia Blog post</a></p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/accd0e087a4360dbaaed214d70fc35d995a94f22/src/utils.jl#L22-L53">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="JuliaLLMLeaderboard.validate_definition-Tuple{AbstractDict}" href="#JuliaLLMLeaderboard.validate_definition-Tuple{AbstractDict}"><code>JuliaLLMLeaderboard.validate_definition</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">validate_definition(definition::AbstractDict; evaluate::Bool=true, verbose::Bool=true)</code></pre><p>Validates the <code>definition.toml</code> file for the code generation benchmark. </p><p>Returns <code>true</code> if the definition is valid.</p><p><strong>Keyword Arguments</strong></p><ul><li><code>evaluate</code>: a boolean whether to evaluate the definition. If not specified, it will evaluate the definition.</li><li><code>verbose</code>: a boolean whether to print progress during the evaluation. If not specified, it will print progress.</li><li><code>kwargs</code>: keyword arguments to pass to code parsing function (<code>PT.AICode</code>).</li></ul><p><strong>Example</strong></p><pre><code class="language-julia hljs">fn_definition = joinpath(&quot;code_generation&quot;, &quot;utility_functions&quot;, &quot;event_scheduler&quot;, &quot;definition.toml&quot;)
+score_eval(parsed, executed, unit_tests_success_ratio, examples_success_ratio; max_points::Int=100)</code></pre><p>Scores the evaluation result <code>eval</code> by distributing <code>max_points</code> equally across the available criteria. Alternatively, you can provide the individual scores as arguments (see above) with values in the 0-1 range.</p><p>Eg, if all 4 criteria are available, each will be worth 25% of points:</p><ul><li><code>parsed</code> (25% if true)</li><li><code>executed</code> (25% if true)</li><li><code>unit_tests</code> (25% if all unit tests passed)</li><li><code>examples</code> (25% if all examples executed without an error thrown)</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/ff08d222d01238df9ff12963c0d442beb9935ee0/src/evaluation.jl#L413-L426">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="JuliaLLMLeaderboard.timestamp_now-Tuple{}" href="#JuliaLLMLeaderboard.timestamp_now-Tuple{}"><code>JuliaLLMLeaderboard.timestamp_now</code></a> — <span class="docstring-category">Method</span></header><section><div><p>Provide a current timestamp in the format yyyymmdd<em>HHMMSS. If `add</em>random` is true, a random number between 100 and 999 is appended to avoid overrides.</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/ff08d222d01238df9ff12963c0d442beb9935ee0/src/utils.jl#L1">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="JuliaLLMLeaderboard.tmapreduce-Tuple{Any, Any, Any}" href="#JuliaLLMLeaderboard.tmapreduce-Tuple{Any, Any, Any}"><code>JuliaLLMLeaderboard.tmapreduce</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">tmapreduce(f, op, itr; tasks_per_thread::Int = 2, kwargs...)</code></pre><p>A parallelized version of the <code>mapreduce</code> function leveraging multi-threading.</p><p>The function <code>f</code> is applied to each element of <code>itr</code>, and then the results are reduced using an associative two-argument function <code>op</code>.</p><p><strong>Arguments</strong></p><ul><li><code>f</code>: A function to apply to each element of <code>itr</code>.</li><li><code>op</code>: An associative two-argument reduction function.</li><li><code>itr</code>: An iterable collection of data.</li></ul><p><strong>Keyword Arguments</strong></p><ul><li><code>tasks_per_thread::Int = 2</code>: The number of tasks spawned per thread. Determines the granularity of parallelism.</li><li><code>kwargs...</code>: Additional keyword arguments to pass to the inner <code>mapreduce</code> calls.</li></ul><p><strong>Implementation Details</strong></p><p>The function divides <code>itr</code> into chunks, spawning tasks for processing each chunk in parallel. The size of each chunk is determined by <code>tasks_per_thread</code> and the number of available threads (<code>nthreads</code>). The results from each task are then aggregated using the <code>op</code> function.</p><p><strong>Notes</strong></p><p>This implementation serves as a general replacement for older patterns. The goal is to introduce this function or a version of it to base Julia in the future.</p><p><strong>Example</strong></p><pre><code class="language-julia hljs">using Base.Threads: nthreads, @spawn
+result = tmapreduce(x -&gt; x^2, +, 1:10)</code></pre><p>The above example squares each number in the range 1 through 10 and then sums them up in parallel.</p><p>Source: <a href="https://julialang.org/blog/2023/07/PSA-dont-use-threadid/#better_fix_work_directly_with_tasks">Julia Blog post</a></p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/ff08d222d01238df9ff12963c0d442beb9935ee0/src/utils.jl#L22-L53">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="JuliaLLMLeaderboard.validate_definition-Tuple{AbstractDict}" href="#JuliaLLMLeaderboard.validate_definition-Tuple{AbstractDict}"><code>JuliaLLMLeaderboard.validate_definition</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">validate_definition(definition::AbstractDict; evaluate::Bool=true, verbose::Bool=true)</code></pre><p>Validates the <code>definition.toml</code> file for the code generation benchmark. </p><p>Returns <code>true</code> if the definition is valid.</p><p><strong>Keyword Arguments</strong></p><ul><li><code>evaluate</code>: a boolean whether to evaluate the definition. If not specified, it will evaluate the definition.</li><li><code>verbose</code>: a boolean whether to print progress during the evaluation. If not specified, it will print progress.</li><li><code>kwargs</code>: keyword arguments to pass to code parsing function (<code>PT.AICode</code>).</li></ul><p><strong>Example</strong></p><pre><code class="language-julia hljs">fn_definition = joinpath(&quot;code_generation&quot;, &quot;utility_functions&quot;, &quot;event_scheduler&quot;, &quot;definition.toml&quot;)
 definition = load_definition(fn_definition)
 validate_definition(definition)
-# output: true</code></pre></div><a class="docs-sourcelink" target="_blank" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/accd0e087a4360dbaaed214d70fc35d995a94f22/src/definitions.jl#L20-L39">source</a></section></article></article><nav class="docs-footer"><a class="docs-footer-prevpage" href="../frequently_asked_questions/">« F.A.Q.</a><div class="flexbox-break"></div><p class="footer-message">Powered by <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> and the <a href="https://julialang.org/">Julia Programming Language</a>.</p></nav></div><div class="modal" id="documenter-settings"><div class="modal-background"></div><div class="modal-card"><header class="modal-card-head"><p class="modal-card-title">Settings</p><button class="delete"></button></header><section class="modal-card-body"><p><label class="label">Theme</label><div class="select"><select id="documenter-themepicker"><option value="auto">Automatic (OS)</option><option value="documenter-light">documenter-light</option><option value="documenter-dark">documenter-dark</option><option value="catppuccin-latte">catppuccin-latte</option><option value="catppuccin-frappe">catppuccin-frappe</option><option value="catppuccin-macchiato">catppuccin-macchiato</option><option value="catppuccin-mocha">catppuccin-mocha</option></select></div></p><hr/><p>This document was generated with <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> version 1.5.0 on <span class="colophon-date" title="Wednesday 7 August 2024 08:36">Wednesday 7 August 2024</span>. Using Julia version 1.10.4.</p></section><footer class="modal-card-foot"></footer></div></div></div></body></html>
+# output: true</code></pre></div><a class="docs-sourcelink" target="_blank" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/ff08d222d01238df9ff12963c0d442beb9935ee0/src/definitions.jl#L20-L39">source</a></section></article></article><nav class="docs-footer"><a class="docs-footer-prevpage" href="../frequently_asked_questions/">« F.A.Q.</a><div class="flexbox-break"></div><p class="footer-message">Powered by <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> and the <a href="https://julialang.org/">Julia Programming Language</a>.</p></nav></div><div class="modal" id="documenter-settings"><div class="modal-background"></div><div class="modal-card"><header class="modal-card-head"><p class="modal-card-title">Settings</p><button class="delete"></button></header><section class="modal-card-body"><p><label class="label">Theme</label><div class="select"><select id="documenter-themepicker"><option value="auto">Automatic (OS)</option><option value="documenter-light">documenter-light</option><option value="documenter-dark">documenter-dark</option><option value="catppuccin-latte">catppuccin-latte</option><option value="catppuccin-frappe">catppuccin-frappe</option><option value="catppuccin-macchiato">catppuccin-macchiato</option><option value="catppuccin-mocha">catppuccin-mocha</option></select></div></p><hr/><p>This document was generated with <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> version 1.5.0 on <span class="colophon-date" title="Monday 12 August 2024 20:24">Monday 12 August 2024</span>. Using Julia version 1.10.4.</p></section><footer class="modal-card-foot"></footer></div></div></div></body></html>
diff --git a/dev/test_definitions/index.html b/dev/test_definitions/index.html
index 20a685bcf..b8edefb56 100644
--- a/dev/test_definitions/index.html
+++ b/dev/test_definitions/index.html
@@ -1,2 +1,2 @@
 <!DOCTYPE html>
-<html lang="en"><head><meta charset="UTF-8"/><meta name="viewport" content="width=device-width, initial-scale=1.0"/><title>Test Definitions · JuliaLLMLeaderboard.jl</title><meta name="title" content="Test Definitions · JuliaLLMLeaderboard.jl"/><meta property="og:title" content="Test Definitions · JuliaLLMLeaderboard.jl"/><meta property="twitter:title" content="Test Definitions · JuliaLLMLeaderboard.jl"/><meta name="description" content="Documentation for JuliaLLMLeaderboard.jl."/><meta property="og:description" content="Documentation for JuliaLLMLeaderboard.jl."/><meta property="twitter:description" content="Documentation for JuliaLLMLeaderboard.jl."/><meta property="og:url" content="https://svilupp.github.io/Julia-LLM-Leaderboard/test_definitions/"/><meta property="twitter:url" content="https://svilupp.github.io/Julia-LLM-Leaderboard/test_definitions/"/><link rel="canonical" href="https://svilupp.github.io/Julia-LLM-Leaderboard/test_definitions/"/><script data-outdated-warner src="../assets/warner.js"></script><link href="https://cdnjs.cloudflare.com/ajax/libs/lato-font/3.0.0/css/lato-font.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/juliamono/0.050/juliamono.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/fontawesome.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/solid.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/brands.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/KaTeX/0.16.8/katex.min.css" rel="stylesheet" type="text/css"/><script>documenterBaseURL=".."</script><script src="https://cdnjs.cloudflare.com/ajax/libs/require.js/2.3.6/require.min.js" data-main="../assets/documenter.js"></script><script src="../search_index.js"></script><script src="../siteinfo.js"></script><script src="../../versions.js"></script><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-mocha.css" data-theme-name="catppuccin-mocha"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-macchiato.css" data-theme-name="catppuccin-macchiato"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-frappe.css" data-theme-name="catppuccin-frappe"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-latte.css" data-theme-name="catppuccin-latte"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/documenter-dark.css" data-theme-name="documenter-dark" data-theme-primary-dark/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/documenter-light.css" data-theme-name="documenter-light" data-theme-primary/><script src="../assets/themeswap.js"></script></head><body><div id="documenter"><nav class="docs-sidebar"><div class="docs-package-name"><span class="docs-autofit"><a href="../">JuliaLLMLeaderboard.jl</a></span></div><button class="docs-search-query input is-rounded is-small is-clickable my-2 mx-auto py-1 px-2" id="documenter-search-query">Search docs (Ctrl + /)</button><ul class="docs-menu"><li><a class="tocitem" href="../">Home</a></li><li><a class="tocitem" href="../getting_started/">Getting Started</a></li><li><a class="tocitem" href="../methodology/">Methodology</a></li><li class="is-active"><a class="tocitem" href>Test Definitions</a><ul class="internal"><li><a class="tocitem" href="#Folder-Structure"><span>Folder Structure</span></a></li><li><a class="tocitem" href="#Anatomy-of-definition.toml"><span>Anatomy of <code>definition.toml</code></span></a></li><li><a class="tocitem" href="#Feedback-and-Improvements"><span>Feedback and Improvements</span></a></li></ul></li><li><span class="tocitem">Results</span><ul><li><a class="tocitem" href="../examples/summarize_results_paid/">Paid APIs</a></li><li><a class="tocitem" href="../examples/summarize_results_local/">Local Models</a></li><li><a class="tocitem" href="../examples/compare_paid_vs_local/">Paid vs Local Models</a></li><li><a class="tocitem" href="../examples/summarize_results_prompts/">By Prompts</a></li><li><a class="tocitem" href="../examples/summarize_results_test_cases/">By Test Case</a></li></ul></li><li><a class="tocitem" href="../frequently_asked_questions/">F.A.Q.</a></li><li><a class="tocitem" href="../reference/">Reference</a></li></ul><div class="docs-version-selector field has-addons"><div class="control"><span class="docs-label button is-static is-size-7">Version</span></div><div class="docs-selector control is-expanded"><div class="select is-fullwidth is-size-7"><select id="documenter-version-selector"></select></div></div></div></nav><div class="docs-main"><header class="docs-navbar"><a class="docs-sidebar-button docs-navbar-link fa-solid fa-bars is-hidden-desktop" id="documenter-sidebar-button" href="#"></a><nav class="breadcrumb"><ul class="is-hidden-mobile"><li class="is-active"><a href>Test Definitions</a></li></ul><ul class="is-hidden-tablet"><li class="is-active"><a href>Test Definitions</a></li></ul></nav><div class="docs-right"><a class="docs-navbar-link" href="https://github.com/svilupp/Julia-LLM-Leaderboard" title="View the repository on GitHub"><span class="docs-icon fa-brands"></span><span class="docs-label is-hidden-touch">GitHub</span></a><a class="docs-navbar-link" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/main/docs/src/test_definitions.md#" title="Edit source on GitHub"><span class="docs-icon fa-solid"></span></a><a class="docs-settings-button docs-navbar-link fa-solid fa-gear" id="documenter-settings-button" href="#" title="Settings"></a><a class="docs-article-toggle-button fa-solid fa-chevron-up" id="documenter-article-toggle-button" href="javascript:;" title="Collapse all docstrings"></a></div></header><article class="content" id="documenter-page"><h1 id="Develop-Your-Test-Case"><a class="docs-heading-anchor" href="#Develop-Your-Test-Case">Develop Your Test Case</a><a id="Develop-Your-Test-Case-1"></a><a class="docs-heading-anchor-permalink" href="#Develop-Your-Test-Case" title="Permalink"></a></h1><p>All test cases are defined in <code>definition.toml</code> files with the structure described below.</p><h2 id="Folder-Structure"><a class="docs-heading-anchor" href="#Folder-Structure">Folder Structure</a><a id="Folder-Structure-1"></a><a class="docs-heading-anchor-permalink" href="#Folder-Structure" title="Permalink"></a></h2><p>Definitions are saved in the following file paths <code>code_generation/category/test_case_name/definition.toml</code>.</p><h2 id="Anatomy-of-definition.toml"><a class="docs-heading-anchor" href="#Anatomy-of-definition.toml">Anatomy of <code>definition.toml</code></a><a id="Anatomy-of-definition.toml-1"></a><a class="docs-heading-anchor-permalink" href="#Anatomy-of-definition.toml" title="Permalink"></a></h2><p>Required fields in <code>definition.toml</code> include:</p><ul><li><strong>name</strong>: Corresponding to the file path.</li><li><strong>contributor</strong>: The creator of the test case (and their collaborators).</li><li><strong>criteria</strong>: The evaluation criteria (eg, parsing, execution, unit_tests, examples).</li><li><strong>prompt</strong>: The problem statement or task.</li><li><strong>version</strong>: The version of the test case. Starts at &quot;1.0&quot;.</li><li><strong>examples</strong>: Example scenarios for testing, provided as a vector of executable statements using the function name (eg, <code>my_function(1, 2)</code>).</li><li><strong>unit_tests</strong>: Tests to validate the code, provided as a vector of <code>@test X = Z</code> statements.</li><li><strong>imports</strong>: Packages that are made available to the model (to avoid failures due to a failed dependency).</li><li><strong>reference_solution</strong>: A reference solution to the problem, provided as a string of Julia code (no code fences).</li></ul><p>There are several optional fields:</p><ul><li><strong>examples_setup</strong>: Code to run before each example eval, provided as a string of Julia code (no code fences). Used to setup any variables or functions needed for the examples.</li><li><strong>examples_teardown</strong>: Code to run after each example eval, provided as a string of Julia code (no code fences). Used to clean up any variables or functions needed for the examples.</li><li><strong>unit<em>tests</em>setup</strong>: Code to run before each unit test eval, provided as a string of Julia code (no code fences). Used to setup any variables or functions needed for the unit tests.</li><li><strong>unit<em>tests</em>teardown</strong>: Code to run after each unit test eval, provided as a string of Julia code (no code fences). Used to clean up any variables or functions needed for the unit tests.</li></ul><p>The above fields can improve re-use of code across the examples/unit tests.</p><p>See an example in <code>examples/create_definition.jl</code>. </p><p>You can validate your test case definitions with <code>validate_definition</code>.</p><h2 id="Feedback-and-Improvements"><a class="docs-heading-anchor" href="#Feedback-and-Improvements">Feedback and Improvements</a><a id="Feedback-and-Improvements-1"></a><a class="docs-heading-anchor-permalink" href="#Feedback-and-Improvements" title="Permalink"></a></h2><p>We highly value community input. If you have suggestions or ideas for improvement, please open an issue. All contributions are welcome!</p></article><nav class="docs-footer"><a class="docs-footer-prevpage" href="../methodology/">« Methodology</a><a class="docs-footer-nextpage" href="../examples/summarize_results_paid/">Paid APIs »</a><div class="flexbox-break"></div><p class="footer-message">Powered by <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> and the <a href="https://julialang.org/">Julia Programming Language</a>.</p></nav></div><div class="modal" id="documenter-settings"><div class="modal-background"></div><div class="modal-card"><header class="modal-card-head"><p class="modal-card-title">Settings</p><button class="delete"></button></header><section class="modal-card-body"><p><label class="label">Theme</label><div class="select"><select id="documenter-themepicker"><option value="auto">Automatic (OS)</option><option value="documenter-light">documenter-light</option><option value="documenter-dark">documenter-dark</option><option value="catppuccin-latte">catppuccin-latte</option><option value="catppuccin-frappe">catppuccin-frappe</option><option value="catppuccin-macchiato">catppuccin-macchiato</option><option value="catppuccin-mocha">catppuccin-mocha</option></select></div></p><hr/><p>This document was generated with <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> version 1.5.0 on <span class="colophon-date" title="Wednesday 7 August 2024 08:36">Wednesday 7 August 2024</span>. Using Julia version 1.10.4.</p></section><footer class="modal-card-foot"></footer></div></div></div></body></html>
+<html lang="en"><head><meta charset="UTF-8"/><meta name="viewport" content="width=device-width, initial-scale=1.0"/><title>Test Definitions · JuliaLLMLeaderboard.jl</title><meta name="title" content="Test Definitions · JuliaLLMLeaderboard.jl"/><meta property="og:title" content="Test Definitions · JuliaLLMLeaderboard.jl"/><meta property="twitter:title" content="Test Definitions · JuliaLLMLeaderboard.jl"/><meta name="description" content="Documentation for JuliaLLMLeaderboard.jl."/><meta property="og:description" content="Documentation for JuliaLLMLeaderboard.jl."/><meta property="twitter:description" content="Documentation for JuliaLLMLeaderboard.jl."/><meta property="og:url" content="https://svilupp.github.io/Julia-LLM-Leaderboard/test_definitions/"/><meta property="twitter:url" content="https://svilupp.github.io/Julia-LLM-Leaderboard/test_definitions/"/><link rel="canonical" href="https://svilupp.github.io/Julia-LLM-Leaderboard/test_definitions/"/><script data-outdated-warner src="../assets/warner.js"></script><link href="https://cdnjs.cloudflare.com/ajax/libs/lato-font/3.0.0/css/lato-font.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/juliamono/0.050/juliamono.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/fontawesome.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/solid.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/brands.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/KaTeX/0.16.8/katex.min.css" rel="stylesheet" type="text/css"/><script>documenterBaseURL=".."</script><script src="https://cdnjs.cloudflare.com/ajax/libs/require.js/2.3.6/require.min.js" data-main="../assets/documenter.js"></script><script src="../search_index.js"></script><script src="../siteinfo.js"></script><script src="../../versions.js"></script><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-mocha.css" data-theme-name="catppuccin-mocha"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-macchiato.css" data-theme-name="catppuccin-macchiato"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-frappe.css" data-theme-name="catppuccin-frappe"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-latte.css" data-theme-name="catppuccin-latte"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/documenter-dark.css" data-theme-name="documenter-dark" data-theme-primary-dark/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/documenter-light.css" data-theme-name="documenter-light" data-theme-primary/><script src="../assets/themeswap.js"></script></head><body><div id="documenter"><nav class="docs-sidebar"><div class="docs-package-name"><span class="docs-autofit"><a href="../">JuliaLLMLeaderboard.jl</a></span></div><button class="docs-search-query input is-rounded is-small is-clickable my-2 mx-auto py-1 px-2" id="documenter-search-query">Search docs (Ctrl + /)</button><ul class="docs-menu"><li><a class="tocitem" href="../">Home</a></li><li><a class="tocitem" href="../getting_started/">Getting Started</a></li><li><a class="tocitem" href="../methodology/">Methodology</a></li><li class="is-active"><a class="tocitem" href>Test Definitions</a><ul class="internal"><li><a class="tocitem" href="#Folder-Structure"><span>Folder Structure</span></a></li><li><a class="tocitem" href="#Anatomy-of-definition.toml"><span>Anatomy of <code>definition.toml</code></span></a></li><li><a class="tocitem" href="#Feedback-and-Improvements"><span>Feedback and Improvements</span></a></li></ul></li><li><span class="tocitem">Results</span><ul><li><a class="tocitem" href="../examples/summarize_results_paid/">Paid APIs</a></li><li><a class="tocitem" href="../examples/summarize_results_local/">Local Models</a></li><li><a class="tocitem" href="../examples/compare_paid_vs_local/">Paid vs Local Models</a></li><li><a class="tocitem" href="../examples/summarize_results_prompts/">By Prompts</a></li><li><a class="tocitem" href="../examples/summarize_results_test_cases/">By Test Case</a></li></ul></li><li><a class="tocitem" href="../frequently_asked_questions/">F.A.Q.</a></li><li><a class="tocitem" href="../reference/">Reference</a></li></ul><div class="docs-version-selector field has-addons"><div class="control"><span class="docs-label button is-static is-size-7">Version</span></div><div class="docs-selector control is-expanded"><div class="select is-fullwidth is-size-7"><select id="documenter-version-selector"></select></div></div></div></nav><div class="docs-main"><header class="docs-navbar"><a class="docs-sidebar-button docs-navbar-link fa-solid fa-bars is-hidden-desktop" id="documenter-sidebar-button" href="#"></a><nav class="breadcrumb"><ul class="is-hidden-mobile"><li class="is-active"><a href>Test Definitions</a></li></ul><ul class="is-hidden-tablet"><li class="is-active"><a href>Test Definitions</a></li></ul></nav><div class="docs-right"><a class="docs-navbar-link" href="https://github.com/svilupp/Julia-LLM-Leaderboard" title="View the repository on GitHub"><span class="docs-icon fa-brands"></span><span class="docs-label is-hidden-touch">GitHub</span></a><a class="docs-navbar-link" href="https://github.com/svilupp/Julia-LLM-Leaderboard/blob/main/docs/src/test_definitions.md#" title="Edit source on GitHub"><span class="docs-icon fa-solid"></span></a><a class="docs-settings-button docs-navbar-link fa-solid fa-gear" id="documenter-settings-button" href="#" title="Settings"></a><a class="docs-article-toggle-button fa-solid fa-chevron-up" id="documenter-article-toggle-button" href="javascript:;" title="Collapse all docstrings"></a></div></header><article class="content" id="documenter-page"><h1 id="Develop-Your-Test-Case"><a class="docs-heading-anchor" href="#Develop-Your-Test-Case">Develop Your Test Case</a><a id="Develop-Your-Test-Case-1"></a><a class="docs-heading-anchor-permalink" href="#Develop-Your-Test-Case" title="Permalink"></a></h1><p>All test cases are defined in <code>definition.toml</code> files with the structure described below.</p><h2 id="Folder-Structure"><a class="docs-heading-anchor" href="#Folder-Structure">Folder Structure</a><a id="Folder-Structure-1"></a><a class="docs-heading-anchor-permalink" href="#Folder-Structure" title="Permalink"></a></h2><p>Definitions are saved in the following file paths <code>code_generation/category/test_case_name/definition.toml</code>.</p><h2 id="Anatomy-of-definition.toml"><a class="docs-heading-anchor" href="#Anatomy-of-definition.toml">Anatomy of <code>definition.toml</code></a><a id="Anatomy-of-definition.toml-1"></a><a class="docs-heading-anchor-permalink" href="#Anatomy-of-definition.toml" title="Permalink"></a></h2><p>Required fields in <code>definition.toml</code> include:</p><ul><li><strong>name</strong>: Corresponding to the file path.</li><li><strong>contributor</strong>: The creator of the test case (and their collaborators).</li><li><strong>criteria</strong>: The evaluation criteria (eg, parsing, execution, unit_tests, examples).</li><li><strong>prompt</strong>: The problem statement or task.</li><li><strong>version</strong>: The version of the test case. Starts at &quot;1.0&quot;.</li><li><strong>examples</strong>: Example scenarios for testing, provided as a vector of executable statements using the function name (eg, <code>my_function(1, 2)</code>).</li><li><strong>unit_tests</strong>: Tests to validate the code, provided as a vector of <code>@test X = Z</code> statements.</li><li><strong>imports</strong>: Packages that are made available to the model (to avoid failures due to a failed dependency).</li><li><strong>reference_solution</strong>: A reference solution to the problem, provided as a string of Julia code (no code fences).</li></ul><p>There are several optional fields:</p><ul><li><strong>examples_setup</strong>: Code to run before each example eval, provided as a string of Julia code (no code fences). Used to setup any variables or functions needed for the examples.</li><li><strong>examples_teardown</strong>: Code to run after each example eval, provided as a string of Julia code (no code fences). Used to clean up any variables or functions needed for the examples.</li><li><strong>unit<em>tests</em>setup</strong>: Code to run before each unit test eval, provided as a string of Julia code (no code fences). Used to setup any variables or functions needed for the unit tests.</li><li><strong>unit<em>tests</em>teardown</strong>: Code to run after each unit test eval, provided as a string of Julia code (no code fences). Used to clean up any variables or functions needed for the unit tests.</li></ul><p>The above fields can improve re-use of code across the examples/unit tests.</p><p>See an example in <code>examples/create_definition.jl</code>. </p><p>You can validate your test case definitions with <code>validate_definition</code>.</p><h2 id="Feedback-and-Improvements"><a class="docs-heading-anchor" href="#Feedback-and-Improvements">Feedback and Improvements</a><a id="Feedback-and-Improvements-1"></a><a class="docs-heading-anchor-permalink" href="#Feedback-and-Improvements" title="Permalink"></a></h2><p>We highly value community input. If you have suggestions or ideas for improvement, please open an issue. All contributions are welcome!</p></article><nav class="docs-footer"><a class="docs-footer-prevpage" href="../methodology/">« Methodology</a><a class="docs-footer-nextpage" href="../examples/summarize_results_paid/">Paid APIs »</a><div class="flexbox-break"></div><p class="footer-message">Powered by <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> and the <a href="https://julialang.org/">Julia Programming Language</a>.</p></nav></div><div class="modal" id="documenter-settings"><div class="modal-background"></div><div class="modal-card"><header class="modal-card-head"><p class="modal-card-title">Settings</p><button class="delete"></button></header><section class="modal-card-body"><p><label class="label">Theme</label><div class="select"><select id="documenter-themepicker"><option value="auto">Automatic (OS)</option><option value="documenter-light">documenter-light</option><option value="documenter-dark">documenter-dark</option><option value="catppuccin-latte">catppuccin-latte</option><option value="catppuccin-frappe">catppuccin-frappe</option><option value="catppuccin-macchiato">catppuccin-macchiato</option><option value="catppuccin-mocha">catppuccin-mocha</option></select></div></p><hr/><p>This document was generated with <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> version 1.5.0 on <span class="colophon-date" title="Monday 12 August 2024 20:24">Monday 12 August 2024</span>. Using Julia version 1.10.4.</p></section><footer class="modal-card-foot"></footer></div></div></div></body></html>

Model	Elapsed	Elapsed Median	Score	Score Median	Count Zero Score	Count Full Score	Is Paid
claude-3-5-sonnet-20240620	6.3	6.3	86.0	100.0	5.0	179.0	true
claude-3-opus-20240229	20.5	20.5	83.0	90.0	1.0	161.0	true
claude-3-sonnet-20240229	8.7	8.7	79.0	95.0	15.0	161.0	true
codestral-2405	1.9	1.9	78.0	95.0	16.0	146.0	true
mistralai/Mixtral-8x22B-Instruct-v0.1	14.1	14.1	77.6	90.0	5.0	151.0	false
gpt-4o-2024-08-06	4.7	4.7	77.3	90.0	12.0	155.0	true
meta-llama/Llama-3-70b-chat-hf	4.3	4.3	76.8	88.3	0.0	160.0	false
gpt-4-turbo-2024-04-09	10.9	10.9	74.9	90.0	22.0	146.0	true
gpt-4-1106-preview	22.4	22.4	74.4	90.0	19.0	142.0	true
claude-3-haiku-20240307	4.0	4.0	74.1	84.2	4.0	125.0	true
mistral-large-2407	11.3	11.3	73.6	83.1	15.0	137.0	true
gpt-4o-mini-2024-07-18	5.2	5.2	73.5	86.7	19.0	137.0	true
gpt-4-0125-preview	30.2	30.2	73.1	88.8	26.0	140.0	true
gpt-4o-2024-05-13	4.3	4.3	72.2	86.7	21.0	122.0	true
deepseek-coder	13.0	13.0	71.6	83.3	39.0	115.0	true
deepseek-chat	17.9	17.9	71.3	80.6	30.0	138.0	true
mistral-large-2402	8.6	8.6	71.1	80.0	5.0	103.0	true
meta-llama/Llama-3-8b-chat-hf	1.5	1.5	67.7	66.7	5.0	70.0	false
claude-2.1	10.1	10.1	67.3	75.0	27.0	116.0	true
microsoft/WizardLM-2-8x22B	34.7	34.7	62.7	60.0	33.0	118.0	false
gpt-3.5-turbo-0125	1.2	1.2	62.1	67.1	62.0	95.0	true
phind-codellama:34b-v2	37.1	37.1	61.8	62.5	36.0	58.0	false
mistral-medium	18.1	18.1	60.8	60.0	22.0	90.0	true
mistral-small-2402	5.0	5.0	60.2	55.0	15.0	84.0	true
mistral-small	5.9	5.9	60.1	55.0	27.0	76.0	true
magicoder:7b-s-cl-q6_K	15.6	15.6	59.9	60.0	18.0	35.0	false
gpt-3.5-turbo-1106	2.1	2.1	58.4	62.5	82.0	97.0	true
codellama:13b-instruct-q4KM	3.2	3.2	56.4	54.6	56.0	61.0	false
deepseek-coder:33b-instruct-q4KM	46.7	46.7	55.0	50.0	62.0	68.0	false
magicoder	12.8	12.8	53.7	50.0	49.0	52.0	false
nous-hermes2:34b-yi-q4KM	56.8	56.8	50.7	50.0	78.0	56.0	false
accounts/fireworks/models/dbrx-instruct	3.7	3.7	50.0	50.0	121.0	75.0	false
codellama:13b-instruct	18.1	18.1	50.0	50.0	65.0	44.0	false
openchat:7b-v3.5-1210-q4KM	14.4	14.4	49.4	50.0	48.0	23.0	false
openhermes2.5-mistral	12.9	12.9	48.9	50.0	55.0	27.0	false
starling-lm:latest	13.7	13.7	48.4	50.0	58.0	26.0	false
codellama:7b-instruct-q4KM	2.1	2.1	47.8	50.0	95.0	38.0	false
mistral-tiny	4.6	4.6	46.9	50.0	75.0	42.0	true
yi:34b-chat	43.9	43.9	45.6	50.0	45.0	34.0	false
mistral:7b-instruct-v0.2-q6_K	21.7	21.7	45.4	50.0	44.0	23.0	false
mistral:7b-instruct-v0.2-q4_0	12.4	12.4	44.3	50.0	75.0	32.0	false
mistral:7b-instruct-v0.2-q4KM	15.6	15.6	42.6	50.0	71.0	23.0	false
gpt-3.5-turbo	3.6	3.6	42.3	50.0	132.0	54.0	true
codellama:34b-instruct-q4KM	7.5	7.5	39.7	50.0	127.0	35.0	false
codellama:70b-instruct-q4KM	16.3	16.3	36.4	0.0	179.0	58.0	false
gemini-1.0-pro-latest	4.2	4.2	35.9	50.0	76.0	9.0	true
solar:10.7b-instruct-v1-q4KM	18.8	18.8	35.2	50.0	107.0	10.0	false
mistral:7b-instruct-q4KM	13.9	13.9	34.8	50.0	80.0	0.0	false
codellama:70b-instruct-q2_K	11.2	11.2	29.8	0.0	198.0	29.0	false
llama2	17.1	17.1	26.5	25.0	131.0	0.0	false
gemma:7b-instruct-q6_K	20.9	20.9	25.9	25.0	147.0	2.0	false
orca2:13b	20.1	20.1	23.1	0.0	166.0	11.0	false
stablelm-zephyr	9.9	9.9	15.4	0.0	192.0	1.0	false
dolphin-phi:2.7b-v2.6-q6_K	8.9	8.9	14.9	0.0	188.0	0.0	false
codellama:13b-python	12.5	12.5	12.8	0.0	155.0	0.0	false
phi:2.7b-chat-v2-q6_K	13.0	13.0	8.9	0.0	222.0	0.0	false
Model	Prompt Label	Elapsed	Elapsed Median	Score Avg	Score Median	Cnt	Point Per Second
codellama:13b-instruct-q4KM	JuliaExpertAsk	2.0	1.9	63.4	75.0	70.0	32.1
codellama:7b-instruct-q4KM	InJulia	2.0	2.0	57.7	55.0	70.0	29.1
codellama:7b-instruct-q4KM	JuliaExpertAsk	1.2	0.9	33.1	0.0	70.0	26.5
codellama:7b-instruct-q4KM	JuliaRecapTask	2.6	2.5	60.4	60.0	70.0	23.3
codellama:7b-instruct-q4KM	JuliaExpertCoTTask	1.6	1.4	32.6	0.0	70.0	20.6
codellama:13b-instruct-q4KM	InJulia	3.6	3.4	67.6	61.2	70.0	18.7
codellama:7b-instruct-q4KM	JuliaRecapCoTTask	3.0	2.7	55.4	50.0	70.0	18.3
codellama:13b-instruct-q4KM	JuliaExpertCoTTask	2.7	2.3	42.8	50.0	70.0	15.9
codellama:13b-instruct-q4KM	JuliaRecapTask	3.9	3.6	55.8	50.0	70.0	14.2
codellama:13b-instruct-q4KM	JuliaRecapCoTTask	3.9	4.1	52.5	50.0	70.0	13.5
codellama:34b-instruct-q4KM	JuliaExpertAsk	6.3	5.8	53.0	50.0	70.0	8.4
mistral:7b-instruct-v0.2-q4_0	JuliaExpertAsk	5.8	5.6	40.3	50.0	70.0	6.9
openchat:7b-v3.5-1210-q4KM	JuliaExpertAsk	7.8	6.9	51.0	50.0	55.0	6.5
codellama:34b-instruct-q4KM	InJulia	8.1	7.9	50.1	50.0	70.0	6.2
mistral:7b-instruct-v0.2-q4KM	JuliaExpertAsk	8.1	6.9	48.4	50.0	70.0	6.0
openhermes2.5-mistral	JuliaExpertAsk	8.7	8.9	50.7	52.5	58.0	5.8
starling-lm:latest	JuliaExpertAsk	9.9	9.8	55.5	50.0	58.0	5.6
magicoder	InJulia	11.0	9.6	60.8	60.0	57.0	5.6
codellama:34b-instruct-q4KM	JuliaExpertCoTTask	6.4	6.4	34.8	25.0	70.0	5.4
magicoder	JuliaExpertAsk	9.8	8.7	50.2	50.0	58.0	5.1
codellama:13b-instruct	JuliaExpertAsk	10.4	8.5	51.1	50.0	58.0	4.9
mistral:7b-instruct-q4KM	JuliaExpertAsk	7.7	7.4	37.3	50.0	57.0	4.9
openhermes2.5-mistral	InJulia	10.8	9.8	49.6	50.0	58.0	4.6
starling-lm:latest	InJulia	11.1	11.1	51.1	50.0	58.0	4.6
openchat:7b-v3.5-1210-q4KM	InJulia	11.9	11.7	50.9	50.0	55.0	4.3
magicoder:7b-s-cl-q6_K	InJulia	14.6	15.3	62.2	55.0	42.0	4.3
magicoder	JuliaRecapCoTTask	13.4	12.0	56.6	50.0	57.0	4.2
magicoder	JuliaRecapTask	13.4	10.9	56.3	50.0	57.0	4.2
codellama:34b-instruct-q4KM	JuliaRecapTask	7.6	6.2	31.6	0.0	70.0	4.2
magicoder:7b-s-cl-q6_K	JuliaExpertAsk	14.6	14.7	60.1	58.1	42.0	4.1
magicoder:7b-s-cl-q6_K	JuliaRecapTask	16.1	16.5	65.2	60.0	42.0	4.1
mistral:7b-instruct-v0.2-q6_K	JuliaExpertAsk	10.0	8.2	39.8	50.0	42.0	4.0
mistral:7b-instruct-v0.2-q4_0	InJulia	12.1	11.3	47.4	50.0	70.0	3.9
mistral:7b-instruct-q4KM	InJulia	10.3	10.0	37.3	50.0	57.0	3.6
magicoder:7b-s-cl-q6_K	JuliaRecapCoTTask	16.9	16.4	59.4	55.6	42.0	3.5
openhermes2.5-mistral	JuliaRecapTask	15.0	14.7	51.3	50.0	58.0	3.4
magicoder:7b-s-cl-q6_K	JuliaExpertCoTTask	16.0	16.5	52.8	58.1	42.0	3.3
starling-lm:latest	JuliaRecapTask	16.0	13.6	52.6	50.0	58.0	3.3
codellama:34b-instruct-q4KM	JuliaRecapCoTTask	8.8	7.4	29.0	12.5	70.0	3.3
codellama:13b-instruct	InJulia	16.4	14.7	53.2	50.0	58.0	3.2
mistral:7b-instruct-v0.2-q4_0	JuliaExpertCoTTask	13.2	12.9	42.8	50.0	70.0	3.2
codellama:70b-instruct-q2_K	JuliaRecapTask	11.7	9.5	37.4	25.0	70.0	3.2
llama2	JuliaExpertAsk	9.8	9.1	31.4	50.0	59.0	3.2
openhermes2.5-mistral	JuliaExpertCoTTask	16.6	16.0	51.9	50.0	57.0	3.1
starling-lm:latest	JuliaRecapCoTTask	14.8	13.2	46.1	50.0	58.0	3.1
openhermes2.5-mistral	JuliaRecapCoTTask	13.3	13.5	40.9	50.0	58.0	3.1
openchat:7b-v3.5-1210-q4KM	JuliaRecapTask	17.2	15.8	52.9	50.0	55.0	3.1
mistral:7b-instruct-v0.2-q4KM	InJulia	14.1	13.9	41.8	50.0	70.0	3.0
mistral:7b-instruct-v0.2-q4_0	JuliaRecapCoTTask	14.8	14.2	43.8	50.0	70.0	3.0
mistral:7b-instruct-v0.2-q4_0	JuliaRecapTask	16.2	15.4	47.3	50.0	70.0	2.9
openchat:7b-v3.5-1210-q4KM	JuliaRecapCoTTask	16.9	15.7	49.1	50.0	55.0	2.9
solar:10.7b-instruct-v1-q4KM	JuliaExpertAsk	13.0	12.5	36.9	50.0	57.0	2.8
codellama:70b-instruct-q2_K	JuliaExpertCoTTask	9.1	8.4	25.5	0.0	70.0	2.8
magicoder	JuliaExpertCoTTask	16.2	15.1	44.7	37.5	58.0	2.8
orca2:13b	InJulia	11.4	10.5	31.3	25.0	57.0	2.7
codellama:70b-instruct-q4KM	InJulia	16.5	14.7	43.9	50.0	70.0	2.7
codellama:70b-instruct-q2_K	InJulia	13.0	10.9	34.6	25.0	70.0	2.7
solar:10.7b-instruct-v1-q4KM	InJulia	17.4	15.7	43.9	50.0	57.0	2.5
stablelm-zephyr	JuliaExpertAsk	6.3	6.6	15.6	0.0	57.0	2.5
mistral:7b-instruct-v0.2-q4KM	JuliaExpertCoTTask	16.4	15.9	40.5	50.0	70.0	2.5
codellama:70b-instruct-q2_K	JuliaRecapCoTTask	12.3	9.7	30.0	0.0	70.0	2.4
codellama:13b-instruct	JuliaRecapTask	21.9	20.6	53.0	50.0	58.0	2.4
gemma:7b-instruct-q6_K	JuliaExpertAsk	10.5	6.2	25.3	25.0	70.0	2.4
dolphin-phi:2.7b-v2.6-q6_K	JuliaExpertAsk	6.8	6.3	16.1	0.0	56.0	2.4
openchat:7b-v3.5-1210-q4KM	JuliaExpertCoTTask	18.2	17.9	43.1	50.0	55.0	2.4
codellama:70b-instruct-q4KM	JuliaRecapTask	17.9	14.1	42.4	37.5	70.0	2.4
phind-codellama:34b-v2	JuliaExpertAsk	29.5	27.7	68.1	66.7	57.0	2.3
codellama:13b-instruct	JuliaRecapCoTTask	21.7	20.8	48.5	50.0	58.0	2.2
codellama:13b-instruct	JuliaExpertCoTTask	20.0	19.3	44.5	50.0	58.0	2.2
mistral:7b-instruct-v0.2-q6_K	InJulia	19.4	17.1	43.2	50.0	42.0	2.2
starling-lm:latest	JuliaExpertCoTTask	16.6	16.2	36.8	50.0	58.0	2.2
codellama:70b-instruct-q2_K	JuliaExpertAsk	9.8	8.8	21.3	0.0	70.0	2.2
mistral:7b-instruct-q4KM	JuliaExpertCoTTask	16.3	15.8	35.0	25.0	57.0	2.1
mistral:7b-instruct-v0.2-q4KM	JuliaRecapTask	20.5	18.7	44.0	50.0	70.0	2.1
codellama:70b-instruct-q4KM	JuliaRecapCoTTask	16.7	12.8	35.2	0.0	70.0	2.1
codellama:70b-instruct-q4KM	JuliaExpertCoTTask	14.8	13.3	30.8	0.0	70.0	2.1
mistral:7b-instruct-v0.2-q4KM	JuliaRecapCoTTask	18.9	17.9	38.5	50.0	70.0	2.0
yi:34b-chat	JuliaExpertAsk	26.1	22.8	52.7	52.5	58.0	2.0
mistral:7b-instruct-v0.2-q6_K	JuliaExpertCoTTask	23.8	25.1	47.5	50.0	42.0	2.0
mistral:7b-instruct-q4KM	JuliaRecapTask	16.7	15.9	33.0	25.0	55.0	2.0
codellama:70b-instruct-q4KM	JuliaExpertAsk	15.7	13.3	29.9	0.0	70.0	1.9
solar:10.7b-instruct-v1-q4KM	JuliaRecapCoTTask	19.7	19.1	36.7	50.0	57.0	1.9
solar:10.7b-instruct-v1-q4KM	JuliaRecapTask	21.3	21.0	38.9	50.0	57.0	1.8
mistral:7b-instruct-v0.2-q6_K	JuliaRecapCoTTask	26.9	24.7	48.2	50.0	42.0	1.8
phind-codellama:34b-v2	InJulia	33.2	34.3	59.0	61.2	57.0	1.8
dolphin-phi:2.7b-v2.6-q6_K	JuliaRecapTask	9.5	9.3	16.3	0.0	56.0	1.7
llama2	InJulia	15.3	13.9	26.4	25.0	59.0	1.7
mistral:7b-instruct-v0.2-q6_K	JuliaRecapTask	28.3	27.2	48.6	50.0	42.0	1.7
mistral:7b-instruct-q4KM	JuliaRecapCoTTask	18.7	17.6	31.5	50.0	55.0	1.7
phind-codellama:34b-v2	JuliaRecapCoTTask	37.1	36.9	59.8	61.2	57.0	1.6
stablelm-zephyr	JuliaRecapTask	12.1	8.3	19.2	0.0	57.0	1.6
stablelm-zephyr	InJulia	8.5	6.6	13.3	0.0	57.0	1.6
phind-codellama:34b-v2	JuliaRecapTask	41.1	40.6	62.0	61.2	57.0	1.5
dolphin-phi:2.7b-v2.6-q6_K	JuliaExpertCoTTask	8.1	8.0	12.2	0.0	56.0	1.5
dolphin-phi:2.7b-v2.6-q6_K	JuliaRecapCoTTask	9.4	8.9	14.1	0.0	56.0	1.5
orca2:13b	JuliaExpertAsk	11.0	9.2	16.5	0.0	57.0	1.5
dolphin-phi:2.7b-v2.6-q6_K	InJulia	10.6	9.4	15.6	0.0	56.0	1.5
stablelm-zephyr	JuliaRecapCoTTask	11.4	8.8	16.5	0.0	57.0	1.4
llama2	JuliaExpertCoTTask	18.9	17.3	27.2	25.0	59.0	1.4
gemma:7b-instruct-q6_K	JuliaRecapCoTTask	25.7	25.0	34.9	50.0	70.0	1.4
phind-codellama:34b-v2	JuliaExpertCoTTask	44.6	46.5	60.1	66.7	57.0	1.3
codellama:13b-python	JuliaRecapCoTTask	9.5	6.4	12.4	0.0	42.0	1.3
llama2	JuliaRecapCoTTask	19.3	19.2	25.0	25.0	59.0	1.3
codellama:13b-python	JuliaExpertAsk	10.4	7.9	13.3	0.0	44.0	1.3
nous-hermes2:34b-yi-q4KM	InJulia	52.0	45.5	61.8	60.0	67.0	1.2
gemma:7b-instruct-q6_K	InJulia	19.7	20.3	22.6	25.0	70.0	1.1
gemma:7b-instruct-q6_K	JuliaRecapTask	24.8	23.6	26.9	25.0	70.0	1.1
phi:2.7b-chat-v2-q6_K	JuliaExpertCoTTask	9.3	5.7	9.9	0.0	55.0	1.1
stablelm-zephyr	JuliaExpertCoTTask	11.4	9.6	12.2	0.0	57.0	1.1
nous-hermes2:34b-yi-q4KM	JuliaExpertAsk	35.9	32.9	37.4	50.0	67.0	1.0
codellama:13b-python	JuliaExpertCoTTask	12.8	12.9	13.3	0.0	43.0	1.0
llama2	JuliaRecapTask	22.1	22.2	22.4	0.0	59.0	1.0
orca2:13b	JuliaExpertCoTTask	23.9	23.1	24.2	0.0	57.0	1.0
yi:34b-chat	JuliaRecapTask	50.8	48.8	47.6	50.0	58.0	0.9
yi:34b-chat	JuliaExpertCoTTask	42.1	40.6	39.2	25.0	58.0	0.9
yi:34b-chat	JuliaRecapCoTTask	49.5	45.6	44.0	50.0	57.0	0.9
solar:10.7b-instruct-v1-q4KM	JuliaExpertCoTTask	22.5	22.4	19.7	0.0	58.0	0.9
yi:34b-chat	InJulia	51.1	48.6	44.5	50.0	58.0	0.9
codellama:13b-python	JuliaRecapTask	16.3	10.9	13.9	0.0	43.0	0.9
nous-hermes2:34b-yi-q4KM	JuliaRecapTask	67.6	61.9	56.6	50.0	65.0	0.8
gemma:7b-instruct-q6_K	JuliaExpertCoTTask	23.8	23.3	19.9	25.0	70.0	0.8
phi:2.7b-chat-v2-q6_K	JuliaRecapCoTTask	12.1	10.8	9.9	0.0	55.0	0.8
codellama:13b-python	InJulia	13.7	12.5	11.0	0.0	44.0	0.8
orca2:13b	JuliaRecapCoTTask	26.7	25.4	21.5	0.0	57.0	0.8
phi:2.7b-chat-v2-q6_K	JuliaRecapTask	13.6	12.9	10.8	0.0	55.0	0.8
orca2:13b	JuliaRecapTask	27.5	24.8	21.9	0.0	57.0	0.8
nous-hermes2:34b-yi-q4KM	JuliaRecapCoTTask	58.5	60.0	46.1	50.0	65.0	0.8
nous-hermes2:34b-yi-q4KM	JuliaExpertCoTTask	70.4	65.5	51.4	55.0	67.0	0.7
phi:2.7b-chat-v2-q6_K	JuliaExpertAsk	14.6	13.4	8.1	0.0	55.0	0.6
phi:2.7b-chat-v2-q6_K	InJulia	15.7	17.8	6.0	0.0	55.0	0.4
name	claude-2.1	claude-3-5-sonnet-20240620	claude-3-haiku-20240307	claude-3-opus-20240229	claude-3-sonnet-20240229	codestral-2405	deepseek-chat	deepseek-coder	gemini-1.0-pro-latest	gpt-3.5-turbo	gpt-3.5-turbo-0125	gpt-3.5-turbo-1106	gpt-4-0125-preview	gpt-4-1106-preview	gpt-4-turbo-2024-04-09	gpt-4o-2024-05-13	gpt-4o-2024-08-06	gpt-4o-mini-2024-07-18	mistral-large-2402	mistral-large-2407	mistral-medium	mistral-small	mistral-small-2402	mistral-tiny	AverageScore
FloatWithUnits	62.0	97.5	98.0	100.0	100.0	98.0	100.0	100.0	57.0	76.0	91.5	80.0	60.5	72.0	78.5	93.5	99.5	96.5	99.5	100.0	98.0	70.0	100.0	80.2	87.8
timezone_bumper	82.1	100.0	98.1	99.7	95.5	89.5	100.0	100.0	39.9	48.0	77.4	79.2	90.0	90.0	94.8	95.0	98.5	99.1	96.4	100.0	97.0	76.6	78.1	62.0	87.0
clean_column	100.0	97.3	89.8	100.0	96.4	92.3	78.4	71.2	41.5	35.5	66.7	69.8	88.8	90.5	90.0	89.3	87.4	88.0	91.6	92.0	81.0	84.6	99.7	80.8	83.4
keeponlynames	90.1	91.6	65.0	85.3	94.9	95.4	88.4	74.4	54.0	50.8	80.6	74.2	90.9	91.0	86.2	77.5	78.7	80.9	98.7	89.4	66.2	76.6	67.9	51.0	79.2
wrap_string	93.8	94.8	77.2	64.5	70.2	88.0	81.7	82.5	32.6	64.0	50.1	55.3	94.9	97.8	94.6	97.0	94.6	94.3	71.9	94.5	84.7	68.0	68.6	48.3	77.7
countmodelrows	58.0	100.0	82.6	98.8	94.8	84.4	67.2	60.7	36.6	52.8	75.7	56.2	97.4	98.4	89.3	89.0	95.4	75.5	78.6	90.2	79.0	67.2	61.7	53.2	76.8
weatherdataanalyzer	74.1	85.0	93.3	86.8	86.8	89.3	93.0	83.8	26.5	35.2	64.2	59.0	85.4	85.0	81.0	67.4	73.5	76.5	86.0	54.6	85.4	55.4	52.6	56.8	72.4
add_yearmonth	53.8	88.5	86.2	92.0	81.0	62.5	71.2	62.5	35.8	33.0	67.6	65.2	78.6	72.8	75.9	68.0	74.9	67.2	72.2	71.2	48.0	62.2	40.2	33.2	65.2
event_scheduler	86.5	84.4	76.6	90.2	77.2	56.8	76.0	82.4	37.8	29.0	44.4	42.8	87.9	66.6	82.5	73.8	67.7	37.5	57.3	32.8	36.0	59.0	38.7	37.2	60.9
ispersonal	52.0	62.0	69.0	54.0	72.0	90.0	61.0	84.0	16.0	43.0	72.0	68.6	54.3	56.0	66.5	62.0	66.3	94.0	67.2	57.0	35.0	48.0	48.0	29.5	59.5
audi_filter	38.0	93.0	56.0	93.0	63.8	59.5	47.0	57.8	28.1	27.0	55.0	58.0	47.5	58.0	49.0	56.2	81.0	78.8	58.0	92.0	43.0	48.5	44.8	27.0	56.7
extractjuliacode	56.4	63.3	60.4	65.4	48.2	47.9	41.3	48.6	36.4	41.0	43.6	48.4	54.5	48.7	56.1	52.5	50.4	45.3	44.1	63.8	31.8	52.2	50.4	30.1	49.2
qanda_extractor	73.5	63.7	62.3	68.0	65.5	57.0	43.3	26.7	26.2	31.7	35.5	36.7	56.7	53.3	49.3	45.3	50.2	54.7	46.8	31.0	38.7	44.7	55.8	36.0	48.0
pig_latinify	30.6	79.8	34.6	67.1	57.0	56.5	49.0	67.1	18.7	24.7	39.8	23.1	54.7	61.4	60.1	54.2	54.8	48.0	33.6	61.7	27.8	28.8	31.6	33.1	45.7