Slow processing of large batches of jobs #652

gaffneyc · 2024-10-18T20:21:13Z

gaffneyc
Oct 18, 2024

We're looking at River as a replacement for an existing Redis based worker system. We often enqueue a large batch of jobs (using InsertMany) that we want processed quickly. In testing it looks like River always waits FetchPollInterval between fetches even if there are jobs available in the queue.

The test we've set up is we have a single worker process with 32 workers pulling from the default queue. Connections are direct to Postgres 17. We are logging all of the jobs that are run and they each take ~25ms. We then batch produce 5k records and it prints batches of completions every second. If we increase the FetchPollInterval to 5 seconds the batches start to come in every 5 seconds instead. When we drop FetchPollInterval to 100ms then everything processes quickly but the batches happen far enough apart (small every minute larger ones every hour) that it using a small interval would cause a lot of unnecessary load on the database.

What knobs do we have here other than FetchPollInterval? I'm assuming we should (roughly) be matching worker counts to available core.

Would it make sense for River to ignore the interval and do an immediate fetch when the previous fetch had a full set of records? That is only apply FetchPollInterval when fewer records were returned than available workers.

gaffneyc · 2024-10-18T20:44:41Z

gaffneyc
Oct 18, 2024
Author

I came up with a basic proof of concept that has greatly increased job throughput in local testing even when increasing FetchPollInterval to 5 seconds. If I understand how the fetch limiter works this should still respect FetchCooldown.

diff --git a/vendor/github.com/riverqueue/river/producer.go b/vendor/github.com/riverqueue/river/producer.go
index 6d6392ad..66b35b81 100644
--- a/vendor/github.com/riverqueue/river/producer.go
+++ b/vendor/github.com/riverqueue/river/producer.go
@@ -447,7 +447,11 @@ func (p *producer) fetchAndRunLoop(fetchCtx, workCtx context.Context, fetchLimit
      if p.paused {
        continue
      }
-     p.innerFetchLoop(workCtx, fetchResultCh)
+     more := p.innerFetchLoop(workCtx, fetchResultCh)
+     if more {
+       fetchLimiter.Call()
+     }
+
      // Ensure we can't start another fetch when fetchCtx is done, even if
      // the fetchLimiter is also ready to fire:
      select {
@@ -461,7 +465,7 @@ func (p *producer) fetchAndRunLoop(fetchCtx, workCtx context.Context, fetchLimit
  }
 }

-func (p *producer) innerFetchLoop(workCtx context.Context, fetchResultCh chan producerFetchResult) {
+func (p *producer) innerFetchLoop(workCtx context.Context, fetchResultCh chan producerFetchResult) bool {
  limit := p.maxJobsToFetch()
  go p.dispatchWork(workCtx, limit, fetchResultCh)

@@ -473,7 +477,7 @@ func (p *producer) innerFetchLoop(workCtx context.Context, fetchResultCh chan pr
      } else if len(result.jobs) > 0 {
        p.startNewExecutors(workCtx, result.jobs)
      }
-     return
+     return len(result.jobs) == limit
    case result := <-p.jobResultCh:
      p.removeActiveJob(result.ID)
    case jobID := <-p.cancelCh:

5 replies

bgentry Oct 18, 2024
Maintainer

@gaffneyc converting this to a discussion for now, though I think your suggestion can still come out of it as a PR. First, I wanted to confirm that you saw the river bench command which we blogged about.

There are a couple of relevant config knobs here which you've discovered:

FetchPollInterval, how long between periodic polling queries to the DB. Limits typical job polling load on the database.
FetchCooldown, the minimum amount of time between fetches, even if new jobs are being actively inserted.
Number of workers for each queue. This controls the max number of jobs on each fetch attempt that can be fetched, and the max number of concurrent jobs running on a given client for that queue.

These three work together to tune a queue's maximum throughput and its impact on the database. Beyond that, the impact scales with the number of individual nodes you're running with these settings. Simply by turning down the intervals and increasing the number of jobs, or by adding more nodes/clients, you can increase your throughput up to what your database can handle.

My initial concern with this suggestion is it causing less predictable and more spiky load impact from River. The reason is that it means you're going to be more frequently fetching smaller batches of jobs. Of course I can see how that would increase utilization and throughput. Thinking further though, I think what you've proposed here is actually a nice improvement and helps address an issue I've noticed before and haven't yet spent the time to address.

The behavior and throughput of the system right now is different depending on whether new jobs are actively being inserted vs whether there's merely a large backlog that's being cleared out. That's because we use the NOTIFY signals triggered by inserts to tell the client that it should be more aggressive in trying to fetch additional jobs than what it would otherwise do (merely waiting for the next poll interval). In your proposal, the system tilts more toward the FetchCooldown being the ultimate determiner of how often a fetch should happen regardless of how we learned that there are likely more jobs waiting to be worked, which might make things more predictable.

This problem is more impactful for clients that don't have NOTIFY available (pgbouncer txn pooling mode or using the dbsql driver) because they'll always be relying on the poll interval for fetching, whereas this gives them a chance to be more efficient and have higher throughput if they think it's likely there are more jobs waiting for them. And then we can fall back to a less frequent poll to cover the rest of the cases.

Since you already have this change locally, would you want to try running river bench on it before and after to report the difference?

gaffneyc Oct 19, 2024
Author

@bgentry I think I had seen the bench command but hadn't looked into it yet. I did some digging and I'm going to include numbers and thoughts below. I ran all of the tests on my development system (Ryzen 5950x with 32 threads and 64GB of memory) which was mostly idle but not completely. None of the tests seemed to tax the system all that much.

Anything labeled before is what is included in commit 56ddf09 and anything labeled after included the change above.

The numbers mostly speak for themselves and overall I think this (or something like it) is likely a good change. I haven't tested different worker counts but my gut is telling me River would benefit from fewer large machines with more workers than a larger number of smaller machines to take advantage of batching and reduce queries.

Test 1: No Changes

This test was just river bench without any changes. There is a slight (< 2%) improvement with the change.

Before

bench: total jobs worked [    3900793 ], total jobs inserted [    3975000 ], overall job/sec [    32508.3 ], running 1m59.993613702s

After

bench: total jobs worked [    3967961 ], total jobs inserted [    4035000 ], overall job/sec [    33066.9 ], running 1m59.998109044s

Test 2: Defaults

I took a look in cmd/river/riverbench/river_bench.go to better understand what the benchmark was doing. I was surprised that FetchCooldown and FetchPollInterval were set so aggressively. I think the values make sense for trying to gauge maximum throughput but, as a fraction of the default values, they feel aggressive for a production deploy unless you're using the database solely as a queue. I would also expect most team to use the default values.

In this test I reset FetchCooldown and FetchPollInterval to their defaults (100ms and 1s respectively). There is a 2.3x improvement in overall throughput with the change.

Before

bench: total jobs worked [    1016000 ], total jobs inserted [    2015000 ], overall job/sec [     8478.1 ], running 1m59.838545975s

After

bench: total jobs worked [    2376003 ], total jobs inserted [    2450000 ], overall job/sec [    19800.8 ], running 1m59.995035124s

Test 3: Defaults + Polling Only

I set PollOnly to true in the config and left FetchCooldown and FetchPollInterval as their default values as in test 2.

River 0.13.0 is really limited here because the throughput is always going to be worker size * fetches per second. We see a 9.85x speed up as we're fetching closer to the FetchCooldown rate (which is 1/10th of the poll interval).

Before

bench: total jobs worked [     240000 ], total jobs inserted [    2010000 ], overall job/sec [     2014.4 ], running 1m59.145118521s

After

bench: total jobs worked [    2380001 ], total jobs inserted [    2455000 ], overall job/sec [    19841.1 ], running 1m59.95290959s

Raw Data

Before - No changes

./river bench --duration 2m --database-url postgres:///river_dev
bench: jobs worked [          0 ], inserted [      75000 ], job/sec [        0.0 ] [0s]
bench: jobs worked [      84047 ], inserted [      70000 ], job/sec [    42023.5 ] [2s]
bench: jobs worked [      78052 ], inserted [      85000 ], job/sec [    39026.0 ] [2s]
bench: jobs worked [      86850 ], inserted [      85000 ], job/sec [    43425.0 ] [2s]
bench: jobs worked [      88051 ], inserted [      85000 ], job/sec [    44025.5 ] [2s]
bench: jobs worked [      80937 ], inserted [      85000 ], job/sec [    40468.5 ] [2s]
bench: jobs worked [      83141 ], inserted [      85000 ], job/sec [    41570.5 ] [2s]
bench: jobs worked [      84042 ], inserted [      85000 ], job/sec [    42021.0 ] [2s]
bench: jobs worked [      66035 ], inserted [      65000 ], job/sec [    33017.5 ] [2s]
bench: jobs worked [      78047 ], inserted [      85000 ], job/sec [    39023.5 ] [2s]
bench: jobs worked [      78047 ], inserted [      75000 ], job/sec [    39023.5 ] [2s]
bench: jobs worked [      75185 ], inserted [      75000 ], job/sec [    37592.5 ] [2s]
bench: jobs worked [      70877 ], inserted [      65000 ], job/sec [    35438.5 ] [2s]
bench: jobs worked [      67218 ], inserted [      70000 ], job/sec [    33609.0 ] [2s]
bench: jobs worked [      63705 ], inserted [      60000 ], job/sec [    31852.5 ] [2s]
bench: jobs worked [      68309 ], inserted [      75000 ], job/sec [    34154.5 ] [2s]
bench: jobs worked [      64049 ], inserted [      65000 ], job/sec [    32024.5 ] [2s]
bench: jobs worked [      66041 ], inserted [      60000 ], job/sec [    33020.5 ] [2s]
bench: jobs worked [      64870 ], inserted [      70000 ], job/sec [    32435.0 ] [2s]
bench: jobs worked [      64040 ], inserted [      65000 ], job/sec [    32020.0 ] [2s]
bench: jobs worked [      53181 ], inserted [      50000 ], job/sec [    26590.5 ] [2s]
bench: jobs worked [      60017 ], inserted [      60000 ], job/sec [    30008.5 ] [2s]
bench: jobs worked [      66046 ], inserted [      65000 ], job/sec [    33023.0 ] [2s]
bench: jobs worked [      74041 ], inserted [      75000 ], job/sec [    37020.5 ] [2s]
bench: jobs worked [      78868 ], inserted [      80000 ], job/sec [    39434.0 ] [2s]
bench: jobs worked [      76036 ], inserted [      75000 ], job/sec [    38018.0 ] [2s]
bench: jobs worked [      69041 ], inserted [      70000 ], job/sec [    34520.5 ] [2s]
bench: jobs worked [      74936 ], inserted [      75000 ], job/sec [    37468.0 ] [2s]
bench: jobs worked [      75956 ], inserted [      70000 ], job/sec [    37978.0 ] [2s]
bench: jobs worked [      71064 ], inserted [      75000 ], job/sec [    35532.0 ] [2s]
bench: jobs worked [      68035 ], inserted [      70000 ], job/sec [    34017.5 ] [2s]
bench: jobs worked [      68043 ], inserted [      65000 ], job/sec [    34021.5 ] [2s]
bench: jobs worked [      66043 ], inserted [      70000 ], job/sec [    33021.5 ] [2s]
bench: jobs worked [      68047 ], inserted [      65000 ], job/sec [    34023.5 ] [2s]
bench: jobs worked [      66014 ], inserted [      70000 ], job/sec [    33007.0 ] [2s]
bench: jobs worked [      64027 ], inserted [      60000 ], job/sec [    32013.5 ] [2s]
bench: jobs worked [      63056 ], inserted [      65000 ], job/sec [    31528.0 ] [2s]
bench: jobs worked [      60040 ], inserted [      65000 ], job/sec [    30020.0 ] [2s]
bench: jobs worked [      56990 ], inserted [      50000 ], job/sec [    28495.0 ] [2s]
bench: jobs worked [      62034 ], inserted [      60000 ], job/sec [    31017.0 ] [2s]
bench: jobs worked [      60027 ], inserted [      65000 ], job/sec [    30013.5 ] [2s]
bench: jobs worked [      61062 ], inserted [      60000 ], job/sec [    30531.0 ] [2s]
bench: jobs worked [      60029 ], inserted [      60000 ], job/sec [    30014.5 ] [2s]
bench: jobs worked [      55007 ], inserted [      60000 ], job/sec [    27503.5 ] [2s]
bench: jobs worked [      54023 ], inserted [      55000 ], job/sec [    27011.5 ] [2s]
bench: jobs worked [      54021 ], inserted [      50000 ], job/sec [    27010.5 ] [2s]
bench: jobs worked [      53110 ], inserted [      55000 ], job/sec [    26555.0 ] [2s]
bench: jobs worked [      54945 ], inserted [      55000 ], job/sec [    27472.5 ] [2s]
bench: jobs worked [      54023 ], inserted [      50000 ], job/sec [    27011.5 ] [2s]
bench: jobs worked [      52015 ], inserted [      55000 ], job/sec [    26007.5 ] [2s]
bench: jobs worked [      53124 ], inserted [      50000 ], job/sec [    26562.0 ] [2s]
bench: jobs worked [      52924 ], inserted [      55000 ], job/sec [    26462.0 ] [2s]
bench: jobs worked [      51122 ], inserted [      55000 ], job/sec [    25561.0 ] [2s]
bench: jobs worked [      44913 ], inserted [      45000 ], job/sec [    22456.5 ] [2s]
bench: jobs worked [      48018 ], inserted [      45000 ], job/sec [    24009.0 ] [2s]
bench: jobs worked [      50024 ], inserted [      50000 ], job/sec [    25012.0 ] [2s]
bench: jobs worked [      51141 ], inserted [      50000 ], job/sec [    25570.5 ] [2s]
bench: jobs worked [      52027 ], inserted [      50000 ], job/sec [    26013.5 ] [2s]
bench: jobs worked [      58926 ], inserted [      65000 ], job/sec [    29463.0 ] [2s]
bench: jobs worked [      64024 ], inserted [      55000 ], job/sec [    32012.0 ] [2s]
bench: total jobs worked [    3900793 ], total jobs inserted [    3975000 ], overall job/sec [    32508.3 ], running 1m59.993613702s

After - No changes

./river bench --duration 2m --database-url postgres:///river_dev
bench: jobs worked [          0 ], inserted [      75000 ], job/sec [        0.0 ] [0s]
bench: jobs worked [      82048 ], inserted [      70000 ], job/sec [    41024.0 ] [2s]
Oct 18 18:49:07.281 WRN BatchCompleter: Hit maximum backlog; completions will wait until below threshold max_backlog=20000
bench: jobs worked [      77515 ], inserted [      85000 ], job/sec [    38757.5 ] [2s]
Oct 18 18:49:10.589 WRN BatchCompleter: Hit maximum backlog; completions will wait until below threshold max_backlog=20000
bench: jobs worked [      78593 ], inserted [      80000 ], job/sec [    39296.5 ] [2s]
bench: jobs worked [      96047 ], inserted [      95000 ], job/sec [    48023.5 ] [2s]
bench: jobs worked [      83876 ], inserted [      75000 ], job/sec [    41938.0 ] [2s]
bench: jobs worked [      86177 ], inserted [     100000 ], job/sec [    43088.5 ] [2s]
bench: jobs worked [      84035 ], inserted [      75000 ], job/sec [    42017.5 ] [2s]
bench: jobs worked [      82085 ], inserted [      85000 ], job/sec [    41042.5 ] [2s]
bench: jobs worked [      78035 ], inserted [      75000 ], job/sec [    39017.5 ] [2s]
bench: jobs worked [      64032 ], inserted [      65000 ], job/sec [    32016.0 ] [2s]
bench: jobs worked [      74034 ], inserted [      80000 ], job/sec [    37017.0 ] [2s]
bench: jobs worked [      75949 ], inserted [      75000 ], job/sec [    37974.5 ] [2s]
bench: jobs worked [      74114 ], inserted [      75000 ], job/sec [    37057.0 ] [2s]
bench: jobs worked [      69968 ], inserted [      70000 ], job/sec [    34984.0 ] [2s]
bench: jobs worked [      62026 ], inserted [      60000 ], job/sec [    31013.0 ] [2s]
bench: jobs worked [      72029 ], inserted [      70000 ], job/sec [    36014.5 ] [2s]
bench: jobs worked [      83152 ], inserted [      80000 ], job/sec [    41576.0 ] [2s]
bench: jobs worked [      83002 ], inserted [      90000 ], job/sec [    41501.0 ] [2s]
bench: jobs worked [      82052 ], inserted [      80000 ], job/sec [    41026.0 ] [2s]
bench: jobs worked [      73968 ], inserted [      75000 ], job/sec [    36984.0 ] [2s]
bench: jobs worked [      72039 ], inserted [      70000 ], job/sec [    36019.5 ] [2s]
bench: jobs worked [      72110 ], inserted [      70000 ], job/sec [    36055.0 ] [2s]
bench: jobs worked [      73442 ], inserted [      70000 ], job/sec [    36721.0 ] [2s]
bench: jobs worked [      70629 ], inserted [      75000 ], job/sec [    35314.5 ] [2s]
bench: jobs worked [      71949 ], inserted [      75000 ], job/sec [    35974.5 ] [2s]
bench: jobs worked [      65317 ], inserted [      65000 ], job/sec [    32658.5 ] [2s]
bench: jobs worked [      64750 ], inserted [      65000 ], job/sec [    32375.0 ] [2s]
bench: jobs worked [      67257 ], inserted [      60000 ], job/sec [    33628.5 ] [2s]
bench: jobs worked [      64881 ], inserted [      75000 ], job/sec [    32440.5 ] [2s]
bench: jobs worked [      68044 ], inserted [      70000 ], job/sec [    34022.0 ] [2s]
bench: jobs worked [      64674 ], inserted [      60000 ], job/sec [    32337.0 ] [2s]
bench: jobs worked [      63391 ], inserted [      60000 ], job/sec [    31695.5 ] [2s]
bench: jobs worked [      58033 ], inserted [      60000 ], job/sec [    29016.5 ] [2s]
bench: jobs worked [      59931 ], inserted [      60000 ], job/sec [    29965.5 ] [2s]
bench: jobs worked [      62129 ], inserted [      65000 ], job/sec [    31064.5 ] [2s]
bench: jobs worked [      60020 ], inserted [      55000 ], job/sec [    30010.0 ] [2s]
bench: jobs worked [      56019 ], inserted [      55000 ], job/sec [    28009.5 ] [2s]
bench: jobs worked [      57251 ], inserted [      65000 ], job/sec [    28625.5 ] [2s]
bench: jobs worked [      56721 ], inserted [      55000 ], job/sec [    28360.5 ] [2s]
bench: jobs worked [      52100 ], inserted [      50000 ], job/sec [    26050.0 ] [2s]
bench: jobs worked [      53951 ], inserted [      50000 ], job/sec [    26975.5 ] [2s]
bench: jobs worked [      52025 ], inserted [      60000 ], job/sec [    26012.5 ] [2s]
bench: jobs worked [      54092 ], inserted [      50000 ], job/sec [    27046.0 ] [2s]
bench: jobs worked [      53956 ], inserted [      60000 ], job/sec [    26978.0 ] [2s]
bench: jobs worked [      50031 ], inserted [      45000 ], job/sec [    25015.5 ] [2s]
bench: jobs worked [      50089 ], inserted [      50000 ], job/sec [    25044.5 ] [2s]
bench: jobs worked [      50025 ], inserted [      50000 ], job/sec [    25012.5 ] [2s]
bench: jobs worked [      49958 ], inserted [      50000 ], job/sec [    24979.0 ] [2s]
bench: jobs worked [      38604 ], inserted [      45000 ], job/sec [    19302.0 ] [2s]
bench: jobs worked [      49507 ], inserted [      40000 ], job/sec [    24753.5 ] [2s]
bench: jobs worked [      49954 ], inserted [      55000 ], job/sec [    24977.0 ] [2s]
bench: jobs worked [      50029 ], inserted [      45000 ], job/sec [    25014.5 ] [2s]
bench: jobs worked [      52085 ], inserted [      60000 ], job/sec [    26042.5 ] [2s]
bench: jobs worked [      58040 ], inserted [      55000 ], job/sec [    29020.0 ] [2s]
bench: jobs worked [      62042 ], inserted [      60000 ], job/sec [    31021.0 ] [2s]
bench: jobs worked [      60032 ], inserted [      55000 ], job/sec [    30016.0 ] [2s]
bench: jobs worked [      71955 ], inserted [      80000 ], job/sec [    35977.5 ] [2s]
bench: jobs worked [      72512 ], inserted [      70000 ], job/sec [    36256.0 ] [2s]
bench: jobs worked [      73622 ], inserted [      70000 ], job/sec [    36811.0 ] [2s]
bench: total jobs worked [    3967961 ], total jobs inserted [    4035000 ], overall job/sec [    33066.9 ], running 1m59.998109044s

Before - Default Fetch Times

bench: jobs worked [          0 ], inserted [      75000 ], job/sec [        0.0 ] [0s]
bench: jobs worked [      16000 ], inserted [      30000 ], job/sec [     8000.0 ] [2s]
bench: jobs worked [      16000 ], inserted [      30000 ], job/sec [     8000.0 ] [2s]
bench: jobs worked [      16000 ], inserted [      35000 ], job/sec [     8000.0 ] [2s]
bench: jobs worked [      18000 ], inserted [      30000 ], job/sec [     9000.0 ] [2s]
bench: jobs worked [      18000 ], inserted [      35000 ], job/sec [     9000.0 ] [2s]
bench: jobs worked [      16000 ], inserted [      30000 ], job/sec [     8000.0 ] [2s]
bench: jobs worked [      16000 ], inserted [      35000 ], job/sec [     8000.0 ] [2s]
bench: jobs worked [      18000 ], inserted [      30000 ], job/sec [     9000.0 ] [2s]
bench: jobs worked [      16000 ], inserted [      35000 ], job/sec [     8000.0 ] [2s]
bench: jobs worked [      18000 ], inserted [      30000 ], job/sec [     9000.0 ] [2s]
bench: jobs worked [      16000 ], inserted [      35000 ], job/sec [     8000.0 ] [2s]
bench: jobs worked [      18000 ], inserted [      30000 ], job/sec [     9000.0 ] [2s]
bench: jobs worked [      16000 ], inserted [      35000 ], job/sec [     8000.0 ] [2s]
bench: jobs worked [      18000 ], inserted [      30000 ], job/sec [     9000.0 ] [2s]
bench: jobs worked [      16000 ], inserted [      30000 ], job/sec [     8000.0 ] [2s]
bench: jobs worked [      18000 ], inserted [      35000 ], job/sec [     9000.0 ] [2s]
bench: jobs worked [      16000 ], inserted [      30000 ], job/sec [     8000.0 ] [2s]
bench: jobs worked [      18000 ], inserted [      35000 ], job/sec [     9000.0 ] [2s]
bench: jobs worked [      16000 ], inserted [      30000 ], job/sec [     8000.0 ] [2s]
bench: jobs worked [      18000 ], inserted [      35000 ], job/sec [     9000.0 ] [2s]
bench: jobs worked [      16000 ], inserted [      30000 ], job/sec [     8000.0 ] [2s]
bench: jobs worked [      18000 ], inserted [      35000 ], job/sec [     9000.0 ] [2s]
bench: jobs worked [      16000 ], inserted [      30000 ], job/sec [     8000.0 ] [2s]
bench: jobs worked [      18000 ], inserted [      35000 ], job/sec [     9000.0 ] [2s]
bench: jobs worked [      16000 ], inserted [      30000 ], job/sec [     8000.0 ] [2s]
bench: jobs worked [      18000 ], inserted [      35000 ], job/sec [     9000.0 ] [2s]
bench: jobs worked [      16000 ], inserted [      35000 ], job/sec [     8000.0 ] [2s]
bench: jobs worked [      18000 ], inserted [      30000 ], job/sec [     9000.0 ] [2s]
bench: jobs worked [      16000 ], inserted [      35000 ], job/sec [     8000.0 ] [2s]
bench: jobs worked [      18000 ], inserted [      30000 ], job/sec [     9000.0 ] [2s]
bench: jobs worked [      16000 ], inserted [      35000 ], job/sec [     8000.0 ] [2s]
bench: jobs worked [      18000 ], inserted [      30000 ], job/sec [     9000.0 ] [2s]
bench: jobs worked [      16000 ], inserted [      30000 ], job/sec [     8000.0 ] [2s]
bench: jobs worked [      18000 ], inserted [      35000 ], job/sec [     9000.0 ] [2s]
bench: jobs worked [      16000 ], inserted [      30000 ], job/sec [     8000.0 ] [2s]
bench: jobs worked [      18000 ], inserted [      35000 ], job/sec [     9000.0 ] [2s]
bench: jobs worked [      16000 ], inserted [      30000 ], job/sec [     8000.0 ] [2s]
bench: jobs worked [      18000 ], inserted [      35000 ], job/sec [     9000.0 ] [2s]
bench: jobs worked [      16000 ], inserted [      30000 ], job/sec [     8000.0 ] [2s]
bench: jobs worked [      18000 ], inserted [      35000 ], job/sec [     9000.0 ] [2s]
bench: jobs worked [      16000 ], inserted [      30000 ], job/sec [     8000.0 ] [2s]
bench: jobs worked [      18000 ], inserted [      35000 ], job/sec [     9000.0 ] [2s]
bench: jobs worked [      16000 ], inserted [      30000 ], job/sec [     8000.0 ] [2s]
bench: jobs worked [      18000 ], inserted [      35000 ], job/sec [     9000.0 ] [2s]
bench: jobs worked [      16000 ], inserted [      30000 ], job/sec [     8000.0 ] [2s]
bench: jobs worked [      16000 ], inserted [      35000 ], job/sec [     8000.0 ] [2s]
bench: jobs worked [      18000 ], inserted [      30000 ], job/sec [     9000.0 ] [2s]
bench: jobs worked [      16000 ], inserted [      35000 ], job/sec [     8000.0 ] [2s]
bench: jobs worked [      18000 ], inserted [      30000 ], job/sec [     9000.0 ] [2s]
bench: jobs worked [      16000 ], inserted [      35000 ], job/sec [     8000.0 ] [2s]
bench: jobs worked [      18000 ], inserted [      30000 ], job/sec [     9000.0 ] [2s]
bench: jobs worked [      16000 ], inserted [      35000 ], job/sec [     8000.0 ] [2s]
bench: jobs worked [      18000 ], inserted [      30000 ], job/sec [     9000.0 ] [2s]
bench: jobs worked [      16000 ], inserted [      35000 ], job/sec [     8000.0 ] [2s]
bench: jobs worked [      18000 ], inserted [      30000 ], job/sec [     9000.0 ] [2s]
bench: jobs worked [      16000 ], inserted [      30000 ], job/sec [     8000.0 ] [2s]
bench: jobs worked [      16000 ], inserted [      35000 ], job/sec [     8000.0 ] [2s]
bench: jobs worked [      18000 ], inserted [      30000 ], job/sec [     9000.0 ] [2s]
bench: jobs worked [      18000 ], inserted [      35000 ], job/sec [     9000.0 ] [2s]
bench: total jobs worked [    1016000 ], total jobs inserted [    2015000 ], overall job/sec [     8478.1 ], running 1m59.838545975s

After - Default Fetch Times

bench: jobs worked [          0 ], inserted [      75000 ], job/sec [        0.0 ] [0s]
bench: jobs worked [      40000 ], inserted [      35000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      38000 ], inserted [      40000 ], job/sec [    19000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      38000 ], inserted [      35000 ], job/sec [    19000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      45000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      38000 ], inserted [      40000 ], job/sec [    19000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      35000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      34003 ], inserted [      40000 ], job/sec [    17001.5 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      35000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      38309 ], inserted [      40000 ], job/sec [    19154.5 ] [2s]
bench: jobs worked [      41691 ], inserted [      40000 ], job/sec [    20845.5 ] [2s]
bench: jobs worked [      38000 ], inserted [      40000 ], job/sec [    19000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      38000 ], inserted [      35000 ], job/sec [    19000.0 ] [2s]
bench: jobs worked [      38000 ], inserted [      40000 ], job/sec [    19000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      38808 ], inserted [      45000 ], job/sec [    19404.0 ] [2s]
bench: jobs worked [      41027 ], inserted [      40000 ], job/sec [    20513.5 ] [2s]
bench: jobs worked [      40000 ], inserted [      35000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      38000 ], inserted [      35000 ], job/sec [    19000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      38000 ], inserted [      40000 ], job/sec [    19000.0 ] [2s]
bench: jobs worked [      42000 ], inserted [      40000 ], job/sec [    21000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      45000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      38000 ], inserted [      40000 ], job/sec [    19000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      35000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      45000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      39994 ], inserted [      40000 ], job/sec [    19997.0 ] [2s]
bench: jobs worked [      40006 ], inserted [      40000 ], job/sec [    20003.0 ] [2s]
bench: jobs worked [      38000 ], inserted [      35000 ], job/sec [    19000.0 ] [2s]
bench: jobs worked [      42000 ], inserted [      45000 ], job/sec [    21000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      38000 ], inserted [      35000 ], job/sec [    19000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: total jobs worked [    2376003 ], total jobs inserted [    2450000 ], overall job/sec [    19800.8 ], running 1m59.995035124s

Before - Defaults Fetch Times + Poll

bench: jobs worked [          0 ], inserted [      75000 ], job/sec [        0.0 ] [0s]
bench: jobs worked [       4000 ], inserted [      30000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      30000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      35000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      30000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      35000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      30000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      30000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      35000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      30000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      35000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      30000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      35000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      30000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      35000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      30000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      30000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      35000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      30000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      35000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      30000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      35000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      30000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      35000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      30000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      30000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      35000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      30000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      35000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      30000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      35000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      30000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      35000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      30000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      35000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      30000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      35000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      30000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      35000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      30000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      35000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      30000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      35000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      30000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      35000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      30000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      35000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      30000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      35000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      30000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      35000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      30000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      35000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      30000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      35000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      30000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      35000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      30000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      30000 ], job/sec [     2000.0 ] [2s]
bench: jobs worked [       4000 ], inserted [      35000 ], job/sec [     2000.0 ] [2s]
bench: total jobs worked [     240000 ], total jobs inserted [    2010000 ], overall job/sec [     2014.4 ], running 1m59.145118521s

After - Default Fetch Times + Poll

bench: jobs worked [          0 ], inserted [      75000 ], job/sec [        0.0 ] [0s]
bench: jobs worked [      40000 ], inserted [      35000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      38000 ], inserted [      45000 ], job/sec [    19000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      35000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      45000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      35000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      38000 ], inserted [      40000 ], job/sec [    19000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      35000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      36000 ], inserted [      40000 ], job/sec [    18000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      38000 ], inserted [      40000 ], job/sec [    19000.0 ] [2s]
bench: jobs worked [      42000 ], inserted [      40000 ], job/sec [    21000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      38000 ], inserted [      40000 ], job/sec [    19000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      38000 ], inserted [      40000 ], job/sec [    19000.0 ] [2s]
bench: jobs worked [      40892 ], inserted [      35000 ], job/sec [    20446.0 ] [2s]
bench: jobs worked [      38940 ], inserted [      40000 ], job/sec [    19470.0 ] [2s]
bench: jobs worked [      40001 ], inserted [      40000 ], job/sec [    20000.5 ] [2s]
bench: jobs worked [      38000 ], inserted [      40000 ], job/sec [    19000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      38000 ], inserted [      40000 ], job/sec [    19000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      39702 ], inserted [      40000 ], job/sec [    19851.0 ] [2s]
bench: jobs worked [      38298 ], inserted [      35000 ], job/sec [    19149.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      38000 ], inserted [      40000 ], job/sec [    19000.0 ] [2s]
bench: jobs worked [      42000 ], inserted [      40000 ], job/sec [    21000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      40000 ], inserted [      40000 ], job/sec [    20000.0 ] [2s]
bench: jobs worked [      39696 ], inserted [      40000 ], job/sec [    19848.0 ] [2s]
bench: jobs worked [      38304 ], inserted [      40000 ], job/sec [    19152.0 ] [2s]
bench: total jobs worked [    2380001 ], total jobs inserted [    2455000 ], overall job/sec [    19841.1 ], running 1m59.95290959s

bgentry Oct 25, 2024
Maintainer

@gaffneyc this is super helpful, thank you! Do you want to prepare a PR with this change? I can help with getting it across the finish line as necessary including with additional test coverage.

gaffneyc Oct 29, 2024
Author

Yeah, I’ll get a PR up when I get a chance. We’ve been running it in production for a couple days now and things have been looking good.

bgentry Nov 3, 2024
Maintainer

Fixed in #664 🚀

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Slow processing of large batches of jobs #652

{{title}}

Replies: 1 comment 5 replies

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

Select a reply

Slow processing of large batches of jobs #652

gaffneyc Oct 18, 2024

Replies: 1 comment · 5 replies

gaffneyc Oct 18, 2024 Author

bgentry Oct 18, 2024 Maintainer

gaffneyc Oct 19, 2024 Author

Test 1: No Changes

Test 2: Defaults

Test 3: Defaults + Polling Only

bgentry Oct 25, 2024 Maintainer

gaffneyc Oct 29, 2024 Author

bgentry Nov 3, 2024 Maintainer

gaffneyc
Oct 18, 2024

Replies: 1 comment 5 replies

gaffneyc
Oct 18, 2024
Author

bgentry Oct 18, 2024
Maintainer

gaffneyc Oct 19, 2024
Author

bgentry Oct 25, 2024
Maintainer

gaffneyc Oct 29, 2024
Author

bgentry Nov 3, 2024
Maintainer