test: Limiting multi-gpu tests to use Ray as distributed_executor_bac…

…kend (#47)
triton-inference-server · Jul 25, 2024 · 05c5a8b · 05c5a8b
1 parent db3d794
commit 05c5a8b
Show file tree

Hide file tree

Showing 2 changed files with 11 additions and 3 deletions.
diff --git a/ci/L0_multi_gpu/multi_lora/test.sh b/ci/L0_multi_gpu/multi_lora/test.sh
@@ -62,7 +62,8 @@ model_json=$(cat <<EOF
     "enforce_eager": "true",
     "enable_lora": "true",
     "max_lora_rank": 32,
-    "lora_extra_vocab_size": 256
+    "lora_extra_vocab_size": 256,
+    "distributed_executor_backend":"ray"
 }
 EOF
 )
@@ -120,7 +121,8 @@ model_json=$(cat <<EOF
     "block_size": 16,
     "enforce_eager": "true",
     "enable_lora": "false",
-    "lora_extra_vocab_size": 256
+    "lora_extra_vocab_size": 256,
+    "distributed_executor_backend":"ray"
 }
 EOF
 )

diff --git a/ci/L0_multi_gpu/vllm_backend/test.sh b/ci/L0_multi_gpu/vllm_backend/test.sh
@@ -63,6 +63,7 @@ function run_multi_gpu_test() {
     export KIND="${1}"
     export TENSOR_PARALLELISM="${2}"
     export INSTANCE_COUNT="${3}"
+    export DISTRIBUTED_EXECUTOR_BACKEND="${4}"
 
     # Setup a clean model repository
     export TEST_MODEL="vllm_opt_${KIND}_tp${TENSOR_PARALLELISM}_count${INSTANCE_COUNT}"
@@ -73,6 +74,10 @@ function run_multi_gpu_test() {
     cp -r "${SAMPLE_MODELS_REPO}/vllm_model" "models/${TEST_MODEL}"
     sed -i "s/KIND_MODEL/${KIND}/" "${TEST_MODEL_TRITON_CONFIG}"
     sed -i "3s/^/    \"tensor_parallel_size\": ${TENSOR_PARALLELISM},\n/" "${TEST_MODEL_VLLM_CONFIG}"
+    if [ $TENSOR_PARALLELISM -ne "1" ]; then
+        jq --arg backend $DISTRIBUTED_EXECUTOR_BACKEND '. += {"distributed_executor_backend":$backend}' "${TEST_MODEL_VLLM_CONFIG}" > "temp.json"
+        mv temp.json "${TEST_MODEL_VLLM_CONFIG}"
+    fi
     # Assert the correct kind is set in case the template config changes in the future
     validate_file_contains "${KIND}" "${TEST_MODEL_TRITON_CONFIG}"
 
@@ -119,10 +124,11 @@ RET=0
 KINDS="KIND_MODEL KIND_GPU"
 TPS="1 2"
 INSTANCE_COUNTS="1 2"
+DISTRIBUTED_EXECUTOR_BACKEND="ray"
 for kind in ${KINDS}; do
   for tp in ${TPS}; do
     for count in ${INSTANCE_COUNTS}; do
-        run_multi_gpu_test "${kind}" "${tp}" "${count}"
+        run_multi_gpu_test "${kind}" "${tp}" "${count}" "${DISTRIBUTED_EXECUTOR_BACKEND}"
     done
   done
 done