VOICEVOX · Hiroshiba · Aug 17, 2023 · Jul 24, 2023 · Jul 29, 2023 · Jul 29, 2023
diff --git a/crates/voicevox_core/src/engine/synthesis_engine.rs b/crates/voicevox_core/src/engine/synthesis_engine.rs
@@ -30,10 +30,6 @@ impl SynthesisEngine {
         &self.inference_core
     }
 
-    pub fn inference_core_mut(&mut self) -> &mut InferenceCore {
-        &mut self.inference_core
-    }
-
     pub async fn create_accent_phrases(
         &self,
         text: &str,

diff --git a/crates/voicevox_core/src/inference_core.rs b/crates/voicevox_core/src/inference_core.rs
@@ -1,9 +1,6 @@
 use self::status::*;
 use super::*;
-use onnxruntime::{
-    ndarray,
-    session::{AnyArray, NdArray},
-};
+use onnxruntime::{ndarray, session::NdArray};
 
 const PHONEME_LENGTH_MINIMAL: f32 = 0.01;
 
@@ -18,7 +15,7 @@ impl InferenceCore {
         load_all_models: bool,
     ) -> Result<Self> {
         if !use_gpu || Self::can_support_gpu_feature()? {
-            let mut status = Status::new(use_gpu, cpu_num_threads);
+            let status = Status::new(use_gpu, cpu_num_threads);
 
             if load_all_models {
                 for model in &VoiceModel::get_all_models().await? {
@@ -43,14 +40,14 @@ impl InferenceCore {
         }
     }
 
-    pub async fn load_model(&mut self, model: &VoiceModel) -> Result<()> {
+    pub async fn load_model(&self, model: &VoiceModel) -> Result<()> {
         self.status.load_model(model).await
     }
 
-    pub fn unload_model(&mut self, voice_model_id: &VoiceModelId) -> Result<()> {
+    pub fn unload_model(&self, voice_model_id: &VoiceModelId) -> Result<()> {
         self.status.unload_model(voice_model_id)
     }
-    pub fn metas(&self) -> &VoiceModelMeta {
+    pub fn metas(&self) -> VoiceModelMeta {
         self.status.metas()
     }
 
@@ -71,21 +68,15 @@ impl InferenceCore {
             return Err(Error::InvalidStyleId { style_id });
         }
 
-        let (model_id, model_inner_id) = self
-            .status
-            .id_relations
-            .get(&style_id)
-            .ok_or(Error::InvalidStyleId { style_id })?;
-
-        let mut phoneme_vector_array = NdArray::new(ndarray::arr1(phoneme_vector));
-        let mut speaker_id_array = NdArray::new(ndarray::arr1(&[model_inner_id.raw_id() as i64]));
+        let (model_id, model_inner_id) = self.status.ids_for(style_id)?;
 
-        let input_tensors: Vec<&mut dyn AnyArray> =
-            vec![&mut phoneme_vector_array, &mut speaker_id_array];
+        let phoneme_vector_array = NdArray::new(ndarray::arr1(phoneme_vector));
+        let speaker_id_array = NdArray::new(ndarray::arr1(&[model_inner_id.raw_id().into()]));
 
         let mut output = self
             .status
-            .predict_duration_session_run(model_id, input_tensors)?;
+            .predict_duration_session_run(&model_id, phoneme_vector_array, speaker_id_array)
+            .await?;
 
         for output_item in output.iter_mut() {
             if *output_item < PHONEME_LENGTH_MINIMAL {
@@ -112,37 +103,31 @@ impl InferenceCore {
             return Err(Error::InvalidStyleId { style_id });
         }
 
-        let (model_id, model_inner_id) = self
-            .status
-            .id_relations
-            .get(&style_id)
-            .ok_or(Error::InvalidStyleId { style_id })?;
-
-        let mut length_array = NdArray::new(ndarray::arr0(length as i64));
-        let mut vowel_phoneme_vector_array = NdArray::new(ndarray::arr1(vowel_phoneme_vector));
-        let mut consonant_phoneme_vector_array =
-            NdArray::new(ndarray::arr1(consonant_phoneme_vector));
-        let mut start_accent_vector_array = NdArray::new(ndarray::arr1(start_accent_vector));
-        let mut end_accent_vector_array = NdArray::new(ndarray::arr1(end_accent_vector));
-        let mut start_accent_phrase_vector_array =
+        let (model_id, model_inner_id) = self.status.ids_for(style_id)?;
+
+        let length_array = NdArray::new(ndarray::arr0(length as i64));
+        let vowel_phoneme_vector_array = NdArray::new(ndarray::arr1(vowel_phoneme_vector));
+        let consonant_phoneme_vector_array = NdArray::new(ndarray::arr1(consonant_phoneme_vector));
+        let start_accent_vector_array = NdArray::new(ndarray::arr1(start_accent_vector));
+        let end_accent_vector_array = NdArray::new(ndarray::arr1(end_accent_vector));
+        let start_accent_phrase_vector_array =
             NdArray::new(ndarray::arr1(start_accent_phrase_vector));
-        let mut end_accent_phrase_vector_array =
-            NdArray::new(ndarray::arr1(end_accent_phrase_vector));
-        let mut speaker_id_array = NdArray::new(ndarray::arr1(&[model_inner_id.raw_id() as i64]));
-
-        let input_tensors: Vec<&mut dyn AnyArray> = vec![
-            &mut length_array,
-            &mut vowel_phoneme_vector_array,
-            &mut consonant_phoneme_vector_array,
-            &mut start_accent_vector_array,
-            &mut end_accent_vector_array,
-            &mut start_accent_phrase_vector_array,
-            &mut end_accent_phrase_vector_array,
-            &mut speaker_id_array,
-        ];
+        let end_accent_phrase_vector_array = NdArray::new(ndarray::arr1(end_accent_phrase_vector));
+        let speaker_id_array = NdArray::new(ndarray::arr1(&[model_inner_id.raw_id().into()]));
 
         self.status
-            .predict_intonation_session_run(model_id, input_tensors)
+            .predict_intonation_session_run(
+                &model_id,
+                length_array,
+                vowel_phoneme_vector_array,
+                consonant_phoneme_vector_array,
+                start_accent_vector_array,
+                end_accent_vector_array,
+                start_accent_phrase_vector_array,
+                end_accent_phrase_vector_array,
+                speaker_id_array,
+            )
+            .await
     }
 
     pub async fn decode(
@@ -157,11 +142,7 @@ impl InferenceCore {
             return Err(Error::InvalidStyleId { style_id });
         }
 
-        let (model_id, model_inner_id) = self
-            .status
-            .id_relations
-            .get(&style_id)
-            .ok_or(Error::InvalidStyleId { style_id })?;
+        let (model_id, model_inner_id) = self.status.ids_for(style_id)?;
 
         // 音が途切れてしまうのを避けるworkaround処理が入っている
         // TODO: 改善したらここのpadding処理を取り除く
@@ -179,23 +160,21 @@ impl InferenceCore {
             padding_size,
         );
 
-        let mut f0_array = NdArray::new(
+        let f0_array = NdArray::new(
             ndarray::arr1(&f0_with_padding)
                 .into_shape([length_with_padding, 1])
                 .unwrap(),
         );
-        let mut phoneme_array = NdArray::new(
+        let phoneme_array = NdArray::new(
             ndarray::arr1(&phoneme_with_padding)
                 .into_shape([length_with_padding, phoneme_size])
                 .unwrap(),
         );
-        let mut speaker_id_array = NdArray::new(ndarray::arr1(&[model_inner_id.raw_id() as i64]));
-
-        let input_tensors: Vec<&mut dyn AnyArray> =
-            vec![&mut f0_array, &mut phoneme_array, &mut speaker_id_array];
+        let speaker_id_array = NdArray::new(ndarray::arr1(&[model_inner_id.raw_id().into()]));
 
         self.status
-            .decode_session_run(model_id, input_tensors)
+            .decode_session_run(&model_id, f0_array, phoneme_array, speaker_id_array)
+            .await
             .map(|output| Self::trim_padding_from_output(output, padding_size))
     }