examples/svd/configs/svd.yaml

model:
  target: models.diffusion.VideoDiffusionEngine
  params:
    scale_factor: 0.18215
    disable_first_stage_amp: True

    denoiser_config:
      target: gm.modules.diffusionmodules.denoiser.Denoiser
      params:
        weighting_config:
          target: gm.modules.diffusionmodules.denoiser_weighting.EDMWeighting
          params:
            sigma_data: 1.0
        scaling_config:
          target: gm.modules.diffusionmodules.denoiser_scaling.VScalingWithEDMcNoise

    network_config:
      target: modules.unet3d.VideoUNet
      params:
        adm_in_channels: 768
        num_classes: sequential
        in_channels: 8
        out_channels: 4
        model_channels: 320
        attention_resolutions: [ 4, 2, 1 ]
        num_res_blocks: 2
        channel_mult: [ 1, 2, 4, 4 ]
        num_head_channels: 64
        use_linear_in_transformer: True
        transformer_depth: 1
        context_dim: 1024
        spatial_transformer_attn_type: flash-attention
        extra_ff_mix_layer: True
        use_spatial_context: True
        merge_strategy: learned
        video_kernel_size: [ 3, 1, 1 ]

    conditioner_config:
      target: gm.modules.GeneralConditioner
      params:
        emb_models:
          - is_trainable: False
            input_key: cond_frames_without_noise
            target: modules.encoders.modules.FrozenOpenCLIPImagePredictionEmbedder
            params:
              n_cond_frames: 1
              n_copies: 1
              open_clip_embedding_config:
                target: gm.modules.embedders.modules.FrozenOpenCLIPImageEmbedder
                params:
                  freeze: True

          - input_key: fps_id
            is_trainable: False
            target: gm.modules.embedders.modules.ConcatTimestepEmbedderND
            params:
              outdim: 256

          - input_key: motion_bucket_id
            is_trainable: False
            target: gm.modules.embedders.modules.ConcatTimestepEmbedderND
            params:
              outdim: 256

          - input_key: cond_frames
            is_trainable: False
            target: modules.encoders.modules.VideoPredictionEmbedderWithEncoder
            params:
              disable_encoder_amp: True
              n_cond_frames: 1
              n_copies: 1
              is_ae: True
              encoder_config:
                target: gm.models.autoencoder.AutoencoderKLModeOnly
                params:
                  embed_dim: 4
                  monitor: val/rec_loss
                  ddconfig:
                    attn_type: vanilla
                    double_z: True
                    z_channels: 4
                    resolution: 256
                    in_channels: 3
                    out_ch: 3
                    ch: 128
                    ch_mult: [ 1, 2, 4, 4 ]
                    num_res_blocks: 2
                    attn_resolutions: [ ]
                    dropout: 0.0

          - input_key: cond_aug
            is_trainable: False
            target: gm.modules.embedders.modules.ConcatTimestepEmbedderND
            params:
              outdim: 256

    first_stage_config:
      target: gm.models.autoencoder.AutoencodingEngine
      params:
        loss_config:
          target: mindspore.nn.Identity
        regularizer_config:
          target: gm.modules.autoencoding.regularizers.DiagonalGaussianRegularizer
        encoder_config:
          target: gm.modules.diffusionmodules.model.Encoder
          params:
            attn_type: vanilla
            double_z: True
            z_channels: 4
            resolution: 256
            in_channels: 3
            out_ch: 3
            ch: 128
            ch_mult: [ 1, 2, 4, 4 ]
            num_res_blocks: 2
            attn_resolutions: [ ]
            dropout: 0.0
        decoder_config:
          target: modules.temporal_ae.VideoDecoder
          params:
            attn_type: vanilla
            double_z: True
            z_channels: 4
            resolution: 256
            in_channels: 3
            out_ch: 3
            ch: 128
            ch_mult: [ 1, 2, 4, 4 ]
            num_res_blocks: 2
            attn_resolutions: [ ]
            dropout: 0.0
            video_kernel_size: [ 3, 1, 1 ]

    sigma_sampler_config:
      target: gm.modules.diffusionmodules.sigma_sampling.EDMSampling
      params:
        p_mean: 1.0
        p_std: 1.6

    loss_fn_config:
      target: gm.modules.diffusionmodules.loss.StandardDiffusionLoss

    sampler_config:
      target: modules.diffusionmodules.sampler.EulerEDMSampler
      params:
        num_steps: 25

        discretization_config:
          target: gm.modules.diffusionmodules.discretizer.EDMDiscretization
          params:
            sigma_max: 700.0

        guider_config:
          target: modules.diffusionmodules.guiders.LinearPredictionGuider
          params:
            max_scale: 2.5
            min_scale: 1.0