diff --git a/.github/workflows/labeler.yml b/.github/workflows/labeler.yml
index 4a4e286071ff5..ce8fb3160954e 100644
--- a/.github/workflows/labeler.yml
+++ b/.github/workflows/labeler.yml
@@ -7,7 +7,7 @@ jobs:
   triage:
     runs-on: ubuntu-latest
     steps:
-    - uses: github/issue-labeler@v3.2
+    - uses: github/issue-labeler@v3.3
       with:
         repo-token: "${{ secrets.GITHUB_TOKEN }}"
         configuration-path: .github/labeler.yml
diff --git a/.github/workflows/publish-java-apidocs.yml b/.github/workflows/publish-java-apidocs.yml
index 9ea9bda7e7c53..fff50d6481a05 100644
--- a/.github/workflows/publish-java-apidocs.yml
+++ b/.github/workflows/publish-java-apidocs.yml
@@ -25,7 +25,7 @@ jobs:
     steps:
       - uses: actions/checkout@v4
       - name: Set up JDK 11
-        uses: actions/setup-java@v3
+        uses: actions/setup-java@v4
         with:
           java-version: '11'
           distribution: 'adopt'
diff --git a/.github/workflows/publish-js-apidocs.yml b/.github/workflows/publish-js-apidocs.yml
index ba8bfd718abfa..d85978568e6c4 100644
--- a/.github/workflows/publish-js-apidocs.yml
+++ b/.github/workflows/publish-js-apidocs.yml
@@ -25,7 +25,7 @@ jobs:
     steps:
       - uses: actions/checkout@v4
       - name: Setup Node.js
-        uses: actions/setup-node@v3
+        uses: actions/setup-node@v4
         with:
           node-version: 18
       - name: Generate JS docs 
diff --git a/.github/workflows/windows.yml b/.github/workflows/windows.yml
index 3a780f87d2300..c03abe0be9783 100644
--- a/.github/workflows/windows.yml
+++ b/.github/workflows/windows.yml
@@ -26,7 +26,7 @@ jobs:
           python-version: '3.11.x'
           architecture: 'x64'
 
-      - uses: actions/setup-node@v3
+      - uses: actions/setup-node@v4
         with:
           node-version: 18
 
diff --git a/cmake/CMakeLists.txt b/cmake/CMakeLists.txt
index 7494035e4784e..23ded3bfc1e68 100644
--- a/cmake/CMakeLists.txt
+++ b/cmake/CMakeLists.txt
@@ -87,6 +87,7 @@ option(onnxruntime_USE_QNN "Build with QNN support" OFF)
 option(onnxruntime_USE_SNPE "Build with SNPE support" OFF)
 option(onnxruntime_USE_RKNPU "Build with RKNPU support" OFF)
 option(onnxruntime_USE_DNNL "Build with DNNL support" OFF)
+option(onnxruntime_USE_JBLAS "Build MLAS with JBLAS support" ON)
 option(onnxruntime_USE_JSEP "Build with JavaScript implemented kernels support" OFF)
 option(onnxruntime_BUILD_UNIT_TESTS "Build ONNXRuntime unit tests" ON)
 option(onnxruntime_BUILD_CSHARP "Build C# library" OFF)
@@ -1166,6 +1167,17 @@ if (onnxruntime_USE_DNNL)
   add_compile_definitions(DNNL_OPENMP)
 endif()
 
+set(USE_JBLAS FALSE)
+if (onnxruntime_USE_JBLAS AND NOT onnxruntime_MINIMAL_BUILD)
+  if ("${CMAKE_CXX_COMPILER_ID}" STREQUAL "GNU" AND onnxruntime_target_platform STREQUAL "x86_64")
+    add_compile_definitions(MLAS_JBLAS)
+    set(USE_JBLAS TRUE)
+  elseif ("${CMAKE_CXX_COMPILER_ID}" STREQUAL "MSVC" AND onnxruntime_target_platform STREQUAL "x64")
+    add_compile_definitions(MLAS_JBLAS)
+    set(USE_JBLAS TRUE)
+  endif()
+endif()
+
 # TVM EP
 if (onnxruntime_USE_TVM)
   if (NOT TARGET tvm)
diff --git a/cmake/onnxruntime_mlas.cmake b/cmake/onnxruntime_mlas.cmake
index 26e4380af4c23..bee83ff07c74b 100644
--- a/cmake/onnxruntime_mlas.cmake
+++ b/cmake/onnxruntime_mlas.cmake
@@ -45,6 +45,15 @@ endif()
 
 set(ONNXRUNTIME_MLAS_LIBS onnxruntime_mlas)
 
+function(add_jblas)
+    add_subdirectory(${MLAS_SRC_DIR}/x86_64/jblas jblas) 
+    target_link_libraries(onnxruntime_mlas PRIVATE jblas::jblas)
+    target_sources(onnxruntime_mlas PRIVATE
+        ${MLAS_SRC_DIR}/jblas_gemm.cpp
+     )
+    set_target_properties(${target_name} PROPERTIES COMPILE_WARNING_AS_ERROR OFF)
+endfunction()
+
 #TODO: set MASM flags properly
 function(setup_mlas_source_for_windows)
 
@@ -200,7 +209,6 @@ function(setup_mlas_source_for_windows)
         ${MLAS_SRC_DIR}/q4gemm_avx512.cpp
       )
     endif()
-
   else()
     target_sources(onnxruntime_mlas PRIVATE
       ${MLAS_SRC_DIR}/qgemm_kernel_sse.cpp
@@ -566,7 +574,7 @@ else()
             )
           set_source_files_properties(${MLAS_SRC_DIR}/qgemm_kernel_amx.cpp PROPERTIES COMPILE_FLAGS "-mavx2 -mavx512bw -mavx512dq -mavx512vl -mavx512f")
           set_source_files_properties(${MLAS_SRC_DIR}/x86_64/QgemmU8S8KernelAmx.S PROPERTIES COMPILE_FLAGS "-mavx2 -mavx512bw -mavx512dq -mavx512vl -mavx512f")
-	    endif()
+        endif()
 
         if(ONNXRUNTIME_MLAS_MULTI_ARCH)
           onnxruntime_add_static_library(onnxruntime_mlas_x86_64 ${mlas_platform_srcs})
@@ -604,6 +612,10 @@ else()
     target_sources(onnxruntime_mlas PRIVATE ${mlas_platform_srcs})
 endif()
 
+if(USE_JBLAS)
+  add_jblas()
+endif()
+
 foreach(mlas_target ${ONNXRUNTIME_MLAS_LIBS})
     target_include_directories(${mlas_target} PRIVATE ${ONNXRUNTIME_ROOT}/core/mlas/inc ${MLAS_SRC_DIR})
     onnxruntime_add_include_to_target(${mlas_target} ${GSL_TARGET})
diff --git a/docs/ContribOperators.md b/docs/ContribOperators.md
index e5b43ddba8cc7..131db5d8d9b37 100644
--- a/docs/ContribOperators.md
+++ b/docs/ContribOperators.md
@@ -2824,6 +2824,8 @@ This version of the operator has been available since version 1 of the 'com.micr
 <dd>size of each input feature</dd>
 <dt><tt>N</tt> : int (required)</dt>
 <dd>size of each output feature</dd>
+<dt><tt>accuracy_level</tt> : int</dt>
+<dd>The minimum accuracy level of input A, can be: 0(unset), 1(fp32), 2(fp16), 3(bf16), or 4(int8) (default unset). It is used to control how input A is quantized or downcast internally while doing computation, for example: 0 means input A will not be quantized or downcast while doing computation. 4 means input A can be quantized with the same block_size to int8 internally from type T1.</dd>
 <dt><tt>bits</tt> : int (required)</dt>
 <dd>number of bits used for weight quantization (default 4)</dd>
 <dt><tt>block_size</tt> : int (required)</dt>
diff --git a/docs/OperatorKernels.md b/docs/OperatorKernels.md
index edf249a816923..1ce9b3254d91f 100644
--- a/docs/OperatorKernels.md
+++ b/docs/OperatorKernels.md
@@ -80,7 +80,8 @@ Do not modify directly.*
 |Crop|*in* input:**T**<br> *out* output:**T**|1+|**T** = tensor(float)|
 |CumSum|*in* x:**T**<br> *in* axis:**T2**<br> *out* y:**T**|14+|**T** = tensor(double), tensor(float), tensor(int32), tensor(int64)<br/> **T2** = tensor(int32), tensor(int64)|
 |||[11, 13]|**T** = tensor(double), tensor(float), tensor(int32), tensor(int64)<br/> **T2** = tensor(int32), tensor(int64)|
-|DFT|*in* input:**T1**<br> *in* dft_length:**T2**<br> *in* axis:**tensor(int64)**<br> *out* output:**T1**<br><br>or<br><br>*in* input:**T1**<br> *in* dft_length:**T2**<br> *out* output:**T1**|17+|**T1** = tensor(double), tensor(float)<br/> **T2** = tensor(int32), tensor(int64)|
+|DFT|*in* input:**T1**<br> *in* dft_length:**T2**<br> *in* axis:**tensor(int64)**<br> *out* output:**T1**<br><br>or<br><br>*in* input:**T1**<br> *in* dft_length:**T2**<br> *out* output:**T1**|20+|**T1** = tensor(double), tensor(float)<br/> **T2** = tensor(int32), tensor(int64)|
+|||[17, 19]|**T1** = tensor(double), tensor(float)<br/> **T2** = tensor(int32), tensor(int64)|
 |DepthToSpace|*in* input:**T**<br> *out* output:**T**|13+|**T** = tensor(double), tensor(float)|
 |||[11, 12]|**T** = tensor(double), tensor(float)|
 |||[1, 10]|**T** = tensor(double), tensor(float)|
diff --git a/include/onnxruntime/core/session/onnxruntime_c_api.h b/include/onnxruntime/core/session/onnxruntime_c_api.h
index c41700453a73b..dbd5ad41255fa 100644
--- a/include/onnxruntime/core/session/onnxruntime_c_api.h
+++ b/include/onnxruntime/core/session/onnxruntime_c_api.h
@@ -3593,17 +3593,11 @@ struct OrtApi {
    *
    * QNN supported keys:
    *   "backend_path": file path to QNN backend library.
-   *   "qnn_context_cache_enable": 1 to enable QNN graph creation from cached QNN context file. If it's enabled: QNN EP will
-   *    load from cached QNN context binary if it exist. It will generate a context binary file if it's not exist
-   *   "qnn_context_cache_path": explicitly provide the QNN context cache file. Default to model_file.onnx.bin if not provided.
    *   "profiling_level": QNN profiling level, options: "off", "basic", "detailed". Default to off.
    *   "rpc_control_latency": QNN RPC control latency.
    *   "vtcm_mb": QNN VTCM size in MB. default to 0(not set).
    *   "htp_performance_mode": QNN performance mode, options: "burst", "balanced", "default", "high_performance",
    *   "high_power_saver", "low_balanced", "low_power_saver", "power_saver", "sustained_high_performance". Default to "default".
-   *   "qnn_context_embed_mode", 1 means dump the QNN context binary into node attribute EPContext->ep_cache_context in the ONNX skeleton model.
-   *   0 means dump the QNN context binary into separate bin file and set the path to EPContext->ep_cache_context.
-   *   The path is relative path to the ONNX skeleton model file.
    *   "qnn_saver_path": File path to the QNN Saver backend library. If specified, QNN Saver will be enabled and will
    *   dump QNN API calls to disk for replay/debugging. QNN Saver produces incorrect model inference results and
    *   may alter model/EP partitioning. Use only for debugging.
diff --git a/include/onnxruntime/core/session/onnxruntime_session_options_config_keys.h b/include/onnxruntime/core/session/onnxruntime_session_options_config_keys.h
index a94973b2cc5d7..df79cb6e5b21b 100644
--- a/include/onnxruntime/core/session/onnxruntime_session_options_config_keys.h
+++ b/include/onnxruntime/core/session/onnxruntime_session_options_config_keys.h
@@ -235,3 +235,18 @@ static const char* const kOrtSessionOptionsOptimizedModelExternalInitializersFil
 // Use this config to control the minimum size of the initializer when externalizing it during serialization
 static const char* const kOrtSessionOptionsOptimizedModelExternalInitializersMinSizeInBytes =
     "session.optimized_model_external_initializers_min_size_in_bytes";
+
+// Enable EP context feature to dump the partitioned graph which include the EP context into Onnx file.
+// The dumped Onnx model with EP context can be used for future inference to avoid the EP graph partitioning/compile overhead.
+// "0": disable. (default)
+// "1": enable.
+static const char* const kOrtSessionOptionEpContextEnable = "ep.context_enable";
+
+// Specify the file path for the Onnx model which has EP context.
+// Default to original_file_name_ctx.onnx if not specified
+static const char* const kOrtSessionOptionEpContextFilePath = "ep.context_file_path";
+
+// Flag to specify whether to dump the EP context into the Onnx model.
+// "0": dump the EP context into separate file, keep the file name in the Onnx model.
+// "1": dump the EP context into the Onnx model. (default).
+static const char* const kOrtSessionOptionEpContextEmbedMode = "ep.context_embed_mode";
\ No newline at end of file
diff --git a/js/common/lib/backend-impl.ts b/js/common/lib/backend-impl.ts
index e129c6971a85c..3e1e833addb91 100644
--- a/js/common/lib/backend-impl.ts
+++ b/js/common/lib/backend-impl.ts
@@ -82,7 +82,7 @@ export const resolveBackend = async(backendHints: readonly string[]): Promise<Ba
       const isInitializing = !!backendInfo.initPromise;
       try {
         if (!isInitializing) {
-          backendInfo.initPromise = backendInfo.backend.init();
+          backendInfo.initPromise = backendInfo.backend.init(backendName);
         }
         await backendInfo.initPromise;
         backendInfo.initialized = true;
diff --git a/js/common/lib/backend.ts b/js/common/lib/backend.ts
index 5460ae086fc2f..9bfcb12206057 100644
--- a/js/common/lib/backend.ts
+++ b/js/common/lib/backend.ts
@@ -71,7 +71,7 @@ export interface Backend {
   /**
    * Initialize the backend asynchronously. Should throw when failed.
    */
-  init(): Promise<void>;
+  init(backendName: string): Promise<void>;
 
   createInferenceSessionHandler(uriOrBuffer: string|Uint8Array, options?: InferenceSession.SessionOptions):
       Promise<InferenceSessionHandler>;
diff --git a/js/node/lib/backend.ts b/js/node/lib/backend.ts
index 5f5ad49a2dea8..e8eb0e9babf5a 100644
--- a/js/node/lib/backend.ts
+++ b/js/node/lib/backend.ts
@@ -20,7 +20,7 @@ class OnnxruntimeSessionHandler implements InferenceSessionHandler {
   }
 
   async dispose(): Promise<void> {
-    return Promise.resolve();
+    this.#inferenceSession.dispose();
   }
 
   readonly inputNames: string[];
diff --git a/js/node/lib/binding.ts b/js/node/lib/binding.ts
index 8a0ce89abfa64..54b5767139904 100644
--- a/js/node/lib/binding.ts
+++ b/js/node/lib/binding.ts
@@ -28,6 +28,8 @@ export declare namespace Binding {
     readonly outputNames: string[];
 
     run(feeds: FeedsType, fetches: FetchesType, options: RunOptions): ReturnType;
+
+    dispose(): void;
   }
 
   export interface InferenceSessionConstructor {
diff --git a/js/node/src/inference_session_wrap.cc b/js/node/src/inference_session_wrap.cc
index c409fdc8895f7..1bbb6df1ce1c8 100644
--- a/js/node/src/inference_session_wrap.cc
+++ b/js/node/src/inference_session_wrap.cc
@@ -31,6 +31,7 @@ Napi::Object InferenceSessionWrap::Init(Napi::Env env, Napi::Object exports) {
   Napi::Function func = DefineClass(
       env, "InferenceSession",
       {InstanceMethod("loadModel", &InferenceSessionWrap::LoadModel), InstanceMethod("run", &InferenceSessionWrap::Run),
+       InstanceMethod("dispose", &InferenceSessionWrap::Dispose),
        InstanceAccessor("inputNames", &InferenceSessionWrap::GetInputNames, nullptr, napi_default, nullptr),
        InstanceAccessor("outputNames", &InferenceSessionWrap::GetOutputNames, nullptr, napi_default, nullptr)});
 
@@ -45,7 +46,7 @@ Napi::Object InferenceSessionWrap::Init(Napi::Env env, Napi::Object exports) {
 }
 
 InferenceSessionWrap::InferenceSessionWrap(const Napi::CallbackInfo &info)
-    : Napi::ObjectWrap<InferenceSessionWrap>(info), initialized_(false), session_(nullptr),
+    : Napi::ObjectWrap<InferenceSessionWrap>(info), initialized_(false), disposed_(false), session_(nullptr),
       defaultRunOptions_(nullptr) {}
 
 Napi::Value InferenceSessionWrap::LoadModel(const Napi::CallbackInfo &info) {
@@ -53,6 +54,7 @@ Napi::Value InferenceSessionWrap::LoadModel(const Napi::CallbackInfo &info) {
   Napi::HandleScope scope(env);
 
   ORT_NAPI_THROW_ERROR_IF(this->initialized_, env, "Model already loaded. Cannot load model multiple times.");
+  ORT_NAPI_THROW_ERROR_IF(this->disposed_, env, "Session already disposed.");
 
   size_t argsLength = info.Length();
   ORT_NAPI_THROW_TYPEERROR_IF(argsLength == 0, env, "Expect argument: model file path or buffer.");
@@ -129,6 +131,7 @@ Napi::Value InferenceSessionWrap::LoadModel(const Napi::CallbackInfo &info) {
 Napi::Value InferenceSessionWrap::GetInputNames(const Napi::CallbackInfo &info) {
   Napi::Env env = info.Env();
   ORT_NAPI_THROW_ERROR_IF(!this->initialized_, env, "Session is not initialized.");
+  ORT_NAPI_THROW_ERROR_IF(this->disposed_, env, "Session already disposed.");
 
   Napi::EscapableHandleScope scope(env);
   return scope.Escape(CreateNapiArrayFrom(env, inputNames_));
@@ -137,6 +140,7 @@ Napi::Value InferenceSessionWrap::GetInputNames(const Napi::CallbackInfo &info)
 Napi::Value InferenceSessionWrap::GetOutputNames(const Napi::CallbackInfo &info) {
   Napi::Env env = info.Env();
   ORT_NAPI_THROW_ERROR_IF(!this->initialized_, env, "Session is not initialized.");
+  ORT_NAPI_THROW_ERROR_IF(this->disposed_, env, "Session already disposed.");
 
   Napi::EscapableHandleScope scope(env);
   return scope.Escape(CreateNapiArrayFrom(env, outputNames_));
@@ -145,6 +149,7 @@ Napi::Value InferenceSessionWrap::GetOutputNames(const Napi::CallbackInfo &info)
 Napi::Value InferenceSessionWrap::Run(const Napi::CallbackInfo &info) {
   Napi::Env env = info.Env();
   ORT_NAPI_THROW_ERROR_IF(!this->initialized_, env, "Session is not initialized.");
+  ORT_NAPI_THROW_ERROR_IF(this->disposed_, env, "Session already disposed.");
   ORT_NAPI_THROW_TYPEERROR_IF(info.Length() < 2, env, "Expect argument: inputs(feed) and outputs(fetch).");
   ORT_NAPI_THROW_TYPEERROR_IF(!info[0].IsObject() || !info[1].IsObject(), env,
                               "Expect inputs(feed) and outputs(fetch) to be objects.");
@@ -209,6 +214,18 @@ Napi::Value InferenceSessionWrap::Run(const Napi::CallbackInfo &info) {
   }
 }
 
+Napi::Value InferenceSessionWrap::Dispose(const Napi::CallbackInfo &info) {
+  Napi::Env env = info.Env();
+  ORT_NAPI_THROW_ERROR_IF(!this->initialized_, env, "Session is not initialized.");
+  ORT_NAPI_THROW_ERROR_IF(this->disposed_, env, "Session already disposed.");
+
+  this->defaultRunOptions_.reset(nullptr);
+  this->session_.reset(nullptr);
+
+  this->disposed_ = true;
+  return env.Undefined();
+}
+
 Napi::Value InferenceSessionWrap::ListSupportedBackends(const Napi::CallbackInfo &info) {
   Napi::Env env = info.Env();
   Napi::EscapableHandleScope scope(env);
diff --git a/js/node/src/inference_session_wrap.h b/js/node/src/inference_session_wrap.h
index 9eee45b72dcb1..1e789c4814cd6 100644
--- a/js/node/src/inference_session_wrap.h
+++ b/js/node/src/inference_session_wrap.h
@@ -55,6 +55,14 @@ class InferenceSessionWrap : public Napi::ObjectWrap<InferenceSessionWrap> {
    */
   Napi::Value Run(const Napi::CallbackInfo &info);
 
+  /**
+   * [sync] dispose the session.
+   * @param nothing
+   * @returns nothing
+   * @throw nothing
+   */
+  Napi::Value Dispose(const Napi::CallbackInfo &info);
+
   // private members
 
   // persistent constructor
@@ -62,6 +70,7 @@ class InferenceSessionWrap : public Napi::ObjectWrap<InferenceSessionWrap> {
 
   // session objects
   bool initialized_;
+  bool disposed_;
   std::unique_ptr<Ort::Session> session_;
   std::unique_ptr<Ort::RunOptions> defaultRunOptions_;
 
diff --git a/js/web/lib/backend-wasm.ts b/js/web/lib/backend-wasm.ts
index 78edcc90f55f9..2d123cdb71290 100644
--- a/js/web/lib/backend-wasm.ts
+++ b/js/web/lib/backend-wasm.ts
@@ -4,7 +4,7 @@
 import {cpus} from 'node:os';
 import {Backend, env, InferenceSession, InferenceSessionHandler} from 'onnxruntime-common';
 
-import {initializeWebAssemblyInstance} from './wasm/proxy-wrapper';
+import {initializeOrtEp, initializeWebAssemblyAndOrtRuntime} from './wasm/proxy-wrapper';
 import {OnnxruntimeWebAssemblySessionHandler} from './wasm/session-handler-inference';
 
 /**
@@ -33,12 +33,23 @@ export const initializeFlags = (): void => {
 };
 
 export class OnnxruntimeWebAssemblyBackend implements Backend {
-  async init(): Promise<void> {
+  /**
+   * This function initializes the WebAssembly backend.
+   *
+   * This function will be called only once for each backend name. It will be called the first time when
+   * `ort.InferenceSession.create()` is called with a registered backend name.
+   *
+   * @param backendName - the registered backend name.
+   */
+  async init(backendName: string): Promise<void> {
     // populate wasm flags
     initializeFlags();
 
     // init wasm
-    await initializeWebAssemblyInstance();
+    await initializeWebAssemblyAndOrtRuntime();
+
+    // performe EP specific initialization
+    await initializeOrtEp(backendName);
   }
   createInferenceSessionHandler(path: string, options?: InferenceSession.SessionOptions):
       Promise<InferenceSessionHandler>;
diff --git a/js/web/lib/index.ts b/js/web/lib/index.ts
index 6060271ced156..499327741c82b 100644
--- a/js/web/lib/index.ts
+++ b/js/web/lib/index.ts
@@ -21,7 +21,7 @@ if (!BUILD_DEFS.DISABLE_WEBGL) {
 if (!BUILD_DEFS.DISABLE_WASM) {
   const wasmBackend = BUILD_DEFS.DISABLE_TRAINING ? require('./backend-wasm-inference').wasmBackend :
                                                     require('./backend-wasm-training').wasmBackend;
-  if (!BUILD_DEFS.DISABLE_WEBGPU && typeof navigator !== 'undefined' && navigator.gpu) {
+  if (!BUILD_DEFS.DISABLE_WEBGPU) {
     registerBackend('webgpu', wasmBackend, 5);
   }
   registerBackend('cpu', wasmBackend, 10);
diff --git a/js/web/lib/wasm/jsep/backend-webgpu.ts b/js/web/lib/wasm/jsep/backend-webgpu.ts
index 4f4a06c37a94f..6c3d22352772e 100644
--- a/js/web/lib/wasm/jsep/backend-webgpu.ts
+++ b/js/web/lib/wasm/jsep/backend-webgpu.ts
@@ -144,17 +144,7 @@ export class WebGpuBackend {
    */
   sessionExternalDataMapping: Map<number, Map<number, [number, GPUBuffer]>> = new Map();
 
-  async initialize(env: Env): Promise<void> {
-    if (!navigator.gpu) {
-      // WebGPU is not available.
-      throw new Error('WebGpuBackend: WebGPU is not available.');
-    }
-
-    const adapter = await navigator.gpu.requestAdapter();
-    if (!adapter) {
-      throw new Error('WebGpuBackend: Failed to get GPU adapter.');
-    }
-
+  async initialize(env: Env, adapter: GPUAdapter): Promise<void> {
     this.env = env;
     const requiredFeatures: GPUFeatureName[] = [];
     const deviceDescriptor: GPUDeviceDescriptor = {
diff --git a/js/web/lib/wasm/jsep/init.ts b/js/web/lib/wasm/jsep/init.ts
index e6db631c44eea..cad1e87b24a51 100644
--- a/js/web/lib/wasm/jsep/init.ts
+++ b/js/web/lib/wasm/jsep/init.ts
@@ -130,64 +130,76 @@ class ComputeContextImpl implements ComputeContext {
   }
 }
 
-export const init = async(module: OrtWasmModule, env: Env): Promise<void> => {
-  const init = module.jsepInit;
-  if (init && navigator.gpu) {
-    if (!env.wasm.simd) {
-      throw new Error(
-          'Not supported for WebGPU=ON and SIMD=OFF. Please set `env.wasm.simd` to true when using WebGPU EP');
-    }
-    const backend = new WebGpuBackend();
-    await backend.initialize(env);
-
-    init(
-        // backend
-        backend,
-
-        // jsepAlloc()
-        (size: number) => backend.alloc(size),
-
-        // jsepFree()
-        (ptr: number) => backend.free(ptr),
-
-        // jsepCopy(src, dst, size, isSourceGpu)
-        (src: number, dst: number, size: number, isSourceGpu = false) => {
-          if (isSourceGpu) {
-            LOG_DEBUG('verbose', () => `[WebGPU] jsepCopyGpuToGpu: src=${src}, dst=${dst}, size=${size}`);
-            backend.memcpy(src, dst);
-          } else {
-            LOG_DEBUG('verbose', () => `[WebGPU] jsepCopyCpuToGpu: dataOffset=${src}, gpuDataId=${dst}, size=${size}`);
-            const data = module.HEAPU8.subarray(src, src + size);
-            backend.upload(dst, data);
-          }
-        },
-
-        // jsepCopyAsync(src, dst, size)
-        async(gpuDataId: number, dataOffset: number, size: number):
-            Promise<void> => {
-              LOG_DEBUG(
-                  'verbose',
-                  () => `[WebGPU] jsepCopyGpuToCpu: gpuDataId=${gpuDataId}, dataOffset=${dataOffset}, size=${size}`);
-
-              await backend.download(gpuDataId, () => module.HEAPU8.subarray(dataOffset, dataOffset + size));
-            },
-
-        // jsepCreateKernel
-        (name: string, kernel: number, attribute: unknown) => backend.createKernel(
-            name, kernel, attribute,
-            env.debug || backend.isQueryEnabled() ? module.UTF8ToString(module._JsepGetNodeName(kernel)) : `${kernel}`),
-
-        // jsepReleaseKernel
-        (kernel: number) => backend.releaseKernel(kernel),
-
-        // jsepRun
-        (kernel: number, contextDataOffset: number, sessionHandle: number, errors: Array<Promise<string|null>>) => {
-          LOG_DEBUG(
-              'verbose',
-              () => `[WebGPU] jsepRun: sessionHandle=${sessionHandle}, kernel=${kernel}, contextDataOffset=${
-                  contextDataOffset}`);
-          const context = new ComputeContextImpl(module, backend, contextDataOffset);
-          return backend.computeKernel(kernel, context, errors);
-        });
+/**
+ * Initialize JSEP with WebGPU backend.
+ *
+ * This function will be called only once after the WebAssembly module is loaded and initialized ("_OrtInit" is called).
+ * This function expects:
+ *  - WebGPU is enabled in build (BUILD_DEFS.DISABLE_WEBGPU === false).
+ *  - WebGPU is available in current environment. (a valid GPUAdapter is passed in)
+ * If the WebAssembly module is not built with JSEP support, this function will throw an error. This will invalidate
+ * 'webgpu' backend.
+ *
+ * @param module - the ORT WebAssembly module
+ * @param env - the ORT environment variable (ort.env)
+ * @param gpuAdapter - the pre-created GPU adapter
+ */
+export const init = async(module: OrtWasmModule, env: Env, gpuAdapter: GPUAdapter): Promise<void> => {
+  const jsepInit = module.jsepInit;
+  if (!jsepInit) {
+    throw new Error('Failed to initialize JSEP. The WebAssembly module is not built with JSEP support.');
   }
+
+  const backend = new WebGpuBackend();
+  await backend.initialize(env, gpuAdapter);
+
+  jsepInit(
+      // backend
+      backend,
+
+      // jsepAlloc()
+      (size: number) => backend.alloc(size),
+
+      // jsepFree()
+      (ptr: number) => backend.free(ptr),
+
+      // jsepCopy(src, dst, size, isSourceGpu)
+      (src: number, dst: number, size: number, isSourceGpu = false) => {
+        if (isSourceGpu) {
+          LOG_DEBUG('verbose', () => `[WebGPU] jsepCopyGpuToGpu: src=${src}, dst=${dst}, size=${size}`);
+          backend.memcpy(src, dst);
+        } else {
+          LOG_DEBUG('verbose', () => `[WebGPU] jsepCopyCpuToGpu: dataOffset=${src}, gpuDataId=${dst}, size=${size}`);
+          const data = module.HEAPU8.subarray(src, src + size);
+          backend.upload(dst, data);
+        }
+      },
+
+      // jsepCopyAsync(src, dst, size)
+      async(gpuDataId: number, dataOffset: number, size: number):
+          Promise<void> => {
+            LOG_DEBUG(
+                'verbose',
+                () => `[WebGPU] jsepCopyGpuToCpu: gpuDataId=${gpuDataId}, dataOffset=${dataOffset}, size=${size}`);
+
+            await backend.download(gpuDataId, () => module.HEAPU8.subarray(dataOffset, dataOffset + size));
+          },
+
+      // jsepCreateKernel
+      (name: string, kernel: number, attribute: unknown) => backend.createKernel(
+          name, kernel, attribute,
+          env.debug || backend.isQueryEnabled() ? module.UTF8ToString(module._JsepGetNodeName(kernel)) : `${kernel}`),
+
+      // jsepReleaseKernel
+      (kernel: number) => backend.releaseKernel(kernel),
+
+      // jsepRun
+      (kernel: number, contextDataOffset: number, sessionHandle: number, errors: Array<Promise<string|null>>) => {
+        LOG_DEBUG(
+            'verbose',
+            () => `[WebGPU] jsepRun: sessionHandle=${sessionHandle}, kernel=${kernel}, contextDataOffset=${
+                contextDataOffset}`);
+        const context = new ComputeContextImpl(module, backend, contextDataOffset);
+        return backend.computeKernel(kernel, context, errors);
+      });
 };
diff --git a/js/web/lib/wasm/jsep/webgpu/ops/common.ts b/js/web/lib/wasm/jsep/webgpu/ops/common.ts
index 5fffa2f266603..0eb0d40a3ea5e 100644
--- a/js/web/lib/wasm/jsep/webgpu/ops/common.ts
+++ b/js/web/lib/wasm/jsep/webgpu/ops/common.ts
@@ -772,14 +772,14 @@ class ShaderHelperImpl implements ShaderHelper {
     const is1DimensionDispatch = this.normalizedDispatchGroup[1] === 1 && this.normalizedDispatchGroup[2] === 1;
     const paramList = is1DimensionDispatch ? `@builtin(global_invocation_id) global_id : vec3<u32>,
     @builtin(local_invocation_id) local_id : vec3<u32>` :
-                                             `@builtin(local_invocation_index) local_index : u32,
+                                             `@builtin(local_invocation_index) local_idx : u32,
     @builtin(workgroup_id) workgroup_id : vec3<u32>,
     @builtin(num_workgroups) num_workgroups : vec3<u32>`;
     const globalIdxDefinition = is1DimensionDispatch ?
-        'let global_idx = global_id.x;' :
+        'let global_idx = global_id.x; let local_idx = local_id.x;' :
         `let global_idx = (workgroup_id.z * num_workgroups[0] * num_workgroups[1] +
           workgroup_id.y * num_workgroups[0] + workgroup_id.x) * ${
-            workgroupSizeX * workgroupSizeY * workgroupSizeZ}u + local_index;`;
+            workgroupSizeX * workgroupSizeY * workgroupSizeZ}u + local_idx;`;
 
     return `@compute @workgroup_size(${workgroupSizeX}, ${workgroupSizeY}, ${workgroupSizeZ})
   fn main(${paramList}) {
diff --git a/js/web/lib/wasm/jsep/webgpu/ops/gemm.ts b/js/web/lib/wasm/jsep/webgpu/ops/gemm.ts
index 6e9dee41ce488..1c5d28e4b8e3f 100644
--- a/js/web/lib/wasm/jsep/webgpu/ops/gemm.ts
+++ b/js/web/lib/wasm/jsep/webgpu/ops/gemm.ts
@@ -97,8 +97,8 @@ const createGemmProgramInfo = (inputs: readonly TensorView[], attributes: GemmAt
   ${shaderHelper.mainStart()}
     ${shaderHelper.guardAgainstOutOfBoundsWorkgroupSizes(outputSize)}
 
-    let m = global_id.x / N;
-    let n = global_id.x % N;
+    let m = global_idx / N;
+    let n = global_idx % N;
 
     var value = ${dataType}(0);
     for (var k: u32 = 0u; k<${K}u; k++) {
@@ -107,7 +107,7 @@ const createGemmProgramInfo = (inputs: readonly TensorView[], attributes: GemmAt
 
     ${calculateAlpha}
     ${calculateC}
-    output[global_id.x] = value;
+    output[global_idx] = value;
 
   }`;
   return {
diff --git a/js/web/lib/wasm/jsep/webgpu/ops/reduce-shared.ts b/js/web/lib/wasm/jsep/webgpu/ops/reduce-shared.ts
index 1365d1e9a12a4..7c440cbffea7b 100644
--- a/js/web/lib/wasm/jsep/webgpu/ops/reduce-shared.ts
+++ b/js/web/lib/wasm/jsep/webgpu/ops/reduce-shared.ts
@@ -141,7 +141,6 @@ export const createReduceSharedProgramInfo =
           return ((a - 1u) / b + 1u);
          }
          ${shaderHelper.mainStart(workgroupSize)}
-          let local_idx = local_id.x;
 
           let outputIndex = global_idx / ${workgroupSize};
           let offset = outputIndex * uniforms.reduceSize;
diff --git a/js/web/lib/wasm/jsep/webgpu/ops/softmax.ts b/js/web/lib/wasm/jsep/webgpu/ops/softmax.ts
index 378a7e738dac9..324dc3af1a710 100644
--- a/js/web/lib/wasm/jsep/webgpu/ops/softmax.ts
+++ b/js/web/lib/wasm/jsep/webgpu/ops/softmax.ts
@@ -73,8 +73,8 @@ const createSoftmaxProgramInfo = (input: TensorView, attributes: SoftmaxAttribut
       }
       ${shaderHelper.registerUniform('packedCols', 'i32').declareVariables(x, output)}
       ${shaderHelper.mainStart()}
-        let gindex = i32(global_id.x);
-        let lindex = i32(local_id.x);
+        let gindex = i32(global_idx);
+        let lindex = i32(local_idx);
         const wg = ${WG};
         let row = gindex / wg;
         let cols = uniforms.packedCols;
diff --git a/js/web/lib/wasm/jsep/webgpu/ops/unary-op.ts b/js/web/lib/wasm/jsep/webgpu/ops/unary-op.ts
index 51114d8a99dd1..a25e7fe4229b4 100644
--- a/js/web/lib/wasm/jsep/webgpu/ops/unary-op.ts
+++ b/js/web/lib/wasm/jsep/webgpu/ops/unary-op.ts
@@ -125,8 +125,8 @@ export interface ClipAttributes extends AttributeWithCacheKey {
 }
 
 const generateClipAttributesFromInputs = (inputs: readonly TensorView[]): ClipAttributes => {
-  const min = (inputs.length >= 2) ? inputs[1].getFloat32Array()[0] : MIN_CLIP;
-  const max = (inputs.length >= 3) ? inputs[2].getFloat32Array()[0] : MAX_CLIP;
+  const min = (inputs.length >= 2 && inputs[1].data !== 0) ? inputs[1].getFloat32Array()[0] : MIN_CLIP;
+  const max = (inputs.length >= 3 && inputs[2].data !== 0) ? inputs[2].getFloat32Array()[0] : MAX_CLIP;
   return createAttributeWithCacheKey({min, max});
 };
 
diff --git a/js/web/lib/wasm/proxy-messages.ts b/js/web/lib/wasm/proxy-messages.ts
index efeb086256cf3..02246c9ee4767 100644
--- a/js/web/lib/wasm/proxy-messages.ts
+++ b/js/web/lib/wasm/proxy-messages.ts
@@ -3,6 +3,9 @@
 
 import type {Env, InferenceSession, Tensor} from 'onnxruntime-common';
 
+/**
+ * Among all the tensor locations, only 'cpu' is serializable.
+ */
 export type SerializableTensorMetadata =
     [dataType: Tensor.Type, dims: readonly number[], data: Tensor.DataType, location: 'cpu'];
 
@@ -12,15 +15,28 @@ export type GpuBufferMetadata = {
   dispose?: () => void;
 };
 
+/**
+ * Tensors on location 'cpu-pinned' and 'gpu-buffer' are not serializable.
+ */
 export type UnserializableTensorMetadata =
     [dataType: Tensor.Type, dims: readonly number[], data: GpuBufferMetadata, location: 'gpu-buffer']|
     [dataType: Tensor.Type, dims: readonly number[], data: Tensor.DataType, location: 'cpu-pinned'];
 
+/**
+ * Tensor metadata is a tuple of [dataType, dims, data, location], where
+ * - dataType: tensor data type
+ * - dims: tensor dimensions
+ * - data: tensor data, which can be one of the following depending on the location:
+ *   - cpu: Uint8Array
+ *   - cpu-pinned: Uint8Array
+ *   - gpu-buffer: GpuBufferMetadata
+ * - location: tensor data location
+ */
 export type TensorMetadata = SerializableTensorMetadata|UnserializableTensorMetadata;
 
 export type SerializableSessionMetadata = [sessionHandle: number, inputNames: string[], outputNames: string[]];
 
-export type SerializableModeldata = [modelDataOffset: number, modelDataLength: number];
+export type SerializableInternalBuffer = [bufferOffset: number, bufferLength: number];
 
 interface MessageError {
   err?: string;
@@ -28,35 +44,32 @@ interface MessageError {
 
 interface MessageInitWasm extends MessageError {
   type: 'init-wasm';
-  in ?: Env.WebAssemblyFlags;
-}
-
-interface MessageInitOrt extends MessageError {
-  type: 'init-ort';
   in ?: Env;
+  out?: never;
 }
 
-interface MessageCreateSessionAllocate extends MessageError {
-  type: 'create_allocate';
-  in ?: {model: Uint8Array};
-  out?: SerializableModeldata;
+interface MessageInitEp extends MessageError {
+  type: 'init-ep';
+  in ?: {env: Env; epName: string};
+  out?: never;
 }
 
-interface MessageCreateSessionFinalize extends MessageError {
-  type: 'create_finalize';
-  in ?: {modeldata: SerializableModeldata; options?: InferenceSession.SessionOptions};
-  out?: SerializableSessionMetadata;
+interface MessageCopyFromExternalBuffer extends MessageError {
+  type: 'copy-from';
+  in ?: {buffer: Uint8Array};
+  out?: SerializableInternalBuffer;
 }
 
 interface MessageCreateSession extends MessageError {
   type: 'create';
-  in ?: {model: Uint8Array; options?: InferenceSession.SessionOptions};
+  in ?: {model: SerializableInternalBuffer|Uint8Array; options?: InferenceSession.SessionOptions};
   out?: SerializableSessionMetadata;
 }
 
 interface MessageReleaseSession extends MessageError {
   type: 'release';
   in ?: number;
+  out?: never;
 }
 
 interface MessageRun extends MessageError {
@@ -71,12 +84,8 @@ interface MessageRun extends MessageError {
 interface MesssageEndProfiling extends MessageError {
   type: 'end-profiling';
   in ?: number;
+  out?: never;
 }
 
-interface MessageIsOrtEnvInitialized extends MessageError {
-  type: 'is-ort-env-initialized';
-  out?: boolean;
-}
-
-export type OrtWasmMessage = MessageInitWasm|MessageInitOrt|MessageCreateSessionAllocate|MessageCreateSessionFinalize|
-    MessageCreateSession|MessageReleaseSession|MessageRun|MesssageEndProfiling|MessageIsOrtEnvInitialized;
+export type OrtWasmMessage = MessageInitWasm|MessageInitEp|MessageCopyFromExternalBuffer|MessageCreateSession|
+    MessageReleaseSession|MessageRun|MesssageEndProfiling;
diff --git a/js/web/lib/wasm/proxy-worker/main.ts b/js/web/lib/wasm/proxy-worker/main.ts
index 1cb6d9e391e4f..4df524cdcfb22 100644
--- a/js/web/lib/wasm/proxy-worker/main.ts
+++ b/js/web/lib/wasm/proxy-worker/main.ts
@@ -36,104 +36,82 @@ declare global {
 }
 
 import {OrtWasmMessage, SerializableTensorMetadata} from '../proxy-messages';
-import {createSession, createSessionAllocate, createSessionFinalize, endProfiling, extractTransferableBuffers, initRuntime, isOrtEnvInitialized, releaseSession, run} from '../wasm-core-impl';
+import {createSession, copyFromExternalBuffer, endProfiling, extractTransferableBuffers, initEp, initRuntime, releaseSession, run} from '../wasm-core-impl';
 import {initializeWebAssembly} from '../wasm-factory';
 
 self.onmessage = (ev: MessageEvent<OrtWasmMessage>): void => {
-  switch (ev.data.type) {
-    case 'init-wasm':
-      try {
-        initializeWebAssembly(ev.data.in!)
+  const {type, in : message} = ev.data;
+  try {
+    switch (type) {
+      case 'init-wasm':
+        initializeWebAssembly(message!.wasm)
             .then(
-                () => postMessage({type: 'init-wasm'} as OrtWasmMessage),
-                err => postMessage({type: 'init-wasm', err} as OrtWasmMessage));
-      } catch (err) {
-        postMessage({type: 'init-wasm', err} as OrtWasmMessage);
-      }
-      break;
-    case 'init-ort':
-      try {
-        initRuntime(ev.data.in!).then(() => postMessage({type: 'init-ort'} as OrtWasmMessage), err => postMessage({
-                                                                                                 type: 'init-ort',
-                                                                                                 err
-                                                                                               } as OrtWasmMessage));
-      } catch (err) {
-        postMessage({type: 'init-ort', err} as OrtWasmMessage);
-      }
-      break;
-    case 'create_allocate':
-      try {
-        const {model} = ev.data.in!;
-        const modeldata = createSessionAllocate(model);
-        postMessage({type: 'create_allocate', out: modeldata} as OrtWasmMessage);
-      } catch (err) {
-        postMessage({type: 'create_allocate', err} as OrtWasmMessage);
+                () => {
+                  initRuntime(message!).then(
+                      () => {
+                        postMessage({type});
+                      },
+                      err => {
+                        postMessage({type, err});
+                      });
+                },
+                err => {
+                  postMessage({type, err});
+                });
+        break;
+      case 'init-ep': {
+        const {epName, env} = message!;
+        initEp(env, epName)
+            .then(
+                () => {
+                  postMessage({type});
+                },
+                err => {
+                  postMessage({type, err});
+                });
+        break;
       }
-      break;
-    case 'create_finalize':
-      try {
-        const {modeldata, options} = ev.data.in!;
-        const sessionMetadata = createSessionFinalize(modeldata, options);
-        postMessage({type: 'create_finalize', out: sessionMetadata} as OrtWasmMessage);
-      } catch (err) {
-        postMessage({type: 'create_finalize', err} as OrtWasmMessage);
+      case 'copy-from': {
+        const {buffer} = message!;
+        const bufferData = copyFromExternalBuffer(buffer);
+        postMessage({type, out: bufferData} as OrtWasmMessage);
+        break;
       }
-      break;
-    case 'create':
-      try {
-        const {model, options} = ev.data.in!;
+      case 'create': {
+        const {model, options} = message!;
         const sessionMetadata = createSession(model, options);
-        postMessage({type: 'create', out: sessionMetadata} as OrtWasmMessage);
-      } catch (err) {
-        postMessage({type: 'create', err} as OrtWasmMessage);
+        postMessage({type, out: sessionMetadata} as OrtWasmMessage);
+        break;
       }
-      break;
-    case 'release':
-      try {
-        releaseSession(ev.data.in!);
-        postMessage({type: 'release'} as OrtWasmMessage);
-      } catch (err) {
-        postMessage({type: 'release', err} as OrtWasmMessage);
-      }
-      break;
-    case 'run':
-      try {
-        const {sessionId, inputIndices, inputs, outputIndices, options} = ev.data.in!;
+      case 'release':
+        releaseSession(message!);
+        postMessage({type});
+        break;
+      case 'run': {
+        const {sessionId, inputIndices, inputs, outputIndices, options} = message!;
         run(sessionId, inputIndices, inputs, outputIndices, new Array(outputIndices.length).fill(null), options)
             .then(
                 outputs => {
                   if (outputs.some(o => o[3] !== 'cpu')) {
-                    postMessage({type: 'run', err: 'Proxy does not support non-cpu tensor location.'});
+                    postMessage({type, err: 'Proxy does not support non-cpu tensor location.'});
                   } else {
                     postMessage(
-                        {type: 'run', out: outputs} as OrtWasmMessage,
+                        {type, out: outputs} as OrtWasmMessage,
                         extractTransferableBuffers(outputs as SerializableTensorMetadata[]));
                   }
                 },
                 err => {
-                  postMessage({type: 'run', err} as OrtWasmMessage);
+                  postMessage({type, err});
                 });
-      } catch (err) {
-        postMessage({type: 'run', err} as OrtWasmMessage);
-      }
-      break;
-    case 'end-profiling':
-      try {
-        const handler = ev.data.in!;
-        endProfiling(handler);
-        postMessage({type: 'end-profiling'} as OrtWasmMessage);
-      } catch (err) {
-        postMessage({type: 'end-profiling', err} as OrtWasmMessage);
-      }
-      break;
-    case 'is-ort-env-initialized':
-      try {
-        const ortEnvInitialized = isOrtEnvInitialized();
-        postMessage({type: 'is-ort-env-initialized', out: ortEnvInitialized} as OrtWasmMessage);
-      } catch (err) {
-        postMessage({type: 'is-ort-env-initialized', err} as OrtWasmMessage);
+        break;
       }
-      break;
-    default:
+      case 'end-profiling':
+        endProfiling(message!);
+        postMessage({type});
+        break;
+      default:
+    }
+  } catch (err) {
+    postMessage({type, err} as OrtWasmMessage);
   }
 };
diff --git a/js/web/lib/wasm/proxy-wrapper.ts b/js/web/lib/wasm/proxy-wrapper.ts
index 069a1fa452dbc..86017a4ec6904 100644
--- a/js/web/lib/wasm/proxy-wrapper.ts
+++ b/js/web/lib/wasm/proxy-wrapper.ts
@@ -1,9 +1,9 @@
 // Copyright (c) Microsoft Corporation. All rights reserved.
 // Licensed under the MIT License.
 
-import {Env, env, InferenceSession} from 'onnxruntime-common';
+import {env, InferenceSession} from 'onnxruntime-common';
 
-import {OrtWasmMessage, SerializableModeldata, SerializableSessionMetadata, SerializableTensorMetadata, TensorMetadata} from './proxy-messages';
+import {OrtWasmMessage, SerializableInternalBuffer, SerializableSessionMetadata, SerializableTensorMetadata, TensorMetadata} from './proxy-messages';
 import * as core from './wasm-core-impl';
 import {initializeWebAssembly} from './wasm-factory';
 
@@ -13,18 +13,18 @@ let initializing = false;
 let initialized = false;
 let aborted = false;
 
-// resolve; reject
-type PromiseCallbacks<T = void> = [(result: T) => void, (reason: unknown) => void];
-
+type PromiseCallbacks<T = void> = [resolve: (result: T) => void, reject: (reason: unknown) => void];
 let initWasmCallbacks: PromiseCallbacks;
-let initOrtCallbacks: PromiseCallbacks;
-const createSessionAllocateCallbacks: Array<PromiseCallbacks<SerializableModeldata>> = [];
-const createSessionFinalizeCallbacks: Array<PromiseCallbacks<SerializableSessionMetadata>> = [];
-const createSessionCallbacks: Array<PromiseCallbacks<SerializableSessionMetadata>> = [];
-const releaseSessionCallbacks: Array<PromiseCallbacks<void>> = [];
-const runCallbacks: Array<PromiseCallbacks<SerializableTensorMetadata[]>> = [];
-const endProfilingCallbacks: Array<PromiseCallbacks<void>> = [];
-const isOrtEnvInitializedCallbacks: Array<PromiseCallbacks<boolean>> = [];
+const queuedCallbacks: Map<OrtWasmMessage['type'], Array<PromiseCallbacks<unknown>>> = new Map();
+
+const enqueueCallbacks = (type: OrtWasmMessage['type'], callbacks: PromiseCallbacks<unknown>): void => {
+  const queue = queuedCallbacks.get(type);
+  if (queue) {
+    queue.push(callbacks);
+  } else {
+    queuedCallbacks.set(type, [callbacks]);
+  }
+};
 
 const ensureWorker = (): void => {
   if (initializing || !initialized || aborted || !proxyWorker) {
@@ -44,82 +44,40 @@ const onProxyWorkerMessage = (ev: MessageEvent<OrtWasmMessage>): void => {
         initWasmCallbacks[0]();
       }
       break;
-    case 'init-ort':
-      if (ev.data.err) {
-        initOrtCallbacks[1](ev.data.err);
-      } else {
-        initOrtCallbacks[0]();
-      }
-      break;
-    case 'create_allocate':
-      if (ev.data.err) {
-        createSessionAllocateCallbacks.shift()![1](ev.data.err);
-      } else {
-        createSessionAllocateCallbacks.shift()![0](ev.data.out!);
-      }
-      break;
-    case 'create_finalize':
-      if (ev.data.err) {
-        createSessionFinalizeCallbacks.shift()![1](ev.data.err);
-      } else {
-        createSessionFinalizeCallbacks.shift()![0](ev.data.out!);
-      }
-      break;
+    case 'init-ep':
+    case 'copy-from':
     case 'create':
-      if (ev.data.err) {
-        createSessionCallbacks.shift()![1](ev.data.err);
-      } else {
-        createSessionCallbacks.shift()![0](ev.data.out!);
-      }
-      break;
     case 'release':
-      if (ev.data.err) {
-        releaseSessionCallbacks.shift()![1](ev.data.err);
-      } else {
-        releaseSessionCallbacks.shift()![0]();
-      }
-      break;
     case 'run':
+    case 'end-profiling': {
+      const callbacks = queuedCallbacks.get(ev.data.type)!;
       if (ev.data.err) {
-        runCallbacks.shift()![1](ev.data.err);
-      } else {
-        runCallbacks.shift()![0](ev.data.out!);
-      }
-      break;
-    case 'end-profiling':
-      if (ev.data.err) {
-        endProfilingCallbacks.shift()![1](ev.data.err);
-      } else {
-        endProfilingCallbacks.shift()![0]();
-      }
-      break;
-    case 'is-ort-env-initialized':
-      if (ev.data.err) {
-        isOrtEnvInitializedCallbacks.shift()![1](ev.data.err);
+        callbacks.shift()![1](ev.data.err);
       } else {
-        isOrtEnvInitializedCallbacks.shift()![0](ev.data.out!);
+        callbacks.shift()![0](ev.data.out!);
       }
       break;
+    }
     default:
   }
 };
 
 const scriptSrc = typeof document !== 'undefined' ? (document?.currentScript as HTMLScriptElement)?.src : undefined;
 
-export const initializeWebAssemblyInstance = async(): Promise<void> => {
-  if (!BUILD_DEFS.DISABLE_WASM_PROXY && isProxy()) {
-    if (initialized) {
-      return;
-    }
-    if (initializing) {
-      throw new Error('multiple calls to \'initWasm()\' detected.');
-    }
-    if (aborted) {
-      throw new Error('previous call to \'initWasm()\' failed.');
-    }
+export const initializeWebAssemblyAndOrtRuntime = async(): Promise<void> => {
+  if (initialized) {
+    return;
+  }
+  if (initializing) {
+    throw new Error('multiple calls to \'initWasm()\' detected.');
+  }
+  if (aborted) {
+    throw new Error('previous call to \'initWasm()\' failed.');
+  }
 
-    initializing = true;
+  initializing = true;
 
+  if (!BUILD_DEFS.DISABLE_WASM_PROXY && isProxy()) {
     // overwrite wasm filepaths
     if (env.wasm.wasmPaths === undefined) {
       if (scriptSrc && scriptSrc.indexOf('blob:') !== 0) {
@@ -142,78 +100,78 @@ export const initializeWebAssemblyInstance = async(): Promise<void> => {
       proxyWorker.onmessage = onProxyWorkerMessage;
       URL.revokeObjectURL(workerUrl);
       initWasmCallbacks = [resolve, reject];
-      const message: OrtWasmMessage = {type: 'init-wasm', in : env.wasm};
+      const message: OrtWasmMessage = {type: 'init-wasm', in : env};
       proxyWorker.postMessage(message);
     });
 
   } else {
-    return initializeWebAssembly(env.wasm);
+    try {
+      await initializeWebAssembly(env.wasm);
+      await core.initRuntime(env);
+      initialized = true;
+    } catch (e) {
+      aborted = true;
+      throw e;
+    } finally {
+      initializing = false;
+    }
   }
 };
 
-export const initializeRuntime = async(env: Env): Promise<void> => {
+export const initializeOrtEp = async(epName: string): Promise<void> => {
   if (!BUILD_DEFS.DISABLE_WASM_PROXY && isProxy()) {
     ensureWorker();
     return new Promise<void>((resolve, reject) => {
-      initOrtCallbacks = [resolve, reject];
-      const message: OrtWasmMessage = {type: 'init-ort', in : env};
+      enqueueCallbacks('init-ep', [resolve, reject]);
+      const message: OrtWasmMessage = {type: 'init-ep', in : {epName, env}};
       proxyWorker!.postMessage(message);
     });
   } else {
-    await core.initRuntime(env);
+    await core.initEp(env, epName);
   }
 };
 
-export const createSessionAllocate = async(model: Uint8Array): Promise<SerializableModeldata> => {
+export const copyFromExternalBuffer = async(buffer: Uint8Array): Promise<SerializableInternalBuffer> => {
   if (!BUILD_DEFS.DISABLE_WASM_PROXY && isProxy()) {
     ensureWorker();
-    return new Promise<SerializableModeldata>((resolve, reject) => {
-      createSessionAllocateCallbacks.push([resolve, reject]);
-      const message: OrtWasmMessage = {type: 'create_allocate', in : {model}};
-      proxyWorker!.postMessage(message, [model.buffer]);
+    return new Promise<SerializableInternalBuffer>((resolve, reject) => {
+      enqueueCallbacks('copy-from', [resolve, reject]);
+      const message: OrtWasmMessage = {type: 'copy-from', in : {buffer}};
+      proxyWorker!.postMessage(message, [buffer.buffer]);
     });
   } else {
-    return core.createSessionAllocate(model);
+    return core.copyFromExternalBuffer(buffer);
   }
 };
 
-export const createSessionFinalize = async(modeldata: SerializableModeldata, options?: InferenceSession.SessionOptions):
-    Promise<SerializableSessionMetadata> => {
-      if (!BUILD_DEFS.DISABLE_WASM_PROXY && isProxy()) {
-        ensureWorker();
-        return new Promise<SerializableSessionMetadata>((resolve, reject) => {
-          createSessionFinalizeCallbacks.push([resolve, reject]);
-          const message: OrtWasmMessage = {type: 'create_finalize', in : {modeldata, options}};
-          proxyWorker!.postMessage(message);
-        });
-      } else {
-        return core.createSessionFinalize(modeldata, options);
-      }
-    };
-
 export const createSession =
-    async(model: Uint8Array, options?: InferenceSession.SessionOptions): Promise<SerializableSessionMetadata> => {
-  if (!BUILD_DEFS.DISABLE_WASM_PROXY && isProxy()) {
-    // check unsupported options
-    if (options?.preferredOutputLocation) {
-      throw new Error('session option "preferredOutputLocation" is not supported for proxy.');
-    }
-    ensureWorker();
-    return new Promise<SerializableSessionMetadata>((resolve, reject) => {
-      createSessionCallbacks.push([resolve, reject]);
-      const message: OrtWasmMessage = {type: 'create', in : {model, options}};
-      proxyWorker!.postMessage(message, [model.buffer]);
-    });
-  } else {
-    return core.createSession(model, options);
-  }
-};
+    async(model: SerializableInternalBuffer|Uint8Array, options?: InferenceSession.SessionOptions):
+        Promise<SerializableSessionMetadata> => {
+          if (!BUILD_DEFS.DISABLE_WASM_PROXY && isProxy()) {
+            // check unsupported options
+            if (options?.preferredOutputLocation) {
+              throw new Error('session option "preferredOutputLocation" is not supported for proxy.');
+            }
+            ensureWorker();
+            return new Promise<SerializableSessionMetadata>((resolve, reject) => {
+              enqueueCallbacks('create', [resolve, reject]);
+              const message: OrtWasmMessage = {type: 'create', in : {model, options}};
+              const transferable: Transferable[] = [];
+              if (model instanceof Uint8Array) {
+                transferable.push(model.buffer);
+              }
+              proxyWorker!.postMessage(message, transferable);
+            });
+          } else {
+            return core.createSession(model, options);
+          }
+        };
 
 export const releaseSession = async(sessionId: number): Promise<void> => {
   if (!BUILD_DEFS.DISABLE_WASM_PROXY && isProxy()) {
     ensureWorker();
     return new Promise<void>((resolve, reject) => {
-      releaseSessionCallbacks.push([resolve, reject]);
+      enqueueCallbacks('release', [resolve, reject]);
       const message: OrtWasmMessage = {type: 'release', in : sessionId};
       proxyWorker!.postMessage(message);
     });
@@ -236,7 +194,7 @@ export const run = async(
     }
     ensureWorker();
     return new Promise<SerializableTensorMetadata[]>((resolve, reject) => {
-      runCallbacks.push([resolve, reject]);
+      enqueueCallbacks('run', [resolve, reject]);
       const serializableInputs = inputs as SerializableTensorMetadata[];  // every input is on CPU.
       const message: OrtWasmMessage =
           {type: 'run', in : {sessionId, inputIndices, inputs: serializableInputs, outputIndices, options}};
@@ -251,7 +209,7 @@ export const endProfiling = async(sessionId: number): Promise<void> => {
   if (!BUILD_DEFS.DISABLE_WASM_PROXY && isProxy()) {
     ensureWorker();
     return new Promise<void>((resolve, reject) => {
-      endProfilingCallbacks.push([resolve, reject]);
+      enqueueCallbacks('end-profiling', [resolve, reject]);
       const message: OrtWasmMessage = {type: 'end-profiling', in : sessionId};
       proxyWorker!.postMessage(message);
     });
@@ -259,16 +217,3 @@ export const endProfiling = async(sessionId: number): Promise<void> => {
     core.endProfiling(sessionId);
   }
 };
-
-export const isOrtEnvInitialized = async(): Promise<boolean> => {
-  if (!BUILD_DEFS.DISABLE_WASM_PROXY && isProxy()) {
-    ensureWorker();
-    return new Promise<boolean>((resolve, reject) => {
-      isOrtEnvInitializedCallbacks.push([resolve, reject]);
-      const message: OrtWasmMessage = {type: 'is-ort-env-initialized'};
-      proxyWorker!.postMessage(message);
-    });
-  } else {
-    return core.isOrtEnvInitialized();
-  }
-};
diff --git a/js/web/lib/wasm/session-handler-inference.ts b/js/web/lib/wasm/session-handler-inference.ts
index 3ca34d957c572..b62287483208a 100644
--- a/js/web/lib/wasm/session-handler-inference.ts
+++ b/js/web/lib/wasm/session-handler-inference.ts
@@ -2,14 +2,12 @@
 // Licensed under the MIT License.
 
 import {readFile} from 'node:fs/promises';
-import {env, InferenceSession, InferenceSessionHandler, SessionHandler, Tensor} from 'onnxruntime-common';
+import {InferenceSession, InferenceSessionHandler, SessionHandler, Tensor} from 'onnxruntime-common';
 
-import {SerializableModeldata, TensorMetadata} from './proxy-messages';
-import {createSession, createSessionAllocate, createSessionFinalize, endProfiling, initializeRuntime, isOrtEnvInitialized, releaseSession, run} from './proxy-wrapper';
+import {SerializableInternalBuffer, TensorMetadata} from './proxy-messages';
+import {copyFromExternalBuffer, createSession, endProfiling, releaseSession, run} from './proxy-wrapper';
 import {isGpuBufferSupportedType} from './wasm-common';
 
-let runtimeInitializationPromise: Promise<void>|undefined;
-
 export const encodeTensorMetadata = (tensor: Tensor, getName: () => string): TensorMetadata => {
   switch (tensor.location) {
     case 'cpu':
@@ -44,7 +42,7 @@ export class OnnxruntimeWebAssemblySessionHandler implements InferenceSessionHan
   inputNames: string[];
   outputNames: string[];
 
-  async createSessionAllocate(path: string): Promise<SerializableModeldata> {
+  async fetchModelAndCopyToWasmMemory(path: string): Promise<SerializableInternalBuffer> {
     // fetch model from url and move to wasm heap. The arraybufffer that held the http
     // response is freed once we return
     const response = await fetch(path);
@@ -52,33 +50,26 @@ export class OnnxruntimeWebAssemblySessionHandler implements InferenceSessionHan
       throw new Error(`failed to load model: ${path}`);
     }
     const arrayBuffer = await response.arrayBuffer();
-    return createSessionAllocate(new Uint8Array(arrayBuffer));
+    return copyFromExternalBuffer(new Uint8Array(arrayBuffer));
   }
 
   async loadModel(pathOrBuffer: string|Uint8Array, options?: InferenceSession.SessionOptions): Promise<void> {
-    if (!(await isOrtEnvInitialized())) {
-      if (!runtimeInitializationPromise) {
-        runtimeInitializationPromise = initializeRuntime(env);
-      }
-      await runtimeInitializationPromise;
-      runtimeInitializationPromise = undefined;
-    }
+    let model: Parameters<typeof createSession>[0];
 
     if (typeof pathOrBuffer === 'string') {
       if (typeof process !== 'undefined' && process.versions && process.versions.node) {
         // node
-        const model = await readFile(pathOrBuffer);
-        [this.sessionId, this.inputNames, this.outputNames] = await createSession(model, options);
+        model = await readFile(pathOrBuffer);
       } else {
         // browser
-        // fetch model and move to wasm heap.
-        const modelData: SerializableModeldata = await this.createSessionAllocate(pathOrBuffer);
-        // create the session
-        [this.sessionId, this.inputNames, this.outputNames] = await createSessionFinalize(modelData, options);
+        // fetch model and copy to wasm heap.
+        model = await this.fetchModelAndCopyToWasmMemory(pathOrBuffer);
       }
     } else {
-      [this.sessionId, this.inputNames, this.outputNames] = await createSession(pathOrBuffer, options);
+      model = pathOrBuffer;
     }
+
+    [this.sessionId, this.inputNames, this.outputNames] = await createSession(model, options);
   }
 
   async dispose(): Promise<void> {
diff --git a/js/web/lib/wasm/session-handler-training.ts b/js/web/lib/wasm/session-handler-training.ts
index 71815f21e650a..e35759192fe3c 100644
--- a/js/web/lib/wasm/session-handler-training.ts
+++ b/js/web/lib/wasm/session-handler-training.ts
@@ -1,11 +1,11 @@
 // Copyright (c) Microsoft Corporation. All rights reserved.
 // Licensed under the MIT License.
 
-import {env, InferenceSession, OnnxValue, SessionHandler, Tensor, TrainingSessionHandler} from 'onnxruntime-common';
+import {InferenceSession, OnnxValue, SessionHandler, Tensor, TrainingSessionHandler} from 'onnxruntime-common';
 
-import {SerializableModeldata, TensorMetadata} from './proxy-messages';
+import {SerializableInternalBuffer, TensorMetadata} from './proxy-messages';
 import {decodeTensorMetadata, encodeTensorMetadata} from './session-handler-inference';
-import {createSessionAllocate, initRuntime, isOrtEnvInitialized} from './wasm-core-impl';
+import {copyFromExternalBuffer} from './wasm-core-impl';
 import {createCheckpointHandle, createTrainingSessionHandle, getContiguousParameters, getModelInputOutputNames, getParametersSize, lazyResetGrad, loadParametersBuffer, releaseTrainingSessionAndCheckpoint, runEvalStep, runOptimizerStep, runTrainStep} from './wasm-training-core-impl';
 
 export class OnnxruntimeWebAssemblyTrainingSessionHandler implements TrainingSessionHandler {
@@ -18,7 +18,7 @@ export class OnnxruntimeWebAssemblyTrainingSessionHandler implements TrainingSes
   evalInputNames: string[] = [];
   evalOutputNames: string[] = [];
 
-  async uriOrBufferToHeap(uriOrBuffer: string|Uint8Array): Promise<SerializableModeldata> {
+  async uriOrBufferToHeap(uriOrBuffer: string|Uint8Array): Promise<SerializableInternalBuffer> {
     let buffer: Uint8Array;
     if (typeof uriOrBuffer === 'string') {
       const response = await fetch(uriOrBuffer);
@@ -27,21 +27,18 @@ export class OnnxruntimeWebAssemblyTrainingSessionHandler implements TrainingSes
     } else {
       buffer = uriOrBuffer;
     }
-    return createSessionAllocate(buffer);
+    return copyFromExternalBuffer(buffer);
   }
 
   async createTrainingSession(
       checkpointStateUriOrBuffer: string|Uint8Array, trainModelUriOrBuffer: string|Uint8Array,
       evalModelUriOrBuffer: string|Uint8Array, optimizerModelUriOrBuffer: string|Uint8Array,
       options: InferenceSession.SessionOptions) {
-    if (!isOrtEnvInitialized()) {
-      await initRuntime(env);
-    }
-    const checkpointData: SerializableModeldata = await this.uriOrBufferToHeap(checkpointStateUriOrBuffer);
-    const trainModelData: SerializableModeldata = await this.uriOrBufferToHeap(trainModelUriOrBuffer);
+    const checkpointData: SerializableInternalBuffer = await this.uriOrBufferToHeap(checkpointStateUriOrBuffer);
+    const trainModelData: SerializableInternalBuffer = await this.uriOrBufferToHeap(trainModelUriOrBuffer);
     // 0 is supposed to be the nullptr
-    let evalModelData: SerializableModeldata = [0, 0];
-    let optimizerModelData: SerializableModeldata = [0, 0];
+    let evalModelData: SerializableInternalBuffer = [0, 0];
+    let optimizerModelData: SerializableInternalBuffer = [0, 0];
 
     if (evalModelUriOrBuffer !== '') {
       evalModelData = await this.uriOrBufferToHeap(evalModelUriOrBuffer);
diff --git a/js/web/lib/wasm/wasm-core-impl.ts b/js/web/lib/wasm/wasm-core-impl.ts
index 3aacf8f4d90e0..a9dfd9218bb6f 100644
--- a/js/web/lib/wasm/wasm-core-impl.ts
+++ b/js/web/lib/wasm/wasm-core-impl.ts
@@ -3,37 +3,60 @@
 
 import {Env, InferenceSession, Tensor} from 'onnxruntime-common';
 
-import {SerializableModeldata, SerializableSessionMetadata, SerializableTensorMetadata, TensorMetadata} from './proxy-messages';
+import {SerializableInternalBuffer, SerializableSessionMetadata, SerializableTensorMetadata, TensorMetadata} from './proxy-messages';
 import {setRunOptions} from './run-options';
 import {setSessionOptions} from './session-options';
 import {dataLocationStringToEnum, getTensorElementSize, isGpuBufferSupportedType, logLevelStringToEnum, tensorDataTypeEnumToString, tensorDataTypeStringToEnum, tensorTypeToTypedArrayConstructor} from './wasm-common';
 import {getInstance} from './wasm-factory';
 import {allocWasmString, checkLastError} from './wasm-utils';
 
-let ortEnvInitialized = false;
+// #region Initializations
 
 /**
- * get the input/output count of the session.
- * @param sessionHandle the handle representing the session. should be non-zero.
- * @returns a tuple including 2 numbers, representing the input count and output count.
+ * There are 4 different "initialization" steps for ORT. They happen in different places and different time.
+ *
+ * 1. JavaScript initialization for onnxruntime-common and onnxruntime-web.
+ *    This is the first initialization step. In this step, onnxruntime-web calls onnxruntime-common's registerBackend()
+ * function multiple times to register all the available backends. The backend registration is very fast. It only
+ * registers the backend name with the uninitialized backend object. No heavy initialization is done in this step.
+ *    Refer to web/lib/index.ts for the backend registration.
+ *
+ * 2. WebAssembly artifact initialization.
+ *    This happens when any registered wasm backend is used for the first time (ie. `ort.InferenceSession.create()` or
+ * `ort.TrainingSession.create()` is called). In this step, onnxruntime-web does the followings:
+ *     - create a proxy worker and make sure the proxy worker is ready to receive messages, if proxy is enabled.
+ *     - perform feature detection, locate correct WebAssembly artifact path and call the Emscripten generated
+ * JavaScript code to initialize the WebAssembly runtime.
+ *         - if proxy is enabled, this step happens in the proxy worker using message 'init-wasm'.
+ *         - downloading the 'ort-wasm{...}.wasm' file is done in this step.
+ *         - if multi-thread is enabled, one or more webworker will be created to initialize the PThread threadpool.
+ *
+ * 3. ORT environment initialization.
+ *    This happens after step 2. In this step, onnxruntime-web performs ONNX Runtime environment initialization.
+ * Function `_OrtInit()` is called in this step.
+ *     - if proxy is enabled, this step happens in the proxy worker using message 'init-ort'.
+ *     - logging level (ort.env.logLevel) and thread number (ort.env.wasm.numThreads) are set in this step.
+ *
+ * 4. Session initialization.
+ *    This happens when `ort.InferenceSession.create()` or `ort.TrainingSession.create()` is called. Unlike the first 3
+ * steps (they only called once), this step will be done for each session. In this step, onnxruntime-web does the
+ * followings:
+ *    If the parameter is a URL:
+ *    - download the model data from the URL.
+ *    - copy the model data to the WASM heap. (proxy: 'copy-from')
+ *    - dereference the model buffer. This step allows the original ArrayBuffer to be garbage collected.
+ *    - call `_OrtCreateSession()` to create the session. (proxy: 'create')
+ *
+ *    If the parameter is a Uint8Array object:
+ *    - copy the model data to the WASM heap. (proxy: 'copy-from')
+ *    - call `_OrtCreateSession()` to create the session. (proxy: 'create')
+ *
+ *
  */
-const getSessionInputOutputCount = (sessionHandle: number): [number, number] => {
-  const wasm = getInstance();
-  const stack = wasm.stackSave();
-  try {
-    const dataOffset = wasm.stackAlloc(8);
-    const errorCode = wasm._OrtGetInputOutputCount(sessionHandle, dataOffset, dataOffset + 4);
-    if (errorCode !== 0) {
-      checkLastError('Can\'t get session input/output count.');
-    }
-    return [wasm.HEAP32[dataOffset / 4], wasm.HEAP32[dataOffset / 4 + 1]];
-  } finally {
-    wasm.stackRestore(stack);
-  }
-};
 
 /**
  * initialize ORT environment.
+ *
  * @param numThreads SetGlobalIntraOpNumThreads(numThreads)
  * @param loggingLevel CreateEnv(static_cast<OrtLoggingLevel>(logging_level))
  */
@@ -51,18 +74,41 @@ const initOrt = (numThreads: number, loggingLevel: number): void => {
 export const initRuntime = async(env: Env): Promise<void> => {
   // init ORT
   initOrt(env.wasm.numThreads!, logLevelStringToEnum(env.logLevel));
+};
+
+/**
+ * perform EP specific initialization.
+ *
+ * @param env
+ * @param epName
+ */
+export const initEp = async(env: Env, epName: string): Promise<void> => {
+  if (!BUILD_DEFS.DISABLE_WEBGPU && epName === 'webgpu') {
+    // perform WebGPU availability check
+    if (typeof navigator === 'undefined' || !navigator.gpu) {
+      throw new Error('WebGPU is not supported in current environment');
+    }
+    const adapter = await navigator.gpu.requestAdapter();
+    if (!adapter) {
+      throw new Error(
+          'Failed to get GPU adapter. You may need to enable flag "--enable-unsafe-webgpu" if you are using Chrome.');
+    }
+
+    if (!env.wasm.simd) {
+      throw new Error(
+          'Not supported for WebGPU=ON and SIMD=OFF. Please set `env.wasm.simd` to true when using `webgpu` EP');
+    }
 
-  if (!BUILD_DEFS.DISABLE_WEBGPU) {
     // init JSEP if available
 
     // eslint-disable-next-line @typescript-eslint/no-require-imports, @typescript-eslint/no-var-requires
     const initJsep = require('./jsep/init').init;
-    await initJsep(getInstance(), env);
+    await initJsep(getInstance(), env, adapter);
   }
-
-  ortEnvInitialized = true;
 };
 
+// #endregion Initializations
+
 /**
  * valid data locations for input/output tensors.
  */
@@ -97,13 +143,33 @@ type SessionMetadata = [
 
 const activeSessions = new Map<number, SessionMetadata>();
 
-export const isOrtEnvInitialized = (): boolean => ortEnvInitialized;
+/**
+ * get the input/output count of the session.
+ * @param sessionHandle the handle representing the session. should be non-zero.
+ * @returns a tuple including 2 numbers, representing the input count and output count.
+ */
+const getSessionInputOutputCount = (sessionHandle: number): [number, number] => {
+  const wasm = getInstance();
+  const stack = wasm.stackSave();
+  try {
+    const dataOffset = wasm.stackAlloc(8);
+    const errorCode = wasm._OrtGetInputOutputCount(sessionHandle, dataOffset, dataOffset + 4);
+    if (errorCode !== 0) {
+      checkLastError('Can\'t get session input/output count.');
+    }
+    return [wasm.HEAP32[dataOffset / 4], wasm.HEAP32[dataOffset / 4 + 1]];
+  } finally {
+    wasm.stackRestore(stack);
+  }
+};
 
 /**
- * allocate the memory and memcpy the model bytes, preparing for creating an instance of InferenceSession.
+ * allocate the memory and memcpy the external buffer.
+ *
+ * @param model - the external buffer containing the model data. Must not be the same buffer as the WASM heap.
  * @returns a 2-elements tuple - the pointer and size of the allocated buffer
  */
-export const createSessionAllocate = (model: Uint8Array): [number, number] => {
+export const copyFromExternalBuffer = (model: Uint8Array): [number, number] => {
   const wasm = getInstance();
   const modelDataOffset = wasm._malloc(model.byteLength);
   if (modelDataOffset === 0) {
@@ -114,15 +180,30 @@ export const createSessionAllocate = (model: Uint8Array): [number, number] => {
 };
 
 /**
- * create an inference session using the prepared buffer containing the model data.
- * @param modelData a 2-elements tuple containing the pointer and size of the model data buffer.
+ * create an inference session from a model data buffer.
+ *
+ * @param modelData - either a Uint8Array object representing the model data, or a 2-elements tuple containing the
+ *     pointer and size of the model data buffer.
  * @param options an optional session options object.
  * @returns a 3-elements tuple containing [session handle, input names, output names]
  */
-export const createSessionFinalize =
-    (modelData: SerializableModeldata, options?: InferenceSession.SessionOptions): SerializableSessionMetadata => {
+export const createSession =
+    (modelData: Uint8Array|SerializableInternalBuffer,
+     options?: InferenceSession.SessionOptions): SerializableSessionMetadata => {
+      let modelDataOffset: number, modelDataLength: number;
       const wasm = getInstance();
 
+      if (Array.isArray(modelData)) {
+        // if model data is an array, it must be a 2-elements tuple containing the pointer and size of the model data
+        [modelDataOffset, modelDataLength] = modelData;
+      } else if (modelData.buffer === wasm.HEAPU8.buffer) {
+        // if model data uses the same buffer as the WASM heap, we don't need to copy it.
+        [modelDataOffset, modelDataLength] = [modelData.byteOffset, modelData.byteLength];
+      } else {
+        // otherwise, copy the model data to the WASM heap.
+        [modelDataOffset, modelDataLength] = copyFromExternalBuffer(modelData);
+      }
+
       let sessionHandle = 0;
       let sessionOptionsHandle = 0;
       let ioBindingHandle = 0;
@@ -133,7 +214,7 @@ export const createSessionFinalize =
       try {
         [sessionOptionsHandle, allocs] = setSessionOptions(options);
 
-        sessionHandle = wasm._OrtCreateSession(modelData[0], modelData[1], sessionOptionsHandle);
+        sessionHandle = wasm._OrtCreateSession(modelDataOffset, modelDataLength, sessionOptionsHandle);
         if (sessionHandle === 0) {
           checkLastError('Can\'t create a session.');
         }
@@ -201,7 +282,7 @@ export const createSessionFinalize =
         }
         throw e;
       } finally {
-        wasm._free(modelData[0]);
+        wasm._free(modelDataOffset);
         if (sessionOptionsHandle !== 0) {
           wasm._OrtReleaseSessionOptions(sessionOptionsHandle);
         }
@@ -209,17 +290,6 @@ export const createSessionFinalize =
       }
     };
 
-
-/**
- * create an instance of InferenceSession.
- * @returns the metadata of InferenceSession. 0-value handle for failure.
- */
-export const createSession =
-    (model: Uint8Array, options?: InferenceSession.SessionOptions): SerializableSessionMetadata => {
-      const modelData: SerializableModeldata = createSessionAllocate(model);
-      return createSessionFinalize(modelData, options);
-    };
-
 export const releaseSession = (sessionId: number): void => {
   const wasm = getInstance();
   const session = activeSessions.get(sessionId);
diff --git a/js/web/lib/wasm/wasm-training-core-impl.ts b/js/web/lib/wasm/wasm-training-core-impl.ts
index 0cc28188a6093..c65178e2358d2 100644
--- a/js/web/lib/wasm/wasm-training-core-impl.ts
+++ b/js/web/lib/wasm/wasm-training-core-impl.ts
@@ -3,7 +3,7 @@
 
 import {InferenceSession, Tensor} from 'onnxruntime-common';
 
-import {SerializableModeldata, TensorMetadata} from './proxy-messages';
+import {SerializableInternalBuffer, TensorMetadata} from './proxy-messages';
 import {setRunOptions} from './run-options';
 import {setSessionOptions} from './session-options';
 import {dataLocationStringToEnum, tensorDataTypeEnumToString, tensorDataTypeStringToEnum, tensorTypeToTypedArrayConstructor} from './wasm-common';
@@ -32,7 +32,7 @@ const ifErrCodeCheckLastError = (errCode: number, message: string, checkNeqZero
   }
 };
 
-export const createCheckpointHandle = (checkpointData: SerializableModeldata): number => {
+export const createCheckpointHandle = (checkpointData: SerializableInternalBuffer): number => {
   const wasm = getInstance();
 
   const [checkpointDataOffset, checkpointDataLength] = checkpointData;
@@ -108,8 +108,8 @@ export const getModelInputOutputNames = (trainingSessionId: number, isEvalModel:
 };
 
 export const createTrainingSessionHandle =
-    (checkpointHandle: number, trainModelData: SerializableModeldata, evalModelData: SerializableModeldata,
-     optimizerModelData: SerializableModeldata, options: InferenceSession.SessionOptions): number => {
+    (checkpointHandle: number, trainModelData: SerializableInternalBuffer, evalModelData: SerializableInternalBuffer,
+     optimizerModelData: SerializableInternalBuffer, options: InferenceSession.SessionOptions): number => {
       const wasm = getInstance();
 
       let trainingSessionHandle = 0;
diff --git a/js/web/test/test-runner.ts b/js/web/test/test-runner.ts
index 29acc07e118f9..5e9b0910a2c68 100644
--- a/js/web/test/test-runner.ts
+++ b/js/web/test/test-runner.ts
@@ -850,7 +850,7 @@ export class ProtoOpTestContext {
 
     this.backendHint = test.backend!;
     this.ioBindingMode = test.ioBinding;
-    this.loadedData = onnx.ModelProto.encode(model).finish();
+    this.loadedData = onnx.ModelProto.encode(model).finish().slice();
 
     // in debug mode, open a new tab in browser for the generated onnx model.
     if (ort.env.debug) {
diff --git a/onnxruntime/contrib_ops/cpu/quantization/matmul_nbits.cc b/onnxruntime/contrib_ops/cpu/quantization/matmul_nbits.cc
index 320a05bb97dac..b060d500c6484 100644
--- a/onnxruntime/contrib_ops/cpu/quantization/matmul_nbits.cc
+++ b/onnxruntime/contrib_ops/cpu/quantization/matmul_nbits.cc
@@ -20,30 +20,158 @@ class MatMulNBits final : public OpKernel {
         K_{narrow<size_t>(info.GetAttr<int64_t>("K"))},
         N_{narrow<size_t>(info.GetAttr<int64_t>("N"))},
         block_size_{narrow<size_t>(info.GetAttr<int64_t>("block_size"))},
-        nbits_{narrow<size_t>(info.GetAttr<int64_t>("bits"))} {
+        nbits_{narrow<size_t>(info.GetAttr<int64_t>("bits"))},
+        accuracy_level_{info.GetAttr<int64_t>("accuracy_level")} {
     ORT_ENFORCE(nbits_ == 4,
                 "Only 4b quantization is supported for MatMulNBits op, additional bits support is planned.");
+    is_asym_ = info.GetInputCount() >= 4;
+    const Tensor* tensor_B = nullptr;
+    const Tensor* tensor_scale = nullptr;
+    const Tensor* tensor_zero_point = nullptr;
+    bool B_constant = info.TryGetConstantInput(1, &tensor_B);
+    bool scale_constant = info.TryGetConstantInput(2, &tensor_scale);
+    bool zero_point_constant = info.TryGetConstantInput(3, &tensor_zero_point);
+    all_constant_ = B_constant && scale_constant;
+    all_constant_ = is_asym_ ? all_constant_ && zero_point_constant : all_constant_;
   }
 
   Status Compute(OpKernelContext* context) const override;
 
+  Status PrePack(const Tensor& tensor, int input_idx, AllocatorPtr alloc,
+                 /*out*/ bool& is_packed,
+                 /*out*/ PrePackedWeights* prepacked_weights) override;
+
+  Status UseSharedPrePackedBuffers(std::vector<BufferUniquePtr>& prepacked_buffers, int input_idx,
+                                   /*out*/ bool& used_shared_buffers) override;
+
  private:
   const size_t K_;
   const size_t N_;
   const size_t block_size_;
   const size_t nbits_;
+  const int64_t accuracy_level_;
   const bool column_wise_quant_{true};
+  IAllocatorUniquePtr<void> packed_b_;
+  size_t packed_b_size_{0};
+  bool is_asym_{false};
+  bool all_constant_{false};
 };
 
+Status MatMulNBits::PrePack(const Tensor& tensor, int input_idx, /*out*/ AllocatorPtr alloc,
+                            /*out*/ bool& is_packed,
+                            /*out*/ PrePackedWeights* prepacked_weights) {
+  is_packed = false;
+  if (!all_constant_) {
+    return Status::OK();
+  }
+  auto compt_type = static_cast<MLAS_SQNBIT_COMPUTE_TYPE>(accuracy_level_);
+  MLAS_THREADPOOL* pool = NULL;
+  if (input_idx == 1) {
+    packed_b_size_ = MlasNBitsGemmPackBSize(N_, K_, block_size_, static_cast<int>(nbits_), is_asym_, compt_type);
+    if (packed_b_size_ == 0) return Status::OK();
+    auto qptr = tensor.Data<uint8_t>();
+    packed_b_ = IAllocator::MakeUniquePtr<void>(alloc, packed_b_size_, true);
+    if (packed_b_ == nullptr) {
+      return Status::OK();
+    }
+    std::memset(packed_b_.get(), 0, packed_b_size_);
+    MlasNBitsGemmPackB(packed_b_.get(), qptr, nullptr, nullptr, N_, K_, K_, block_size_, static_cast<int>(nbits_),
+                       is_asym_, false, compt_type, pool);
+    if (prepacked_weights) {
+      prepacked_weights->buffers_.push_back(std::move(packed_b_));
+      prepacked_weights->buffer_sizes_.push_back(packed_b_size_);
+    }
+    is_packed = true;
+  }
+  if (input_idx == 2 && packed_b_ != nullptr) {
+    auto sptr = tensor.Data<float>();
+    MlasNBitsGemmPackB(packed_b_.get(), nullptr, sptr, nullptr, N_, K_, K_, block_size_, static_cast<int>(nbits_),
+                       is_asym_, !is_asym_, compt_type, pool);
+    if (prepacked_weights) {
+      prepacked_weights->buffers_.push_back(std::move(packed_b_));
+      prepacked_weights->buffer_sizes_.push_back(packed_b_size_);
+    }
+    is_packed = true;
+  }
+  if (input_idx == 3 && packed_b_ != nullptr) {
+    auto zptr = tensor.Data<uint8_t>();
+    MlasNBitsGemmPackB(packed_b_.get(), nullptr, nullptr, zptr, N_, K_, K_, block_size_, static_cast<int>(nbits_),
+                       is_asym_, is_asym_, compt_type, pool);
+    if (prepacked_weights) {
+      prepacked_weights->buffers_.push_back(std::move(packed_b_));
+      prepacked_weights->buffer_sizes_.push_back(packed_b_size_);
+    }
+    is_packed = true;
+  }
+
+  return Status::OK();
+}
+
+Status MatMulNBits::UseSharedPrePackedBuffers(std::vector<BufferUniquePtr>& prepacked_buffers, int input_idx,
+                                              /*out*/ bool& used_shared_buffers) {
+  used_shared_buffers = false;
+  // Pack three tensors into one buffer
+  if (input_idx == 1) {
+    used_shared_buffers = true;
+    packed_b_ = std::move(prepacked_buffers[0]);
+  }
+  if (input_idx == 2) {
+    used_shared_buffers = true;
+    packed_b_ = std::move(prepacked_buffers[0]);
+  }
+  if (input_idx == 3) {
+    used_shared_buffers = true;
+    packed_b_ = std::move(prepacked_buffers[0]);
+  }
+  return Status::OK();
+}
+
 Status MatMulNBits::Compute(OpKernelContext* ctx) const {
   concurrency::ThreadPool* thread_pool = ctx->GetOperatorThreadPool();
 
   const Tensor* a = ctx->Input<Tensor>(0);
+  const auto* a_data = a->Data<float>();
+
+  if (packed_b_.get()) {
+    TensorShape b_shape({static_cast<int64_t>(N_), static_cast<int64_t>(K_)});
+
+    MatMulComputeHelper helper;
+    ORT_RETURN_IF_ERROR(helper.Compute(a->Shape(), b_shape, false, true));
+
+    Tensor* y = ctx->Output(0, helper.OutputShape());
+
+    // Bail out early if the output is going to be empty
+    if (y->Shape().Size() == 0) return Status::OK();
+
+    auto* y_data = y->MutableData<float>();
+
+    const size_t max_len = helper.OutputOffsets().size();
+    const size_t M = static_cast<size_t>(helper.M());
+    const size_t N = static_cast<size_t>(helper.N());
+    const size_t K = static_cast<size_t>(helper.K());
+    const size_t lda = helper.Lda(false);
+    std::vector<MLAS_SQNBITS_GEMM_DATA_PACKED_PARAMS> gemm_params(max_len);
+    AllocatorPtr allocator;
+    auto status = ctx->GetTempSpaceAllocator(&allocator);
+    ORT_RETURN_IF_ERROR(status);
+    for (size_t i = 0; i < max_len; i++) {
+      gemm_params[i].A = a_data + helper.LeftOffsets()[i];
+      gemm_params[i].lda = lda;
+      gemm_params[i].B = packed_b_.get();
+      gemm_params[i].C = y_data + helper.OutputOffsets()[i];
+      gemm_params[i].ldc = N;
+    }
+    auto ws_size = MlasSQNBitsGemmBatchWorkspaceSize(M, N, K, max_len, gemm_params.data());
+    // workspace for activation process(dynamic quantization and others)
+    auto ws_ptr = IAllocator::MakeUniquePtr<int8_t>(allocator, ws_size);
+    MlasSQNBitsGemmBatchPackedB(M, N, K, max_len, gemm_params.data(), ws_ptr.get(),
+                                thread_pool);
+    return Status::OK();
+  }
+
   const Tensor* b = ctx->Input<Tensor>(1);
   const Tensor* scales = ctx->Input<Tensor>(2);
   const Tensor* zero_points = ctx->Input<Tensor>(3);
-
-  const auto* a_data = a->Data<float>();
   const uint8_t* b_data = b->Data<uint8_t>();
   const auto* scales_data = scales->Data<float>();
   const auto* zero_points_data = zero_points == nullptr ? nullptr : zero_points->Data<uint8_t>();
diff --git a/onnxruntime/core/graph/contrib_ops/contrib_defs.cc b/onnxruntime/core/graph/contrib_ops/contrib_defs.cc
index 26fca454c96f0..54eb43753931a 100644
--- a/onnxruntime/core/graph/contrib_ops/contrib_defs.cc
+++ b/onnxruntime/core/graph/contrib_ops/contrib_defs.cc
@@ -3359,6 +3359,13 @@ Input zero_points is stored as uint8_t. If bits <= 4, two zero points are stored
       .Attr("N", "size of each output feature", AttributeProto::INT)
       .Attr("bits", "number of bits used for weight quantization (default 4)", AttributeProto::INT)
       .Attr("block_size", "number of groupsize used for weight quantization,(default 128). It needs to be a power of 2 and not smaller than 16.", AttributeProto::INT)
+      .Attr("accuracy_level",
+            "The minimum accuracy level of input A, can be: 0(unset), 1(fp32), 2(fp16), 3(bf16), or 4(int8) "
+            "(default unset). It is used to control how input A is quantized or downcast internally while "
+            "doing computation, for example: 0 means input A will not be quantized or downcast while doing "
+            "computation. 4 means input A can be quantized with the same block_size to int8 internally from "
+            "type T1.",
+            AttributeProto::INT, static_cast<int64_t>(0))
       .Input(0, "A", "The input tensor, not quantized", "T1")
       .Input(1, "B", "1-dimensional data blob", "T2")
       .Input(2, "scales", "quantization scale", "T1")
diff --git a/onnxruntime/core/mlas/inc/mlas_qnbit.h b/onnxruntime/core/mlas/inc/mlas_qnbit.h
index 9620dd42d1da9..1e83dd1cec400 100644
--- a/onnxruntime/core/mlas/inc/mlas_qnbit.h
+++ b/onnxruntime/core/mlas/inc/mlas_qnbit.h
@@ -77,3 +77,144 @@ MlasIsSQNBitGemmAvailable(
     size_t BlkBitWidth,
     size_t BlkLen
 );
+
+/**
+ * @brief Define compute types of block quantization
+ */
+typedef enum {
+    CompUndef = 0, /*!< undef */
+    CompFp32 = 1,  /*!< input fp32, accumulator fp32 */
+    CompFp16 = 2,  /*!< input fp16, accumulator fp16 */
+    CompBf16 = 3,  /*!< input bf16, accumulator fp32 */
+    CompInt8 = 4   /*!< input int8, accumulator int32 */
+} MLAS_SQNBIT_COMPUTE_TYPE;
+
+/**
+ * @brief Data parameters for NBits GEMM routine
+ *        C = A * B
+ *        A, C must be a float32 matrix
+ *        B must be a packed nbits blob
+ *        All except C are [in] parameters
+ */
+struct MLAS_SQNBITS_GEMM_DATA_PACKED_PARAMS {
+    const float* A = nullptr; /**< address of A (float32 matrix)*/
+    const void* B = nullptr;  /**< address of B (packed nbits blob)*/
+    float* C = nullptr;       /**< address of result matrix */
+    size_t lda = 0;           /**< leading dimension of A */
+    size_t ldc = 0;           /**< leading dimension of C*/
+};
+
+/**
+ * @brief Compute the byte size of the parameter combination
+ *
+ * @param N      the number of columns of matrix B.
+ * @param K      the number of rows of matrix B.
+ * @param block_size    size of the block to quantize, elements from the same block share the same
+ * scale and zero point
+ * @param nbits  number of bits used for weight quantization
+ * @param is_asym  flag for asymmetric quantization
+ * @param comp_type  specify input data type and accumulator data type
+ * @return size of the packing buffer, 0 if the operation is not yet supported.
+ */
+size_t MLASCALL
+MlasNBitsGemmPackBSize(
+    size_t N, size_t K, size_t block_size, int nbits, bool is_asym, MLAS_SQNBIT_COMPUTE_TYPE comp_type
+);
+
+/**
+ * @brief Prepack tensor data from n-bit quantized data, scale and zero point buffers.
+ *
+ * @param PackedBuf     packed data buffer
+ * @param QData         quantized data buffer
+ * @param Scale         scale pointer
+ * @param Zp            zero point pointer
+ * @param N             the number of columns of matrix B.
+ * @param K             the number of rows of matrix B.
+ * @param ldb           leading dimension of B
+ * @param block_size    size of the block to quantize, elements from the same block share the same
+ * scale and zero point
+ * @param nbits         number of bits used for weight quantization (default 4)
+ * @param is_asym       flag for asymmetric quantization
+ * @param comp_type     specify input data type and accumulator data type
+ * @param last_call     flag to activate the epilogue process of packB. OpKernel::PrePack will query input tensor
+ * one by one: QData, Scale, Zp (if is_asym is true). But kernel prefers to pack all tensors into one blob data where
+ * they can share the common attributes like: block_size. Meanwhile, kernel has some pre-computations to speed up
+ * inference which require that all blob data are ready. So, you need to set this flag to true when passing Scale 
+ * (is_asym is false) and Zp(is_asym is true).
+ * @param thread_pool
+ */
+void MLASCALL
+MlasNBitsGemmPackB(
+    void* PackedBuf,
+    const uint8_t* QData,
+    const float* Scale,
+    const uint8_t* Zp,
+    size_t N,
+    size_t K,
+    size_t ldb,
+    size_t block_size,
+    int nbits,
+    bool is_asym,
+    bool last_call,
+    MLAS_SQNBIT_COMPUTE_TYPE comp_type,
+    MLAS_THREADPOOL* thread_pool
+);
+
+/**
+ * @brief Unpack and dequantize to fp32
+ *
+ * @param FpData     unpacked float32 data
+ * @param PackedBuf  quantized and packed data
+ * @param N          the number of columns of matrix B.
+ * @param K          the number of rows of matrix B.
+ * @param ldb        leading dimension of B
+ * @param thread_pool
+ */
+void MLASCALL
+MlasNBitsGemmUnPackB(
+    float* FpData, const void* PackedBuf, size_t N, size_t K, size_t ldb, MLAS_THREADPOOL* thread_pool
+);
+
+/**
+ * @brief Get the workspace size required by computation.
+ *
+ * @param[in]  M       row size of matrix A and C
+ * @param[in]  N       column size of matrix B and C
+ * @param[in]  K       column size of matrix A and row size of matrix B
+ * @param[in]  BatchN  number of batches
+ * @param[inout]  DataParams  An array (size BatchN) of parameter blocks
+ * @return     Workspace size in bytes
+ */
+size_t MLASCALL
+MlasSQNBitsGemmBatchWorkspaceSize(
+    const size_t M,
+    const size_t N,
+    const size_t K,
+    const size_t BatchN,
+    const MLAS_SQNBITS_GEMM_DATA_PACKED_PARAMS* DataParams
+);
+
+/**
+ * @brief Batched GEMM:  C = A * B
+ *        A, C must be a float32 matrix
+ *        B must be a packed nbits blob
+ *
+ * @param[in]  M       row size of matrix A and C
+ * @param[in]  N       column size of matrix B and C
+ * @param[in]  K       column size of matrix A and row size of matrix B
+ * @param[in]  BatchN  number of batches
+ * @param[inout]  DataParams  An array (size BatchN) of parameter blocks
+ * @param[in]  WorkSpace  temporary buffer
+ * @param[in]  ThreadPool
+ * @return
+ */
+void MLASCALL
+MlasSQNBitsGemmBatchPackedB(
+    const size_t M,
+    const size_t N,
+    const size_t K,
+    const size_t BatchN,
+    const MLAS_SQNBITS_GEMM_DATA_PACKED_PARAMS* DataParams,
+    void* WorkSpace,
+    MLAS_THREADPOOL* ThreadPool = nullptr
+);
diff --git a/onnxruntime/core/mlas/lib/jblas_defs.h b/onnxruntime/core/mlas/lib/jblas_defs.h
new file mode 100644
index 0000000000000..9cd1711a3ffd2
--- /dev/null
+++ b/onnxruntime/core/mlas/lib/jblas_defs.h
@@ -0,0 +1,73 @@
+/*++
+
+Copyright (c) Microsoft Corporation. All rights reserved.
+
+Licensed under the MIT License.
+
+--*/
+
+#pragma once
+
+#include "jblas/jit_blas_prologue_b.h"
+#include "jblas/jit_blas_wrapper.h"
+
+namespace jblas
+{
+
+/*
+Name conversion explaination:
+Fp32:   comp type, determined by GemmCore, can be any jblas::gemm::SCorexxx(float GemmCore)
+S4:     weight dtype, determined by jblas::prologue_b::gemm::WeightKBlockS4(also support other integer and float weight
+classes)
+F32F32: input/output dtype, determined by jblas::prologue_a::gemm::ActivationKBlockBaseF32 and
+jblas::epilogue::gemm::AccumulatorWriteBackFp32.
+
+Tips: jblas::epilogue::gemm::CompFp32BlockEpilogue is a fixed class for all fp32 accumulator GemmCores.
+*/
+template <class GemmCore_T>
+using tLauncher_Fp32_S4_F32F32 = jblas::wrapper::gemm::LauncherKBlock<
+    GemmCore_T::ISA,
+    GemmCore_T,
+    jblas::prologue_a::gemm::ActivationKBlockBaseF32,
+    jblas::prologue_b::gemm::WeightKBlockS4,
+    jblas::epilogue::gemm::CompFp32BlockEpilogue,
+    jblas::epilogue::gemm::AccumulatorWriteBackFp32>;
+
+/*
+Name conversion explaination:
+Int8:   comp type, determined by GemmCore, can be any jblas::gemm::ICorexxx(integer GemmCore)
+S4:     weight dtype, determined by jblas::prologue_b::gemm::WeightKBlockS4(support integer weight classes only)
+F32F32: input/output dtype, determined by jblas::prologue_a::gemm::ActivationKBlockBaseF32 and
+jblas::epilogue::gemm::AccumulatorWriteBackFp32.
+
+Tips: jblas::epilogue::gemm::CompInt8BlockEpilogue is a fixed class for all int32 accumulator GemmCores.
+*/
+template <class GemmCore_T>
+using tLauncher_Int8_S4_F32F32 = jblas::wrapper::gemm::LauncherKBlock<
+    GemmCore_T::ISA,
+    GemmCore_T,
+    jblas::prologue_a::gemm::ActivationF32KBlockQuantize,
+    jblas::prologue_b::gemm::WeightKBlockS4,
+    jblas::epilogue::gemm::CompInt8BlockEpilogue,
+    jblas::epilogue::gemm::AccumulatorWriteBackFp32>;
+
+using tAVX512F = jblas::gemm::SCoreRowNAvx512f<48, 8>;
+using tAMX_BF16 = jblas::gemm::HCoreRowNAmxbf16<64, 16>;
+using tAVX512_FP16 = jblas::gemm::HCoreRowNAvx512fp16<96, 8>;
+using tAVX_VNNI = jblas::gemm::ICoreRowNAvxvnni<48, 2>;  // TODO(Yu) use 24x4 for higher efficiency
+using tAVX512_VNNI = jblas::gemm::ICoreRowNAvx512vnni<48, 8>;
+using tAMX_INT8_US = jblas::gemm::ICoreRowNAmxint8<64, 16>;
+using tAMX_INT8_SS = jblas::gemm::ICoreRowNAmxint8SS<64, 16>;
+using tAVX2 = jblas::gemm::SCoreRowNAvx2<48, 2>;  // TODO(Yu) use 24x4 for higher efficiency
+
+class ORTThreading : public jblas::parallel::IThreading
+{
+   public:
+    ORTThreading(void* tp);
+    void parallel_for(const jblas::parallel::thread_func& func) override;
+    void set_threads(int nthreads) override { assert(0); }
+    void sync() override { assert(0); }
+    void* mTp;
+};
+
+}  // namespace jblas
diff --git a/onnxruntime/core/mlas/lib/jblas_gemm.cpp b/onnxruntime/core/mlas/lib/jblas_gemm.cpp
new file mode 100644
index 0000000000000..f3cae3186c28e
--- /dev/null
+++ b/onnxruntime/core/mlas/lib/jblas_gemm.cpp
@@ -0,0 +1,534 @@
+/*++
+
+Copyright (c) Microsoft Corporation. All rights reserved.
+
+Licensed under the MIT License.
+
+Module Name:
+
+    jblas_gemm.cpp
+
+Abstract:
+
+    Currently only support Q4 gemm.
+--*/
+
+#include "jblas_gemm.h"
+
+#include "jblas_defs.h"
+#include "mlasi.h"
+
+using namespace jblas;
+
+jblas::ORTThreading::ORTThreading(void* tp)
+    : IThreading(MLAS_THREADPOOL::DegreeOfParallelism(reinterpret_cast<MLAS_THREADPOOL*>(tp))), mTp(tp)
+{
+}
+
+void
+jblas::ORTThreading::parallel_for(const jblas::parallel::thread_func& func)
+{
+    MlasTrySimpleParallel(reinterpret_cast<MLAS_THREADPOOL*>(mTp), mThreadNum, [&](ptrdiff_t tid) {
+        func(static_cast<int>(tid));
+    });
+}
+
+template <class GemmCore_T>
+static void
+JblasSQ4GemmCompF32(
+    const size_t M,
+    const size_t N,
+    const size_t K,
+    const float* A,
+    const size_t lda,
+    jblas::storage::gemm::StorageWeightKBlockS4* B,
+    float* C,
+    const size_t ldc,
+    int8_t* WorkSpace,
+    jblas::parallel::IThreading* th
+)
+{
+    auto M_ = static_cast<int>(M);
+    auto N_ = static_cast<int>(N);
+    auto K_ = static_cast<int>(K);
+    auto lda_ = static_cast<int>(lda);
+    auto ldc_ = static_cast<int>(ldc);
+    if (M <= 16) {
+        using Parallel = jblas::parallel::gemm::SchedulerKBlock<GemmCore_T>;
+        using Launcher = tLauncher_Fp32_S4_F32F32<GemmCore_T>;
+        static Launcher kernel;
+        auto reduceA = kernel.mProA.createStorage(M_, K_, B->mBlockSize);
+        if (B->mIsAsym) {
+            reduceA.assign(WorkSpace);
+            ORTThreading single(nullptr);
+            kernel.mProA.reduce({A, lda_}, &reduceA, M_, K_, &single);
+        }
+        typename Launcher::BEpiParam blkargs{
+            B->template SPtr<int8_t>(),    B->mScaT,   B->mCStep, B->template ZPtr<int8_t>(),
+            reduceA.template get<float>(), reduceA.lda};
+
+        typename Launcher::Param args{M_, N_, K_, B->mBlockSize, {A, lda_}, {B}, blkargs, {C, ldc_}};
+        jblas::parallel::GemmKBlockRun<Parallel>(kernel, args, th);
+    } else {
+        using Parallel = jblas::parallel::gemm::SchedulerBase<GemmCore_T>;
+        using Launcher = jblas::wrapper::gemm::LauncherBase<
+            GemmCore_T::ISA, GemmCore_T, jblas::prologue_a::gemm::ActivationBase,
+            jblas::prologue_b::gemm::WeightKBlockS4, jblas::epilogue::gemm::AccumulatorWriteBackFp32>;
+        static Launcher kernel;
+
+        typename Launcher::Param args{M_, N_, K_, {A, lda_}, {B}, {C, ldc_}};
+        jblas::parallel::GemmBaseRun<Parallel>(kernel, args, th);
+    }
+}
+
+template <class GemmCore_T>
+static void
+JblasSQ4GemmCompInt8(
+    const size_t M,
+    const size_t N,
+    const size_t K,
+    const float* A,
+    const size_t lda,
+    jblas::storage::gemm::StorageWeightKBlockS4* B,
+    float* C,
+    const size_t ldc,
+    int8_t* WorkSpace,
+    jblas::parallel::IThreading* th
+)
+{
+    using Parallel = jblas::parallel::gemm::SchedulerKBlock<GemmCore_T>;
+    using Launcher = tLauncher_Int8_S4_F32F32<GemmCore_T>;
+    auto M_ = static_cast<int>(M);
+    auto N_ = static_cast<int>(N);
+    auto K_ = static_cast<int>(K);
+    auto lda_ = static_cast<int>(lda);
+    auto ldc_ = static_cast<int>(ldc);
+    static Launcher kernel;
+    auto quanA = kernel.mProA.createStorage(M_, K_, B->mBlockSize, B->mIsAsym);
+    quanA.assign(WorkSpace);
+    if (M <= 16) {
+        ORTThreading single(nullptr);
+        kernel.mProA.quantize({A, lda_, &quanA}, M_, K_, &single);
+    } else {
+        kernel.mProA.quantize({A, lda_, &quanA}, M_, K_, th);
+    }
+    typename Launcher::Param args{
+        M_,
+        N_,
+        K_,
+        B->mBlockSize,
+        {A, lda_, &quanA},
+        {B},
+        {B->template SPtr<int8_t>(), B->mScaT, B->mCStep, quanA.template SPtr<float>(), quanA.mCStep,
+         quanA.template ZPtr<uint8_t>(), B->template RPtr<float>(), B->mRedT, B->template ZPtr<int8_t>(),
+         quanA.template RPtr<float>(), B->mBlockSize},
+        {C, ldc_}};
+    jblas::parallel::GemmKBlockRun<Parallel>(kernel, args, th);
+}
+
+bool
+JblasSQ4GemmBatchDriver(
+    const size_t M,
+    const size_t N,
+    const size_t K,
+    const size_t BatchN,
+    const MLAS_SQNBITS_GEMM_DATA_PACKED_PARAMS* DataParams,
+    int8_t* WorkSpace,
+    MLAS_THREADPOOL* ThreadPool
+)
+{
+    GetCPUDevice();
+    ORTThreading orth(ThreadPool);
+    bool processed = true;
+    for (size_t i = 0; i < BatchN; i++) {
+        auto ptr = jblas::storage::gemm::PackedWeightParser::deserialBuffer(DataParams[i].B);
+        auto uptr = std::unique_ptr<jblas::storage::gemm::WeightBase>(ptr);
+        if (ptr) {
+            if (ptr->mPrologueID == JBLAS_PROLOGUEB_IDS::WeightKBlockS4) {
+                auto kptr = reinterpret_cast<jblas::storage::gemm::StorageWeightKBlockS4*>(ptr);
+                auto coretype = ptr->mCoreId;
+                auto NTile = jblas::gemm::CoreAttr::get_mask_val(
+                    ptr->mCoreId, jblas::gemm::CoreAttr::NTILE_MASK, jblas::gemm::CoreAttr::NTILE_SHIFT
+                );
+                auto CType = jblas::gemm::CoreAttr::get_mask_val(
+                    ptr->mCoreId, jblas::gemm::CoreAttr::COMP_MASK, jblas::gemm::CoreAttr::COMP_SHIFT
+                );
+                if (CType == uint32_t(gemm::CompType::COMP_FP32)) {
+                    if (NTile == tAVX512F::NTILE && _cd->AVX512F()) {
+                        JblasSQ4GemmCompF32<tAVX512F>(
+                            M, N, K, DataParams[i].A, DataParams[i].lda, kptr, DataParams[i].C, DataParams[i].ldc,
+                            WorkSpace, &orth
+                        );
+                    } else if (NTile == tAVX2::NTILE && _cd->AVX2()) {
+                        JblasSQ4GemmCompF32<tAVX2>(
+                            M, N, K, DataParams[i].A, DataParams[i].lda, kptr, DataParams[i].C, DataParams[i].ldc,
+                            WorkSpace, &orth
+                        );
+                    }
+                }
+                if (CType == uint32_t(gemm::CompType::COMP_INT8_US_INT32)) {
+                    if (NTile == tAMX_INT8_US::NTILE && _cd->AMX_INT8()) {
+                        JblasSQ4GemmCompInt8<tAMX_INT8_US>(
+                            M, N, K, DataParams[i].A, DataParams[i].lda, kptr, DataParams[i].C, DataParams[i].ldc,
+                            WorkSpace, &orth
+                        );
+                    } else if (NTile == tAVX512_VNNI::NTILE && _cd->AVX512_VNNI()) {
+                        JblasSQ4GemmCompInt8<tAVX512_VNNI>(
+                            M, N, K, DataParams[i].A, DataParams[i].lda, kptr, DataParams[i].C, DataParams[i].ldc,
+                            WorkSpace, &orth
+                        );
+                    } else if (NTile == tAVX_VNNI::NTILE && _cd->AVX_VNNI()) {
+                        JblasSQ4GemmCompInt8<tAVX_VNNI>(
+                            M, N, K, DataParams[i].A, DataParams[i].lda, kptr, DataParams[i].C, DataParams[i].ldc,
+                            WorkSpace, &orth
+                        );
+                    }
+                }
+                if (CType == uint32_t(gemm::CompType::COMP_INT8_SS_INT32)) {
+                    if (NTile == tAMX_INT8_SS::NTILE && _cd->AMX_INT8()) {
+                        JblasSQ4GemmCompInt8<tAMX_INT8_SS>(
+                            M, N, K, DataParams[i].A, DataParams[i].lda, kptr, DataParams[i].C, DataParams[i].ldc,
+                            WorkSpace, &orth
+                        );
+                    }
+                }
+            }
+        } else {
+            processed = false;
+            break;
+        }
+    }
+    return processed;
+}
+
+template <class GemmCore_T>
+static size_t
+JblasSQ4GemmCompF32WorkspaceSize(
+    const size_t M,
+    const size_t N,
+    const size_t K,
+    const float* A,
+    const size_t lda,
+    jblas::storage::gemm::StorageWeightKBlockS4* B,
+    float* C,
+    const size_t ldc
+)
+{
+    auto M_ = static_cast<int>(M);
+    auto K_ = static_cast<int>(K);
+    (void)(N);
+    (void)(lda);
+    (void)(ldc);
+    if (M <= 16) {
+        using Launcher = tLauncher_Fp32_S4_F32F32<GemmCore_T>;
+        static Launcher kernel;
+        if (B->mIsAsym) {
+            auto reduceA = kernel.mProA.createStorage(M_, K_, B->mBlockSize);
+            return reduceA.mSize;
+        }
+        return 0;
+    } else {
+        using Launcher = jblas::wrapper::gemm::LauncherBase<
+            GemmCore_T::ISA, GemmCore_T, jblas::prologue_a::gemm::ActivationBase,
+            jblas::prologue_b::gemm::WeightKBlockS4, jblas::epilogue::gemm::AccumulatorWriteBackFp32>;
+        static Launcher kernel;
+        return 0;
+    }
+    return 0;
+}
+
+template <class GemmCore_T>
+static size_t
+JblasSQ4GemmCompInt8WorkspaceSize(
+    const size_t M,
+    const size_t N,
+    const size_t K,
+    const float* A,
+    const size_t lda,
+    jblas::storage::gemm::StorageWeightKBlockS4* B,
+    float* C,
+    const size_t ldc
+)
+{
+    using Parallel = jblas::parallel::gemm::SchedulerKBlock<GemmCore_T>;
+    using Launcher = tLauncher_Int8_S4_F32F32<GemmCore_T>;
+    static Launcher kernel;
+    (void)(N);
+    (void)(lda);
+    (void)(ldc);
+    auto quanA = kernel.mProA.createStorage(
+        static_cast<int>(M), static_cast<int>(K), static_cast<int>(B->mBlockSize), B->mIsAsym
+    );
+    return quanA.mSize;
+}
+
+size_t
+JblasSQ4GemmBatchWorkspaceSize(
+    const size_t M,
+    const size_t N,
+    const size_t K,
+    const size_t BatchN,
+    const MLAS_SQNBITS_GEMM_DATA_PACKED_PARAMS* DataParams
+)
+{
+    GetCPUDevice();
+    size_t size = 0;
+    for (size_t i = 0; i < BatchN; i++) {
+        auto ptr = jblas::storage::gemm::PackedWeightParser::deserialBuffer(DataParams[i].B);
+        auto uptr = std::unique_ptr<jblas::storage::gemm::WeightBase>(ptr);
+        if (ptr) {
+            if (ptr->mPrologueID == JBLAS_PROLOGUEB_IDS::WeightKBlockS4) {
+                auto kptr = reinterpret_cast<jblas::storage::gemm::StorageWeightKBlockS4*>(ptr);
+                auto coretype = ptr->mCoreId;
+                auto NTile = jblas::gemm::CoreAttr::get_mask_val(
+                    ptr->mCoreId, jblas::gemm::CoreAttr::NTILE_MASK, jblas::gemm::CoreAttr::NTILE_SHIFT
+                );
+                auto CType = jblas::gemm::CoreAttr::get_mask_val(
+                    ptr->mCoreId, jblas::gemm::CoreAttr::COMP_MASK, jblas::gemm::CoreAttr::COMP_SHIFT
+                );
+                if (CType == uint32_t(gemm::CompType::COMP_FP32)) {
+                    if (NTile == tAVX512F::NTILE && _cd->AVX512F()) {
+                        size = std::max(
+                            JblasSQ4GemmCompF32WorkspaceSize<tAVX512F>(
+                                M, N, K, DataParams[i].A, DataParams[i].lda, kptr, DataParams[i].C, DataParams[i].ldc
+                            ),
+                            size
+                        );
+                    } else if (NTile == tAVX2::NTILE && _cd->AVX2()) {
+                        size = std::max(
+                            JblasSQ4GemmCompF32WorkspaceSize<tAVX2>(
+                                M, N, K, DataParams[i].A, DataParams[i].lda, kptr, DataParams[i].C, DataParams[i].ldc
+                            ),
+                            size
+                        );
+                    }
+                }
+                if (CType == uint32_t(gemm::CompType::COMP_INT8_US_INT32)) {
+                    if (NTile == tAMX_INT8_US::NTILE && _cd->AMX_INT8()) {
+                        size = std::max(
+                            JblasSQ4GemmCompInt8WorkspaceSize<tAMX_INT8_US>(
+                                M, N, K, DataParams[i].A, DataParams[i].lda, kptr, DataParams[i].C, DataParams[i].ldc
+                            ),
+                            size
+                        );
+                    } else if (NTile == tAVX512_VNNI::NTILE && _cd->AVX512_VNNI()) {
+                        size = std::max(
+                            JblasSQ4GemmCompInt8WorkspaceSize<tAVX512_VNNI>(
+                                M, N, K, DataParams[i].A, DataParams[i].lda, kptr, DataParams[i].C, DataParams[i].ldc
+                            ),
+                            size
+                        );
+                    } else if (NTile == tAVX_VNNI::NTILE && _cd->AVX_VNNI()) {
+                        size = std::max(
+                            JblasSQ4GemmCompInt8WorkspaceSize<tAVX_VNNI>(
+                                M, N, K, DataParams[i].A, DataParams[i].lda, kptr, DataParams[i].C, DataParams[i].ldc
+                            ),
+                            size
+                        );
+                    }
+                }
+                if (CType == uint32_t(gemm::CompType::COMP_INT8_SS_INT32)) {
+                    if (NTile == tAMX_INT8_SS::NTILE && _cd->AMX_INT8()) {
+                        size = std::max(
+                            JblasSQ4GemmCompInt8WorkspaceSize<tAMX_INT8_SS>(
+                                M, N, K, DataParams[i].A, DataParams[i].lda, kptr, DataParams[i].C, DataParams[i].ldc
+                            ),
+                            size
+                        );
+                    }
+                }
+            }
+        }
+    }
+    return size;
+}
+
+template <typename T>
+static size_t
+JblasQ4BuSize(size_t block_size, size_t N, size_t K, bool isAsym)
+{
+    static T launcher;
+    auto stor = launcher.mProB.createStorage(
+        static_cast<int>(N), static_cast<int>(K), static_cast<int>(block_size), JBLAS_DTYPE::S4_CLIP, JBLAS_DTYPE::F32,
+        JBLAS_DTYPE::BF16, isAsym
+    );
+    // TODO(Yu) support more scale dtype
+    return stor.mSize;
+}
+
+size_t
+JblasQ4GemmPackBSize(size_t N, size_t K, size_t BlkSize, bool isAsym, MLAS_SQNBIT_COMPUTE_TYPE CompType)
+{
+    GetCPUDevice();
+    if (K % BlkSize != 0) {
+        return 0;
+    }
+    // from low precision to high precision
+    switch (CompType) {
+        case CompInt8:
+            if (_cd->AMX_INT8() && BlkSize % tAMX_INT8_SS::KTILE == 0) {
+                return JblasQ4BuSize<tLauncher_Int8_S4_F32F32<tAMX_INT8_SS>>(BlkSize, N, K, isAsym);
+            }
+            if (_cd->AVX512_VNNI() && BlkSize % tAVX512_VNNI::KTILE == 0) {
+                return JblasQ4BuSize<tLauncher_Int8_S4_F32F32<tAVX512_VNNI>>(BlkSize, N, K, isAsym);
+            }
+            if (_cd->AVX_VNNI() && BlkSize % tAVX_VNNI::KTILE == 0) {
+                return JblasQ4BuSize<tLauncher_Int8_S4_F32F32<tAVX_VNNI>>(BlkSize, N, K, isAsym);
+            }
+        case CompBf16:
+        case CompFp16:
+        case CompFp32:
+        case CompUndef:
+            if (_cd->AVX512F() && BlkSize % tAVX512F::KTILE == 0) {
+                return JblasQ4BuSize<tLauncher_Int8_S4_F32F32<tAVX512F>>(BlkSize, N, K, isAsym);
+            }
+            if (_cd->AVX2() && BlkSize % tAVX2::KTILE == 0) {
+                return JblasQ4BuSize<tLauncher_Int8_S4_F32F32<tAVX2>>(BlkSize, N, K, isAsym);
+            }
+            break;
+        default:
+            return 0;
+    }
+    return 0;
+}
+
+template <typename T>
+static void
+JblasQ4GemmPackBImpl(
+    void* PackedBuf,
+    size_t BlkSize,
+    const uint8_t* QData,
+    const float* Scale,
+    const uint8_t* Zp,
+    size_t N,
+    size_t K,
+    bool IsAsym,
+    bool lastCall,
+    size_t ldb,
+    MLAS_THREADPOOL* ThreadPool
+)
+{
+    static T JblasKernel;
+    auto N_ = static_cast<int>(N);
+    auto K_ = static_cast<int>(K);
+    auto stor = JblasKernel.mProB.createStorage(
+        N_, K_, static_cast<int>(BlkSize), JBLAS_DTYPE::S4_CLIP, JBLAS_DTYPE::F32, JBLAS_DTYPE::BF16, IsAsym
+    );
+    stor.assign(reinterpret_cast<int8_t*>(PackedBuf));
+    ORTThreading orth(ThreadPool);
+    JblasKernel.mProB.packNbitsWeight(N_, K_, IsAsym, QData, static_cast<int>(ldb), Scale, Zp, &stor, &orth);
+    if (lastCall) {
+        JblasKernel.mProB.reduceWeight(&stor, &orth);
+    }
+}
+
+bool
+JblasQ4GemmPackB(
+    void* PackedBuf,
+    const uint8_t* QData,
+    const float* Scale,
+    const uint8_t* Zp,
+    size_t N,
+    size_t K,
+    size_t ldb,
+    size_t BlkSize,
+    bool isAsym,
+    bool lastCall,
+    MLAS_SQNBIT_COMPUTE_TYPE CompType,
+    MLAS_THREADPOOL* ThreadPool
+)
+{
+    GetCPUDevice();
+    // explicit statement fall through.
+    switch (CompType) {
+        case CompInt8:
+            if (_cd->AMX_INT8() && BlkSize % tAMX_INT8_SS::KTILE == 0) {
+                JblasQ4GemmPackBImpl<tLauncher_Int8_S4_F32F32<tAMX_INT8_SS>>(
+                    PackedBuf, BlkSize, QData, Scale, Zp, N, K, isAsym, lastCall, ldb, ThreadPool
+                );
+                return true;
+            }
+            if (_cd->AVX512_VNNI() && BlkSize % tAVX512_VNNI::KTILE == 0) {
+                JblasQ4GemmPackBImpl<tLauncher_Int8_S4_F32F32<tAVX512_VNNI>>(
+                    PackedBuf, BlkSize, QData, Scale, Zp, N, K, isAsym, lastCall, ldb, ThreadPool
+                );
+                return true;
+            }
+            if (_cd->AVX_VNNI() && BlkSize % tAVX_VNNI::KTILE == 0) {
+                JblasQ4GemmPackBImpl<tLauncher_Int8_S4_F32F32<tAVX_VNNI>>(
+                    PackedBuf, BlkSize, QData, Scale, Zp, N, K, isAsym, lastCall, ldb, ThreadPool
+                );
+                return true;
+            }
+        case CompBf16:
+        case CompFp16:
+        case CompFp32:
+        case CompUndef:
+            if (_cd->AVX512F() && BlkSize % tAVX512F::KTILE == 0) {
+                JblasQ4GemmPackBImpl<tLauncher_Fp32_S4_F32F32<tAVX512F>>(
+                    PackedBuf, BlkSize, QData, Scale, Zp, N, K, isAsym, lastCall, ldb, ThreadPool
+                );
+                return true;
+            }
+            if (_cd->AVX2() && BlkSize % tAVX2::KTILE == 0) {
+                JblasQ4GemmPackBImpl<tLauncher_Fp32_S4_F32F32<tAVX2>>(
+                    PackedBuf, BlkSize, QData, Scale, Zp, N, K, isAsym, lastCall, ldb, ThreadPool
+                );
+                return true;
+            }
+        default:
+            return false;
+    }
+    return false;
+}
+
+bool
+JblasQ4GemmUnPackB(float* FpData, const void* PackedBuf, size_t N, size_t K, size_t ldb, MLAS_THREADPOOL* ThreadPool)
+{
+    auto ptr = jblas::storage::gemm::PackedWeightParser::deserialBuffer(PackedBuf);
+    auto uptr = std::unique_ptr<jblas::storage::gemm::WeightBase>(ptr);
+    ORTThreading orth(ThreadPool);
+    auto N_ = static_cast<int>(N);
+    auto K_ = static_cast<int>(K);
+    auto ldb_ = static_cast<int>(ldb);
+    GetCPUDevice();
+    if (ptr) {
+        if (ptr->mPrologueID == JBLAS_PROLOGUEB_IDS::WeightKBlockS4) {
+            auto NTile = jblas::gemm::CoreAttr::get_mask_val(
+                ptr->mCoreId, jblas::gemm::CoreAttr::NTILE_MASK, jblas::gemm::CoreAttr::NTILE_SHIFT
+            );
+            auto CType = jblas::gemm::CoreAttr::get_mask_val(
+                ptr->mCoreId, jblas::gemm::CoreAttr::COMP_MASK, jblas::gemm::CoreAttr::COMP_SHIFT
+            );
+            if (CType == uint32_t(jblas::gemm::CompType::COMP_FP32)) {
+                if (NTile == tAVX512F::NTILE && _cd->AVX512F()) {
+                    static jblas::prologue_b::gemm::WeightKBlockS4<tAVX512F, tAVX512F::ISA> proB;
+                    proB.unpackWeight(N_, K_, ptr, FpData, ldb_, &orth);
+                } else if (NTile == tAVX2::NTILE && _cd->AVX2()) {
+                    static jblas::prologue_b::gemm::WeightKBlockS4<tAVX2, tAVX2::ISA> proB;
+                    proB.unpackWeight(N_, K_, ptr, FpData, ldb_, &orth);
+                }
+            }
+            if (CType == uint32_t(jblas::gemm::CompType::COMP_INT8_US_INT32)) {
+                if (NTile == tAMX_INT8_US::NTILE && _cd->AMX_INT8()) {
+                    static jblas::prologue_b::gemm::WeightKBlockS4<tAMX_INT8_US, tAMX_INT8_US::ISA> proB;
+                    proB.unpackWeight(N_, K_, ptr, FpData, ldb_, &orth);
+                } else if (NTile == tAVX512_VNNI::NTILE && _cd->AVX512_VNNI()) {
+                    static jblas::prologue_b::gemm::WeightKBlockS4<tAVX512_VNNI, tAVX512_VNNI::ISA> proB;
+                    proB.unpackWeight(N_, K_, ptr, FpData, ldb_, &orth);
+                } else if (NTile == tAVX_VNNI::NTILE && _cd->AVX_VNNI()) {
+                    static jblas::prologue_b::gemm::WeightKBlockS4<tAVX_VNNI, tAVX_VNNI::ISA> proB;
+                    proB.unpackWeight(N_, K_, ptr, FpData, ldb_, &orth);
+                }
+            }
+            if (CType == uint32_t(jblas::gemm::CompType::COMP_INT8_SS_INT32)) {
+                if (NTile == tAMX_INT8_SS::NTILE && _cd->AMX_INT8()) {
+                    static jblas::prologue_b::gemm::WeightKBlockS4<tAMX_INT8_SS, tAMX_INT8_SS::ISA> proB;
+                    proB.unpackWeight(N_, K_, ptr, FpData, ldb_, &orth);
+                }
+            }
+        }
+        return true;
+    }
+    return false;
+}
diff --git a/onnxruntime/core/mlas/lib/jblas_gemm.h b/onnxruntime/core/mlas/lib/jblas_gemm.h
new file mode 100644
index 0000000000000..044dc5e849a0a
--- /dev/null
+++ b/onnxruntime/core/mlas/lib/jblas_gemm.h
@@ -0,0 +1,61 @@
+/*++
+
+Copyright (c) Microsoft Corporation. All rights reserved.
+
+Licensed under the MIT License.
+
+Module Name:
+
+    jblas_gemm.h
+
+Abstract:
+
+    Currently only support Q4 gemm.
+--*/
+
+#pragma once
+
+#include "mlas_qnbit.h"
+
+size_t
+JblasQ4GemmPackBSize(size_t N, size_t K, size_t BlkSize, bool isAsym, MLAS_SQNBIT_COMPUTE_TYPE CompType);
+
+bool
+JblasQ4GemmPackB(
+    void* PackedBuf,
+    const uint8_t* QData,
+    const float* Scale,
+    const uint8_t* Zp,
+    size_t N,
+    size_t K,
+    size_t ldb,
+    size_t BlkSize,
+    bool isAsym,
+    bool lastCall,
+    MLAS_SQNBIT_COMPUTE_TYPE CompType,
+    MLAS_THREADPOOL* ThreadPool
+);
+
+bool
+JblasQ4GemmUnPackB(float* FpData, const void* PackedBuf, size_t N, size_t K, size_t ldb
+	, MLAS_THREADPOOL* ThreadPool);
+
+bool
+JblasSQ4GemmBatchDriver(
+    const size_t M,
+    const size_t N,
+    const size_t K,
+    const size_t BatchN,
+    const MLAS_SQNBITS_GEMM_DATA_PACKED_PARAMS* DataParams,
+    int8_t* WorkSpace,
+    MLAS_THREADPOOL* ThreadPool
+);
+
+size_t
+JblasSQ4GemmBatchWorkspaceSize(
+    const size_t M,
+    const size_t N,
+    const size_t K,
+    const size_t BatchN,
+    const MLAS_SQNBITS_GEMM_DATA_PACKED_PARAMS* DataParams
+);
diff --git a/onnxruntime/core/mlas/lib/mlasi.h b/onnxruntime/core/mlas/lib/mlasi.h
index 7bda1bb504173..7bb8b17031a84 100644
--- a/onnxruntime/core/mlas/lib/mlasi.h
+++ b/onnxruntime/core/mlas/lib/mlasi.h
@@ -50,7 +50,9 @@ Module Name:
 #include <arm_neon.h>
 #endif
 #if defined(__x86_64__) || defined(__i386__)
+#if !defined(signature_VORTEX_ebx) && !defined(signature_NEXGEN_ebx) && !defined(signature_AMD_ebx)//workaround for Bug 96238 - [i386] cpuid.h header needs include guards
 #include <cpuid.h>
+#endif
 #if defined(__GNUC__) && __GNUC__ >= 12
 #pragma GCC diagnostic push
 #pragma GCC diagnostic ignored "-Wmaybe-uninitialized"  // GCC 12 warns about uninitialized variables in immintrin.h.
diff --git a/onnxruntime/core/mlas/lib/sqnbitgemm.cpp b/onnxruntime/core/mlas/lib/sqnbitgemm.cpp
index f964b1affec31..7f1d1b084aec0 100644
--- a/onnxruntime/core/mlas/lib/sqnbitgemm.cpp
+++ b/onnxruntime/core/mlas/lib/sqnbitgemm.cpp
@@ -15,6 +15,9 @@ Module Name:
 --*/
 
 #include "sqnbitgemm.h"
+#ifdef MLAS_JBLAS
+#include "jblas_gemm.h"
+#endif
 
 namespace
 {
@@ -142,3 +145,127 @@ MlasIsSQNBitGemmAvailable(
 
     return true;
 }
+
+size_t MLASCALL
+MlasNBitsGemmPackBSize(
+    size_t N, size_t K, size_t BlkSize, int nbits, bool isAsym, MLAS_SQNBIT_COMPUTE_TYPE CompType
+)
+{
+#ifdef MLAS_JBLAS
+    if (nbits == 4) {
+        auto jsize = JblasQ4GemmPackBSize(N, K, BlkSize, isAsym, CompType);
+        if (jsize) {
+            return jsize;
+        }
+    }
+#endif
+    (void)(N);
+    (void)(K);
+    (void)(BlkSize);
+    (void)(nbits);
+    (void)(isAsym);
+    (void)(CompType);
+    return 0;
+}
+
+void MLASCALL
+MlasNBitsGemmPackB(
+    void* PackedBuf,
+    const uint8_t* QData,
+    const float* Scale,
+    const uint8_t* Zp,
+    size_t N,
+    size_t K,
+    size_t ldb,
+    size_t BlkSize,
+    int nbits,
+    bool isAsym,
+    bool lastCall,
+    MLAS_SQNBIT_COMPUTE_TYPE CompType,
+    MLAS_THREADPOOL* ThreadPool
+)
+{
+#ifdef MLAS_JBLAS
+    if (nbits == 4) {
+        if (JblasQ4GemmPackB(PackedBuf, QData, Scale, Zp, N, K, ldb, BlkSize, isAsym, lastCall, CompType, ThreadPool)) {
+            return;
+        }
+    }
+#endif
+    (void)(PackedBuf);
+    (void)(QData);
+    (void)(Scale);
+    (void)(Zp);
+    (void)(N);
+    (void)(K);
+    (void)(ldb);
+    (void)(BlkSize);
+    (void)(nbits);
+    (void)(isAsym);
+    (void)(lastCall);
+    (void)(CompType);
+    (void)(ThreadPool);
+}
+
+void MLASCALL
+MlasNBitsGemmUnPackB(float* FpData, const void* PackedBuf, size_t N, size_t K, size_t ldb, MLAS_THREADPOOL* ThreadPool)
+{
+#ifdef MLAS_JBLAS
+    if (JblasQ4GemmUnPackB(FpData, PackedBuf, N, K, ldb, ThreadPool)) {
+        return;
+    }
+#endif
+    (void)(FpData);
+    (void)(PackedBuf);
+    (void)(N);
+    (void)(K);
+    (void)(ldb);
+    (void)(ThreadPool);
+}
+
+size_t MLASCALL
+MlasSQNBitsGemmBatchWorkspaceSize(
+    const size_t M,
+    const size_t N,
+    const size_t K,
+    const size_t BatchN,
+    const MLAS_SQNBITS_GEMM_DATA_PACKED_PARAMS* DataParams
+)
+{
+#ifdef MLAS_JBLAS
+    return JblasSQ4GemmBatchWorkspaceSize(M, N, K, BatchN, DataParams);
+#endif
+    (void)(M);
+    (void)(N);
+    (void)(K);
+    (void)(BatchN);
+    (void)(DataParams);
+    return 0;
+}
+
+void MLASCALL
+MlasSQNBitsGemmBatchPackedB(
+    const size_t M,
+    const size_t N,
+    const size_t K,
+    const size_t BatchN,
+    const MLAS_SQNBITS_GEMM_DATA_PACKED_PARAMS* DataParams,
+    void* WorkSpace,
+    MLAS_THREADPOOL* ThreadPool
+)
+{
+    GetMlasPlatform();
+#ifdef MLAS_JBLAS
+    if (JblasSQ4GemmBatchDriver(M, N, K, BatchN, DataParams, reinterpret_cast<int8_t*>(WorkSpace), ThreadPool)) {
+        // PackedWeight is created by jblas
+        return;
+    }
+#endif
+    (void)(M);
+    (void)(N);
+    (void)(K);
+    (void)(BatchN);
+    (void)(DataParams);
+    (void)(WorkSpace);
+    (void)(ThreadPool);
+}
diff --git a/onnxruntime/core/mlas/lib/x86_64/jblas/.clang-format b/onnxruntime/core/mlas/lib/x86_64/jblas/.clang-format
new file mode 100644
index 0000000000000..84b876706161d
--- /dev/null
+++ b/onnxruntime/core/mlas/lib/x86_64/jblas/.clang-format
@@ -0,0 +1,7 @@
+Language:        Cpp
+BasedOnStyle:  Google
+DerivePointerAlignment: false
+ColumnLimit: 120
+SpaceBeforeParens: ControlStatements
+SpaceBeforeRangeBasedForLoopColon: true
+SortIncludes: false
diff --git a/onnxruntime/core/mlas/lib/x86_64/jblas/CMakeLists.txt b/onnxruntime/core/mlas/lib/x86_64/jblas/CMakeLists.txt
new file mode 100644
index 0000000000000..5d9c5edf45a96
--- /dev/null
+++ b/onnxruntime/core/mlas/lib/x86_64/jblas/CMakeLists.txt
@@ -0,0 +1,33 @@
+cmake_minimum_required(VERSION 3.5)
+
+project(jblas LANGUAGES CXX VERSION 0.1.0)
+
+file(GLOB headers ${PROJECT_NAME}/*.h ${PROJECT_NAME}/*.hpp)
+file(GLOB xbyak_headers ${PROJECT_NAME}/xbyak/*.h ${PROJECT_NAME}/xbyak/*.hpp)
+
+add_library(${PROJECT_NAME} INTERFACE)
+add_library(${PROJECT_NAME}::${PROJECT_NAME} ALIAS ${PROJECT_NAME})
+
+target_include_directories(
+	${PROJECT_NAME} INTERFACE
+	"$<BUILD_INTERFACE:${CMAKE_CURRENT_SOURCE_DIR}>"
+	"$<INSTALL_INTERFACE:${CMAKE_INSTALL_INCLUDEDIR}>"
+)
+
+if(WIN32)
+	target_compile_definitions(${PROJECT_NAME} INTERFACE _CRT_SECURE_NO_WARNINGS NOMINMAX)
+	target_compile_options(${PROJECT_NAME} INTERFACE /wd4068 /wd4849 /wd6262 /wd4702 /wd4100) 
+	#4068 ignore unroll and GCC flags
+	#4849 ignore collapse
+	#6262 ignore stack too large
+	#4702 unreachable code(false warning on constexpr condition)
+	#4100 unreferenced formal parameter
+
+	target_link_options(${PROJECT_NAME} INTERFACE /STACK:3145728) #Stack requires up to L2 cache size
+endif(WIN32)
+
+
+set(CMAKE_CXX_STANDARD 17)
+set(CMAKE_CXX_STANDARD_REQUIRED ON)
+
+target_compile_features(${PROJECT_NAME} INTERFACE cxx_std_17)
diff --git a/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/jit_base.h b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/jit_base.h
new file mode 100644
index 0000000000000..143adb771760b
--- /dev/null
+++ b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/jit_base.h
@@ -0,0 +1,303 @@
+//  Copyright (c) 2023 Intel Corporation
+//
+//  Licensed under the Apache License, Version 2.0 (the "License");
+//  you may not use this file except in compliance with the License.
+//  You may obtain a copy of the License at
+//
+//    http://www.apache.org/licenses/LICENSE-2.0
+//
+//  Unless required by applicable law or agreed to in writing, software
+//  distributed under the License is distributed on an "AS IS" BASIS,
+//  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+//  See the License for the specific language governing permissions and
+//  limitations under the License.
+#pragma once
+#include <stdint.h>
+
+#include <cstddef>
+#include <type_traits>
+#include "xbyak/xbyak.h"
+#include "xbyak/xbyak_util.h"
+
+#define OFFSET(field) offsetof(params, field)
+
+namespace jblas {
+
+namespace xbyak {
+class JitBase : protected Xbyak::CodeGenerator {
+ protected:
+  JitBase(size_t size = 16 * 1024) : CodeGenerator(size) {}
+
+  void load32(const Xbyak::Reg64& reg, const Xbyak::Address& addr) {
+    xor_(reg, reg);
+    mov(reg.cvt32(), addr);
+  }
+
+  void vreg_push(const Xbyak::Reg64& baseaddr) {
+#ifdef _WIN32
+    for (int i = 0; i < 10; i++) {
+      movaps(xword[baseaddr + i * 16], Xbyak::Xmm(6 + i));
+    }
+#endif
+  }
+
+  void vreg_pop(const Xbyak::Reg64& baseaddr) {
+#ifdef _WIN32
+    for (int i = 0; i < 10; i++) {
+      movaps(Xbyak::Xmm(6 + i), xword[baseaddr + i * 16]);
+    }
+#endif
+  }
+
+  void padto_le(const Xbyak::Reg64& _src, int padding) {
+    // _src=_src/padding*padding
+    if (padding == 1) {
+      return;
+    }
+    for (int i = 1; i < 16; i++) {
+      if ((1 << i) == padding) {
+        shr(_src, i);
+        shl(_src, i);
+        return;
+      }
+    }
+    assert(0);
+  }
+
+  void generate_Nbitsmask(const Xbyak::Opmask& _msk, const Xbyak::Reg64& _pos, const Xbyak::Address& _total,
+                          const Xbyak::Reg64& _tmp, const Xbyak::Reg64& _tmp1, int N) {
+    inLocalLabel();
+    lea(_tmp, _total);
+    sub(_tmp, _pos);
+    cmp(_tmp, N);
+    jb(".maskflag");
+    cmp(_tmp, 0);
+    jl(".zeroflag");
+    uint64_t allmask = (static_cast<uint64_t>(1) << N) - 1;
+    if (N == 64) {
+      allmask = static_cast<uint64_t>(-1);
+    }
+    mov(_tmp, allmask);
+    kmovq(_msk, _tmp);
+    jmp(".maskend");
+    L(".maskflag");
+    mov(_tmp1, 1);
+    shlx(_tmp1, _tmp1, _tmp);
+    sub(_tmp1, 1);
+    kmovq(_msk, _tmp1);
+    jmp(".maskend");
+    L(".zeroflag");
+    mov(_tmp1, 0);
+    kmovq(_msk, _tmp1);
+    L(".maskend");
+    outLocalLabel();
+  }
+  void generate_Nbitsmask(const Xbyak::Opmask& _msk, const Xbyak::Reg64& _pos, const Xbyak::Reg64& _total,
+                          const Xbyak::Reg64& _tmp, const Xbyak::Reg64& _tmp1, int N) {
+    generate_Nbitsmask(_msk, _pos, ptr[_total], _tmp, _tmp1, N);
+  }
+};
+
+class JitAvx : protected JitBase {
+ protected:
+  static int constexpr VBits = 256;
+  static int constexpr VecBytes = VBits / 8;
+  static int constexpr RegCount = 16;
+  typedef Xbyak::Ymm vreg_t;
+};
+
+class JitAvx2 : protected JitAvx {
+ protected:
+  static int constexpr VBits = 256;
+  typedef Xbyak::Ymm vreg_t;
+  void vxor(const vreg_t& x1, const vreg_t& x2, const Xbyak::Operand& op) { vpxor(x1, x2, op); }
+
+  void loadbf16_f32(const Xbyak::Ymm& dst, const Xbyak::Address& addr) {
+    vpmovzxwd(dst, addr);
+    vpslld(dst, dst, 16);
+  }
+};
+
+class JitAvx512f : protected JitAvx2 {
+ protected:
+  static int constexpr VBits = 512;
+  static int constexpr VecBytes = VBits / 8;
+  static int constexpr RegCount = 32;
+  typedef Xbyak::Zmm vreg_t;
+
+  void vxor(const vreg_t& x1, const vreg_t& x2, const Xbyak::Operand& op) { vpxorq(x1, x2, op); }
+
+  void interleave_2rows_4regs(Xbyak::Zmm* src_2regs, Xbyak::Zmm* tmp_2reg) {
+    vpunpcklwd(tmp_2reg[0], src_2regs[0], src_2regs[1]);
+    vpunpckhwd(tmp_2reg[1], src_2regs[0], src_2regs[1]);
+    vshuff32x4(src_2regs[0], tmp_2reg[0], tmp_2reg[1], 0 | (1 << 2) | (0 << 4) | (1 << 6));
+    vshuff32x4(src_2regs[0], src_2regs[0], src_2regs[0], 0 | (2 << 2) | (1 << 4) | (3 << 6));
+    vshuff32x4(src_2regs[1], tmp_2reg[0], tmp_2reg[1], 2 | (3 << 2) | (2 << 4) | (3 << 6));
+    vshuff32x4(src_2regs[1], src_2regs[1], src_2regs[1], 0 | (2 << 2) | (1 << 4) | (3 << 6));
+  }
+
+  void transpose16x16_4B(Xbyak::Zmm* src, Xbyak::Zmm* tmp, const int N = 16) {
+    for (int i = 0; i < 8; ++i) {
+      vpunpckldq(tmp[2 * i + 0], src[2 * i], src[2 * i + 1]);
+      vpunpckhdq(tmp[2 * i + 1], src[2 * i], src[2 * i + 1]);
+    }
+
+    for (int i = 0; i < 4; ++i) {
+      vpunpcklqdq(src[4 * i + 0], tmp[4 * i + 0], tmp[4 * i + 2]);
+      vpunpckhqdq(src[4 * i + 1], tmp[4 * i + 0], tmp[4 * i + 2]);
+      vpunpcklqdq(src[4 * i + 2], tmp[4 * i + 1], tmp[4 * i + 3]);
+      vpunpckhqdq(src[4 * i + 3], tmp[4 * i + 1], tmp[4 * i + 3]);
+    }
+
+    for (int i = 0; i < 2; ++i) {
+      vshufi32x4(tmp[8 * i + 0], src[8 * i + 0], src[8 * i + 4], 0x88);
+      vshufi32x4(tmp[8 * i + 1], src[8 * i + 1], src[8 * i + 5], 0x88);
+      vshufi32x4(tmp[8 * i + 2], src[8 * i + 2], src[8 * i + 6], 0x88);
+      vshufi32x4(tmp[8 * i + 3], src[8 * i + 3], src[8 * i + 7], 0x88);
+      vshufi32x4(tmp[8 * i + 4], src[8 * i + 0], src[8 * i + 4], 0xdd);
+      vshufi32x4(tmp[8 * i + 5], src[8 * i + 1], src[8 * i + 5], 0xdd);
+      vshufi32x4(tmp[8 * i + 6], src[8 * i + 2], src[8 * i + 6], 0xdd);
+      vshufi32x4(tmp[8 * i + 7], src[8 * i + 3], src[8 * i + 7], 0xdd);
+    }
+
+    // last step and move out
+    for (int i = 0; i < N; ++i) {
+      vshufi32x4(src[i], tmp[i % 8], tmp[8 + i % 8], i < 8 ? 0x88 : 0xdd);
+    }
+  }
+
+  void interleave_4rows_6regs(Xbyak::Zmm* src_4regs, Xbyak::Zmm* tmp_regs, const Xbyak::Opmask* masks) {
+    vpunpcklbw(tmp_regs[0], src_4regs[0], src_4regs[1]);
+    vpunpckhbw(tmp_regs[1], src_4regs[0], src_4regs[1]);
+    vpunpcklbw(tmp_regs[2], src_4regs[2], src_4regs[3]);
+    vpunpckhbw(tmp_regs[3], src_4regs[2], src_4regs[3]);
+
+    vpunpcklwd(tmp_regs[4], tmp_regs[0], tmp_regs[2]);
+    vpunpckhwd(tmp_regs[5], tmp_regs[0], tmp_regs[2]);
+    vpunpcklwd(tmp_regs[0], tmp_regs[1], tmp_regs[3]);
+    vpunpckhwd(tmp_regs[2], tmp_regs[1], tmp_regs[3]);
+    vshuff32x4(tmp_regs[1], tmp_regs[4], tmp_regs[0], (4 << 4) | 4);
+    vshuff32x4(tmp_regs[3], tmp_regs[5], tmp_regs[2], (4 << 4) | 4);
+    vmovups(src_4regs[0], tmp_regs[1]);
+    vshuff32x4(src_4regs[0] | masks[0], tmp_regs[3], tmp_regs[3], 0 | (0 << 2) | (0 << 4) | (2 << 6));
+    vmovups(src_4regs[1], tmp_regs[3]);
+    vshuff32x4(src_4regs[1] | masks[1], tmp_regs[1], tmp_regs[1], 1 | (0 << 2) | (3 << 4) | (0 << 6));
+    vshuff32x4(tmp_regs[1], tmp_regs[4], tmp_regs[0], (14 << 4) | 14);
+    vshuff32x4(tmp_regs[3], tmp_regs[5], tmp_regs[2], (14 << 4) | 14);
+    vmovups(src_4regs[2], tmp_regs[1]);
+    vshuff32x4(src_4regs[2] | masks[0], tmp_regs[3], tmp_regs[3], 0 | (0 << 2) | (0 << 4) | (2 << 6));
+    vmovups(src_4regs[3], tmp_regs[3]);
+    vshuff32x4(src_4regs[3] | masks[1], tmp_regs[1], tmp_regs[1], 1 | (0 << 2) | (3 << 4) | (0 << 6));
+  }
+
+  void cvt_fp32_bf16(const Xbyak::Ymm& _bf16, const Xbyak::Zmm& _fp32) {
+    vpsrld(_fp32, _fp32, 16);
+    vpmovdw(_bf16, _fp32);
+  }
+
+  void loadbf16_f32(const Xbyak::Zmm& dst, const Xbyak::Address& addr) {
+    vpmovzxwd(dst, addr);
+    vpslld(dst, dst, 16);
+  }
+
+  void broadcastbf16_f32(const Xbyak::Zmm& dst, const Xbyak::Reg64& tmp, const Xbyak::Address& addr) {
+    mov(tmp.cvt16(), addr);
+    shl(tmp.cvt32(), 16);
+    vpbroadcastd(dst, tmp.cvt32());
+  }
+
+  void store_fp32_bf16(const Xbyak::Zmm& _fp32, const Xbyak::Address& _add) {
+    auto bf16 = Xbyak::Ymm(_fp32.getIdx());
+    cvt_fp32_bf16(bf16, _fp32);
+    vmovups(_add, bf16);
+  }
+};
+
+class JitAvx512_bf16 : protected JitAvx512f {};
+
+class JitAvx512_fp16 : protected JitAvx512f {};
+
+class JitAvx512vnni : protected JitAvx512f {
+ protected:
+  void vpdpbusds_(const Xbyak::Xmm& x1, const Xbyak::Xmm& x2, const Xbyak::Operand& op) {
+    vpdpbusds(x1, x2, op, Xbyak::EvexEncoding);
+  }
+};
+
+class JitAvxvnni : protected JitAvx2 {
+ protected:
+  void vpdpbusds_(const Xbyak::Xmm& x1, const Xbyak::Xmm& x2, const Xbyak::Operand& op) {
+    vpdpbusds(x1, x2, op, Xbyak::VexEncoding);
+  }
+};
+
+class JitAmxtile : protected JitAvx512f {
+ public:
+  struct alignas(64) tileconfig_t {
+    uint8_t palette_id;
+    uint8_t reserved[15];
+    uint16_t colb[16];
+    uint8_t rows[16];
+  };
+  static int constexpr TileCount = 8;
+
+  typedef long long (*configure_t)(void*);
+
+  static void generate_config(Xbyak::CodeGenerator* g) {
+    Xbyak::util::StackFrame st(g, 1, 0, 0);
+    auto& parambase = st.p[0];
+    g->ldtilecfg(g->ptr[parambase]);
+  }
+
+  static void configure_tiles(tileconfig_t& tc, int TILE_M, int TILE_N, int TILE_K, int elesize, int ANum, int BNum,
+                              int CNum) {
+    // Filling tile configure structure. Could be done offline.
+    tc.palette_id = 1;
+    // Configure C tiles
+    int t = 0;
+    for (; t < CNum; ++t) {
+      tc.rows[t] = static_cast<uint8_t>(TILE_M);
+      tc.colb[t] = static_cast<uint16_t>(TILE_N * 4);
+    }
+    // Configure A tiles
+    for (; t < CNum + ANum; ++t) {
+      tc.rows[t] = static_cast<uint8_t>(TILE_M);
+      tc.colb[t] = static_cast<uint16_t>(TILE_K * elesize);
+    }
+    // Configure B tile. B effectively has 64 rows and 16 columns.
+    int kpack = 4 / elesize;
+    for (; t < CNum + ANum + BNum; ++t) {
+      tc.rows[t] = static_cast<uint8_t>(TILE_K / kpack);
+      tc.colb[t] = static_cast<uint16_t>(TILE_N * 4);
+    }
+  }
+};
+
+class JitAmxbf16 : protected JitAmxtile {
+ protected:
+  void cvt_fp32_bf16(const Xbyak::Ymm& _bf16, const Xbyak::Zmm& _fp32) { vcvtneps2bf16(_bf16, _fp32); }
+};
+
+class JitAmxint8 : protected JitAmxtile {
+ protected:
+  template <class, class>
+  void _tdpb(const Xbyak::Tmm& x1, const Xbyak::Tmm& x2, const Xbyak::Tmm& x3);
+};
+template <>
+inline void JitAmxint8::_tdpb<int8_t, int8_t>(const Xbyak::Tmm& x1, const Xbyak::Tmm& x2, const Xbyak::Tmm& x3) {
+  tdpbssd(x1, x2, x3);
+}
+template <>
+inline void JitAmxint8::_tdpb<int8_t, uint8_t>(const Xbyak::Tmm& x1, const Xbyak::Tmm& x2, const Xbyak::Tmm& x3) {
+  tdpbsud(x1, x2, x3);
+}
+template <>
+inline void JitAmxint8::_tdpb<uint8_t, int8_t>(const Xbyak::Tmm& x1, const Xbyak::Tmm& x2, const Xbyak::Tmm& x3) {
+  tdpbusd(x1, x2, x3);
+}
+template <>
+inline void JitAmxint8::_tdpb<uint8_t, uint8_t>(const Xbyak::Tmm& x1, const Xbyak::Tmm& x2, const Xbyak::Tmm& x3) {
+  tdpbuud(x1, x2, x3);
+}
+}  // namespace xbyak
+}  // namespace jblas
diff --git a/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/jit_blas.h b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/jit_blas.h
new file mode 100644
index 0000000000000..8ecf3535c17f4
--- /dev/null
+++ b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/jit_blas.h
@@ -0,0 +1,96 @@
+//  Copyright (c) 2023 Intel Corporation
+//
+//  Licensed under the Apache License, Version 2.0 (the "License");
+//  you may not use this file except in compliance with the License.
+//  You may obtain a copy of the License at
+//
+//    http://www.apache.org/licenses/LICENSE-2.0
+//
+//  Unless required by applicable law or agreed to in writing, software
+//  distributed under the License is distributed on an "AS IS" BASIS,
+//  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+//  See the License for the specific language governing permissions and
+//  limitations under the License.
+#pragma once
+#include <stdint.h>
+enum JBLAS_CODE {
+  JblasSuccess = 0,
+  JblasInvalidParam = 1,
+  JblasInvalidISA = 2,
+  JblasRuntimeError = 4,
+  JblasNotSupport = 8,
+};
+enum JBLAS_ISA : uint32_t {
+  JblasNoSIMD = 0,
+  JblasAVX,
+  JblasAVX2,
+  JblasAVX_VNNI,
+  JblasAVX512F,
+  JblasAVX512_VNNI,
+  JblasAMX_BF16,
+  JblasAMX_INT8,
+  JblasAVX512_FP16,
+  JblasAVX512_BF16,
+};
+enum class JBLAS_DTYPE : uint32_t {
+  EleBitsMask = 0xff,
+  EleBitsUndef = 0,
+  EleBits4 = 4,
+  EleBits8 = 8,
+  EleBits16 = 16,
+  EleBits32 = 32,
+  EleBits64 = 64,
+  TypeMask = 0xff00,
+  TypeFloat = 0 << 8,
+  TypeInt = 1 << 8,
+  SubTypeMask = 0xff0000,
+  SubType0 = 0 << 16,
+  SubType1 = 1 << 16,
+  SubType2 = 2 << 16,
+  F64 = EleBits64 | TypeFloat,
+  F32 = EleBits32 | TypeFloat,
+  F16 = EleBits16 | TypeFloat,
+  BF16 = EleBits16 | TypeFloat | SubType1,
+  F8_E4M3 = EleBits8 | TypeFloat,
+  F8_E5M2 = EleBits8 | TypeFloat | SubType1,
+  F8_E3M4 = EleBits8 | TypeFloat | SubType2,
+  S8 = EleBits8 | TypeInt,
+  U8 = EleBits8 | TypeInt | SubType1,
+  S4_CLIP = EleBits4 | TypeInt,
+  S4_FULLRANGE = EleBits4 | TypeInt | SubType1,
+  F4_E2M1 = EleBits4 | TypeFloat,
+  F4_BNB = EleBits4 | TypeFloat | SubType1,
+  F4_NF4 = EleBits4 | TypeFloat | SubType2,
+  S32 = EleBits32 | TypeInt,
+  U32 = EleBits32 | TypeInt | SubType1,
+};
+
+enum JBLAS_LAYOUT { JblasRowMajor = 101, JblasColMajor = 102 };
+enum JBLAS_TRANSPOSE {
+  JblasNoTrans = 111,
+  JblasTrans = 112,
+  JblasConjTrans = 113,
+};
+enum JBLAS_ELTWISEOP {
+  GELU,
+  SWISH,
+  TANH,
+  EXP,
+  LOW_PRECISION_EXP,
+  RELU,
+  LINEAR,
+};
+
+enum class JBLAS_PROLOGUEB_IDS : uint32_t {
+  Undef = (uint32_t)-1,
+  Begin = 0,
+  NormalBegin = Begin,
+  WeightPack = NormalBegin,
+  NormalEnd,
+  KBlockBegin = NormalEnd,
+  WeightKBlockS8 = KBlockBegin,
+  WeightKBlockS4,
+  WeightKBlockF4,
+  KBlockEnd,
+  End,
+};
diff --git a/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/jit_blas_device.h b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/jit_blas_device.h
new file mode 100644
index 0000000000000..5cac1080bc610
--- /dev/null
+++ b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/jit_blas_device.h
@@ -0,0 +1,277 @@
+//  Copyright (c) 2023 Intel Corporation
+//
+//  Licensed under the Apache License, Version 2.0 (the "License");
+//  you may not use this file except in compliance with the License.
+//  You may obtain a copy of the License at
+//
+//    http://www.apache.org/licenses/LICENSE-2.0
+//
+//  Unless required by applicable law or agreed to in writing, software
+//  distributed under the License is distributed on an "AS IS" BASIS,
+//  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+//  See the License for the specific language governing permissions and
+//  limitations under the License.
+#pragma once
+#include "jit_blas.h"
+#include "xbyak/xbyak_util.h"
+
+namespace jblas {
+
+namespace device {
+
+struct X64_ISA {
+  int64_t MMX : 1;                  // 0
+  int64_t SSE : 1;                  // 1
+  int64_t SSE2 : 1;                 // 2
+  int64_t SSE3 : 1;                 // 3
+  int64_t SSSE3 : 1;                // 4
+  int64_t SSE41 : 1;                // 5
+  int64_t SSE42 : 1;                // 6
+  int64_t AVX : 1;                  // 7
+  int64_t F16C : 1;                 // 8
+  int64_t FMA : 1;                  // 9
+  int64_t AVX2 : 1;                 // 10
+  int64_t AVX_VNNI : 1;             // 11
+  int64_t AVX_VNNI_INT8 : 1;        // 12
+  int64_t AVX_NE_CONVERT : 1;       // 13
+  int64_t AVX_IFMA : 1;             // 14
+  int64_t AVX512F : 1;              // 15
+  int64_t AVX512BW : 1;             // 16
+  int64_t AVX512CD : 1;             // 17
+  int64_t AVX512DQ : 1;             // 18
+  int64_t AVX512ER : 1;             // 19
+  int64_t AVX512IFMA52 : 1;         // 20
+  int64_t AVX512PF : 1;             // 21
+  int64_t AVX512VL : 1;             // 22
+  int64_t AVX512VPOPCNTDQ : 1;      // 23
+  int64_t AVX512_4FMAPS : 1;        // 24
+  int64_t AVX512_4VNNIW : 1;        // 25
+  int64_t AVX512_BF16 : 1;          // 26
+  int64_t AVX512_BITALG : 1;        // 27
+  int64_t AVX512_VBMI : 1;          // 28
+  int64_t AVX512_VBMI2 : 1;         // 29
+  int64_t AVX512_VNNI : 1;          // 30
+  int64_t AVX512_VP2INTERSECT : 1;  // 31
+  int64_t AVX512_FP16 : 1;          // 32
+  int64_t AMX_TILE : 1;             // 33
+  int64_t AMX_BF16 : 1;             // 34
+  int64_t AMX_INT8 : 1;             // 35
+  int64_t AMX_FP16 : 1;             // 36
+  int64_t AMX_COMPLEX : 1;          // 37
+  int64_t reserved : (64 - 38);
+};
+
+class AVX2_Default {
+ public:
+  static constexpr bool MMX = 1;
+  static constexpr bool SSE = 1;
+  static constexpr bool SSE2 = 1;
+  static constexpr bool SSE3 = 1;
+  static constexpr bool SSSE3 = 1;
+  static constexpr bool SSE41 = 1;
+  static constexpr bool SSE42 = 1;
+  static constexpr bool AVX = 1;
+  static constexpr bool F16C = 1;
+  static constexpr bool FMA = 1;
+  static constexpr bool AVX2 = 1;
+  static constexpr bool AVX_VNNI = 0;
+  static constexpr bool AVX_VNNI_INT8 = 0;
+  static constexpr bool AVX_NE_CONVERT = 0;
+  static constexpr bool AVX_IFMA = 0;
+  static constexpr bool AVX512F = 0;
+  static constexpr bool AVX512BW = 0;
+  static constexpr bool AVX512CD = 0;
+  static constexpr bool AVX512DQ = 0;
+  static constexpr bool AVX512ER = 0;
+  static constexpr bool AVX512IFMA52 = 0;
+  static constexpr bool AVX512PF = 0;
+  static constexpr bool AVX512VL = 0;
+  static constexpr bool AVX512VPOPCNTDQ = 0;
+  static constexpr bool AVX512_4FMAPS = 0;
+  static constexpr bool AVX512_4VNNIW = 0;
+  static constexpr bool AVX512_BF16 = 0;
+  static constexpr bool AVX512_BITALG = 0;
+  static constexpr bool AVX512_VBMI = 0;
+  static constexpr bool AVX512_VBMI2 = 0;
+  static constexpr bool AVX512_VNNI = 0;
+  static constexpr bool AVX512_VP2INTERSECT = 0;
+  static constexpr bool AVX512_FP16 = 0;
+  static constexpr bool AMX_TILE = 0;
+  static constexpr bool AMX_BF16 = 0;
+  static constexpr bool AMX_INT8 = 0;
+  static constexpr bool AMX_FP16 = 0;
+  static constexpr bool AMX_COMPLEX = 0;
+};
+
+class AVX512_VNNI_Default {
+ public:
+  static constexpr bool MMX = 1;
+  static constexpr bool SSE = 1;
+  static constexpr bool SSE2 = 1;
+  static constexpr bool SSE3 = 1;
+  static constexpr bool SSSE3 = 1;
+  static constexpr bool SSE41 = 1;
+  static constexpr bool SSE42 = 1;
+  static constexpr bool AVX = 1;
+  static constexpr bool F16C = 1;
+  static constexpr bool FMA = 1;
+  static constexpr bool AVX2 = 1;
+  static constexpr bool AVX_VNNI = 0;
+  static constexpr bool AVX_VNNI_INT8 = 0;
+  static constexpr bool AVX_NE_CONVERT = 0;
+  static constexpr bool AVX_IFMA = 0;
+  static constexpr bool AVX512F = 1;
+  static constexpr bool AVX512BW = 1;
+  static constexpr bool AVX512CD = 1;
+  static constexpr bool AVX512DQ = 1;
+  static constexpr bool AVX512ER = 0;
+  static constexpr bool AVX512IFMA52 = 0;
+  static constexpr bool AVX512PF = 0;
+  static constexpr bool AVX512VL = 1;
+  static constexpr bool AVX512VPOPCNTDQ = 0;
+  static constexpr bool AVX512_4FMAPS = 0;
+  static constexpr bool AVX512_4VNNIW = 0;
+  static constexpr bool AVX512_BF16 = 0;
+  static constexpr bool AVX512_BITALG = 0;
+  static constexpr bool AVX512_VBMI = 0;
+  static constexpr bool AVX512_VBMI2 = 0;
+  static constexpr bool AVX512_VNNI = 1;
+  static constexpr bool AVX512_VP2INTERSECT = 0;
+  static constexpr bool AVX512_FP16 = 0;
+  static constexpr bool AMX_TILE = 0;
+  static constexpr bool AMX_BF16 = 0;
+  static constexpr bool AMX_INT8 = 0;
+  static constexpr bool AMX_FP16 = 0;
+  static constexpr bool AMX_COMPLEX = 0;
+};
+
+class SapphireRapids {
+ public:
+  static constexpr bool MMX = 1;
+  static constexpr bool SSE = 1;
+  static constexpr bool SSE2 = 1;
+  static constexpr bool SSE3 = 1;
+  static constexpr bool SSSE3 = 1;
+  static constexpr bool SSE41 = 1;
+  static constexpr bool SSE42 = 1;
+  static constexpr bool AVX = 1;
+  static constexpr bool F16C = 1;
+  static constexpr bool FMA = 1;
+  static constexpr bool AVX2 = 1;
+  static constexpr bool AVX_VNNI = 0;
+  static constexpr bool AVX_VNNI_INT8 = 0;
+  static constexpr bool AVX_NE_CONVERT = 0;
+  static constexpr bool AVX_IFMA = 0;
+  static constexpr bool AVX512F = 1;
+  static constexpr bool AVX512BW = 1;
+  static constexpr bool AVX512CD = 1;
+  static constexpr bool AVX512DQ = 1;
+  static constexpr bool AVX512ER = 0;
+  static constexpr bool AVX512IFMA52 = 0;
+  static constexpr bool AVX512PF = 0;
+  static constexpr bool AVX512VL = 1;
+  static constexpr bool AVX512VPOPCNTDQ = 0;
+  static constexpr bool AVX512_4FMAPS = 0;
+  static constexpr bool AVX512_4VNNIW = 0;
+  static constexpr bool AVX512_BF16 = 0;
+  static constexpr bool AVX512_BITALG = 0;
+  static constexpr bool AVX512_VBMI = 0;
+  static constexpr bool AVX512_VBMI2 = 0;
+  static constexpr bool AVX512_VNNI = 1;
+  static constexpr bool AVX512_VP2INTERSECT = 0;
+  static constexpr bool AVX512_FP16 = 0;
+  static constexpr bool AMX_TILE = 1;
+  static constexpr bool AMX_BF16 = 1;
+  static constexpr bool AMX_INT8 = 1;
+  static constexpr bool AMX_FP16 = 0;
+  static constexpr bool AMX_COMPLEX = 0;
+};
+
+template <JBLAS_ISA ISA_T>
+class isa_base {
+ public:
+  static bool constexpr avx = ISA_T >= JblasAVX;
+  static bool constexpr avx2 = ISA_T >= JblasAVX2;
+  static bool constexpr avx512f = ISA_T >= JblasAVX512F;
+  static bool constexpr avx512_vnni = ISA_T >= JblasAVX512_VNNI;
+  static bool constexpr avx512_fp16 = ISA_T >= JblasAVX512_FP16;
+  static bool constexpr amx_bf16 = ISA_T >= JblasAMX_BF16;
+  static bool constexpr amx_int8 = ISA_T >= JblasAMX_INT8;
+};
+
+class CpuDevice {
+ public:
+  inline void setThreads(int _nth) {
+    if (_nth <= 0) {
+      numthreads = numcores;
+    } else {
+      numthreads = std::min(numcores, _nth);
+    }
+  }
+  inline int getThreads() { return numthreads; }
+  inline int getCores() { return numcores; }
+  inline uint32_t getL2CacheSize() { return L2Cache; }
+  inline uint32_t getL1CacheSize() { return L1Cache; }
+  inline bool AVX() { return mHasAVX; }
+  inline bool AVX2() { return mHasAVX2; }
+  inline bool AVX_VNNI() { return mHasAVX_VNNI; }
+  inline bool AVX512F() { return mHasAVX512F; }
+  inline bool AVX512_VNNI() { return mHasAVX512_VNNI; }
+  inline bool AMX_INT8() { return mHasAMX_INT8; }
+  inline bool AMX_BF16() { return mHasAMX_BF16; }
+  inline bool AVX512_BF16() { return mHasAVX512_BF16; }
+  inline bool AVX512_FP16() { return mHasAVX512_FP16; }
+#define ADD_FLAG(isa) mHas##isa = _cpu.has(_cpu.t##isa)
+  CpuDevice() {
+    static Xbyak::util::Cpu _cpu;
+    L1Cache = _cpu.getDataCacheSize(0);
+    L2Cache = _cpu.getDataCacheSize(1);
+    ADD_FLAG(AVX);
+    ADD_FLAG(AVX2);
+    ADD_FLAG(AVX512F);
+    ADD_FLAG(AVX512_VNNI);
+    ADD_FLAG(AVX_VNNI);
+    ADD_FLAG(AMX_BF16);
+    ADD_FLAG(AMX_INT8);
+    ADD_FLAG(AVX512_BF16);
+    ADD_FLAG(AVX512_FP16);
+    numcores = _cpu.getNumCores(Xbyak::util::IntelCpuTopologyLevel::CoreLevel);
+    numthreads = numcores;
+  }
+
+  static CpuDevice* getInstance() {
+    static CpuDevice instance;
+    return &instance;
+  }
+
+  void print() {
+    printf(
+        "AVX:%d AVX2:%d AVX512F:%d AVX_VNNI:%d AVX512_VNNI:%d AMX_INT8:%d AMX_BF16:%d AVX512_BF16:%d AVX512_FP16:%d\n",
+        mHasAVX, mHasAVX2, mHasAVX512F, mHasAVX_VNNI, mHasAVX512_VNNI, mHasAMX_INT8, mHasAMX_BF16, mHasAVX512_BF16,
+        mHasAVX512_FP16);
+  }
+#undef ADD_FLAG
+
+ protected:
+  uint32_t L2Cache, L1Cache;
+  bool mHasAVX2, mHasAVX_VNNI, mHasAVX, mHasAVX512_VNNI, mHasAMX_INT8, mHasAMX_BF16, mHasAVX512F, mHasAVX512_BF16,
+      mHasAVX512_FP16;
+  int numcores;
+  int numthreads;
+};
+
+#define GetCPUDevice() auto _cd = jblas::device::CpuDevice::getInstance();
+
+class CpuBase {
+ public:
+  CpuBase() {
+    GetCPUDevice();
+    mL2Cache = _cd->getL2CacheSize();
+    mL1Cache = _cd->getL1CacheSize();
+    mNumThreads = _cd->getThreads();
+  }
+  size_t mL2Cache, mL1Cache;
+  int mNumThreads;
+};
+}  // namespace device
+}  // namespace jblas
diff --git a/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/jit_blas_epilogue.h b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/jit_blas_epilogue.h
new file mode 100644
index 0000000000000..ceb7a545092d8
--- /dev/null
+++ b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/jit_blas_epilogue.h
@@ -0,0 +1,329 @@
+//  Copyright (c) 2023 Intel Corporation
+//
+//  Licensed under the Apache License, Version 2.0 (the "License");
+//  you may not use this file except in compliance with the License.
+//  You may obtain a copy of the License at
+//
+//    http://www.apache.org/licenses/LICENSE-2.0
+//
+//  Unless required by applicable law or agreed to in writing, software
+//  distributed under the License is distributed on an "AS IS" BASIS,
+//  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+//  See the License for the specific language governing permissions and
+//  limitations under the License.
+#pragma once
+#include <tuple>
+
+#include "jit_base.h"
+#include "jit_blas.h"
+#include "jit_blas_utils.h"
+#include "kernel_wrapper.h"
+
+namespace jblas {
+namespace epilogue {
+namespace gemm {
+
+template <JBLAS_ISA ISA_T, typename _SRC_T, typename _DST_T>
+class AccumulatorWriteBack {
+ public:
+  using SType = _SRC_T;
+  using DType = _DST_T;
+  struct Param {
+    DType* C;
+    int ldc;
+    void* elt_const_v;
+  };
+
+  template <typename... Eltops>
+  JBLAS_CODE forward(const _SRC_T* cacheptr, const int cachestep, const int M_offset, const int N_offset, const int M,
+                     const int N, const Param& _param, void* tmpcache, size_t cachesize, Eltops... ops) {
+    auto COffset = M_offset * _param.ldc + N_offset;
+    auto cptr = _param.C + COffset;
+    bool constexpr Valid = !std::is_same<DType, utils::bf16>::value || std::is_same<SType, float>::value;
+    static_assert(Valid, "fp32 to bf16 conversion only.");
+    if constexpr (std::is_same<DType, utils::bf16>::value) {
+      return kernel::wrapper::Memcpy2DFp32CvtBf16::template forward<ISA_T>(
+          const_cast<_SRC_T*>(cacheptr), cptr, M, N, cachestep * sizeof(SType), _param.ldc * sizeof(DType), false);
+    } else if constexpr (std::is_same<std::tuple<SType, DType>, std::tuple<utils::fp16, float>>::value) {
+      return kernel::wrapper::Memcpy2DFp16CvtFp32::template forward<ISA_T>(
+          const_cast<_SRC_T*>(cacheptr), cptr, M, N, cachestep * sizeof(SType), _param.ldc * sizeof(DType), false);
+    } else if constexpr (sizeof(SType) == sizeof(DType)) {
+      return kernel::wrapper::Memcpy2D::template forward<ISA_T, SType, DType>(cacheptr, cptr, M, N, cachestep,
+                                                                              _param.ldc, _param.elt_const_v, ops...);
+    } else {
+      assert(false);
+    }
+  }
+};
+
+template <JBLAS_ISA ISA_T, typename _SRC_T, typename _DST_T, JBLAS_ELTWISEOP _OP>
+class CustomAccumulatorWriteBackWithEltop {
+ public:
+  struct Param {
+    _DST_T* C;
+    int ldc;
+    void* elt_const_v;
+  };
+  JBLAS_CODE forward(const _SRC_T* cacheptr, const int cachestep, const int M_offset, const int N_offset, const int M,
+                     const int N, const Param& _param, void* tmpcache, size_t cachesize) {
+    auto COffset = M_offset * _param.ldc + N_offset;
+    auto cptr = _param.C + COffset;
+    if constexpr (std::is_same<_SRC_T, float>::value && std::is_same<_DST_T, float>::value) {
+      return kernel::wrapper::Memcpy2D::template forward1<ISA_T, float, float, _OP>(cacheptr, cptr, M, N, cachestep,
+                                                                                    _param.ldc, _param.elt_const_v);
+    } else {
+      assert(false);
+    }
+  }
+};
+template <JBLAS_ISA ISA_T>
+using AccumulatorWriteBackFp32 = AccumulatorWriteBack<ISA_T, float, float>;
+template <JBLAS_ISA ISA_T>
+using AccumulatorWriteBackInt32 = AccumulatorWriteBack<ISA_T, int, int>;
+template <JBLAS_ISA ISA_T>
+using AccumulatorWriteBackBf16 = AccumulatorWriteBack<ISA_T, utils::bf16, utils::bf16>;
+template <JBLAS_ISA ISA_T>
+using AccumulatorWriteBackFp16 = AccumulatorWriteBack<ISA_T, utils::fp16, utils::fp16>;
+template <JBLAS_ISA ISA_T>
+using AccumulatorWriteBackFp16Fp32 = AccumulatorWriteBack<ISA_T, utils::fp16, float>;
+template <JBLAS_ISA ISA_T>
+using AccumulatorWriteBackFp32Bf16 = AccumulatorWriteBack<ISA_T, float, utils::bf16>;
+
+template <JBLAS_ISA ISA_T>
+using AccumulatorWriteBackWithGeluFp32 = CustomAccumulatorWriteBackWithEltop<ISA_T, float, float, GELU>;
+
+template <JBLAS_ISA ISA_T>
+using AccumulatorWriteBackWithSwishFp32 = CustomAccumulatorWriteBackWithEltop<ISA_T, float, float, SWISH>;
+
+template <JBLAS_ISA ISA_T>
+class AlphaBetaProcessFp32 {
+ public:
+  struct Param {
+    float *C, *D;
+    int ldc, ldd;
+    float alpha, beta;
+  };
+
+  JBLAS_CODE forward(const float* cacheptr, const int cachestep, const int M_offset, const int N_offset, const int M,
+                     const int N, const Param& _param, void* tmpcache, size_t cachesize) {
+    auto DOffset = M_offset * _param.ldd + N_offset;
+    auto COffset = M_offset * _param.ldc + N_offset;
+    auto cptr = _param.C + COffset;
+    auto dptr = _param.D + DOffset;
+    return kernel::wrapper::AlphaBetaF32F32::template forward<ISA_T>(_param.alpha, cacheptr, cachestep, _param.beta,
+                                                                     dptr, _param.ldd, cptr, _param.ldc, M, N);
+  }
+};
+
+template <JBLAS_ISA ISA_T>
+class CompFp32BlockEpilogue {
+ public:
+  struct Param {
+    void* scales;
+    JBLAS_DTYPE scaledtype;
+    int ldsb;
+    int8_t* zps = nullptr;
+    float* reduce = nullptr;
+    int ldra;
+  };
+  JBLAS_CODE forward(const float* srcptr, float* dstptr, const int cachestep, const int M_offset, const int N_offset,
+                     const int K_offset, const int M, const int N, const Param& _param, void* tmpcache,
+                     size_t cachesize) {
+    auto ret = JblasNotSupport;
+    if (_param.scaledtype == JBLAS_DTYPE::F32) {
+      ret = kernel::wrapper::CompFp32BlockScale::template forward<ISA_T>(
+          reinterpret_cast<float*>(_param.scales) + K_offset * _param.ldsb + N_offset, srcptr, cachestep, dstptr,
+          cachestep, M, N);
+      assert(ret == JblasSuccess);
+      if (_param.zps != nullptr) {
+        ret = kernel::wrapper::RemoveZeroPointBias::forward_wei<ISA_T>(
+            dstptr, cachestep, M, N, _param.zps + K_offset * _param.ldsb + N_offset,
+            reinterpret_cast<float*>(_param.scales) + K_offset * _param.ldsb + N_offset, _param.ldra,
+            _param.reduce + M_offset * _param.ldra + K_offset);
+      }
+      assert(ret == JblasSuccess);
+      return ret;
+    } else if (_param.scaledtype == JBLAS_DTYPE::BF16) {
+      ret = kernel::wrapper::CompFp32BlockScale::template forward<ISA_T>(
+          reinterpret_cast<utils::bf16*>(_param.scales) + K_offset * _param.ldsb + N_offset, srcptr, cachestep, dstptr,
+          cachestep, M, N);
+      assert(_param.zps == nullptr);
+      assert(ret == JblasSuccess);
+      return ret;
+    }
+    return JblasNotSupport;
+  }
+};
+
+template <JBLAS_ISA ISA_T>
+class DequantInt32ToFp32 {
+ public:
+  struct Param {
+    float* C;
+    int ldc;
+    int ldsa;
+    float* scalesA;
+    float* scalesB;
+  };
+  JBLAS_CODE forward(const int32_t* cacheptr, const int cachestep, const int M_offset, const int N_offset, const int M,
+                     const int N, const Param& _param, void* tmpcache, size_t cachesize) {
+    auto COffset = M_offset * _param.ldc + N_offset;
+    auto cptr = _param.C + COffset;
+    return kernel::wrapper::DequanS32Fp32::template forward<ISA_T>(cacheptr, cachestep, cptr, _param.ldc, M, N,
+                                                                   _param.scalesA + M_offset * _param.ldsa, _param.ldsa,
+                                                                   _param.scalesB + N_offset);
+  }
+};
+
+template <JBLAS_ISA ISA_T>
+class CompInt8BlockEpilogue {
+ public:
+  struct Param {
+    void* scalesB;
+    JBLAS_DTYPE scaleBdtype;
+    int ldsb;
+    float* scalesA;
+    int ldsa;
+    // optional if A asym
+    uint8_t* zpA = nullptr;
+    void* reduceB = nullptr;
+    JBLAS_DTYPE reduceBdtype = JBLAS_DTYPE::F32;
+    // optional if B asym
+    int8_t* zpB = nullptr;
+    float* reduceA = nullptr;
+    int K = 1;
+  };
+  JBLAS_CODE forward(const int32_t* srcptr, float* dstptr, const int cachestep, const int M_offset, const int N_offset,
+                     const int K_offset, const int M, const int N, const Param& _param, void* tmpcache,
+                     size_t cachesize) {
+    JBLAS_CODE ret = JblasNotSupport;
+    float* scab = nullptr;
+    size_t ScaleBTmpSize = N * sizeof(float);
+    size_t ReduceBTmpSize = N * sizeof(float);
+    assert(cachesize >= (ScaleBTmpSize + ReduceBTmpSize));
+    if (_param.scaleBdtype == JBLAS_DTYPE::BF16) {
+      auto scache = reinterpret_cast<float*>(tmpcache);
+      ret = kernel::wrapper::Memcpy2DBf16CvtFp32::template forward<ISA_T>(
+          reinterpret_cast<utils::bf16*>(_param.scalesB) + N_offset + K_offset * _param.ldsb, scache, 1, N, N, N,
+          false);
+      assert(ret == JblasSuccess);
+      scab = scache;
+    } else if (_param.scaleBdtype == JBLAS_DTYPE::F32) {
+      scab = reinterpret_cast<float*>(_param.scalesB) + N_offset + K_offset * _param.ldsb;
+    }
+    float* redb = nullptr;
+    if (_param.reduceB) {
+      if (_param.reduceBdtype == JBLAS_DTYPE::BF16) {
+        auto rcache = reinterpret_cast<float*>(reinterpret_cast<char*>(tmpcache) + ScaleBTmpSize);
+        ret = kernel::wrapper::Memcpy2DBf16CvtFp32::template forward<ISA_T>(
+            reinterpret_cast<utils::bf16*>(_param.reduceB) + N_offset + K_offset * _param.ldsb, rcache, 1, N, N, N,
+            false);
+        assert(ret == JblasSuccess);
+        redb = rcache;
+      } else if (_param.reduceBdtype == JBLAS_DTYPE::F32) {
+        redb = reinterpret_cast<float*>(_param.reduceB) + N_offset + K_offset * _param.ldsb;
+      }
+    }
+    ret = kernel::wrapper::DequanS32Fp32::template forward<ISA_T>(
+        srcptr, cachestep, reinterpret_cast<float*>(const_cast<int32_t*>(srcptr)), cachestep, M, N,
+        _param.scalesA + M_offset * _param.ldsa + K_offset, _param.ldsa, scab);
+    assert(ret == JblasSuccess);
+    ret = kernel::wrapper::AccumulateFp32::template forward<ISA_T>(reinterpret_cast<const float*>(srcptr), cachestep,
+                                                                   dstptr, cachestep, M, N);
+    assert(ret == JblasSuccess);
+
+    if (_param.zpA == nullptr) {
+      if (_param.zpB == nullptr) {
+        return ret;
+      } else {
+        ret = kernel::wrapper::RemoveZeroPointBias::template forward_wei<ISA_T>(
+            dstptr, cachestep, M, N, _param.zpB + N_offset + K_offset * _param.ldsb, scab, _param.ldsa,
+            _param.reduceA + M_offset * _param.ldsa + K_offset);
+      }
+    } else {
+      if (_param.zpB == nullptr) {
+        ret = kernel::wrapper::RemoveZeroPointBias::template forward_act<ISA_T>(
+            dstptr, cachestep, M, N, _param.zpA + M_offset * _param.ldsa + K_offset,
+            _param.scalesA + M_offset * _param.ldsa + K_offset, _param.ldsa, redb);
+      } else {
+        ret = kernel::wrapper::RemoveZeroPointBias::template forward_both<ISA_T>(
+            dstptr, cachestep, M, N, _param.zpA + M_offset * _param.ldsa + K_offset,
+            _param.zpB + N_offset + K_offset * _param.ldsb, _param.scalesA + M_offset * _param.ldsa + K_offset, scab,
+            _param.ldsa, _param.K, _param.reduceA + M_offset * _param.ldsa + K_offset, redb);
+      }
+    }
+    return ret;
+  }
+};
+
+template <JBLAS_ISA ISA_T>
+class ZpDequantInt32ToFp32 {
+ public:
+  struct Param {
+    // necessary
+    float* C;
+    int ldc;
+    int ldsa;
+    float* scalesA;
+    float* scalesB;
+    // optional if A asym
+    uint8_t* zpA = nullptr;
+    float* reduceB = nullptr;
+    // optional if B asym
+    int8_t* zpB = nullptr;
+    float* reduceA = nullptr;
+    int K = 1;
+  };
+  JBLAS_CODE forward(const int32_t* cacheptr, const int cachestep, const int M_offset, const int N_offset, const int M,
+                     const int N, const Param& _param, void* tmpcache, size_t cachesize) {
+    auto COffset = M_offset * _param.ldc + N_offset;
+    auto cptr = _param.C + COffset;
+    auto ret = kernel::wrapper::DequanS32Fp32::template forward<ISA_T>(cacheptr, cachestep, cptr, _param.ldc, M, N,
+                                                                       _param.scalesA + M_offset * _param.ldsa,
+                                                                       _param.ldsa, _param.scalesB + N_offset);
+    if (ret != JblasSuccess) {
+      return ret;
+    }
+    if (_param.zpA == nullptr && _param.zpB == nullptr) {
+      return ret;
+    } else if (_param.zpA != nullptr && _param.zpB == nullptr) {
+      ret = kernel::wrapper::RemoveZeroPointBias::template forward_act<ISA_T>(
+          cptr, _param.ldc, M, N, _param.zpA + M_offset * _param.ldsa, _param.scalesA + M_offset * _param.ldsa,
+          _param.ldsa, _param.reduceB + N_offset);
+    } else if (_param.zpA == nullptr && _param.zpB != nullptr) {
+      ret = kernel::wrapper::RemoveZeroPointBias::template forward_wei<ISA_T>(
+          cptr, _param.ldc, M, N, _param.zpB + N_offset, _param.scalesB + N_offset, _param.ldsa,
+          _param.reduceA + M_offset * _param.ldsa);
+    } else {
+      ret = kernel::wrapper::RemoveZeroPointBias::template forward_both<ISA_T>(
+          cptr, _param.ldc, M, N, _param.zpA + M_offset * _param.ldsa, _param.zpB + N_offset,
+          _param.scalesA + M_offset * _param.ldsa, _param.scalesB + N_offset, _param.ldsa, _param.K,
+          _param.reduceA + M_offset * _param.ldsa, _param.reduceB + N_offset);
+    }
+    return ret;
+  }
+};
+
+template <JBLAS_ISA ISA_T>
+class AlphaBetaProcessS32U8 {
+ public:
+  struct Param {
+    uint8_t* C;
+    int ldc;
+    float alpha;
+    float scaleAcc, scaleC;
+    int zpC;
+  };
+
+  JBLAS_CODE forward(const int32_t* cacheptr, const int cachestep, const int M_offset, const int N_offset, const int M,
+                     const int N, const Param& _param, void* tmpcache, size_t cachesize) {
+    auto COffset = M_offset * _param.ldc + N_offset;
+    auto cptr = _param.C + COffset;
+    return kernel::wrapper::QuanOutS32U32::template forward<ISA_T>(_param.alpha, cacheptr, cachestep, cptr, _param.ldc,
+                                                                   M, N, _param.scaleAcc, _param.scaleC, _param.zpC);
+  }
+};
+
+}  // namespace gemm
+}  // namespace epilogue
+}  // namespace jblas
diff --git a/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/jit_blas_gemm.h b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/jit_blas_gemm.h
new file mode 100644
index 0000000000000..364da9223940f
--- /dev/null
+++ b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/jit_blas_gemm.h
@@ -0,0 +1,2699 @@
+//  Copyright (c) 2023 Intel Corporation
+//
+//  Licensed under the Apache License, Version 2.0 (the "License");
+//  you may not use this file except in compliance with the License.
+//  You may obtain a copy of the License at
+//
+//    http://www.apache.org/licenses/LICENSE-2.0
+//
+//  Unless required by applicable law or agreed to in writing, software
+//  distributed under the License is distributed on an "AS IS" BASIS,
+//  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+//  See the License for the specific language governing permissions and
+//  limitations under the License.
+#pragma once
+#include <array>
+
+#include "jit_blas_utils.h"
+#include "jit_base.h"
+
+namespace jblas {
+namespace gemm {
+enum class CompType : uint32_t {
+  COMP_FP32 = 0,
+  COMP_BF16_FP32 = 1,
+  COMP_FP16_FP16 = 2,
+  COMP_INT_START = 3,
+  COMP_INT8_US_INT32 = COMP_INT_START,
+  COMP_INT8_UU_INT32 = 4,
+  COMP_INT8_SS_INT32 = 5,
+  COMP_INT8_SU_INT32 = 6,
+  COMP_INT16_SS_INT32 = 7,
+  COMP_INT8_US_FP32 = 8,
+  COMP_INT8_UU_FP32 = 9,
+  COMP_INT8_SS_FP32 = 10,
+  COMP_INT8_SU_FP32 = 11,
+};
+
+class CoreAttr {
+ public:
+  // INT32=LSB|**8bits:NTile**||**8bits:PackRow**||**8bits:CompType**||**8bits:Reserve**|
+  static uint32_t constexpr NTILE_MASK = 0xff, NTILE_SHIFT = 0, PACKROW_MASK = 0xff00, PACKROW_SHIFT = 8,
+                            COMP_MASK = 0xff0000, COMP_SHIFT = 16, ISA_MASK = 0xff000000, ISA_SHIFT = 24;
+
+  static inline uint32_t get_mask_val(uint32_t raw, uint32_t mask, uint32_t shift) { return (raw & mask) >> shift; }
+  static constexpr uint32_t make_core_id(uint32_t NTile, uint32_t PackRow, uint32_t CompType, uint32_t ISA) {
+    return (NTile << NTILE_SHIFT) | (PackRow << PACKROW_SHIFT) | (CompType << COMP_SHIFT) | (ISA << ISA_SHIFT);
+  }
+
+  static void parse_id(uint32_t id, uint32_t* vals) {
+    vals[0] = get_mask_val(id, NTILE_MASK, NTILE_SHIFT);
+    vals[1] = get_mask_val(id, PACKROW_MASK, PACKROW_SHIFT);
+    vals[2] = get_mask_val(id, COMP_MASK, COMP_SHIFT);
+    vals[3] = get_mask_val(id, ISA_MASK, ISA_SHIFT);
+  }
+
+  static const char* to_str(uint32_t id) {
+    static char tmp[128];
+    uint32_t vals[4];
+    parse_id(id, vals);
+    sprintf(tmp, "N%d_PACK%d_COMP%d_ISA%d", vals[0], vals[1], vals[2], vals[3]);
+    return tmp;
+  }
+
+  static inline size_t get_bsize(uint32_t id) {
+    auto packrow = get_mask_val(id, PACKROW_MASK, PACKROW_SHIFT);
+    return size_t(4 / packrow);
+  }
+};
+
+namespace code {
+
+template <int _NTILE, int _MTILE = 0>
+class Avx2N8P1 : protected jblas::xbyak::JitAvx2 {
+ public:
+  static int constexpr RegLen = 8, PackRow = 1;
+  static_assert(_NTILE % RegLen == 0);
+  static int constexpr NRegs = _NTILE / RegLen;
+  static int constexpr MRegs = _MTILE == 0 ? (RegCount - 1) / NRegs : _MTILE;
+  static_assert(NRegs * MRegs <= RegCount - 1);
+  static int constexpr NTILE = RegLen * NRegs, MTILE = MRegs, KTILE = 1;
+  static int constexpr KUNROLL = 2;
+  static uint32_t constexpr ISA = (uint32_t)JBLAS_ISA::JblasAVX2;
+  static uint32_t constexpr COMPUTE = (uint32_t)CompType::COMP_FP32;
+  typedef float AType;
+  typedef float BType;
+  typedef float CType;
+
+  struct params {
+    AType* matA;
+    int astride;
+    BType* matB;
+    int bstride;
+    CType* matC;
+    int cstride;
+    int k;
+    int n;
+    int init;
+  };
+  typedef long long (*func_t)(params*);
+
+  int CRegCount = 0, BRegCount = 0, ARegCount = 0, TmpRegCount = 0;
+  int CReg = 0, BReg = 0, AReg = 0, TmpReg = 0;
+  static int constexpr BKStepSize = KTILE * NTILE * sizeof(BType);
+  static int constexpr AKStepSize = KTILE * sizeof(AType);
+
+  void generate_code(int _mtile) {
+    assign_regs();
+    reset();
+    generate_mtile(_mtile);
+    ready();
+    mKernel = getCode<func_t>();
+  }
+  func_t mKernel = nullptr;
+
+ protected:
+  Xbyak::Reg64 parambase;
+  Xbyak::Reg64 reg_matAptr;
+  Xbyak::Reg64 reg_matBptr;
+  Xbyak::Reg64 reg_matCptr;
+  Xbyak::Reg64 reg_ksize;
+  Xbyak::Reg64 reg_nsize;
+  Xbyak::Reg64 reg_cstride;
+  Xbyak::Reg64 reg_astride;
+  Xbyak::Reg64 reg_iterk;
+  Xbyak::Reg64 reg_itern;
+  Xbyak::Reg64 reg_tmp;
+  Xbyak::Reg64 reg_tmp1;
+  Xbyak::Reg64 reg_tmp2;
+  Xbyak::Reg64 reg_ret = rax;
+  Xbyak::Opmask msk_wr = k1;
+
+  void assign_regs() {
+    CRegCount = MRegs * NRegs;
+    ARegCount = 1;
+    BRegCount = RegCount - ARegCount - CRegCount;
+    if (BRegCount < NRegs) {
+      BRegCount = 0;
+      ARegCount = BRegCount + 1;
+    }
+    if (BRegCount > NRegs) {
+      BRegCount = NRegs;
+    }
+    CReg = 0;
+    BReg = CReg + CRegCount;
+    AReg = BReg + BRegCount;
+    TmpReg = AReg + ARegCount;
+    assert(TmpReg <= RegCount);
+    TmpRegCount = RegCount - TmpReg;
+  }
+
+  void generate_mtile(int _mtile) {
+    inLocalLabel();  // use local label for multiple instance
+    Xbyak::util::StackFrame st(this, 1, 10, 16 * 10);
+    parambase = st.p[0];
+    reg_matAptr = st.t[0];
+    reg_matBptr = st.t[1];
+    reg_matCptr = st.t[0];
+    reg_ksize = st.t[2];
+    reg_astride = st.t[3];
+    reg_cstride = st.t[3];
+    reg_iterk = st.t[4];
+    reg_tmp = st.t[5];
+    reg_tmp1 = st.t[6];
+    reg_tmp2 = st.t[7];
+    reg_nsize = st.t[8];
+    reg_itern = st.t[9];
+    reg_ret = rax;
+
+    vreg_push(rsp);
+
+    load32(reg_ksize, ptr[parambase + OFFSET(k)]);
+    load32(reg_nsize, ptr[parambase + OFFSET(n)]);
+    xor_(reg_itern, reg_itern);
+    L(".nloop");
+    init_regs(_mtile);
+    mov(reg_matAptr, ptr[parambase + OFFSET(matA)]);
+    load32(reg_astride, ptr[parambase + OFFSET(astride)]);
+    mov(reg_matBptr, ptr[parambase + OFFSET(matB)]);
+    load32(reg_tmp, ptr[parambase + OFFSET(bstride)]);
+    imul(reg_tmp, reg_itern);
+    lea(reg_matBptr, ptr[reg_matBptr + reg_tmp]);
+    xor_(reg_iterk, reg_iterk);
+    generate_kloop(_mtile);
+    write_back(_mtile);
+    add(reg_itern, NTILE);
+    cmp(reg_itern, reg_nsize);
+    jb(".nloop");
+    mov(reg_ret, 0);
+    vreg_pop(rsp);
+
+    outLocalLabel();  // end of local label
+  }
+
+  void generate_kloop(int _mtile) {
+    inLocalLabel();
+    mov(reg_tmp, reg_ksize);
+    padto_le(reg_tmp, KUNROLL * KTILE);
+    cmp(reg_tmp, 0);
+    jz(".kloop", T_NEAR);
+    L(".unkloop");
+    generate_fma(_mtile, KUNROLL);
+    add(reg_matAptr, KUNROLL * AKStepSize);
+    add(reg_matBptr, KUNROLL * BKStepSize);
+    add(reg_iterk, KUNROLL * KTILE);
+    cmp(reg_iterk, reg_tmp);  // k iteration variable
+    jb(".unkloop");
+    cmp(reg_tmp, reg_ksize);
+    jge(".kend", T_NEAR);
+    L(".kloop");
+    generate_fma(_mtile, 1);
+    add(reg_matAptr, 1 * AKStepSize);
+    add(reg_matBptr, 1 * BKStepSize);
+    add(reg_iterk, 1 * KTILE);
+    cmp(reg_iterk, reg_ksize);  // k iteration variable
+    jb(".kloop");
+    L(".kend");
+    outLocalLabel();
+  }
+
+  void generate_fma(int _mtile, int _ktile) {
+    for (int kk = 0; kk < _ktile; kk++) {
+      lea(reg_tmp1, ptr[reg_matAptr + kk * AKStepSize]);
+      if (BRegCount == NRegs) {
+        for (int i = 0; i < NRegs; i++) {
+          vmovups(vreg_t(BReg + i), ptr[reg_matBptr + kk * BKStepSize + i * VecBytes]);
+        }
+        for (int mm = 0; mm < _mtile; mm++) {
+          vbroadcastss(vreg_t(AReg), ptr[reg_tmp1]);
+          add(reg_tmp1, reg_astride);
+          for (int i = 0; i < NRegs; i++) {
+            vfmadd231ps(vreg_t(CReg + mm * NRegs + i), vreg_t(AReg), vreg_t(BReg + i));
+          }
+        }
+      } else if (BRegCount == 0) {
+        for (int mm = 0; mm < _mtile; mm += ARegCount) {
+          int mm_re = utils::remainsize(mm, _mtile, ARegCount);
+          for (int imm = 0; imm < mm_re; imm++) {
+            vbroadcastss(vreg_t(AReg + imm), ptr[reg_tmp1]);
+            add(reg_tmp1, reg_astride);
+            for (int i = 0; i < NRegs; i++) {
+              vfmadd231ps(vreg_t(CReg + mm * NRegs + i), vreg_t(AReg + imm),
+                          ptr[reg_matBptr + kk * BKStepSize + i * VecBytes]);
+            }
+          }
+        }
+      } else {
+        assert(0);
+      }
+    }
+  }
+
+  void init_regs(int _mtile) {
+    inLocalLabel();
+    load32(reg_tmp, ptr[parambase + OFFSET(init)]);
+    cmp(reg_tmp, 0);
+    je(".read", T_NEAR);
+    for (int i = 0; i < _mtile; i++) {
+      for (int j = 0; j < NRegs; j++) {
+        vxor(vreg_t(CReg + i * NRegs + j), vreg_t(CReg + i * NRegs + j), vreg_t(CReg + i * NRegs + j));
+      }
+    }
+    jmp(".end", T_NEAR);
+    L(".read");
+    mov(reg_matCptr, ptr[parambase + OFFSET(matC)]);
+    lea(reg_matCptr, ptr[reg_matCptr + reg_itern * sizeof(CType)]);
+    load32(reg_cstride, ptr[parambase + OFFSET(cstride)]);
+    for (int i = 0; i < _mtile; i++) {
+      for (int j = 0; j < NRegs; j++) {
+        vmovups(vreg_t(CReg + i * NRegs + j), ptr[reg_matCptr + j * VecBytes]);
+      }
+      add(reg_matCptr, reg_cstride);
+    }
+    L(".end");
+    outLocalLabel();
+  }
+
+  void write_back(int _mtile) {
+    inLocalLabel();
+    mov(reg_matCptr, ptr[parambase + OFFSET(matC)]);
+    load32(reg_cstride, ptr[parambase + OFFSET(cstride)]);
+    lea(reg_matCptr, ptr[reg_matCptr + reg_itern * sizeof(CType)]);
+    for (int i = 0; i < _mtile; i++) {
+      for (int j = 0; j < NRegs; j++) {
+        vmovups(ptr[reg_matCptr + j * VecBytes], vreg_t(CReg + i * NRegs + j));
+      }
+      add(reg_matCptr, reg_cstride);
+    }
+    outLocalLabel();
+  }
+};
+
+template <int _NTILE, int _MTILE = 0>
+class Avx512fN16P1 : protected jblas::xbyak::JitAvx512f {
+ public:
+  static int constexpr RegLen = 16, PackRow = 1;
+  static_assert(_NTILE % RegLen == 0);
+  static int constexpr NRegs = _NTILE / RegLen;
+  static int constexpr MRegs = _MTILE == 0 ? (RegCount - 1) / NRegs : _MTILE;
+  static_assert(NRegs * MRegs <= RegCount - 1);
+  static int constexpr NTILE = RegLen * NRegs, MTILE = MRegs, KTILE = 1;
+  static int constexpr KUNROLL = 2;
+  static uint32_t constexpr ISA = (uint32_t)JBLAS_ISA::JblasAVX512F;
+  static uint32_t constexpr COMPUTE = (uint32_t)CompType::COMP_FP32;
+  typedef float AType;
+  typedef float BType;
+  typedef float CType;
+
+  struct params {
+    AType* matA;
+    int astride;
+    BType* matB;
+    int bstride;
+    CType* matC;
+    int cstride;
+    int k;
+    int n;
+    int init;
+  };
+  typedef long long (*func_t)(params*);
+
+  int CRegCount = 0, BRegCount = 0, ARegCount = 0, TmpRegCount = 0;
+  int CReg = 0, BReg = 0, AReg = 0, TmpReg = 0;
+  static int constexpr BKStepSize = KTILE * NTILE * sizeof(BType);
+  static int constexpr AKStepSize = KTILE * sizeof(AType);
+
+  void generate_code(int _mtile) {
+    assign_regs();
+    reset();
+    generate_mtile(_mtile);
+    ready();
+    mKernel = getCode<func_t>();
+  }
+  func_t mKernel = nullptr;
+
+ protected:
+  Xbyak::Reg64 parambase;
+  Xbyak::Reg64 reg_matAptr;
+  Xbyak::Reg64 reg_matBptr;
+  Xbyak::Reg64 reg_matCptr;
+  Xbyak::Reg64 reg_ksize;
+  Xbyak::Reg64 reg_nsize;
+  Xbyak::Reg64 reg_cstride;
+  Xbyak::Reg64 reg_astride;
+  Xbyak::Reg64 reg_iterk;
+  Xbyak::Reg64 reg_itern;
+  Xbyak::Reg64 reg_tmp;
+  Xbyak::Reg64 reg_tmp1;
+  Xbyak::Reg64 reg_tmp2;
+  Xbyak::Reg64 reg_ret = rax;
+  Xbyak::Opmask msk_wr = k1;
+
+  void assign_regs() {
+    CRegCount = MRegs * NRegs;
+    ARegCount = 1;
+    BRegCount = RegCount - ARegCount - CRegCount;
+    if (BRegCount < NRegs) {
+      BRegCount = 0;
+      ARegCount = BRegCount + 1;
+    }
+    if (BRegCount > NRegs) {
+      BRegCount = NRegs;
+    }
+    CReg = 0;
+    BReg = CReg + CRegCount;
+    AReg = BReg + BRegCount;
+    TmpReg = AReg + ARegCount;
+    assert(TmpReg <= RegCount);
+    TmpRegCount = RegCount - TmpReg;
+  }
+
+  void generate_mtile(int _mtile) {
+    inLocalLabel();  // use local label for multiple instance
+    Xbyak::util::StackFrame st(this, 1, 10, 16 * 10);
+    parambase = st.p[0];
+    reg_matAptr = st.t[0];
+    reg_matBptr = st.t[1];
+    reg_matCptr = st.t[0];
+    reg_ksize = st.t[2];
+    reg_astride = st.t[3];
+    reg_cstride = st.t[3];
+    reg_iterk = st.t[4];
+    reg_tmp = st.t[5];
+    reg_tmp1 = st.t[6];
+    reg_tmp2 = st.t[7];
+    reg_nsize = st.t[8];
+    reg_itern = st.t[9];
+    reg_ret = rax;
+
+    vreg_push(rsp);
+
+    load32(reg_ksize, ptr[parambase + OFFSET(k)]);
+    load32(reg_nsize, ptr[parambase + OFFSET(n)]);
+    xor_(reg_itern, reg_itern);
+    L(".nloop");
+    init_regs(_mtile);
+    mov(reg_matAptr, ptr[parambase + OFFSET(matA)]);
+    load32(reg_astride, ptr[parambase + OFFSET(astride)]);
+    mov(reg_matBptr, ptr[parambase + OFFSET(matB)]);
+    load32(reg_tmp, ptr[parambase + OFFSET(bstride)]);
+    imul(reg_tmp, reg_itern);
+    lea(reg_matBptr, ptr[reg_matBptr + reg_tmp]);
+    xor_(reg_iterk, reg_iterk);
+    generate_kloop(_mtile);
+    write_back(_mtile);
+    add(reg_itern, NTILE);
+    cmp(reg_itern, reg_nsize);
+    jb(".nloop");
+    mov(reg_ret, 0);
+    vreg_pop(rsp);
+
+    outLocalLabel();  // end of local label
+  }
+
+  void generate_kloop(int _mtile) {
+    inLocalLabel();
+    mov(reg_tmp, reg_ksize);
+    padto_le(reg_tmp, KUNROLL * KTILE);
+    cmp(reg_tmp, 0);
+    jz(".kloop", T_NEAR);
+    L(".unkloop");
+    generate_fma(_mtile, KUNROLL);
+    add(reg_matAptr, KUNROLL * AKStepSize);
+    add(reg_matBptr, KUNROLL * BKStepSize);
+    add(reg_iterk, KUNROLL * KTILE);
+    cmp(reg_iterk, reg_tmp);  // k iteration variable
+    jb(".unkloop");
+    cmp(reg_tmp, reg_ksize);
+    jge(".kend", T_NEAR);
+    L(".kloop");
+    generate_fma(_mtile, 1);
+    add(reg_matAptr, 1 * AKStepSize);
+    add(reg_matBptr, 1 * BKStepSize);
+    add(reg_iterk, 1 * KTILE);
+    cmp(reg_iterk, reg_ksize);  // k iteration variable
+    jb(".kloop");
+    L(".kend");
+    outLocalLabel();
+  }
+
+  void generate_fma(int _mtile, int _ktile) {
+    for (int kk = 0; kk < _ktile; kk++) {
+      lea(reg_tmp1, ptr[reg_matAptr + kk * AKStepSize]);
+      if (BRegCount == NRegs) {
+        for (int i = 0; i < NRegs; i++) {
+          vmovups(vreg_t(BReg + i), ptr[reg_matBptr + kk * BKStepSize + i * VecBytes]);
+        }
+        for (int mm = 0; mm < _mtile; mm++) {
+          vbroadcastss(vreg_t(AReg), ptr[reg_tmp1]);
+          add(reg_tmp1, reg_astride);
+          for (int i = 0; i < NRegs; i++) {
+            vfmadd231ps(vreg_t(CReg + mm * NRegs + i), vreg_t(AReg), vreg_t(BReg + i));
+          }
+        }
+      } else if (BRegCount == 0) {
+        for (int mm = 0; mm < _mtile; mm += ARegCount) {
+          int mm_re = utils::remainsize(mm, _mtile, ARegCount);
+          for (int imm = 0; imm < mm_re; imm++) {
+            vbroadcastss(vreg_t(AReg + imm), ptr[reg_tmp1]);
+            add(reg_tmp1, reg_astride);
+            for (int i = 0; i < NRegs; i++) {
+              vfmadd231ps(vreg_t(CReg + mm * NRegs + i), vreg_t(AReg + imm),
+                          ptr[reg_matBptr + kk * BKStepSize + i * VecBytes]);
+            }
+          }
+        }
+      } else {
+        assert(0);
+      }
+    }
+  }
+
+  void init_regs(int _mtile) {
+    inLocalLabel();
+    load32(reg_tmp, ptr[parambase + OFFSET(init)]);
+    cmp(reg_tmp, 0);
+    je(".read", T_NEAR);
+    for (int i = 0; i < _mtile; i++) {
+      for (int j = 0; j < NRegs; j++) {
+        vxor(vreg_t(CReg + i * NRegs + j), vreg_t(CReg + i * NRegs + j), vreg_t(CReg + i * NRegs + j));
+      }
+    }
+    jmp(".end", T_NEAR);
+    L(".read");
+    mov(reg_matCptr, ptr[parambase + OFFSET(matC)]);
+    lea(reg_matCptr, ptr[reg_matCptr + reg_itern * sizeof(CType)]);
+    load32(reg_cstride, ptr[parambase + OFFSET(cstride)]);
+    for (int i = 0; i < _mtile; i++) {
+      for (int j = 0; j < NRegs; j++) {
+        vmovups(vreg_t(CReg + i * NRegs + j), ptr[reg_matCptr + j * VecBytes]);
+      }
+      add(reg_matCptr, reg_cstride);
+    }
+    L(".end");
+    outLocalLabel();
+  }
+
+  void write_back(int _mtile) {
+    inLocalLabel();
+    mov(reg_matCptr, ptr[parambase + OFFSET(matC)]);
+    load32(reg_cstride, ptr[parambase + OFFSET(cstride)]);
+    lea(reg_matCptr, ptr[reg_matCptr + reg_itern * sizeof(CType)]);
+    for (int i = 0; i < _mtile; i++) {
+      for (int j = 0; j < NRegs; j++) {
+        vmovups(ptr[reg_matCptr + j * VecBytes], vreg_t(CReg + i * NRegs + j));
+      }
+      add(reg_matCptr, reg_cstride);
+    }
+    outLocalLabel();
+  }
+};
+
+template <int _NTILE, int _MTILE = 0>
+class Avx512fp16N32P1 : protected jblas::xbyak::JitAvx512_fp16 {
+ public:
+  static int constexpr RegLen = 32, PackRow = 1;
+  static_assert(_NTILE % RegLen == 0);
+  static int constexpr NRegs = _NTILE / RegLen;
+  static int constexpr MRegs = _MTILE == 0 ? (RegCount - 1) / NRegs : _MTILE;
+  static_assert(NRegs * MRegs <= RegCount - 1);
+  static int constexpr NTILE = RegLen * NRegs, MTILE = MRegs, KTILE = 1;
+  static int constexpr KUNROLL = 2;
+  static uint32_t constexpr ISA = (uint32_t)JBLAS_ISA::JblasAVX512_FP16;
+  static uint32_t constexpr COMPUTE = (uint32_t)CompType::COMP_FP16_FP16;
+  typedef utils::fp16 AType;
+  typedef utils::fp16 BType;
+  typedef utils::fp16 CType;
+
+  struct params {
+    AType* matA;
+    int astride;
+    BType* matB;
+    int bstride;
+    CType* matC;
+    int cstride;
+    int k;
+    int n;
+    int init;
+  };
+  typedef long long (*func_t)(params*);
+
+  int CRegCount = 0, BRegCount = 0, ARegCount = 0, TmpRegCount = 0;
+  int CReg = 0, BReg = 0, AReg = 0, TmpReg = 0;
+  static int constexpr BKStepSize = KTILE * NTILE * sizeof(BType);
+  static int constexpr AKStepSize = KTILE * sizeof(AType);
+
+  void generate_code(int _mtile) {
+    assign_regs();
+    reset();
+    generate_mtile(_mtile);
+    ready();
+    mKernel = getCode<func_t>();
+  }
+  func_t mKernel = nullptr;
+
+ protected:
+  Xbyak::Reg64 parambase;
+  Xbyak::Reg64 reg_matAptr;
+  Xbyak::Reg64 reg_matBptr;
+  Xbyak::Reg64 reg_matCptr;
+  Xbyak::Reg64 reg_ksize;
+  Xbyak::Reg64 reg_nsize;
+  Xbyak::Reg64 reg_cstride;
+  Xbyak::Reg64 reg_astride;
+  Xbyak::Reg64 reg_iterk;
+  Xbyak::Reg64 reg_itern;
+  Xbyak::Reg64 reg_tmp;
+  Xbyak::Reg64 reg_tmp1;
+  Xbyak::Reg64 reg_tmp2;
+  Xbyak::Reg64 reg_ret = rax;
+  Xbyak::Opmask msk_wr = k1;
+
+  void assign_regs() {
+    CRegCount = MRegs * NRegs;
+    ARegCount = 1;
+    BRegCount = RegCount - ARegCount - CRegCount;
+    if (BRegCount < NRegs) {
+      BRegCount = 0;
+      ARegCount = BRegCount + 1;
+    }
+    if (BRegCount > NRegs) {
+      BRegCount = NRegs;
+    }
+    CReg = 0;
+    BReg = CReg + CRegCount;
+    AReg = BReg + BRegCount;
+    TmpReg = AReg + ARegCount;
+    assert(TmpReg <= RegCount);
+    TmpRegCount = RegCount - TmpReg;
+  }
+
+  void generate_mtile(int _mtile) {
+    inLocalLabel();  // use local label for multiple instance
+    Xbyak::util::StackFrame st(this, 1, 10, 16 * 10);
+    parambase = st.p[0];
+    reg_matAptr = st.t[0];
+    reg_matBptr = st.t[1];
+    reg_matCptr = st.t[0];
+    reg_ksize = st.t[2];
+    reg_astride = st.t[3];
+    reg_cstride = st.t[3];
+    reg_iterk = st.t[4];
+    reg_tmp = st.t[5];
+    reg_tmp1 = st.t[6];
+    reg_tmp2 = st.t[7];
+    reg_nsize = st.t[8];
+    reg_itern = st.t[9];
+    reg_ret = rax;
+
+    vreg_push(rsp);
+
+    load32(reg_ksize, ptr[parambase + OFFSET(k)]);
+    load32(reg_nsize, ptr[parambase + OFFSET(n)]);
+    xor_(reg_itern, reg_itern);
+    L(".nloop");
+    init_regs(_mtile);
+    mov(reg_matAptr, ptr[parambase + OFFSET(matA)]);
+    load32(reg_astride, ptr[parambase + OFFSET(astride)]);
+    mov(reg_matBptr, ptr[parambase + OFFSET(matB)]);
+    load32(reg_tmp, ptr[parambase + OFFSET(bstride)]);
+    imul(reg_tmp, reg_itern);
+    lea(reg_matBptr, ptr[reg_matBptr + reg_tmp]);
+    xor_(reg_iterk, reg_iterk);
+    generate_kloop(_mtile);
+    write_back(_mtile);
+    add(reg_itern, NTILE);
+    cmp(reg_itern, reg_nsize);
+    jb(".nloop");
+    mov(reg_ret, 0);
+    vreg_pop(rsp);
+
+    outLocalLabel();  // end of local label
+  }
+
+  void generate_kloop(int _mtile) {
+    inLocalLabel();
+    mov(reg_tmp, reg_ksize);
+    padto_le(reg_tmp, KUNROLL * KTILE);
+    cmp(reg_tmp, 0);
+    jz(".kloop", T_NEAR);
+    L(".unkloop");
+    generate_fma(_mtile, KUNROLL);
+    add(reg_matAptr, KUNROLL * AKStepSize);
+    add(reg_matBptr, KUNROLL * BKStepSize);
+    add(reg_iterk, KUNROLL * KTILE);
+    cmp(reg_iterk, reg_tmp);  // k iteration variable
+    jb(".unkloop");
+    cmp(reg_tmp, reg_ksize);
+    jge(".kend", T_NEAR);
+    L(".kloop");
+    generate_fma(_mtile, 1);
+    add(reg_matAptr, 1 * AKStepSize);
+    add(reg_matBptr, 1 * BKStepSize);
+    add(reg_iterk, 1 * KTILE);
+    cmp(reg_iterk, reg_ksize);  // k iteration variable
+    jb(".kloop");
+    L(".kend");
+    outLocalLabel();
+  }
+
+  void generate_fma(int _mtile, int _ktile) {
+    for (int kk = 0; kk < _ktile; kk++) {
+      lea(reg_tmp1, ptr[reg_matAptr + kk * AKStepSize]);
+      if (BRegCount == NRegs) {
+        for (int i = 0; i < NRegs; i++) {
+          vmovups(vreg_t(BReg + i), ptr[reg_matBptr + kk * BKStepSize + i * VecBytes]);
+        }
+        for (int mm = 0; mm < _mtile; mm++) {
+          vpbroadcastw(vreg_t(AReg), ptr[reg_tmp1]);
+          add(reg_tmp1, reg_astride);
+          for (int i = 0; i < NRegs; i++) {
+            vfmadd231ph(vreg_t(CReg + mm * NRegs + i), vreg_t(AReg), vreg_t(BReg + i));
+          }
+        }
+      } else if (BRegCount == 0) {
+        for (int mm = 0; mm < _mtile; mm += ARegCount) {
+          int mm_re = utils::remainsize(mm, _mtile, ARegCount);
+          for (int imm = 0; imm < mm_re; imm++) {
+            vpbroadcastw(vreg_t(AReg + imm), ptr[reg_tmp1]);
+            add(reg_tmp1, reg_astride);
+            for (int i = 0; i < NRegs; i++) {
+              vfmadd231ph(vreg_t(CReg + mm * NRegs + i), vreg_t(AReg + imm),
+                          ptr[reg_matBptr + kk * BKStepSize + i * VecBytes]);
+            }
+          }
+        }
+      } else {
+        assert(0);
+      }
+    }
+  }
+
+  void init_regs(int _mtile) {
+    inLocalLabel();
+    load32(reg_tmp, ptr[parambase + OFFSET(init)]);
+    cmp(reg_tmp, 0);
+    je(".read", T_NEAR);
+    for (int i = 0; i < _mtile; i++) {
+      for (int j = 0; j < NRegs; j++) {
+        vxor(vreg_t(CReg + i * NRegs + j), vreg_t(CReg + i * NRegs + j), vreg_t(CReg + i * NRegs + j));
+      }
+    }
+    jmp(".end", T_NEAR);
+    L(".read");
+    mov(reg_matCptr, ptr[parambase + OFFSET(matC)]);
+    lea(reg_matCptr, ptr[reg_matCptr + reg_itern * sizeof(CType)]);
+    load32(reg_cstride, ptr[parambase + OFFSET(cstride)]);
+    for (int i = 0; i < _mtile; i++) {
+      for (int j = 0; j < NRegs; j++) {
+        vmovups(vreg_t(CReg + i * NRegs + j), ptr[reg_matCptr + j * VecBytes]);
+      }
+      add(reg_matCptr, reg_cstride);
+    }
+    L(".end");
+    outLocalLabel();
+  }
+
+  void write_back(int _mtile) {
+    inLocalLabel();
+    mov(reg_matCptr, ptr[parambase + OFFSET(matC)]);
+    load32(reg_cstride, ptr[parambase + OFFSET(cstride)]);
+    lea(reg_matCptr, ptr[reg_matCptr + reg_itern * sizeof(CType)]);
+    for (int i = 0; i < _mtile; i++) {
+      for (int j = 0; j < NRegs; j++) {
+        vmovups(ptr[reg_matCptr + j * VecBytes], vreg_t(CReg + i * NRegs + j));
+      }
+      add(reg_matCptr, reg_cstride);
+    }
+    outLocalLabel();
+  }
+};
+
+template <int _NTILE, int _MTILE = 0>
+class Avx512bf16N16P2 : protected jblas::xbyak::JitAvx512_bf16 {
+ public:
+  static int constexpr RegLen = 16, PackRow = 2;
+  static_assert(_NTILE % RegLen == 0);
+  static int constexpr NRegs = _NTILE / RegLen;
+  static int constexpr MRegs = _MTILE == 0 ? (RegCount - 1) / NRegs : _MTILE;
+  static_assert(NRegs * MRegs <= RegCount - 1);
+  static int constexpr NTILE = RegLen * NRegs, MTILE = MRegs, KTILE = 2;
+  static int constexpr KUNROLL = 2;
+  static uint32_t constexpr ISA = (uint32_t)JBLAS_ISA::JblasAVX512_BF16;
+  static uint32_t constexpr COMPUTE = (uint32_t)CompType::COMP_BF16_FP32;
+  typedef utils::bf16 AType;
+  typedef utils::bf16 BType;
+  typedef float CType;
+
+  struct params {
+    AType* matA;
+    int astride;
+    BType* matB;
+    int bstride;
+    CType* matC;
+    int cstride;
+    int k;
+    int n;
+    int init;
+  };
+  typedef long long (*func_t)(params*);
+
+  int CRegCount = 0, BRegCount = 0, ARegCount = 0, TmpRegCount = 0;
+  int CReg = 0, BReg = 0, AReg = 0, TmpReg = 0;
+  static int constexpr BKStepSize = KTILE * NTILE * sizeof(BType);
+  static int constexpr AKStepSize = KTILE * sizeof(AType);
+
+  void generate_code(int _mtile) {
+    assign_regs();
+    reset();
+    generate_mtile(_mtile);
+    ready();
+    mKernel = getCode<func_t>();
+  }
+  func_t mKernel = nullptr;
+
+ protected:
+  Xbyak::Reg64 parambase;
+  Xbyak::Reg64 reg_matAptr;
+  Xbyak::Reg64 reg_matBptr;
+  Xbyak::Reg64 reg_matCptr;
+  Xbyak::Reg64 reg_ksize;
+  Xbyak::Reg64 reg_nsize;
+  Xbyak::Reg64 reg_cstride;
+  Xbyak::Reg64 reg_astride;
+  Xbyak::Reg64 reg_iterk;
+  Xbyak::Reg64 reg_itern;
+  Xbyak::Reg64 reg_tmp;
+  Xbyak::Reg64 reg_tmp1;
+  Xbyak::Reg64 reg_tmp2;
+  Xbyak::Reg64 reg_ret = rax;
+  Xbyak::Opmask msk_wr = k1;
+
+  void assign_regs() {
+    CRegCount = MRegs * NRegs;
+    ARegCount = 1;
+    BRegCount = RegCount - ARegCount - CRegCount;
+    if (BRegCount < NRegs) {
+      BRegCount = 0;
+      ARegCount = BRegCount + 1;
+    }
+    if (BRegCount > NRegs) {
+      BRegCount = NRegs;
+    }
+    CReg = 0;
+    BReg = CReg + CRegCount;
+    AReg = BReg + BRegCount;
+    TmpReg = AReg + ARegCount;
+    assert(TmpReg <= RegCount);
+    TmpRegCount = RegCount - TmpReg;
+  }
+
+  void generate_mtile(int _mtile) {
+    inLocalLabel();  // use local label for multiple instance
+    Xbyak::util::StackFrame st(this, 1, 10, 16 * 10);
+    parambase = st.p[0];
+    reg_matAptr = st.t[0];
+    reg_matBptr = st.t[1];
+    reg_matCptr = st.t[0];
+    reg_ksize = st.t[2];
+    reg_astride = st.t[3];
+    reg_cstride = st.t[3];
+    reg_iterk = st.t[4];
+    reg_tmp = st.t[5];
+    reg_tmp1 = st.t[6];
+    reg_tmp2 = st.t[7];
+    reg_nsize = st.t[8];
+    reg_itern = st.t[9];
+    reg_ret = rax;
+
+    vreg_push(rsp);
+
+    load32(reg_ksize, ptr[parambase + OFFSET(k)]);
+    load32(reg_nsize, ptr[parambase + OFFSET(n)]);
+    xor_(reg_itern, reg_itern);
+    L(".nloop");
+    init_regs(_mtile);
+    mov(reg_matAptr, ptr[parambase + OFFSET(matA)]);
+    load32(reg_astride, ptr[parambase + OFFSET(astride)]);
+    mov(reg_matBptr, ptr[parambase + OFFSET(matB)]);
+    load32(reg_tmp, ptr[parambase + OFFSET(bstride)]);
+    imul(reg_tmp, reg_itern);
+    lea(reg_matBptr, ptr[reg_matBptr + reg_tmp]);
+    xor_(reg_iterk, reg_iterk);
+    generate_kloop(_mtile);
+    write_back(_mtile);
+    add(reg_itern, NTILE);
+    cmp(reg_itern, reg_nsize);
+    jb(".nloop");
+    mov(reg_ret, 0);
+    vreg_pop(rsp);
+
+    outLocalLabel();  // end of local label
+  }
+
+  void generate_kloop(int _mtile) {
+    inLocalLabel();
+    mov(reg_tmp, reg_ksize);
+    padto_le(reg_tmp, KUNROLL * KTILE);
+    cmp(reg_tmp, 0);
+    jz(".kloop", T_NEAR);
+    L(".unkloop");
+    generate_fma(_mtile, KUNROLL);
+    add(reg_matAptr, KUNROLL * AKStepSize);
+    add(reg_matBptr, KUNROLL * BKStepSize);
+    add(reg_iterk, KUNROLL * KTILE);
+    cmp(reg_iterk, reg_tmp);  // k iteration variable
+    jb(".unkloop");
+    cmp(reg_tmp, reg_ksize);
+    jge(".kend", T_NEAR);
+    L(".kloop");
+    generate_fma(_mtile, 1);
+    add(reg_matAptr, 1 * AKStepSize);
+    add(reg_matBptr, 1 * BKStepSize);
+    add(reg_iterk, 1 * KTILE);
+    cmp(reg_iterk, reg_ksize);  // k iteration variable
+    jb(".kloop");
+    L(".kend");
+    outLocalLabel();
+  }
+
+  void generate_fma(int _mtile, int _ktile) {
+    for (int kk = 0; kk < _ktile; kk++) {
+      lea(reg_tmp1, ptr[reg_matAptr + kk * AKStepSize]);
+      if (BRegCount == NRegs) {
+        for (int i = 0; i < NRegs; i++) {
+          vmovups(vreg_t(BReg + i), ptr[reg_matBptr + kk * BKStepSize + i * VecBytes]);
+        }
+        for (int mm = 0; mm < _mtile; mm++) {
+          vbroadcastss(vreg_t(AReg), ptr[reg_tmp1]);
+          add(reg_tmp1, reg_astride);
+          for (int i = 0; i < NRegs; i++) {
+            vdpbf16ps(vreg_t(CReg + mm * NRegs + i), vreg_t(AReg), vreg_t(BReg + i));
+          }
+        }
+      } else if (BRegCount == 0) {
+        for (int mm = 0; mm < _mtile; mm += ARegCount) {
+          int mm_re = utils::remainsize(mm, _mtile, ARegCount);
+          for (int imm = 0; imm < mm_re; imm++) {
+            vbroadcastss(vreg_t(AReg + imm), ptr[reg_tmp1]);
+            add(reg_tmp1, reg_astride);
+            for (int i = 0; i < NRegs; i++) {
+              vdpbf16ps(vreg_t(CReg + mm * NRegs + i), vreg_t(AReg + imm),
+                        ptr[reg_matBptr + kk * BKStepSize + i * VecBytes]);
+            }
+          }
+        }
+      } else {
+        assert(0);
+      }
+    }
+  }
+
+  void init_regs(int _mtile) {
+    inLocalLabel();
+    load32(reg_tmp, ptr[parambase + OFFSET(init)]);
+    cmp(reg_tmp, 0);
+    je(".read", T_NEAR);
+    for (int i = 0; i < _mtile; i++) {
+      for (int j = 0; j < NRegs; j++) {
+        vxor(vreg_t(CReg + i * NRegs + j), vreg_t(CReg + i * NRegs + j), vreg_t(CReg + i * NRegs + j));
+      }
+    }
+    jmp(".end", T_NEAR);
+    L(".read");
+    mov(reg_matCptr, ptr[parambase + OFFSET(matC)]);
+    lea(reg_matCptr, ptr[reg_matCptr + reg_itern * sizeof(CType)]);
+    load32(reg_cstride, ptr[parambase + OFFSET(cstride)]);
+    for (int i = 0; i < _mtile; i++) {
+      for (int j = 0; j < NRegs; j++) {
+        vmovups(vreg_t(CReg + i * NRegs + j), ptr[reg_matCptr + j * VecBytes]);
+      }
+      add(reg_matCptr, reg_cstride);
+    }
+    L(".end");
+    outLocalLabel();
+  }
+
+  void write_back(int _mtile) {
+    inLocalLabel();
+    mov(reg_matCptr, ptr[parambase + OFFSET(matC)]);
+    load32(reg_cstride, ptr[parambase + OFFSET(cstride)]);
+    lea(reg_matCptr, ptr[reg_matCptr + reg_itern * sizeof(CType)]);
+    for (int i = 0; i < _mtile; i++) {
+      for (int j = 0; j < NRegs; j++) {
+        vmovups(ptr[reg_matCptr + j * VecBytes], vreg_t(CReg + i * NRegs + j));
+      }
+      add(reg_matCptr, reg_cstride);
+    }
+    outLocalLabel();
+  }
+};
+
+template <int _NTILE, int _MTILE = 0>
+class Avx512vnniN16P4 : protected jblas::xbyak::JitAvx512vnni {
+ public:
+  static int constexpr RegLen = 16, PackRow = 4;
+  static_assert(_NTILE % RegLen == 0);
+  static int constexpr NRegs = _NTILE / RegLen;
+  static int constexpr MRegs = _MTILE == 0 ? (RegCount - 1) / NRegs : _MTILE;
+  static_assert(NRegs * MRegs <= RegCount - 1);
+  static int constexpr NTILE = RegLen * NRegs, MTILE = MRegs, KTILE = 4;
+  static int constexpr KUNROLL = 2;
+  static uint32_t constexpr ISA = (uint32_t)JBLAS_ISA::JblasAVX512_VNNI;
+  static uint32_t constexpr COMPUTE = (uint32_t)CompType::COMP_INT8_US_INT32;
+  typedef uint8_t AType;
+  typedef int8_t BType;
+  typedef int32_t CType;
+  struct params {
+    AType* matA;
+    int astride;
+    BType* matB;
+    int bstride;
+    CType* matC;
+    int cstride;
+    int k;
+    int n;
+    int init;
+  };
+  typedef long long (*func_t)(params*);
+
+  int CRegCount = 0, BRegCount = 0, ARegCount = 0, TmpRegCount = 0;
+  int CReg = 0, BReg = 0, AReg = 0, TmpReg = 0;
+  static int constexpr BKStepSize = KTILE * NTILE * sizeof(BType);
+  static int constexpr AKStepSize = KTILE * sizeof(AType);
+
+  void generate_code(int _mtile) {
+    assign_regs();
+    reset();
+    generate_mtile(_mtile);
+    ready();
+    mKernel = getCode<func_t>();
+  }
+  func_t mKernel = nullptr;
+
+ private:
+  Xbyak::Reg64 parambase;
+  Xbyak::Reg64 reg_matAptr;
+  Xbyak::Reg64 reg_matBptr;
+  Xbyak::Reg64 reg_matCptr;
+  Xbyak::Reg64 reg_ksize;
+  Xbyak::Reg64 reg_nsize;
+  Xbyak::Reg64 reg_cstride;
+  Xbyak::Reg64 reg_astride;
+  Xbyak::Reg64 reg_iterk;
+  Xbyak::Reg64 reg_itern;
+  Xbyak::Reg64 reg_tmp;
+  Xbyak::Reg64 reg_tmp1;
+  Xbyak::Reg64 reg_tmp2;
+  Xbyak::Reg64 reg_ret = rax;
+
+ protected:
+  void assign_regs() {
+    CRegCount = MRegs * NRegs;
+    ARegCount = 1;
+    BRegCount = RegCount - ARegCount - CRegCount;
+    if (BRegCount < NRegs) {
+      BRegCount = 0;
+      ARegCount = BRegCount + 1;
+    }
+    if (BRegCount > NRegs) {
+      BRegCount = NRegs;
+    }
+    CReg = 0;
+    BReg = CReg + CRegCount;
+    AReg = BReg + BRegCount;
+    TmpReg = AReg + ARegCount;
+    assert(TmpReg <= RegCount);
+    TmpRegCount = RegCount - TmpReg;
+  }
+
+  void generate_mtile(int _mtile) {
+    inLocalLabel();
+    Xbyak::util::StackFrame st(this, 1, 10, 16 * 10);
+    parambase = st.p[0];
+    reg_matAptr = st.t[0];
+    reg_matBptr = st.t[1];
+    reg_matCptr = st.t[0];
+    reg_ksize = st.t[2];
+    reg_astride = st.t[3];
+    reg_cstride = st.t[3];
+    reg_iterk = st.t[4];
+    reg_tmp = st.t[5];
+    reg_tmp1 = st.t[6];
+    reg_tmp2 = st.t[7];
+    reg_nsize = st.t[8];
+    reg_itern = st.t[9];
+    reg_ret = rax;
+
+    vreg_push(rsp);
+
+    load32(reg_ksize, ptr[parambase + OFFSET(k)]);
+    load32(reg_nsize, ptr[parambase + OFFSET(n)]);
+    xor_(reg_itern, reg_itern);
+    L(".nloop");
+    init_regs(_mtile);
+    mov(reg_matAptr, ptr[parambase + OFFSET(matA)]);
+    load32(reg_astride, ptr[parambase + OFFSET(astride)]);
+    mov(reg_matBptr, ptr[parambase + OFFSET(matB)]);
+    load32(reg_tmp, ptr[parambase + OFFSET(bstride)]);
+    imul(reg_tmp, reg_itern);
+    lea(reg_matBptr, ptr[reg_matBptr + reg_tmp]);
+    xor_(reg_iterk, reg_iterk);
+    generate_kloop(_mtile);
+    write_back(_mtile);
+    add(reg_itern, NTILE);
+    cmp(reg_itern, reg_nsize);
+    jb(".nloop");
+    mov(reg_ret, 0);
+    vreg_pop(rsp);
+
+    outLocalLabel();  // end of local label
+  }
+
+  void generate_kloop(int _mtile) {
+    inLocalLabel();
+    mov(reg_tmp, reg_ksize);
+    padto_le(reg_tmp, KUNROLL * KTILE);
+    cmp(reg_tmp, 0);
+    jz(".kloop", T_NEAR);
+    L(".unkloop");
+    generate_fma(_mtile, KUNROLL);
+    add(reg_matAptr, KUNROLL * AKStepSize);
+    add(reg_matBptr, KUNROLL * BKStepSize);
+    add(reg_iterk, KUNROLL * KTILE);
+    cmp(reg_iterk, reg_tmp);  // k iteration variable
+    jb(".unkloop");
+    cmp(reg_tmp, reg_ksize);
+    jge(".kend", T_NEAR);
+    L(".kloop");
+    generate_fma(_mtile, 1);
+    add(reg_matAptr, 1 * AKStepSize);
+    add(reg_matBptr, 1 * BKStepSize);
+    add(reg_iterk, 1 * KTILE);
+    cmp(reg_iterk, reg_ksize);  // k iteration variable
+    jb(".kloop");
+    L(".kend");
+    outLocalLabel();
+  }
+
+  void generate_fma(int _mtile, int _kunroll) {
+    for (int kk = 0; kk < _kunroll; kk++) {
+      lea(reg_tmp1, ptr[reg_matAptr + kk * AKStepSize]);
+      if (BRegCount == NRegs) {
+        for (int i = 0; i < NRegs; i++) {
+          vmovups(vreg_t(BReg + i), ptr[reg_matBptr + kk * BKStepSize + i * VecBytes]);
+        }
+        for (int mm = 0; mm < _mtile; mm++) {
+          vpbroadcastd(vreg_t(AReg), ptr[reg_tmp1]);
+          add(reg_tmp1, reg_astride);
+          for (int i = 0; i < NRegs; i++) {
+            vpdpbusds_(vreg_t(CReg + mm * NRegs + i), vreg_t(AReg), vreg_t(BReg + i));
+          }
+        }
+      } else if (BRegCount == 0) {
+        for (int mm = 0; mm < _mtile; mm += ARegCount) {
+          int mm_re = utils::remainsize(mm, _mtile, ARegCount);
+          for (int imm = 0; imm < mm_re; imm++) {
+            vpbroadcastd(vreg_t(AReg + imm), ptr[reg_tmp1]);
+            add(reg_tmp1, reg_astride);
+            for (int i = 0; i < NRegs; i++) {
+              vpdpbusds_(vreg_t(CReg + mm * NRegs + i), vreg_t(AReg + imm),
+                         ptr[reg_matBptr + kk * BKStepSize + i * VecBytes]);
+            }
+          }
+        }
+      } else {
+        assert(0);
+      }
+    }
+  }
+
+  void init_regs(int _mtile) {
+    inLocalLabel();
+    load32(reg_tmp, ptr[parambase + OFFSET(init)]);
+    cmp(reg_tmp, 0);
+    je(".read", T_NEAR);
+    for (int i = 0; i < _mtile; i++) {
+      for (int j = 0; j < NRegs; j++) {
+        vxor(vreg_t(CReg + i * NRegs + j), vreg_t(CReg + i * NRegs + j), vreg_t(CReg + i * NRegs + j));
+      }
+    }
+    jmp(".end", T_NEAR);
+    L(".read");
+    mov(reg_matCptr, ptr[parambase + OFFSET(matC)]);
+    lea(reg_matCptr, ptr[reg_matCptr + reg_itern * sizeof(CType)]);
+    load32(reg_cstride, ptr[parambase + OFFSET(cstride)]);
+    for (int i = 0; i < _mtile; i++) {
+      for (int j = 0; j < NRegs; j++) {
+        vmovups(vreg_t(CReg + i * NRegs + j), ptr[reg_matCptr + j * VecBytes]);
+      }
+      add(reg_matCptr, reg_cstride);
+    }
+    L(".end");
+    outLocalLabel();
+  }
+
+  void write_back(int _mtile) {
+    inLocalLabel();
+    mov(reg_matCptr, ptr[parambase + OFFSET(matC)]);
+    load32(reg_cstride, ptr[parambase + OFFSET(cstride)]);
+    lea(reg_matCptr, ptr[reg_matCptr + reg_itern * sizeof(CType)]);
+    for (int i = 0; i < _mtile; i++) {
+      for (int j = 0; j < NRegs; j++) {
+        vmovups(ptr[reg_matCptr + j * VecBytes], vreg_t(CReg + i * NRegs + j));
+      }
+      add(reg_matCptr, reg_cstride);
+    }
+    outLocalLabel();
+  }
+};
+
+template <int _NTILE, int _MTILE = 0>
+class AvxvnniN8P4 : protected jblas::xbyak::JitAvxvnni {
+ public:
+  static int constexpr RegLen = 8, PackRow = 4;
+  static_assert(_NTILE % RegLen == 0);
+  static int constexpr NRegs = _NTILE / RegLen;
+  static int constexpr MRegs = _MTILE == 0 ? (RegCount - 1) / NRegs : _MTILE;
+  static_assert(NRegs * MRegs <= RegCount - 1);
+  static int constexpr NTILE = RegLen * NRegs, MTILE = MRegs, KTILE = 4;
+  static int constexpr KUNROLL = 2;
+  static uint32_t constexpr ISA = (uint32_t)JBLAS_ISA::JblasAVX_VNNI;
+  static uint32_t constexpr COMPUTE = (uint32_t)CompType::COMP_INT8_US_INT32;
+  typedef uint8_t AType;
+  typedef int8_t BType;
+  typedef int32_t CType;
+  struct params {
+    AType* matA;
+    int astride;
+    BType* matB;
+    int bstride;
+    CType* matC;
+    int cstride;
+    int k;
+    int n;
+    int init;
+  };
+  typedef long long (*func_t)(params*);
+
+  int CRegCount = 0, BRegCount = 0, ARegCount = 0, TmpRegCount = 0;
+  int CReg = 0, BReg = 0, AReg = 0, TmpReg = 0;
+  static int constexpr BKStepSize = KTILE * NTILE * sizeof(BType);
+  static int constexpr AKStepSize = KTILE * sizeof(AType);
+
+  void generate_code(int _mtile) {
+    assign_regs();
+    reset();
+    generate_mtile(_mtile);
+    ready();
+    mKernel = getCode<func_t>();
+  }
+  func_t mKernel = nullptr;
+
+ private:
+  Xbyak::Reg64 parambase;
+  Xbyak::Reg64 reg_matAptr;
+  Xbyak::Reg64 reg_matBptr;
+  Xbyak::Reg64 reg_matCptr;
+  Xbyak::Reg64 reg_ksize;
+  Xbyak::Reg64 reg_nsize;
+  Xbyak::Reg64 reg_cstride;
+  Xbyak::Reg64 reg_astride;
+  Xbyak::Reg64 reg_iterk;
+  Xbyak::Reg64 reg_itern;
+  Xbyak::Reg64 reg_tmp;
+  Xbyak::Reg64 reg_tmp1;
+  Xbyak::Reg64 reg_tmp2;
+  Xbyak::Reg64 reg_ret = rax;
+  Xbyak::Opmask msk_wr = k1;
+
+ protected:
+  void assign_regs() {
+    CRegCount = MRegs * NRegs;
+    ARegCount = 1;
+    BRegCount = RegCount - ARegCount - CRegCount;
+    if (BRegCount < NRegs) {
+      BRegCount = 0;
+      ARegCount = BRegCount + 1;
+    }
+    if (BRegCount > NRegs) {
+      BRegCount = NRegs;
+    }
+    CReg = 0;
+    BReg = CReg + CRegCount;
+    AReg = BReg + BRegCount;
+    TmpReg = AReg + ARegCount;
+    assert(TmpReg <= RegCount);
+    TmpRegCount = RegCount - TmpReg;
+  }
+
+  void generate_mtile(int _mtile) {
+    inLocalLabel();
+    Xbyak::util::StackFrame st(this, 1, 10, 16 * 10);
+    parambase = st.p[0];
+    reg_matAptr = st.t[0];
+    reg_matBptr = st.t[1];
+    reg_matCptr = st.t[0];
+    reg_ksize = st.t[2];
+    reg_astride = st.t[3];
+    reg_cstride = st.t[3];
+    reg_iterk = st.t[4];
+    reg_tmp = st.t[5];
+    reg_tmp1 = st.t[6];
+    reg_tmp2 = st.t[7];
+    reg_nsize = st.t[8];
+    reg_itern = st.t[9];
+    reg_ret = rax;
+
+    vreg_push(rsp);
+
+    load32(reg_ksize, ptr[parambase + OFFSET(k)]);
+    load32(reg_nsize, ptr[parambase + OFFSET(n)]);
+    xor_(reg_itern, reg_itern);
+    L(".nloop");
+    init_regs(_mtile);
+    mov(reg_matAptr, ptr[parambase + OFFSET(matA)]);
+    load32(reg_astride, ptr[parambase + OFFSET(astride)]);
+    mov(reg_matBptr, ptr[parambase + OFFSET(matB)]);
+    load32(reg_tmp, ptr[parambase + OFFSET(bstride)]);
+    imul(reg_tmp, reg_itern);
+    lea(reg_matBptr, ptr[reg_matBptr + reg_tmp]);
+    xor_(reg_iterk, reg_iterk);
+    generate_kloop(_mtile);
+    write_back(_mtile);
+    add(reg_itern, NTILE);
+    cmp(reg_itern, reg_nsize);
+    jb(".nloop");
+    mov(reg_ret, 0);
+    vreg_pop(rsp);
+
+    outLocalLabel();  // end of local label
+  }
+
+  void generate_kloop(int _mtile) {
+    inLocalLabel();
+    mov(reg_tmp, reg_ksize);
+    padto_le(reg_tmp, KUNROLL * KTILE);
+    cmp(reg_tmp, 0);
+    jz(".kloop", T_NEAR);
+    L(".unkloop");
+    generate_fma(_mtile, KUNROLL);
+    add(reg_matAptr, KUNROLL * AKStepSize);
+    add(reg_matBptr, KUNROLL * BKStepSize);
+    add(reg_iterk, KUNROLL * KTILE);
+    cmp(reg_iterk, reg_tmp);  // k iteration variable
+    jb(".unkloop");
+    cmp(reg_tmp, reg_ksize);
+    jge(".kend", T_NEAR);
+    L(".kloop");
+    generate_fma(_mtile, 1);
+    add(reg_matAptr, 1 * AKStepSize);
+    add(reg_matBptr, 1 * BKStepSize);
+    add(reg_iterk, 1 * KTILE);
+    cmp(reg_iterk, reg_ksize);  // k iteration variable
+    jb(".kloop");
+    L(".kend");
+    outLocalLabel();
+  }
+
+  void generate_fma(int _mtile, int _kunroll) {
+    for (int kk = 0; kk < _kunroll; kk++) {
+      lea(reg_tmp1, ptr[reg_matAptr + kk * AKStepSize]);
+      if (BRegCount == NRegs) {
+        for (int i = 0; i < NRegs; i++) {
+          vmovups(vreg_t(BReg + i), ptr[reg_matBptr + kk * BKStepSize + i * VecBytes]);
+        }
+        for (int mm = 0; mm < _mtile; mm++) {
+          vpbroadcastd(vreg_t(AReg), ptr[reg_tmp1]);
+          add(reg_tmp1, reg_astride);
+          for (int i = 0; i < NRegs; i++) {
+            vpdpbusds_(vreg_t(CReg + mm * NRegs + i), vreg_t(AReg), vreg_t(BReg + i));
+          }
+        }
+      } else if (BRegCount == 0) {
+        for (int mm = 0; mm < _mtile; mm += ARegCount) {
+          int mm_re = utils::remainsize(mm, _mtile, ARegCount);
+          for (int imm = 0; imm < mm_re; imm++) {
+            vpbroadcastd(vreg_t(AReg + imm), ptr[reg_tmp1]);
+            add(reg_tmp1, reg_astride);
+            for (int i = 0; i < NRegs; i++) {
+              vpdpbusds_(vreg_t(CReg + mm * NRegs + i), vreg_t(AReg + imm),
+                         ptr[reg_matBptr + kk * BKStepSize + i * VecBytes]);
+            }
+          }
+        }
+      } else {
+        assert(0);
+      }
+    }
+  }
+
+  void init_regs(int _mtile) {
+    inLocalLabel();
+    load32(reg_tmp, ptr[parambase + OFFSET(init)]);
+    cmp(reg_tmp, 0);
+    je(".read", T_NEAR);
+    for (int i = 0; i < _mtile; i++) {
+      for (int j = 0; j < NRegs; j++) {
+        vxor(vreg_t(CReg + i * NRegs + j), vreg_t(CReg + i * NRegs + j), vreg_t(CReg + i * NRegs + j));
+      }
+    }
+    jmp(".end", T_NEAR);
+    L(".read");
+    mov(reg_matCptr, ptr[parambase + OFFSET(matC)]);
+    lea(reg_matCptr, ptr[reg_matCptr + reg_itern * sizeof(CType)]);
+    load32(reg_cstride, ptr[parambase + OFFSET(cstride)]);
+    for (int i = 0; i < _mtile; i++) {
+      for (int j = 0; j < NRegs; j++) {
+        vmovups(vreg_t(CReg + i * NRegs + j), ptr[reg_matCptr + j * VecBytes]);
+      }
+      add(reg_matCptr, reg_cstride);
+    }
+    L(".end");
+    outLocalLabel();
+  }
+
+  void write_back(int _mtile) {
+    inLocalLabel();
+    mov(reg_matCptr, ptr[parambase + OFFSET(matC)]);
+    load32(reg_cstride, ptr[parambase + OFFSET(cstride)]);
+    lea(reg_matCptr, ptr[reg_matCptr + reg_itern * sizeof(CType)]);
+    for (int i = 0; i < _mtile; i++) {
+      for (int j = 0; j < NRegs; j++) {
+        vmovups(ptr[reg_matCptr + j * VecBytes], vreg_t(CReg + i * NRegs + j));
+      }
+      add(reg_matCptr, reg_cstride);
+    }
+    outLocalLabel();
+  }
+};
+
+template <int _NTILE, int _MTILE = 0>
+class Amxbf16N16P2 : protected jblas::xbyak::JitAmxbf16 {
+ public:
+  static int constexpr RegLen = 16, PackRow = 2;
+  static_assert(_NTILE % RegLen == 0);
+  static_assert(_MTILE % RegLen == 0);
+  static int constexpr NRegs = _NTILE / RegLen;
+  static int constexpr MRegs = _MTILE == 0 ? 1 : _MTILE / RegLen;
+  static_assert(NRegs * MRegs + 2 <= TileCount);
+  static int constexpr NTILE = RegLen * NRegs, MTILE = MRegs * RegLen, KTILE = 32;
+  static int constexpr KUNROLL = 2;
+  static uint32_t constexpr ISA = (uint32_t)JBLAS_ISA::JblasAMX_BF16;
+  static uint32_t constexpr COMPUTE = (uint32_t)CompType::COMP_BF16_FP32;
+  typedef utils::bf16 AType;
+  typedef utils::bf16 BType;
+  typedef float CType;
+
+  struct params {
+    AType* matA;
+    int astride;
+    BType* matB;
+    int bstride;
+    CType* matC;
+    int cstride;
+    int k;
+    int n;
+    int init;
+    void* workspace;
+  };
+  typedef long long (*func_t)(params*);
+
+  int TmpRegCount = RegCount;
+  int TmpReg = 0;
+  int CTileCount = 0, ATileCount = 0, BTileCount = 0;
+  int CTile = 0, ATile = 0, BTile = 0;
+  static int constexpr BKStepSize = KTILE * NTILE * sizeof(BType);
+  static int constexpr AKStepSize = KTILE * sizeof(AType);
+
+  void generate_code(int _mtile) {
+    assign_regs();
+    reset();
+    generate_mtile(_mtile);
+    ready();
+    mKernel = getCode<func_t>();
+  }
+  func_t mKernel = nullptr;
+
+ protected:
+  Xbyak::Reg64 parambase;
+  Xbyak::Reg64 reg_matAptr;
+  Xbyak::Reg64 reg_matBptr;
+  Xbyak::Reg64 reg_matCptr;
+  Xbyak::Reg64 reg_ksize;
+  Xbyak::Reg64 reg_nsize;
+  Xbyak::Reg64 reg_cstride;
+  Xbyak::Reg64 reg_astride;
+  Xbyak::Reg64 reg_iterk;
+  Xbyak::Reg64 reg_itern;
+  Xbyak::Reg64 reg_tmp;
+  Xbyak::Reg64 reg_tmp1;
+  Xbyak::Reg64 reg_tmp2;
+  Xbyak::Reg64 reg_tmp3;
+  Xbyak::Reg64 reg_ret = rax;
+
+  void assign_regs() {
+    CTileCount = NRegs * MRegs;
+    auto tile_re = TileCount - CTileCount;
+    if (tile_re - 1 >= NRegs) {
+      BTileCount = NRegs;
+      ATileCount = tile_re - BTileCount;
+    } else if (tile_re - 1 >= MRegs) {
+      ATileCount = MRegs;
+      BTileCount = tile_re - ATileCount;
+    } else {
+      ATileCount = 1;
+      BTileCount = tile_re - ATileCount;
+    }
+    CTile = 0;
+    ATile = CTile + CTileCount;
+    BTile = ATile + ATileCount;
+  }
+
+  void generate_mtile(int _mtile) {
+    inLocalLabel();  // use local label for multiple instance
+    Xbyak::util::StackFrame st(this, 1, 11, 16 * 10);
+    parambase = st.p[0];
+    reg_matAptr = st.t[0];
+    reg_matBptr = st.t[1];
+    reg_matCptr = st.t[0];
+    reg_ksize = st.t[2];
+    reg_astride = st.t[3];
+    reg_cstride = st.t[3];
+    reg_iterk = st.t[4];
+    reg_tmp = st.t[5];
+    reg_tmp1 = st.t[6];
+    reg_tmp2 = st.t[7];
+    reg_tmp3 = st.t[10];
+    reg_nsize = st.t[8];
+    reg_itern = st.t[9];
+    reg_ret = rax;
+
+    vreg_push(rsp);
+
+    load32(reg_ksize, ptr[parambase + OFFSET(k)]);
+    load32(reg_nsize, ptr[parambase + OFFSET(n)]);
+    xor_(reg_itern, reg_itern);
+    L(".nloop");
+    init_regs(_mtile);
+    mov(reg_matAptr, ptr[parambase + OFFSET(matA)]);
+    load32(reg_astride, ptr[parambase + OFFSET(astride)]);
+    mov(reg_matBptr, ptr[parambase + OFFSET(matB)]);
+    load32(reg_tmp, ptr[parambase + OFFSET(bstride)]);
+    imul(reg_tmp, reg_itern);
+    lea(reg_matBptr, ptr[reg_matBptr + reg_tmp]);
+    xor_(reg_iterk, reg_iterk);
+    generate_kloop(_mtile);
+    write_back(_mtile);
+    add(reg_itern, NTILE);
+    cmp(reg_itern, reg_nsize);
+    jb(".nloop");
+    mov(reg_ret, 0);
+    vreg_pop(rsp);
+
+    outLocalLabel();  // end of local label
+  }
+
+  void generate_kloop(int _mtile) {
+    inLocalLabel();
+    mov(reg_tmp, reg_ksize);
+    padto_le(reg_tmp, KUNROLL * KTILE);
+    cmp(reg_tmp, 0);
+    jz(".kloop", T_NEAR);
+    L(".unkloop");
+    generate_fma(_mtile, KUNROLL);
+    add(reg_matAptr, KUNROLL * AKStepSize);
+    add(reg_matBptr, KUNROLL * BKStepSize);
+    add(reg_iterk, KUNROLL * KTILE);
+    cmp(reg_iterk, reg_tmp);  // k iteration variable
+    jb(".unkloop");
+    cmp(reg_tmp, reg_ksize);
+    jge(".kend", T_NEAR);
+    L(".kloop");
+    generate_fma(_mtile, 1);
+    add(reg_matAptr, 1 * AKStepSize);
+    add(reg_matBptr, 1 * BKStepSize);
+    add(reg_iterk, 1 * KTILE);
+    cmp(reg_iterk, reg_ksize);  // k iteration variable
+    jb(".kloop");
+    L(".kend");
+    outLocalLabel();
+  }
+
+  void generate_fma(int _mtile, int kunrll) {
+    auto& reg_Bstride = reg_tmp1;
+    mov(reg_Bstride, NTILE * 4);
+    int mtiles = _mtile / RegLen;
+
+    for (int kk = 0; kk < kunrll; kk++) {
+      auto& reg_Atmp = reg_tmp2;
+      if (mtiles == 1) {
+        reg_Atmp = reg_matAptr;
+      } else {
+        mov(reg_Atmp, reg_matAptr);
+      }
+      if (BTileCount == NRegs) {
+        for (int i = 0; i < NRegs; i++) {
+          tileloaddt1(Xbyak::Tmm(BTile + i), ptr[reg_matBptr + reg_Bstride + kk * BKStepSize + i * 64]);
+        }
+        for (int mm = 0; mm < mtiles; mm++) {
+          tileloadd(Xbyak::Tmm(ATile), ptr[reg_Atmp + reg_astride + kk * AKStepSize]);
+          for (int i = 0; i < NRegs; i++) {
+            tdpbf16ps(Xbyak::Tmm(CTile + mm * NRegs + i), Xbyak::Tmm(ATile), Xbyak::Tmm(BTile + i));
+          }
+          if (mm != mtiles - 1) {
+            lea(reg_Atmp, ptr[reg_Atmp + 8 * reg_astride]);
+            lea(reg_Atmp, ptr[reg_Atmp + 8 * reg_astride]);
+          }
+        }
+      } else {
+        if (ATileCount == mtiles) {
+          for (int mm = 0; mm < mtiles; mm++) {
+            tileloadd(Xbyak::Tmm(ATile + mm), ptr[reg_Atmp + reg_astride + kk * AKStepSize]);
+            if (mm != mtiles - 1) {
+              lea(reg_Atmp, ptr[reg_Atmp + 8 * reg_astride]);
+              lea(reg_Atmp, ptr[reg_Atmp + 8 * reg_astride]);
+            }
+          }
+          for (int i = 0; i < NRegs; i++) {
+            tileloaddt1(Xbyak::Tmm(BTile), ptr[reg_matBptr + reg_Bstride + kk * BKStepSize + i * 64]);
+            for (int mm = 0; mm < mtiles; mm++) {
+              tdpbf16ps(Xbyak::Tmm(CTile + mm * NRegs + i), Xbyak::Tmm(ATile + mm), Xbyak::Tmm(BTile));
+            }
+          }
+        } else {
+          for (int mm = 0; mm < mtiles; mm++) {
+            tileloadd(Xbyak::Tmm(ATile), ptr[reg_Atmp + reg_astride + kk * AKStepSize]);
+            for (int i = 0; i < NRegs; i++) {
+              tileloaddt1(Xbyak::Tmm(BTile), ptr[reg_matBptr + reg_Bstride + kk * BKStepSize + i * 64]);
+              tdpbf16ps(Xbyak::Tmm(CTile + mm * NRegs + i), Xbyak::Tmm(ATile), Xbyak::Tmm(BTile));
+            }
+            if (mm != mtiles - 1) {
+              lea(reg_Atmp, ptr[reg_Atmp + 8 * reg_astride]);
+              lea(reg_Atmp, ptr[reg_Atmp + 8 * reg_astride]);
+            }
+          }
+        }
+      }
+    }
+  }
+
+  void init_regs(int _mtile) {
+    inLocalLabel();
+    load32(reg_tmp, ptr[parambase + OFFSET(init)]);
+    cmp(reg_tmp, 0);
+    je(".read", T_NEAR);
+    for (int i = 0; i < CTileCount; i++) {
+      tilezero(Xbyak::Tmm(CTile + i));
+    }
+    jmp(".end", T_NEAR);
+    L(".read");
+    mov(reg_matCptr, ptr[parambase + OFFSET(matC)]);
+    lea(reg_matCptr, ptr[reg_matCptr + reg_itern * sizeof(CType)]);
+    load32(reg_cstride, ptr[parambase + OFFSET(cstride)]);
+    int mtnum = _mtile / 16;
+    for (int mm = 0; mm < mtnum; mm++) {
+      for (int i = 0; i < NRegs; i++) {
+        tileloaddt1(Xbyak::Tmm(CTile + mm * NRegs + i), ptr[reg_matCptr + reg_cstride + i * 64]);
+      }
+      if (mm != mtnum - 1) {
+        lea(reg_matCptr, ptr[reg_matCptr + 8 * reg_cstride]);
+        lea(reg_matCptr, ptr[reg_matCptr + 8 * reg_cstride]);
+      }
+    }
+    L(".end");
+    outLocalLabel();
+  }
+
+  void write_back(int _mtile) {
+    inLocalLabel();
+    mov(reg_tmp, dword[parambase + OFFSET(workspace)]);
+    mov(reg_tmp1, NTILE * 4);
+    for (int mm = 0; mm < MRegs; mm++) {
+      for (int i = 0; i < NRegs; i++) {
+        tilestored(ptr[reg_tmp + reg_tmp1 + i * 64 + mm * 16 * NTILE * 4], Xbyak::Tmm(CTile + mm * NRegs + i));
+      }
+    }
+    mov(reg_matCptr, ptr[parambase + OFFSET(matC)]);
+    load32(reg_cstride, ptr[parambase + OFFSET(cstride)]);
+    lea(reg_matCptr, ptr[reg_matCptr + reg_itern * sizeof(CType)]);
+    int zunroll = TmpRegCount / NRegs;
+    for (int i = 0; i < _mtile; i += zunroll) {
+      int m_re = utils::remainsize(i, _mtile, zunroll);
+      for (int im = 0; im < m_re; im++) {
+        for (int j = 0; j < NRegs; j++) {
+          vmovups(vreg_t(TmpReg + im * NRegs + j), ptr[reg_tmp + j * 64 + (i + im) * NTILE * 4]);
+          vmovups(ptr[reg_matCptr + j * VecBytes], vreg_t(TmpReg + im * NRegs + j));
+        }
+        add(reg_matCptr, reg_cstride);
+      }
+    }
+    outLocalLabel();
+  }
+};
+
+template <typename AT, typename BT, int _NTILE, int _MTILE = 0>
+class Amxint8N16P4 : protected jblas::xbyak::JitAmxint8 {
+ public:
+  static int constexpr RegLen = 16, PackRow = 4;
+  static_assert(_NTILE % RegLen == 0);
+  static_assert(_MTILE % RegLen == 0);
+  static int constexpr NRegs = _NTILE / RegLen;
+  static int constexpr MRegs = _MTILE == 0 ? 1 : _MTILE / RegLen;
+  static_assert(NRegs * MRegs + 2 <= TileCount);
+  static int constexpr NTILE = RegLen * NRegs, MTILE = MRegs * RegLen, KTILE = 64;
+  static int constexpr KUNROLL = 2;
+  static uint32_t constexpr ISA = (uint32_t)JBLAS_ISA::JblasAMX_INT8;
+  static uint32_t constexpr COMPUTE =
+      (uint32_t)(std::is_same_v<AT, int8_t>
+                     ? std::is_same_v<BT, int8_t> ? CompType::COMP_INT8_SS_INT32 : CompType::COMP_INT8_SU_INT32
+                 : std::is_same_v<BT, int8_t> ? CompType::COMP_INT8_US_INT32
+                                              : CompType::COMP_INT8_UU_INT32);
+  using AType = AT;
+  using BType = BT;
+  typedef int32_t CType;
+
+  struct params {
+    AType* matA;
+    int astride;
+    BType* matB;
+    int bstride;
+    CType* matC;
+    int cstride;
+    int k;
+    int n;
+    int init;
+    void* workspace;
+  };
+  typedef long long (*func_t)(params*);
+
+  int TmpRegCount = RegCount;
+  int TmpReg = 0;
+  int CTileCount = 0, ATileCount = 0, BTileCount = 0;
+  int CTile = 0, ATile = 0, BTile = 0;
+  static int constexpr BKStepSize = KTILE * NTILE * sizeof(BType);
+  static int constexpr AKStepSize = KTILE * sizeof(AType);
+
+  void generate_code(int _mtile) {
+    assign_regs();
+    reset();
+    generate_mtile(_mtile);
+    ready();
+    mKernel = getCode<func_t>();
+  }
+  func_t mKernel = nullptr;
+
+ protected:
+  Xbyak::Reg64 parambase;
+  Xbyak::Reg64 reg_matAptr;
+  Xbyak::Reg64 reg_matBptr;
+  Xbyak::Reg64 reg_matCptr;
+  Xbyak::Reg64 reg_ksize;
+  Xbyak::Reg64 reg_nsize;
+  Xbyak::Reg64 reg_cstride;
+  Xbyak::Reg64 reg_astride;
+  Xbyak::Reg64 reg_iterk;
+  Xbyak::Reg64 reg_itern;
+  Xbyak::Reg64 reg_tmp;
+  Xbyak::Reg64 reg_tmp1;
+  Xbyak::Reg64 reg_tmp2;
+  Xbyak::Reg64 reg_tmp3;
+  Xbyak::Reg64 reg_ret = rax;
+
+  void assign_regs() {
+    CTileCount = NRegs * MRegs;
+    auto tile_re = TileCount - CTileCount;
+    if (tile_re - 1 >= NRegs) {
+      BTileCount = NRegs;
+      ATileCount = tile_re - BTileCount;
+    } else if (tile_re - 1 >= MRegs) {
+      ATileCount = MRegs;
+      BTileCount = tile_re - ATileCount;
+    } else {
+      ATileCount = 1;
+      BTileCount = tile_re - ATileCount;
+    }
+    CTile = 0;
+    ATile = CTile + CTileCount;
+    BTile = ATile + ATileCount;
+  }
+
+  void generate_mtile(int _mtile) {
+    inLocalLabel();  // use local label for multiple instance
+    Xbyak::util::StackFrame st(this, 1, 11, 16 * 10);
+    parambase = st.p[0];
+    reg_matAptr = st.t[0];
+    reg_matBptr = st.t[1];
+    reg_matCptr = st.t[0];
+    reg_ksize = st.t[2];
+    reg_astride = st.t[3];
+    reg_cstride = st.t[3];
+    reg_iterk = st.t[4];
+    reg_tmp = st.t[5];
+    reg_tmp1 = st.t[6];
+    reg_tmp2 = st.t[7];
+    reg_tmp3 = st.t[10];
+    reg_nsize = st.t[8];
+    reg_itern = st.t[9];
+    reg_ret = rax;
+
+    vreg_push(rsp);
+
+    load32(reg_ksize, ptr[parambase + OFFSET(k)]);
+    load32(reg_nsize, ptr[parambase + OFFSET(n)]);
+    xor_(reg_itern, reg_itern);
+    L(".nloop");
+    init_regs(_mtile);
+    mov(reg_matAptr, ptr[parambase + OFFSET(matA)]);
+    load32(reg_astride, ptr[parambase + OFFSET(astride)]);
+    mov(reg_matBptr, ptr[parambase + OFFSET(matB)]);
+    load32(reg_tmp, ptr[parambase + OFFSET(bstride)]);
+    imul(reg_tmp, reg_itern);
+    lea(reg_matBptr, ptr[reg_matBptr + reg_tmp]);
+    xor_(reg_iterk, reg_iterk);
+    generate_kloop(_mtile);
+    write_back(_mtile);
+    add(reg_itern, NTILE);
+    cmp(reg_itern, reg_nsize);
+    jb(".nloop");
+    mov(reg_ret, 0);
+    vreg_pop(rsp);
+
+    outLocalLabel();  // end of local label
+  }
+
+  void generate_kloop(int _mtile) {
+    inLocalLabel();
+    mov(reg_tmp, reg_ksize);
+    padto_le(reg_tmp, KUNROLL * KTILE);
+    cmp(reg_tmp, 0);
+    jz(".kloop", T_NEAR);
+    L(".unkloop");
+    generate_fma(_mtile, KUNROLL);
+    add(reg_matAptr, KUNROLL * AKStepSize);
+    add(reg_matBptr, KUNROLL * BKStepSize);
+    add(reg_iterk, KUNROLL * KTILE);
+    cmp(reg_iterk, reg_tmp);  // k iteration variable
+    jb(".unkloop");
+    cmp(reg_tmp, reg_ksize);
+    jge(".kend", T_NEAR);
+    L(".kloop");
+    generate_fma(_mtile, 1);
+    add(reg_matAptr, 1 * AKStepSize);
+    add(reg_matBptr, 1 * BKStepSize);
+    add(reg_iterk, 1 * KTILE);
+    cmp(reg_iterk, reg_ksize);  // k iteration variable
+    jb(".kloop");
+    L(".kend");
+    outLocalLabel();
+  }
+
+  void generate_fma(int _mtile, int kunrll) {
+    auto& reg_Bstride = reg_tmp1;
+    mov(reg_Bstride, NTILE * 4);
+    int mtiles = _mtile / RegLen;
+
+    for (int kk = 0; kk < kunrll; kk++) {
+      auto& reg_Atmp = reg_tmp2;
+      if (mtiles == 1) {
+        reg_Atmp = reg_matAptr;
+      } else {
+        mov(reg_Atmp, reg_matAptr);
+      }
+      if (BTileCount == NRegs) {
+        for (int i = 0; i < NRegs; i++) {
+          tileloaddt1(Xbyak::Tmm(BTile + i), ptr[reg_matBptr + reg_Bstride + kk * BKStepSize + i * 64]);
+        }
+        for (int mm = 0; mm < mtiles; mm++) {
+          tileloadd(Xbyak::Tmm(ATile), ptr[reg_Atmp + reg_astride + kk * AKStepSize]);
+          for (int i = 0; i < NRegs; i++) {
+            _tdpb<AT, BT>(Xbyak::Tmm(CTile + mm * NRegs + i), Xbyak::Tmm(ATile), Xbyak::Tmm(BTile + i));
+          }
+          if (mm != mtiles - 1) {
+            lea(reg_Atmp, ptr[reg_Atmp + 8 * reg_astride]);
+            lea(reg_Atmp, ptr[reg_Atmp + 8 * reg_astride]);
+          }
+        }
+      } else {
+        if (ATileCount == mtiles) {
+          for (int mm = 0; mm < mtiles; mm++) {
+            tileloadd(Xbyak::Tmm(ATile + mm), ptr[reg_Atmp + reg_astride + kk * AKStepSize]);
+            if (mm != mtiles - 1) {
+              lea(reg_Atmp, ptr[reg_Atmp + 8 * reg_astride]);
+              lea(reg_Atmp, ptr[reg_Atmp + 8 * reg_astride]);
+            }
+          }
+          for (int i = 0; i < NRegs; i++) {
+            tileloaddt1(Xbyak::Tmm(BTile), ptr[reg_matBptr + reg_Bstride + kk * BKStepSize + i * 64]);
+            for (int mm = 0; mm < mtiles; mm++) {
+              _tdpb<AT, BT>(Xbyak::Tmm(CTile + mm * NRegs + i), Xbyak::Tmm(ATile + mm), Xbyak::Tmm(BTile));
+            }
+          }
+        } else {
+          for (int mm = 0; mm < mtiles; mm++) {
+            tileloadd(Xbyak::Tmm(ATile), ptr[reg_Atmp + reg_astride + kk * AKStepSize]);
+            for (int i = 0; i < NRegs; i++) {
+              tileloaddt1(Xbyak::Tmm(BTile), ptr[reg_matBptr + reg_Bstride + kk * BKStepSize + i * 64]);
+              _tdpb<AT, BT>(Xbyak::Tmm(CTile + mm * NRegs + i), Xbyak::Tmm(ATile), Xbyak::Tmm(BTile));
+            }
+            if (mm != mtiles - 1) {
+              lea(reg_Atmp, ptr[reg_Atmp + 8 * reg_astride]);
+              lea(reg_Atmp, ptr[reg_Atmp + 8 * reg_astride]);
+            }
+          }
+        }
+      }
+    }
+  }
+
+  void init_regs(int _mtile) {
+    inLocalLabel();
+    load32(reg_tmp, ptr[parambase + OFFSET(init)]);
+    cmp(reg_tmp, 0);
+    je(".read", T_NEAR);
+    for (int i = 0; i < CTileCount; i++) {
+      tilezero(Xbyak::Tmm(CTile + i));
+    }
+    jmp(".end", T_NEAR);
+    L(".read");
+    mov(reg_matCptr, ptr[parambase + OFFSET(matC)]);
+    lea(reg_matCptr, ptr[reg_matCptr + reg_itern * sizeof(CType)]);
+    load32(reg_cstride, ptr[parambase + OFFSET(cstride)]);
+    int mtnum = _mtile / 16;
+    for (int mm = 0; mm < mtnum; mm++) {
+      for (int i = 0; i < NRegs; i++) {
+        tileloaddt1(Xbyak::Tmm(CTile + mm * NRegs + i), ptr[reg_matCptr + reg_cstride + i * 64]);
+      }
+      if (mm != mtnum - 1) {
+        lea(reg_matCptr, ptr[reg_matCptr + 8 * reg_cstride]);
+        lea(reg_matCptr, ptr[reg_matCptr + 8 * reg_cstride]);
+      }
+    }
+    L(".end");
+    outLocalLabel();
+  }
+
+  void write_back(int _mtile) {
+    inLocalLabel();
+    mov(reg_tmp, dword[parambase + OFFSET(workspace)]);
+    mov(reg_tmp1, NTILE * 4);
+    for (int mm = 0; mm < MRegs; mm++) {
+      for (int i = 0; i < NRegs; i++) {
+        tilestored(ptr[reg_tmp + reg_tmp1 + i * 64 + mm * 16 * NTILE * 4], Xbyak::Tmm(CTile + mm * NRegs + i));
+      }
+    }
+    mov(reg_matCptr, ptr[parambase + OFFSET(matC)]);
+    load32(reg_cstride, ptr[parambase + OFFSET(cstride)]);
+    lea(reg_matCptr, ptr[reg_matCptr + reg_itern * sizeof(CType)]);
+    int zunroll = TmpRegCount / NRegs;
+    for (int i = 0; i < _mtile; i += zunroll) {
+      int m_re = utils::remainsize(i, _mtile, zunroll);
+      for (int im = 0; im < m_re; im++) {
+        for (int j = 0; j < NRegs; j++) {
+          vmovups(vreg_t(TmpReg + im * NRegs + j), ptr[reg_tmp + j * 64 + (i + im) * NTILE * 4]);
+          vmovups(ptr[reg_matCptr + j * VecBytes], vreg_t(TmpReg + im * NRegs + j));
+        }
+        add(reg_matCptr, reg_cstride);
+      }
+    }
+    outLocalLabel();
+  }
+};
+template <int N, int M>
+using Amxint8N16P4US = Amxint8N16P4<uint8_t, int8_t, N, M>;
+
+template <int N, int M>
+using Amxint8N16P4SS = Amxint8N16P4<int8_t, int8_t, N, M>;
+
+class AmxConfigure : protected jblas::xbyak::JitAmxtile {
+ public:
+  typedef long long (*func_t)(tileconfig_t*);
+
+  static void configure(int TILE_M, int TILE_N, int TILE_K, int elesize, int ANum, int BNum, int CNum) {
+    static AmxConfigure code;
+    tileconfig_t cfg;
+    std::memset(&cfg, 0, sizeof(cfg));
+    configure_tiles(cfg, TILE_M, TILE_N, TILE_K, elesize, ANum, BNum, CNum);
+    code.mKernel(&cfg);
+  }
+
+ protected:
+  AmxConfigure() {
+    generate_config(this);
+    mKernel = getCode<func_t>();
+  }
+
+  func_t mKernel = nullptr;
+};
+
+namespace kblock {
+// optimize for kblock gemm, each block size in k dimension has dequant operation
+// all accumulators use fp32 dtype.
+template <int _NTILE, int _MTILE = 0>
+class Avx512fN16P1 : protected jblas::xbyak::JitAvx512f {
+ public:
+  static int constexpr RegLen = 16, PackRow = 1;
+  static_assert(_NTILE % RegLen == 0);
+  static int constexpr NRegs = _NTILE / RegLen;
+  static int constexpr MRegs = _MTILE == 0 ? (RegCount - 1) / NRegs : _MTILE;
+  static_assert(NRegs * MRegs <= RegCount - 1);
+  static int constexpr NTILE = RegLen * NRegs, MTILE = MRegs, KTILE = 1;
+  static int constexpr KUNROLL = 2;
+  static uint32_t constexpr ISA = (uint32_t)JBLAS_ISA::JblasAVX512F;
+  static uint32_t constexpr COMPUTE = (uint32_t)CompType::COMP_FP32;
+  typedef float AType;
+  typedef float BType;
+  typedef float CType;
+
+  struct params {
+    AType* matA;
+    int astride;
+    BType* matB;
+    int bstride;
+    CType* matC;
+    int cstride;
+    int k;
+    int n;
+    int init;
+  };
+  typedef long long (*func_t)(params*);
+
+  int CRegCount = 0, BRegCount = 0, ARegCount = 0, TmpRegCount = 0;
+  int CReg = 0, BReg = 0, AReg = 0, TmpReg = 0;
+  static int constexpr BKStepSize = KTILE * NTILE * sizeof(BType);
+  static int constexpr AKStepSize = KTILE * sizeof(AType);
+
+  void generate_code(int _mtile) {
+    assign_regs();
+    reset();
+    generate_mtile(_mtile);
+    ready();
+    mKernel = getCode<func_t>();
+  }
+  func_t mKernel = nullptr;
+
+ protected:
+  Xbyak::Reg64 parambase;
+  Xbyak::Reg64 reg_matAptr;
+  Xbyak::Reg64 reg_matBptr;
+  Xbyak::Reg64 reg_matCptr;
+  Xbyak::Reg64 reg_ksize;
+  Xbyak::Reg64 reg_nsize;
+  Xbyak::Reg64 reg_cstride;
+  Xbyak::Reg64 reg_astride;
+  Xbyak::Reg64 reg_iterk;
+  Xbyak::Reg64 reg_itern;
+  Xbyak::Reg64 reg_tmp;
+  Xbyak::Reg64 reg_tmp1;
+  Xbyak::Reg64 reg_tmp2;
+  Xbyak::Reg64 reg_ret = rax;
+  Xbyak::Opmask msk_wr = k1;
+
+  void assign_regs() {
+    CRegCount = MRegs * NRegs;
+    ARegCount = 1;
+    BRegCount = RegCount - ARegCount - CRegCount;
+    if (BRegCount < NRegs) {
+      BRegCount = 0;
+      ARegCount = BRegCount + 1;
+    }
+    if (BRegCount > NRegs) {
+      BRegCount = NRegs;
+    }
+    CReg = 0;
+    BReg = CReg + CRegCount;
+    AReg = BReg + BRegCount;
+    TmpReg = AReg + ARegCount;
+    assert(TmpReg <= RegCount);
+    TmpRegCount = RegCount - TmpReg;
+  }
+
+  void generate_mtile(int _mtile) {
+    inLocalLabel();  // use local label for multiple instance
+    Xbyak::util::StackFrame st(this, 1, 10, 16 * 10);
+    parambase = st.p[0];
+    reg_matAptr = st.t[0];
+    reg_matBptr = st.t[1];
+    reg_matCptr = st.t[0];
+    reg_ksize = st.t[2];
+    reg_astride = st.t[3];
+    reg_cstride = st.t[3];
+    reg_iterk = st.t[4];
+    reg_tmp = st.t[5];
+    reg_tmp1 = st.t[6];
+    reg_tmp2 = st.t[7];
+    reg_nsize = st.t[8];
+    reg_itern = st.t[9];
+    reg_ret = rax;
+
+    vreg_push(rsp);
+
+    load32(reg_ksize, ptr[parambase + OFFSET(k)]);
+    load32(reg_nsize, ptr[parambase + OFFSET(n)]);
+    xor_(reg_itern, reg_itern);
+    L(".nloop");
+    init_regs(_mtile);
+    mov(reg_matAptr, ptr[parambase + OFFSET(matA)]);
+    load32(reg_astride, ptr[parambase + OFFSET(astride)]);
+    mov(reg_matBptr, ptr[parambase + OFFSET(matB)]);
+    load32(reg_tmp, ptr[parambase + OFFSET(bstride)]);
+    imul(reg_tmp, reg_itern);
+    lea(reg_matBptr, ptr[reg_matBptr + reg_tmp]);
+    xor_(reg_iterk, reg_iterk);
+    generate_kloop(_mtile);
+    write_back(_mtile);
+    add(reg_itern, NTILE);
+    cmp(reg_itern, reg_nsize);
+    jb(".nloop");
+    mov(reg_ret, 0);
+    vreg_pop(rsp);
+
+    outLocalLabel();  // end of local label
+  }
+
+  void generate_kloop(int _mtile) {
+    inLocalLabel();
+    mov(reg_tmp, reg_ksize);
+    padto_le(reg_tmp, KUNROLL * KTILE);
+    cmp(reg_tmp, 0);
+    jz(".kloop", T_NEAR);
+    L(".unkloop");
+    generate_fma(_mtile, KUNROLL);
+    add(reg_matAptr, KUNROLL * AKStepSize);
+    add(reg_matBptr, KUNROLL * BKStepSize);
+    add(reg_iterk, KUNROLL * KTILE);
+    cmp(reg_iterk, reg_tmp);  // k iteration variable
+    jb(".unkloop");
+    cmp(reg_tmp, reg_ksize);
+    jge(".kend", T_NEAR);
+    L(".kloop");
+    generate_fma(_mtile, 1);
+    add(reg_matAptr, 1 * AKStepSize);
+    add(reg_matBptr, 1 * BKStepSize);
+    add(reg_iterk, 1 * KTILE);
+    cmp(reg_iterk, reg_ksize);  // k iteration variable
+    jb(".kloop");
+    L(".kend");
+    outLocalLabel();
+  }
+
+  void generate_fma(int _mtile, int _ktile) {
+    for (int kk = 0; kk < _ktile; kk++) {
+      lea(reg_tmp1, ptr[reg_matAptr + kk * AKStepSize]);
+      if (BRegCount == NRegs) {
+        for (int i = 0; i < NRegs; i++) {
+          vmovups(vreg_t(BReg + i), ptr[reg_matBptr + kk * BKStepSize + i * VecBytes]);
+        }
+        for (int mm = 0; mm < _mtile; mm++) {
+          vbroadcastss(vreg_t(AReg), ptr[reg_tmp1]);
+          add(reg_tmp1, reg_astride);
+          for (int i = 0; i < NRegs; i++) {
+            vfmadd231ps(vreg_t(CReg + mm * NRegs + i), vreg_t(AReg), vreg_t(BReg + i));
+          }
+        }
+      } else if (BRegCount == 0) {
+        for (int mm = 0; mm < _mtile; mm += ARegCount) {
+          int mm_re = utils::remainsize(mm, _mtile, ARegCount);
+          for (int imm = 0; imm < mm_re; imm++) {
+            vbroadcastss(vreg_t(AReg + imm), ptr[reg_tmp1]);
+            add(reg_tmp1, reg_astride);
+            for (int i = 0; i < NRegs; i++) {
+              vfmadd231ps(vreg_t(CReg + mm * NRegs + i), vreg_t(AReg + imm),
+                          ptr[reg_matBptr + kk * BKStepSize + i * VecBytes]);
+            }
+          }
+        }
+      } else {
+        assert(0);
+      }
+    }
+  }
+
+  void init_regs(int _mtile) {
+    inLocalLabel();
+    load32(reg_tmp, ptr[parambase + OFFSET(init)]);
+    cmp(reg_tmp, 0);
+    je(".read", T_NEAR);
+    for (int i = 0; i < _mtile; i++) {
+      for (int j = 0; j < NRegs; j++) {
+        vxor(vreg_t(CReg + i * NRegs + j), vreg_t(CReg + i * NRegs + j), vreg_t(CReg + i * NRegs + j));
+      }
+    }
+    jmp(".end", T_NEAR);
+    L(".read");
+    mov(reg_matCptr, ptr[parambase + OFFSET(matC)]);
+    lea(reg_matCptr, ptr[reg_matCptr + reg_itern * sizeof(CType)]);
+    load32(reg_cstride, ptr[parambase + OFFSET(cstride)]);
+    for (int i = 0; i < _mtile; i++) {
+      for (int j = 0; j < NRegs; j++) {
+        vmovups(vreg_t(CReg + i * NRegs + j), ptr[reg_matCptr + j * VecBytes]);
+      }
+      add(reg_matCptr, reg_cstride);
+    }
+    L(".end");
+    outLocalLabel();
+  }
+
+  void write_back(int _mtile) {
+    inLocalLabel();
+    mov(reg_matCptr, ptr[parambase + OFFSET(matC)]);
+    load32(reg_cstride, ptr[parambase + OFFSET(cstride)]);
+    lea(reg_matCptr, ptr[reg_matCptr + reg_itern * sizeof(CType)]);
+    for (int i = 0; i < _mtile; i++) {
+      for (int j = 0; j < NRegs; j++) {
+        vmovups(ptr[reg_matCptr + j * VecBytes], vreg_t(CReg + i * NRegs + j));
+      }
+      add(reg_matCptr, reg_cstride);
+    }
+    outLocalLabel();
+  }
+};
+
+template <int _NTILE, int _MTILE = 0>
+class Avx512vnniN16P4 : protected jblas::xbyak::JitAvx512vnni {
+ public:
+  static int constexpr RegLen = 16, PackRow = 4;
+  static_assert(_NTILE % RegLen == 0);
+  static int constexpr NRegs = _NTILE / RegLen;
+  static int constexpr MRegs = _MTILE == 0 ? (RegCount - 1 - NRegs) / (NRegs * 2) : _MTILE;
+  static_assert(NRegs * MRegs <= RegCount - 1);
+  static int constexpr NTILE = RegLen * NRegs, MTILE = MRegs, KTILE = 4;
+  static int constexpr KUNROLL = 2;
+  static uint32_t constexpr ISA = (uint32_t)JBLAS_ISA::JblasAVX512_VNNI;
+  static uint32_t constexpr COMPUTE = (uint32_t)CompType::COMP_INT8_US_FP32;
+  typedef uint8_t AType;
+  typedef int8_t BType;
+  typedef float CType;
+
+  struct params {
+    AType* matA;
+    int astride;
+    BType* matB;
+    int bstride;
+    CType* matC;
+    int cstride;
+    uint8_t* zpA;
+    float* scaleA;
+    int ldsa;
+    float* scaleB;
+    float* reduceB;
+    int ldsb;
+    int k;
+    int n;
+    int kblock;
+    int init;
+  };
+  typedef long long (*func_t)(params*);
+
+  int CRegCount = 0, BRegCount = 0, ARegCount = 0, TmpRegCount = 0;
+  int CReg = 0, CF32Reg = 0, BReg = 0, AReg = 0, TmpReg = 0;
+  static int constexpr BKStepSize = KTILE * NTILE * sizeof(BType);
+  static int constexpr AKStepSize = KTILE * sizeof(AType);
+
+  void generate_code(int _mtile) {
+    assign_regs();
+    reset();
+    generate_mtile(_mtile);
+    ready();
+    mKernel = getCode<func_t>();
+  }
+  func_t mKernel = nullptr;
+
+ protected:
+  Xbyak::Reg64 parambase;
+  Xbyak::Reg64 reg_matAptr;
+  Xbyak::Reg64 reg_matBptr;
+  Xbyak::Reg64 reg_matCptr;
+  Xbyak::Reg64 reg_ksize;
+  Xbyak::Reg64 reg_nsize;
+  Xbyak::Reg64 reg_cstride;
+  Xbyak::Reg64 reg_astride;
+  Xbyak::Reg64 reg_iterk;
+  Xbyak::Reg64 reg_iterkb;
+  Xbyak::Reg64 reg_itern;
+  Xbyak::Reg64 reg_tmp;
+  Xbyak::Reg64 reg_tmp1;
+  Xbyak::Reg64 reg_tmp2;
+  Xbyak::Reg64 reg_tmp3;
+  Xbyak::Reg64 reg_tmp4;
+  Xbyak::Reg64 reg_ret = rax;
+
+  void assign_regs() {
+    CRegCount = MRegs * NRegs;
+    ARegCount = 1;
+    BRegCount = NRegs;
+    CReg = 0;
+    CF32Reg = CReg + CRegCount;
+    BReg = CF32Reg + CRegCount;
+    AReg = BReg + BRegCount;
+    TmpReg = AReg + ARegCount;
+    assert(TmpReg < RegCount);
+    TmpRegCount = RegCount - TmpReg;
+    assert(TmpRegCount >= 1);
+  }
+
+  void generate_mtile(int _mtile) {
+    inLocalLabel();  // use local label for multiple instance
+    Xbyak::util::StackFrame st(this, 1, 13, 16 * 10);
+    parambase = st.p[0];
+    reg_matAptr = st.t[0];
+    reg_matBptr = st.t[1];
+    reg_matCptr = st.t[0];
+    reg_ksize = st.t[2];
+    reg_astride = st.t[3];
+    reg_cstride = st.t[3];
+    reg_iterk = st.t[4];
+    reg_iterkb = st.t[12];
+    reg_tmp = st.t[5];
+    reg_tmp1 = st.t[6];
+    reg_tmp2 = st.t[7];
+    reg_tmp3 = st.t[10];
+    reg_tmp4 = st.t[11];
+    reg_nsize = st.t[8];
+    reg_itern = st.t[9];
+    reg_ret = rax;
+
+    vreg_push(rsp);
+
+    load32(reg_ksize, ptr[parambase + OFFSET(k)]);
+    load32(reg_nsize, ptr[parambase + OFFSET(n)]);
+    xor_(reg_itern, reg_itern);
+    L(".nloop");
+    init_regs(_mtile);
+    mov(reg_matAptr, ptr[parambase + OFFSET(matA)]);
+    load32(reg_astride, ptr[parambase + OFFSET(astride)]);
+    mov(reg_matBptr, ptr[parambase + OFFSET(matB)]);
+    load32(reg_tmp, ptr[parambase + OFFSET(bstride)]);
+    imul(reg_tmp, reg_itern);
+    lea(reg_matBptr, ptr[reg_matBptr + reg_tmp]);
+    xor_(reg_iterk, reg_iterk);
+    generate_kloop(_mtile);
+    write_back(_mtile);
+    add(reg_itern, NTILE);
+    cmp(reg_itern, reg_nsize);
+    jb(".nloop");
+    mov(reg_ret, 0);
+    vreg_pop(rsp);
+
+    outLocalLabel();  // end of local label
+  }
+
+  void generate_kloop(int _mtile) {
+    inLocalLabel();
+    xor_(reg_iterkb, reg_iterkb);
+    L(".kloop");
+    for (int i = 0; i < _mtile; i++) {
+      for (int j = 0; j < NRegs; j++) {
+        vpxorq(Xbyak::Zmm(CReg + i * NRegs + j), Xbyak::Zmm(CReg + i * NRegs + j), Xbyak::Zmm(CReg + i * NRegs + j));
+      }
+    }
+    xor_(reg_tmp2, reg_tmp2);
+    load32(reg_tmp3, ptr[parambase + OFFSET(kblock)]);
+    mov(reg_tmp, reg_tmp3);
+    padto_le(reg_tmp, KUNROLL * KTILE);
+    cmp(reg_tmp, 0);
+    jz(".kbloop", T_NEAR);
+    L(".unkbloop");
+    generate_fma(_mtile, KUNROLL, reg_tmp1);
+    add(reg_matAptr, KUNROLL * AKStepSize);
+    add(reg_matBptr, KUNROLL * BKStepSize);
+    add(reg_tmp2, KUNROLL * KTILE);
+    cmp(reg_tmp2, reg_tmp);
+    jb(".unkbloop");
+    cmp(reg_tmp, reg_tmp3);
+    jge(".kend", T_NEAR);
+    L(".kbloop");
+    generate_fma(_mtile, 1, reg_tmp1);
+    add(reg_matAptr, 1 * AKStepSize);
+    add(reg_matBptr, 1 * BKStepSize);
+    add(reg_tmp2, 1 * KTILE);
+    cmp(reg_tmp2, reg_tmp3);
+    jb(".kbloop");
+    L(".kend");
+    add(reg_iterk, reg_tmp2);
+    generate_f32_accumulate(_mtile);
+    generate_zp_correction(_mtile);
+    inc(reg_iterkb);
+    cmp(reg_iterk, reg_ksize);  // k iteration variable
+    jb(".kloop");
+
+    outLocalLabel();
+  }
+
+  void generate_fma(int _mtile, int _ktile, Xbyak::Reg64& tmp) {
+    for (int kk = 0; kk < _ktile; kk++) {
+      lea(tmp, ptr[reg_matAptr + kk * AKStepSize]);
+      for (int i = 0; i < NRegs; i++) {
+        vmovups(vreg_t(BReg + i), ptr[reg_matBptr + kk * BKStepSize + i * VecBytes]);
+      }
+      for (int mm = 0; mm < _mtile; mm++) {
+        vpbroadcastd(vreg_t(AReg), ptr[reg_tmp1]);
+        add(reg_tmp1, reg_astride);
+        for (int i = 0; i < NRegs; i++) {
+          vpdpbusds_(vreg_t(CReg + mm * NRegs + i), vreg_t(AReg), vreg_t(BReg + i));
+        }
+      }
+    }
+  }
+
+  void init_regs(int _mtile) {
+    inLocalLabel();
+    load32(reg_tmp, ptr[parambase + OFFSET(init)]);
+    cmp(reg_tmp, 0);
+    je(".read", T_NEAR);
+    for (int i = 0; i < _mtile; i++) {
+      for (int j = 0; j < NRegs; j++) {
+        vxor(vreg_t(CF32Reg + i * NRegs + j), vreg_t(CF32Reg + i * NRegs + j), vreg_t(CF32Reg + i * NRegs + j));
+      }
+    }
+    jmp(".end", T_NEAR);
+    L(".read");
+    mov(reg_matCptr, ptr[parambase + OFFSET(matC)]);
+    lea(reg_matCptr, ptr[reg_matCptr + reg_itern * sizeof(CType)]);
+    load32(reg_cstride, ptr[parambase + OFFSET(cstride)]);
+    for (int i = 0; i < _mtile; i++) {
+      for (int j = 0; j < NRegs; j++) {
+        vmovups(vreg_t(CF32Reg + i * NRegs + j), ptr[reg_matCptr + j * VecBytes]);
+      }
+      add(reg_matCptr, reg_cstride);
+    }
+    L(".end");
+    outLocalLabel();
+  }
+
+  void generate_f32_accumulate(int _mtile) {
+    load32(reg_tmp, ptr[parambase + OFFSET(ldsb)]);
+    imul(reg_tmp, reg_iterkb);
+    mov(reg_tmp2, ptr[parambase + OFFSET(scaleB)]);
+    lea(reg_tmp2, ptr[reg_tmp2 + reg_tmp * sizeof(float)]);
+    lea(reg_tmp2, ptr[reg_tmp2 + reg_itern * sizeof(float)]);
+
+    mov(reg_tmp, ptr[parambase + OFFSET(scaleA)]);
+    lea(reg_tmp, ptr[reg_tmp + reg_iterkb * sizeof(float)]);
+    load32(reg_tmp1, ptr[parambase + OFFSET(ldsa)]);
+    for (int i = 0; i < NRegs; i++) {
+      vmovups(Xbyak::Zmm(BReg + i), ptr[reg_tmp2 + i * VecBytes]);
+    }
+    for (int mm = 0; mm < _mtile; mm++) {
+      vbroadcastss(Xbyak::Zmm(TmpReg), ptr[reg_tmp]);
+      lea(reg_tmp, ptr[reg_tmp + reg_tmp1 * sizeof(float)]);
+      for (int i = 0; i < NRegs; i++) {
+        vcvtdq2ps(Xbyak::Zmm(CReg + mm * NRegs + i), Xbyak::Zmm(CReg + mm * NRegs + i));
+        vmulps(Xbyak::Zmm(AReg), Xbyak::Zmm(TmpReg), Xbyak::Zmm(BReg + i));
+        vmulps(Xbyak::Zmm(CReg + mm * NRegs + i), Xbyak::Zmm(AReg));
+        vaddps(Xbyak::Zmm(CF32Reg + mm * NRegs + i), Xbyak::Zmm(CReg + mm * NRegs + i));
+      }
+    }
+  }
+
+  void generate_zp_correction(int _mtile) {
+    load32(reg_tmp1, ptr[parambase + OFFSET(ldsb)]);
+    imul(reg_tmp1, reg_iterkb);
+    mov(reg_tmp2, ptr[parambase + OFFSET(reduceB)]);
+    lea(reg_tmp2, ptr[reg_tmp2 + reg_tmp1 * sizeof(float)]);
+    lea(reg_tmp2, ptr[reg_tmp2 + reg_itern * sizeof(float)]);
+    auto& reg_redB = reg_tmp2;
+
+    mov(reg_tmp, ptr[parambase + OFFSET(zpA)]);
+    lea(reg_tmp, ptr[reg_tmp + reg_iterkb * sizeof(AType)]);
+    auto& reg_zpA = reg_tmp;
+
+    mov(reg_tmp1, ptr[parambase + OFFSET(scaleA)]);
+    lea(reg_tmp1, ptr[reg_tmp1 + reg_iterkb * sizeof(float)]);
+    auto& reg_scaleA = reg_tmp1;
+
+    load32(reg_tmp3, ptr[parambase + OFFSET(ldsa)]);
+    auto& reg_ldsa = reg_tmp3;
+    for (int i = 0; i < NRegs; i++) {
+      vmovups(Xbyak::Zmm(BReg + i), ptr[reg_redB + i * VecBytes]);
+    }
+
+    for (int i = 0; i < _mtile; i++) {
+      vpbroadcastb(Xbyak::Xmm(AReg), ptr[reg_zpA]);
+      vpmovzxbd(Xbyak::Zmm(AReg), Xbyak::Xmm(AReg));
+      vcvtdq2ps(Xbyak::Zmm(AReg), Xbyak::Zmm(AReg));
+      vmulps(Xbyak::Zmm(AReg), Xbyak::Zmm(AReg), zword_b[reg_scaleA]);
+      for (int j = 0; j < NRegs; j++) {
+        vmulps(Xbyak::Zmm(CReg + j), Xbyak::Zmm(AReg), Xbyak::Zmm(BReg + j));
+        vsubps(Xbyak::Zmm(CF32Reg + i * NRegs + j), Xbyak::Zmm(CReg + j));
+      }
+      lea(reg_zpA, ptr[reg_zpA + reg_ldsa * sizeof(AType)]);
+      lea(reg_scaleA, ptr[reg_scaleA + reg_ldsa * sizeof(float)]);
+    }
+  }
+
+  void write_back(int _mtile) {
+    inLocalLabel();
+    mov(reg_matCptr, ptr[parambase + OFFSET(matC)]);
+    load32(reg_cstride, ptr[parambase + OFFSET(cstride)]);
+    lea(reg_matCptr, ptr[reg_matCptr + reg_itern * sizeof(CType)]);
+    for (int i = 0; i < _mtile; i++) {
+      for (int j = 0; j < NRegs; j++) {
+        vmovups(ptr[reg_matCptr + j * VecBytes], vreg_t(CF32Reg + i * NRegs + j));
+      }
+      add(reg_matCptr, reg_cstride);
+    }
+    outLocalLabel();
+  }
+};
+
+}  // namespace kblock
+}  // namespace code
+template <template <int, int> class CodeT, int _NTILE, int _MTILE = 0>
+class CoreCodeBase {
+ public:
+  using Code = CodeT<_NTILE, _MTILE>;
+  using AType = typename Code::AType;
+  using BType = typename Code::BType;
+  using CType = typename Code::CType;
+  static int constexpr NTILE = Code::NTILE;
+  static int constexpr MTILE = Code::MTILE;
+  static int constexpr KTILE = Code::KTILE;
+  static int constexpr PACK_ROW = Code::PackRow;
+  static int constexpr COMP = Code::COMPUTE;
+  static int constexpr PREFERRED_N = NTILE * 3;
+  static JBLAS_ISA constexpr ISA = (JBLAS_ISA)Code::ISA;
+  static uint32_t constexpr ID = CoreAttr::make_core_id(NTILE, PACK_ROW, COMP, ISA);
+  void configure() { (void)(0); }
+
+ protected:
+  CoreCodeBase() {
+    for (int i = 0; i < mCodes.size(); i++) {
+      mCodes[i].generate_code(i + 1);
+    }
+  }
+  std::array<Code, Code::MTILE> mCodes;
+};
+
+template <template <int, int> class CodeT, int _NTILE, int _MTILE = 0>
+class CoreCodeBaseAMX {
+ public:
+  using Code = CodeT<_NTILE, _MTILE>;
+  using AType = typename Code::AType;
+  using BType = typename Code::BType;
+  using CType = typename Code::CType;
+  static int constexpr NTILE = Code::NTILE;
+  static int constexpr MTILE = Code::MTILE;
+  static int constexpr KTILE = Code::KTILE;
+  static int constexpr PACK_ROW = Code::PackRow;
+  static int constexpr COMP = Code::COMPUTE;
+  static int constexpr PREFERRED_N = NTILE * 3;
+  static JBLAS_ISA constexpr ISA = (JBLAS_ISA)Code::ISA;
+  static uint32_t constexpr ID = CoreAttr::make_core_id(_NTILE, PACK_ROW, COMP, ISA);
+  Xbyak::CodeGenerator cfgcode;
+
+ protected:
+  CoreCodeBaseAMX() {
+    for (int i = 0; i < mCodes.size(); i++) {
+      mCodes[i].generate_code((i + 1) * 16);
+    }
+  }
+  std::array<Code, Code::MRegs> mCodes;
+};
+
+template <int _NTILE, int _MTILE = 0>
+class SCoreRowNAvx2 : public CoreCodeBase<code::Avx2N8P1, _NTILE, _MTILE> {
+ public:
+  using Code = typename CoreCodeBase<code::Avx2N8P1, _NTILE, _MTILE>::Code;
+  void forward(float* matA, float* matB, float* matC, int _m, int _n, int _k, int _astride, int _bstride, int _cstride,
+               int kpos, void* tmpcache, size_t cachesize) {
+    auto param = typename Code::params{matA, _astride, matB, _bstride, matC, _cstride, _k, _n, kpos == 0 ? 1 : 0};
+    if (_m <= Code::MTILE) {
+      this->mCodes[_m - 1].mKernel(&param);
+    } else {
+      assert(0);
+    }
+  }
+};
+
+template <int _NTILE, int _MTILE = 0>
+class SCoreRowNAvx512f : public CoreCodeBase<code::Avx512fN16P1, _NTILE, _MTILE> {
+ public:
+  using Code = typename CoreCodeBase<code::Avx512fN16P1, _NTILE, _MTILE>::Code;
+  void forward(float* matA, float* matB, float* matC, int _m, int _n, int _k, int _astride, int _bstride, int _cstride,
+               int kpos, void* tmpcache, size_t cachesize) {
+    auto param = typename Code::params{matA, _astride, matB, _bstride, matC, _cstride, _k, _n, kpos == 0 ? 1 : 0};
+    if (_m <= Code::MTILE) {
+      this->mCodes[_m - 1].mKernel(&param);
+    } else {
+      assert(0);
+    }
+  }
+};
+
+template <int _NTILE, int _MTILE = 0>
+class HCoreRowNAvx512fp16 : public CoreCodeBase<code::Avx512fp16N32P1, _NTILE, _MTILE> {
+ public:
+  using Code = typename CoreCodeBase<code::Avx512fp16N32P1, _NTILE, _MTILE>::Code;
+
+  void forward(utils::fp16* matA, utils::fp16* matB, utils::fp16* matC, int _m, int _n, int _k, int _astride,
+               int _bstride, int _cstride, int kpos, void* tmpcache, size_t cachesize) {
+    auto param = typename Code::params{matA, _astride, matB, _bstride, matC, _cstride, _k, _n, kpos == 0 ? 1 : 0};
+    if (_m <= Code::MTILE) {
+      this->mCodes[_m - 1].mKernel(&param);
+    } else {
+      assert(0);
+    }
+  }
+};
+
+template <int _NTILE, int _MTILE = 0>
+class HCoreRowNAvx512bf16 : public CoreCodeBase<code::Avx512bf16N16P2, _NTILE, _MTILE> {
+ public:
+  using Code = typename CoreCodeBase<code::Avx512bf16N16P2, _NTILE, _MTILE>::Code;
+  void forward(utils::bf16* matA, utils::bf16* matB, float* matC, int _m, int _n, int _k, int _astride, int _bstride,
+               int _cstride, int kpos, void* tmpcache, size_t cachesize) {
+    auto param = typename Code::params{matA, _astride, matB, _bstride, matC, _cstride, _k, _n, kpos == 0 ? 1 : 0};
+    if (_m <= Code::MTILE) {
+      this->mCodes[_m - 1].mKernel(&param);
+    } else {
+      assert(0);
+    }
+  }
+};
+
+template <int _NTILE, int _MTILE = 0>
+class HCoreRowNAmxbf16 : public CoreCodeBaseAMX<code::Amxbf16N16P2, _NTILE, _MTILE> {
+ public:
+  using Code = typename CoreCodeBaseAMX<code::Amxbf16N16P2, _NTILE, _MTILE>::Code;
+  using AType = typename Code::AType;
+  using BType = typename Code::BType;
+  using CType = typename Code::CType;
+
+  void configure() {
+    code::AmxConfigure::configure(16, 16, Code::KTILE, sizeof(BType), this->mCodes[0].ATileCount,
+                                  this->mCodes[0].BTileCount, this->mCodes[0].CTileCount);
+  }
+
+  void forward(AType* matA, BType* matB, CType* matC, int _m, int _n, int _k, int _astride, int _bstride, int _cstride,
+               int kpos, void* tmpcache, size_t cachesize) {
+    auto param =
+        typename Code::params{matA, _astride, matB, _bstride, matC, _cstride, _k, _n, kpos == 0 ? 1 : 0, tmpcache};
+    if (_m <= Code::MTILE) {
+      int idx = utils::updiv(_m, 16) - 1;
+      this->mCodes[idx].mKernel(&param);
+    } else {
+      assert(0);
+    }
+  }
+};
+
+template <int _NTILE, int _MTILE = 0>
+class ICoreRowNAvx512vnni : public CoreCodeBase<code::Avx512vnniN16P4, _NTILE, _MTILE> {
+ public:
+  using Code = typename CoreCodeBase<code::Avx512vnniN16P4, _NTILE, _MTILE>::Code;
+  void forward(uint8_t* matA, int8_t* matB, int32_t* matC, int _m, int _n, int _k, int _astride, int _bstride,
+               int _cstride, int kpos, void* tmpcache, size_t cachesize) {
+    auto param = typename Code::params{matA, _astride, matB, _bstride, matC, _cstride, _k, _n, kpos == 0 ? 1 : 0};
+    if (_m <= Code::MTILE) {
+      this->mCodes[_m - 1].mKernel(&param);
+    } else {
+      assert(0);
+    }
+  }
+};
+
+template <int _NTILE, int _MTILE = 0>
+class ICoreRowNAvx512vnniKBlock : public CoreCodeBase<code::kblock::Avx512vnniN16P4, _NTILE, _MTILE> {
+ public:
+  using Code = typename CoreCodeBase<code::kblock::Avx512vnniN16P4, _NTILE, _MTILE>::Code;
+  void forward(uint8_t* matA, int8_t* matB, float* matC, uint8_t* zpA, float* scaleA, int _ldsa, float* scaleB,
+               float* reduceB, int _ldsb, int _m, int _n, int _k, int _kblock, int _astride, int _bstride, int _cstride,
+               int kpos, void* tmpcache, size_t cachesize) {
+    auto param = typename Code::params{matA,  _astride, matB,    _bstride, matC, _cstride, zpA,     scaleA,
+                                       _ldsa, scaleB,   reduceB, _ldsb,    _k,   _n,       _kblock, kpos == 0 ? 1 : 0};
+    if (_m <= Code::MTILE) {
+      this->mCodes[_m - 1].mKernel(&param);
+    } else {
+      assert(0);
+    }
+  }
+};
+
+template <int _NTILE, int _MTILE = 0>
+class ICoreRowNAvxvnni : public CoreCodeBase<code::AvxvnniN8P4, _NTILE, _MTILE> {
+ public:
+  using Code = typename CoreCodeBase<code::AvxvnniN8P4, _NTILE, _MTILE>::Code;
+
+  void forward(uint8_t* matA, int8_t* matB, int32_t* matC, int _m, int _n, int _k, int _astride, int _bstride,
+               int _cstride, int kpos, void* tmpcache, size_t cachesize) {
+    auto param = typename Code::params{matA, _astride, matB, _bstride, matC, _cstride, _k, _n, kpos == 0 ? 1 : 0};
+    if (_m <= Code::MTILE) {
+      this->mCodes[_m - 1].mKernel(&param);
+    } else {
+      assert(0);
+    }
+  }
+};
+
+template <int _NTILE, int _MTILE = 0>
+class ICoreRowNAmxint8 : public CoreCodeBaseAMX<code::Amxint8N16P4US, _NTILE, _MTILE> {
+ public:
+  using Code = typename CoreCodeBaseAMX<code::Amxint8N16P4US, _NTILE, _MTILE>::Code;
+  using AType = typename Code::AType;
+  using BType = typename Code::BType;
+  using CType = typename Code::CType;
+  void configure() {
+    code::AmxConfigure::configure(16, 16, Code::KTILE, sizeof(BType), this->mCodes[0].ATileCount,
+                                  this->mCodes[0].BTileCount, this->mCodes[0].CTileCount);
+  }
+
+  void forward(uint8_t* matA, int8_t* matB, int32_t* matC, int _m, int _n, int _k, int _astride, int _bstride,
+               int _cstride, int kpos, void* tmpcache, size_t cachesize) {
+    auto param =
+        typename Code::params{matA, _astride, matB, _bstride, matC, _cstride, _k, _n, kpos == 0 ? 1 : 0, tmpcache};
+    if (_m <= Code::MTILE) {
+      int idx = utils::updiv(_m, 16) - 1;
+      this->mCodes[idx].mKernel(&param);
+    } else {
+      assert(0);
+    }
+  }
+};
+
+template <int _NTILE, int _MTILE = 0>
+class ICoreRowNAmxint8SS : public CoreCodeBaseAMX<code::Amxint8N16P4SS, _NTILE, _MTILE> {
+ public:
+  using Code = typename CoreCodeBaseAMX<code::Amxint8N16P4SS, _NTILE, _MTILE>::Code;
+  using AType = typename Code::AType;
+  using BType = typename Code::BType;
+  using CType = typename Code::CType;
+  void configure() {
+    code::AmxConfigure::configure(16, 16, Code::KTILE, sizeof(BType), this->mCodes[0].ATileCount,
+                                  this->mCodes[0].BTileCount, this->mCodes[0].CTileCount);
+  }
+
+  void forward(int8_t* matA, int8_t* matB, int32_t* matC, int _m, int _n, int _k, int _astride, int _bstride,
+               int _cstride, int kpos, void* tmpcache, size_t cachesize) {
+    auto param =
+        typename Code::params{matA, _astride, matB, _bstride, matC, _cstride, _k, _n, kpos == 0 ? 1 : 0, tmpcache};
+    if (_m <= Code::MTILE) {
+      int idx = utils::updiv(_m, 16) - 1;
+      this->mCodes[idx].mKernel(&param);
+    } else {
+      assert(0);
+    }
+  }
+};
+}  // namespace gemm
+}  // namespace jblas
diff --git a/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/jit_blas_parallel.h b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/jit_blas_parallel.h
new file mode 100644
index 0000000000000..a1607c9012187
--- /dev/null
+++ b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/jit_blas_parallel.h
@@ -0,0 +1,678 @@
+//  Copyright (c) 2023 Intel Corporation
+//
+//  Licensed under the Apache License, Version 2.0 (the "License");
+//  you may not use this file except in compliance with the License.
+//  You may obtain a copy of the License at
+//
+//    http://www.apache.org/licenses/LICENSE-2.0
+//
+//  Unless required by applicable law or agreed to in writing, software
+//  distributed under the License is distributed on an "AS IS" BASIS,
+//  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+//  See the License for the specific language governing permissions and
+//  limitations under the License.
+#pragma once
+#include <functional>
+#include <thread>
+#ifdef _OPENMP
+#include <omp.h>
+#endif
+#include "jit_blas_utils.h"
+#include "jit_blas_device.h"
+
+namespace jblas {
+namespace parallel {
+struct Config2D {
+  int threads;
+  int size[2];
+  int step[2];
+};
+struct ThreadProblem2D {
+  int tid;
+  int tidx[2];
+  int loc[2];
+  int size[2];
+  bool valid;
+  void print() {
+    printf("Thread %d indice:(%d,%d)\n", tid, tidx[0], tidx[1]);
+    printf("Thread location:(%d,%d)\n", loc[0], loc[1]);
+    printf("Thread problem size:(%d,%d)\n", size[0], size[1]);
+  }
+};
+class Scheduler2D {
+ public:
+  Scheduler2D() = default;
+  Scheduler2D(const Config2D& config) { update(config); }
+  using ThreadProblem = ThreadProblem2D;
+
+  virtual void getIndex(ThreadProblem& problem) {
+    if (problem.tid >= mThdValid) {
+      problem.size[0] = 0;
+      problem.size[1] = 0;
+      problem.valid = false;
+      return;
+    }
+    auto& tid = problem.tid;
+    problem.tidx[1] = tid % mThdPerRow;
+    problem.tidx[0] = tid / mThdPerRow;
+    problem.loc[0] = problem.tidx[0] * mThdSize[0];
+    problem.loc[1] = problem.tidx[1] * mThdSize[1];
+    problem.size[0] = utils::remainsize(problem.loc[0], mSize[0], mThdSize[0]);
+    problem.size[1] = utils::remainsize(problem.loc[1], mSize[1], mThdSize[1]);
+    problem.valid = true;
+  }
+
+  virtual void update(const Config2D& config) {
+    mThdCount = config.threads;
+    for (size_t i = 0; i < 2; i++) {
+      mSize[i] = config.size[i];
+      mStep[i] = config.step[i];
+    }
+    schedule();
+  }
+
+  void print() {
+    printf("Thread Block:(%d,%d)\n", mThdSize[0], mThdSize[1]);
+    printf("Thread in use:%d of %d, Nx%d\n", mThdValid, mThdCount, mThdPerRow);
+  }
+
+ protected:
+  void set(const int* thdsize, const int* size, const int* step) {
+    for (size_t i = 0; i < 2; i++) {
+      mThdSize[i] = thdsize[i];
+      mSize[i] = size[i];
+      mStep[i] = step[i];
+    }
+  }
+  void schedule() {
+    int rownum = utils::updiv(mSize[0], mStep[0]);
+    int colnum = utils::updiv(mSize[1], mStep[1]);
+    float ratio = colnum * rownum / static_cast<float>(mThdCount);
+    if (ratio <= 1) {
+      mThdSize[0] = mStep[0];
+      mThdSize[1] = mStep[1];
+      mThdPerRow = colnum;
+      calc_valid_threads();
+      return;
+    }
+    float colratio = ratio > colnum ? colnum : ceil(ratio);
+    mThdSize[1] = static_cast<int>(colratio * mStep[1]);
+    mThdPerRow = static_cast<int>(ceil(static_cast<float>(colnum) / colratio));
+    mThdSize[0] = static_cast<int>(ceil(rownum / (static_cast<float>(mThdCount) / mThdPerRow)) * mStep[0]);
+    calc_valid_threads();
+  }
+  void calc_valid_threads() {
+    mThdValid = mThdPerRow * static_cast<int>(std::ceil(static_cast<float>(mSize[0]) / mThdSize[0]));
+  }
+
+  int mThdPerRow = 0;
+  int mThdValid = 0;
+  int mThdCount = 0;
+
+ private:
+  int mThdSize[2] = {0, 0};
+  int mSize[2] = {0, 0};
+  int mStep[2] = {0, 0};
+};
+
+namespace gemm {
+
+struct ConfigGemmBase {
+  int threads;
+  int size[3];
+  size_t l2cache = 1024ULL * 1024;
+  size_t l1cache = 32ULL * 1024;
+};
+
+struct ThreadProblemBase : ThreadProblem2D {
+  int block[3];
+  size_t l2cachesize;
+  size_t tmpcachesize;
+};
+
+template <class _GemmCore_T>
+class SchedulerBase : public Scheduler2D {
+ public:
+  using ThreadProblem = ThreadProblemBase;
+  SchedulerBase() = default;
+  SchedulerBase(const ConfigGemmBase& config) { update(config); }
+  virtual void getIndex(ThreadProblem& problem) {
+    problem.tmpcachesize = mL2Size - mL2Use;
+    problem.l2cachesize = mL2Size;
+    problem.block[0] = mBlock[0];
+    problem.block[1] = mBlock[1];
+    problem.block[2] = mBlock[2];
+    Scheduler2D::getIndex(problem);
+  }
+
+  void update(const ConfigGemmBase& config) {
+    for (size_t i = 0; i < 3; i++) {
+      mSize[i] = config.size[i];
+      mSizePadded[i] = utils::padto(mSize[i], mStep[i]);
+    }
+    mThdCount = config.threads;
+    mL2Size = config.l2cache;
+    mL1Size = config.l1cache;
+    if (mSize[0] <= 0 || mSize[1] <= 0 || mSize[2] <= 0) {
+      return;
+    }
+    schedule();
+  }
+
+  constexpr int valid_theads() { return mThdValid; }
+
+  void print() {
+    printf("Thread Block:(%d,%d)\n", mThdSize[0], mThdSize[1]);
+    printf("Thread in use:%d of %d, Nx%d\n", mThdValid, mThdCount, mThdPerRow);
+    printf("GEMM MStep:%d NStep:%d KStep:%d\n", mBlock[0], mBlock[1], mBlock[2]);
+    printf("Cache Size:%zu used:%zu\n", mL2Size, mL2Use);
+  }
+
+ protected:
+  void schedule() {
+    int rownum = utils::updiv(mSize[0], mStep[0]);
+    int colnum = utils::updiv(mSize[1], mStep[1]);
+    mDensity = static_cast<float>(mSize[0]) * mSize[1] / (mSize[0] + mSize[1]);
+    int maxN = 0;
+    float maxScore = std::numeric_limits<float>::min();
+    int core_enum = static_cast<int>(std::sqrt(mThdCount));
+    for (int i = 1; i <= core_enum; i += 1) {
+      generate_by_cores(i, mThdCount / i, rownum, colnum);
+      auto thdscore = calculate_score();
+      if (maxScore < thdscore) {
+        maxScore = thdscore;
+        maxN = i;
+      }
+      generate_by_cores(mThdCount / i, i, rownum, colnum);
+      thdscore = calculate_score();
+      if (maxScore < thdscore) {
+        maxScore = thdscore;
+        maxN = mThdCount / i;
+      }
+    }
+    generate_by_cores(maxN, mThdCount / maxN, rownum, colnum);
+    update_cache_blocking();
+    Scheduler2D::set(mThdSize, mSize, mStep);
+    mL2Use = static_cast<size_t>(mBlock[0]) * mBlock[1] * mEleSize[2];
+    mL2Use += static_cast<size_t>(mBlock[1]) * mBlock[2] * mEleSize[1];
+    mL2Use += static_cast<size_t>(mStep[0]) * mBlock[2] * mEleSize[0];
+  }
+  const float DensityThres = 32;
+
+  float calculate_score() {
+    int tmpnstep = mThdSize[1] < _GemmCore_T::PREFERRED_N ? mThdSize[1] : _GemmCore_T::PREFERRED_N;
+    float threadratio = static_cast<float>(mThdValid) / mThdCount;
+    float density = static_cast<float>(tmpnstep) * mThdSize[0] / (tmpnstep + mThdSize[0]);
+    if (mDensity < DensityThres) {
+      return threadratio;
+    }
+    return (threadratio * 1.f + density * 0.0016f);
+  }
+
+  void generate_by_cores(int ny, int nx, int rownum, int colnum) {
+    mThdSize[0] = utils::updiv(rownum, ny) * mStep[0];
+    mThdSize[1] = utils::updiv(colnum, nx) * mStep[1];
+    mThdPerRow = utils::updiv(mSize[1], mThdSize[1]);
+    mThdValid = utils::updiv(mSize[0], mThdSize[0]) * mThdPerRow;
+  }
+
+  // cache = mMStep * mNStep * CSize + mNStep * mKStep * BSize
+  //       = mNStep * (mMStep*CSize + mKStep*BSize)
+  // C Access = K/mKStep
+  // B Access = M/mMStep
+  // A Access = N/mNStep
+  void update_cache_blocking() {
+    if (mDensity <= DensityThres) {
+      return cache_block_memory();
+    } else {
+      return cache_blocking_compute();
+    }
+  }
+
+  void cache_blocking_compute() {
+    int constexpr KRef = 256;
+    size_t csize_total = mL2Size - _GemmCore_T::PREFERRED_N * KRef * mEleSize[1];
+    int maxM = static_cast<int>(csize_total / _GemmCore_T::PREFERRED_N / mEleSize[2]);
+    maxM = utils::downdiv(maxM, mStep[0]);
+    int nthdm = mThdSize[0] / mStep[0];
+    if (maxM < nthdm) {
+      int niter = utils::updiv(nthdm, maxM);
+      mBlock[0] = utils::updiv(nthdm, niter) * mStep[0];
+    } else {
+      mBlock[0] = mThdSize[0];
+    }
+    int maxN = static_cast<int>(mL2Size / (mBlock[0] * mEleSize[2] + KRef * mEleSize[1]));
+    maxN = utils::downdiv(maxN, mStep[1]);
+    int nthdn = mThdSize[1] / mStep[1];
+    if (maxN < nthdn) {
+      int niter = utils::updiv(nthdn, maxN);
+      mBlock[1] = utils::updiv(nthdn, niter) * mStep[1];
+    } else {
+      mBlock[1] = mThdSize[1];
+    }
+    auto rawk = static_cast<int>((mL2Size - mBlock[0] * mBlock[1] * mEleSize[2]) /
+                                 (mBlock[0] * mEleSize[0] + mBlock[1] * mEleSize[1]));
+    rawk = std::min(rawk, mSizePadded[2]);
+    mBlock[2] = utils::padto_le(rawk, mStep[2]);
+  }
+
+  void cache_block_memory() {
+    mBlock[0] = mThdSize[0];
+    mBlock[1] = mStep[1];
+    size_t reservsize = static_cast<size_t>(mBlock[0]) * mBlock[1] * mEleSize[2];
+    size_t maxK = (mL1Size - reservsize) / (mBlock[1] * mEleSize[1] + mBlock[0] * mEleSize[0]);
+    size_t Bsize = maxK * mBlock[1] * mEleSize[1];
+    size_t Bsize_1K = utils::padto_le(Bsize, 1024);
+    mBlock[2] = static_cast<int>(Bsize_1K / mEleSize[1] / mBlock[1]);
+    mBlock[2] = utils::padto_le(mBlock[2], mStep[2]);
+  }
+
+  size_t mL2Size = 0, mL1Size = 0, mL2Use = 0;
+  float mDensity = 0.f;
+
+ private:
+  int mSize[3] = {0, 0, 0};
+  int mThdSize[3] = {0, 0, 0};
+  static constexpr int mStep[3] = {_GemmCore_T::MTILE, _GemmCore_T::NTILE, _GemmCore_T::KTILE};
+  static constexpr int mEleSize[3] = {sizeof(typename _GemmCore_T::AType), sizeof(typename _GemmCore_T::BType),
+                                      sizeof(typename _GemmCore_T::CType)};
+  int mSizePadded[3] = {0, 0, 0};
+  int mBlock[3] = {0, 0, 0};
+};
+
+struct ConfigGemmKBlock : ConfigGemmBase {
+  int kblock;
+};
+
+template <class _GemmCore_T>
+class SchedulerKBlock : public Scheduler2D {
+  // Block[2]: block size of K must be mutiplier of mKBlock
+  //           or factor of mKBlock
+ public:
+  using ThreadProblem = ThreadProblemBase;
+  SchedulerKBlock() = default;
+  SchedulerKBlock(const ConfigGemmKBlock& config) { update(config); }
+  virtual void getIndex(ThreadProblem& problem) {
+    problem.l2cachesize = mL2Size;
+    problem.tmpcachesize = mL2Size - mL2Use;
+    problem.block[0] = mBlock[0];
+    problem.block[1] = mBlock[1];
+    problem.block[2] = mBlock[2];
+    Scheduler2D::getIndex(problem);
+  }
+
+  void update(const ConfigGemmKBlock& config) {
+    for (size_t i = 0; i < 3; i++) {
+      mSize[i] = config.size[i];
+      mSizePadded[i] = utils::padto(mSize[i], mStep[i]);
+    }
+    mThdCount = config.threads;
+    mL2Size = config.l2cache;
+    mL1Size = config.l1cache;
+    mKBlock = config.kblock;
+    if (mSize[0] <= 0 || mSize[1] <= 0 || mSize[2] <= 0) {
+      return;
+    }
+    schedule();
+  }
+
+  constexpr int valid_theads() { return mThdValid; }
+
+  void print() {
+    printf("Thread Block:(%d,%d)\n", mThdSize[0], mThdSize[1]);
+    printf("Thread in use:%d of %d, Nx%d\n", mThdValid, mThdCount, mThdPerRow);
+    printf("GEMM MStep:%d NStep:%d KStep:%d\n", mBlock[0], mBlock[1], mBlock[2]);
+    printf("Cache Size:%zu used:%zu\n", mL2Size, mL2Use);
+  }
+
+ protected:
+  void schedule() {
+    int rownum = utils::updiv(mSize[0], mStep[0]);
+    int colnum = utils::updiv(mSize[1], mStep[1]);
+    mDensity = static_cast<float>(mSize[0]) * mSize[1] / (mSize[0] + mSize[1]);
+    int maxN = 0;
+    float maxScore = std::numeric_limits<float>::min();
+    int core_enum = static_cast<int>(std::sqrt(mThdCount));
+    for (int i = 1; i <= core_enum; i += 1) {
+      generate_by_cores(i, mThdCount / i, rownum, colnum);
+      auto thdscore = calculate_score();
+      if (maxScore < thdscore) {
+        maxScore = thdscore;
+        maxN = i;
+      }
+      generate_by_cores(mThdCount / i, i, rownum, colnum);
+      thdscore = calculate_score();
+      if (maxScore < thdscore) {
+        maxScore = thdscore;
+        maxN = mThdCount / i;
+      }
+    }
+    generate_by_cores(maxN, mThdCount / maxN, rownum, colnum);
+    update_cache_blocking();
+    Scheduler2D::set(mThdSize, mSize, mStep);
+    mL2Use = static_cast<size_t>(mBlock[0]) * mBlock[1] * mEleSize[2] * 2;
+    mL2Use += static_cast<size_t>(mBlock[1]) * mBlock[2] * mEleSize[1];
+    mL2Use += static_cast<size_t>(mStep[0]) * mBlock[2] * mEleSize[0];
+  }
+  const float DensityThres = 32;
+
+  float calculate_score() {
+    int tmpnstep = mThdSize[1] < _GemmCore_T::PREFERRED_N ? mThdSize[1] : _GemmCore_T::PREFERRED_N;
+    float threadratio = static_cast<float>(mThdValid) / mThdCount;
+    float density = static_cast<float>(tmpnstep) * mThdSize[0] / (tmpnstep + mThdSize[0]);
+    if (mDensity < DensityThres) {
+      return threadratio * 1.f;
+    }
+    return (threadratio * 1.f + density * 0.0016f);
+  }
+
+  void generate_by_cores(int ny, int nx, int rownum, int colnum) {
+    mThdSize[0] = utils::updiv(rownum, ny) * mStep[0];
+    mThdSize[1] = utils::updiv(colnum, nx) * mStep[1];
+    mThdPerRow = utils::updiv(mSize[1], mThdSize[1]);
+    mThdValid = utils::updiv(mSize[0], mThdSize[0]) * mThdPerRow;
+  }
+
+  // C-KBlock Accumulator=MBlock*NBlock
+  // C-K Accumulator=MBlock*NBlock
+  // B=MBlock*KBlock
+  // A=MTILE*KBlock
+  void update_cache_blocking() {
+    if (mDensity <= DensityThres) {
+      return cache_block_memory();
+    } else {
+      return cache_blocking_compute();
+    }
+  }
+
+  void cache_blocking_compute() {
+    int constexpr KRef = 256;
+    int constexpr NRef = _GemmCore_T::PREFERRED_N;
+    int constexpr MTile = _GemmCore_T::MTILE;
+    int constexpr KSplitStage = 16;
+    int BlkNum = utils::updiv(mSize[2], mKBlock);
+    int KSplitSize = utils::padto(utils::updiv(mSize[2], KSplitStage), mStep[2]);
+    mBlock[1] = NRef < mThdSize[1] ? NRef : mThdSize[1];
+    if (KSplitStage * mStep[2] >= mSize[2]) {
+      mBlock[2] = mSize[2];
+    } else if (KSplitSize >= mKBlock) {
+      mBlock[2] = mKBlock;
+    } else {
+      int scale = utils::downdiv(KSplitStage, BlkNum);
+      for (; scale >= 1; scale--) {
+        if (mKBlock % scale == 0) {
+          break;
+        }
+      }
+      mBlock[2] = utils::downdiv(mKBlock, scale);
+      mBlock[2] = utils::padto_le(mBlock[2], mStep[2]);
+    }      
+    size_t size_remain = mL2Size - mBlock[1] * mBlock[2] * mEleSize[1];
+    // MBlock*KBlock*ASize+MBlock*NBlock*CSize*2<=size_remain
+    int maxMBlock = static_cast<int>(size_remain / (mBlock[1] * mEleSize[2] * 2 + mBlock[2] * mEleSize[0]));
+    int maxM = utils::downdiv(maxMBlock, mStep[0]);
+    int nthdm = mThdSize[0] / mStep[0];
+    if (maxM < nthdm) {
+      int niter = utils::updiv(nthdm, maxM);
+      mBlock[0] = utils::updiv(nthdm, niter) * mStep[0];
+    } else {
+      mBlock[0] = mThdSize[0];
+    }
+  }
+
+  void cache_block_memory() {
+    mBlock[0] = _GemmCore_T::MTILE;
+    size_t startK = std::max(16, _GemmCore_T::KTILE);
+    auto getMaxN = [&](size_t refk) {
+      size_t sizeA = refk * mEleSize[0] * mBlock[0];
+      size_t maxN = (mL1Size - sizeA) / (mBlock[0] * mEleSize[2] * 2 + refk * mEleSize[1]);
+      return maxN;
+    };
+    auto getMaxK = [&](size_t refN) {
+      size_t sizeC = refN * mEleSize[2] * mBlock[0] * 2;
+      size_t maxK = (mL1Size - sizeC) / (mBlock[0] * mEleSize[0] + refN * mEleSize[1]);
+      return maxK;
+    };
+    auto maxN = getMaxN(startK);
+    if (maxN <= mThdSize[1]) {
+      mBlock[1] = static_cast<int>(maxN);
+      mBlock[1] = utils::padto_le(mBlock[1], mStep[1]);
+      mBlock[2] = static_cast<int>(startK);
+    } else {
+      mBlock[1] = mThdSize[1];
+      mBlock[2] = static_cast<int>(getMaxK(mBlock[1]));
+      mBlock[2] = utils::padto_le(mBlock[2], mStep[2]);
+      mBlock[2] = std::min(mKBlock, mBlock[2]);
+      auto tmp = utils::updiv(mKBlock, mBlock[2]);
+      while (mKBlock % tmp != 0) tmp++;  // TODO(Yu) optimize
+      mBlock[2] = utils::downdiv(mKBlock, tmp);
+    }
+  }
+  size_t mL2Size = 0, mL1Size = 0, mL2Use = 0;
+  float mDensity = 0.f;
+  int mKBlock = 0;
+
+ private:
+  int mSize[3] = {0, 0, 0};
+  int mThdSize[3] = {0, 0, 0};
+  static constexpr int mStep[3] = {_GemmCore_T::MTILE, _GemmCore_T::NTILE, _GemmCore_T::KTILE};
+  static constexpr int mEleSize[3] = {sizeof(typename _GemmCore_T::AType), sizeof(typename _GemmCore_T::BType),
+                                      sizeof(typename _GemmCore_T::CType)};
+  int mSizePadded[3] = {0, 0, 0};
+  int mBlock[3] = {0, 0, 0};
+};
+#if 0
+template <class _GemmCore_T>
+class SchedulerKBlockS : public SchedulerBase<_GemmCore_T> {
+  // Block[2]: block size of K must be mutiplier of mKBlock
+  //           or factor of mKBlock
+ public:
+  using ThreadProblem = ThreadProblemBase;
+  SchedulerKBlockS() = default;
+  SchedulerKBlockS(const ConfigGemmKBlock& config) { update(config); }
+
+ protected:
+  // C-KBlock Accumulator=MBlock*NBlock
+  // C-K Accumulator=MBlock*NBlock
+  // B=MBlock*KBlock
+  // A=MTILE*KBlock
+  void update_cache_blocking() {
+    if (mDensity <= DensityThres) {
+      return cache_block_memory();
+    } else {
+      return cache_blocking_compute();
+    }
+  }
+
+  void cache_blocking_compute() {
+    int constexpr KRef = 256;
+    int constexpr NRef = _GemmCore_T::PREFERRED_N;
+    int constexpr MTile = _GemmCore_T::MTILE;
+    int constexpr KSplitStage = 16;
+    int BlkNum = utils::updiv(mSize[2], mKBlock);
+    int KSplitSize = utils::padto(utils::updiv(mSize[2], KSplitStage), mStep[2]);
+    mBlock[1] = NRef < mThdSize[1] ? NRef : mThdSize[1];
+    if (KSplitSize >= mKBlock) {
+      mBlock[2] = mKBlock;
+    } else {
+      int scale = utils::downdiv(KSplitStage, BlkNum);
+      for (; scale >= 1; scale--) {
+        if (mKBlock % scale == 0) {
+          break;
+        }
+      }
+      mBlock[2] = utils::downdiv(mKBlock, scale);
+    }
+    size_t size_remain = mL2Size - mBlock[1] * mBlock[2] * mEleSize[1];
+    // MBlock*KBlock*ASize+MBlock*NBlock*CSize*2<=size_remain
+    int maxMBlock = int(size_remain / (mBlock[1] * mEleSize[2] * 2 + mBlock[2] * mEleSize[0]));
+    int maxM = utils::downdiv(maxMBlock, mStep[0]);
+    int nthdm = mThdSize[0] / mStep[0];
+    if (maxM < nthdm) {
+      int niter = utils::updiv(nthdm, maxM);
+      mBlock[0] = utils::updiv(nthdm, niter) * mStep[0];
+    } else {
+      mBlock[0] = mThdSize[0];
+    }
+  }
+
+  void cache_block_memory() {
+    mBlock[0] = _GemmCore_T::MTILE;
+    size_t startK = std::max(16, _GemmCore_T::KTILE);
+    auto getMaxN = [&](size_t refk) {
+      size_t sizeA = refk * mEleSize[0] * mBlock[0];
+      size_t maxN = (mL1Size - sizeA) / (mBlock[0] * mEleSize[2] * 2 + refk * mEleSize[1]);
+      return maxN;
+    };
+    auto getMaxK = [&](size_t refN) {
+      size_t sizeC = refN * mEleSize[2] * mBlock[0] * 2;
+      size_t maxK = (mL1Size - sizeC) / (mBlock[0] * mEleSize[0] + refN * mEleSize[1]);
+      return maxK;
+    };
+    auto maxN = getMaxN(startK);
+    if (maxN <= mThdSize[1]) {
+      mBlock[1] = int(maxN);
+      mBlock[1] = utils::padto_le(mBlock[1], mStep[1]);
+      mBlock[2] = int(startK);
+    } else {
+      mBlock[1] = mThdSize[1];
+      mBlock[2] = getMaxK(mBlock[1]);
+      mBlock[2] = utils::padto_le(mBlock[2], mStep[2]);
+      mBlock[2] = std::min(mKBlock, mBlock[2]);
+    }
+  }
+  size_t mL2Size = 0, mL1Size = 0, mL2Use = 0;
+  float mDensity = 0.f;
+  int mKBlock = 0;
+
+ private:
+  int mSize[3] = {0, 0, 0};
+  int mThdSize[3] = {0, 0, 0};
+  static constexpr int mStep[3] = {_GemmCore_T::MTILE, _GemmCore_T::NTILE, _GemmCore_T::KTILE};
+  static constexpr int mEleSize[3] = {sizeof(typename _GemmCore_T::AType), sizeof(typename _GemmCore_T::BType),
+                                      sizeof(typename _GemmCore_T::CType)};
+  int mSizePadded[3] = {0, 0, 0};
+  int mBlock[3] = {0, 0, 0};
+};
+#endif
+}  // namespace gemm
+using thread_func = std::function<void(int tid)>;
+
+class IThreading {
+ public:
+  IThreading(int nthreads) : mThreadNum(nthreads) {}
+  virtual void parallel_for(const thread_func& func) = 0;
+  virtual inline void sync() = 0;
+  virtual int num_threads() { return mThreadNum; };
+  virtual void set_threads(int nthreads) = 0;
+
+ protected:
+  int mThreadNum;
+};
+#ifdef _OPENMP
+class OMPThreading : public IThreading {
+ public:
+  OMPThreading(int nthreads) : IThreading(nthreads) { omp_set_num_threads(nthreads); }
+  void parallel_for(const thread_func& func) override {
+#pragma omp parallel
+    {
+      int tidx = omp_get_thread_num();
+      func(tidx);
+    }
+  }
+  virtual void set_threads(int nthreads) override {
+    mThreadNum = nthreads;
+    omp_set_num_threads(nthreads);
+  }
+  virtual inline void sync() override {
+#pragma omp barrier
+    (void)(0);  // make msvc happy with c++20
+  }
+};
+#endif
+
+class StdThreading : public IThreading {
+ public:
+  StdThreading(int nthreads) : IThreading(nthreads) { thdset.resize(nthreads); }
+  void parallel_for(const thread_func& func) override {
+    for (size_t i = 0; i < mThreadNum; i++) {
+      thdset[i] = std::thread([&](int tidx) { func(tidx); }, int(i));
+    }
+    for (size_t i = 0; i < mThreadNum; i++) {
+      thdset[i].join();
+    }
+  }
+
+  virtual void set_threads(int nthreads) override {
+    mThreadNum = nthreads;
+    thdset.resize(nthreads);
+  }
+
+  virtual inline void sync() override { assert(0); }
+
+ private:
+  std::vector<std::thread> thdset;
+};
+
+template <class Parallel_T, class Launch_T>
+void GemmBaseRun(Launch_T& launcher, const typename Launch_T::Param& args, parallel::IThreading* th) {
+  device::CpuBase cb;
+  Parallel_T para({th->num_threads(), args.M, args.N, args.K, cb.mL2Cache, cb.mL1Cache});
+  static bool flag = false;
+  if (flag) {
+    printf("%s\n", __FUNCTION__);
+    para.print();
+    flag = false;
+  }
+  th->parallel_for([&](int tidx) {
+    typename Parallel_T::ThreadProblem thdp{tidx};
+    para.getIndex(thdp);
+    if (thdp.valid) {
+      launcher.run(args, thdp);
+    }
+  });
+}
+
+template <class Parallel_T, class Launch_T>
+void GemmKBlockRun(Launch_T& launcher, const typename Launch_T::Param& args, parallel::IThreading* th) {
+  device::CpuBase cb;
+  Parallel_T para({th->num_threads(), args.M, args.N, args.K, cb.mL2Cache, cb.mL1Cache, args.KBlock});
+  static bool flag = false;
+  if (flag) {
+    printf("%s\n", __FUNCTION__);
+    para.print();
+    flag = false;
+  }
+  th->parallel_for([&](int tidx) {
+    typename Parallel_T::ThreadProblem thdp{tidx};
+    para.getIndex(thdp);
+    if (thdp.valid) {
+      launcher.run(args, thdp);
+    }
+  });
+}
+
+template <class Parallel_T, class Launch_T>
+void GemmKBlockRunWithA(Launch_T& launcher, const typename Launch_T::Param& args,
+                        const typename Launch_T::AParam& Aargs, parallel::IThreading* th) {
+  device::CpuBase cb;
+  Parallel_T para({th->num_threads(), args.M, args.N, args.K, cb.mL2Cache, cb.mL1Cache, args.KBlock});
+  using AParall = typename Launch_T::PrologueA::Parallel;
+  AParall apara({th->num_threads(), args.M, args.K, 1, args.KBlock});
+  th->parallel_for([&](int tidx) {
+    typename AParall::ThreadProblem thdpA{tidx};
+    apara.getIndex(thdpA);
+    if (thdpA.valid) {
+      launcher.mProA.run(Aargs, thdpA);
+    }
+    th->sync();
+    typename Parallel_T::ThreadProblem thdp{tidx};
+    para.getIndex(thdp);
+    if (thdp.valid) {
+      launcher.run(args, thdp);
+    }
+  });
+}
+
+}  // namespace parallel
+}  // namespace jblas
diff --git a/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/jit_blas_prologue_a.h b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/jit_blas_prologue_a.h
new file mode 100644
index 0000000000000..b006e0b410cd8
--- /dev/null
+++ b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/jit_blas_prologue_a.h
@@ -0,0 +1,214 @@
+//  Copyright (c) 2023 Intel Corporation
+//
+//  Licensed under the Apache License, Version 2.0 (the "License");
+//  you may not use this file except in compliance with the License.
+//  You may obtain a copy of the License at
+//
+//    http://www.apache.org/licenses/LICENSE-2.0
+//
+//  Unless required by applicable law or agreed to in writing, software
+//  distributed under the License is distributed on an "AS IS" BASIS,
+//  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+//  See the License for the specific language governing permissions and
+//  limitations under the License.
+#pragma once
+#include <immintrin.h>
+#include <cassert>
+
+#include "jit_blas.h"
+#include "jit_blas_gemm.h"
+#include "jit_blas_utils.h"
+#include "jit_blas_storage.h"
+#include "jit_blas_device.h"
+#include "jit_blas_parallel.h"
+#include "kernel_wrapper.h"
+
+namespace jblas {
+namespace prologue_a {
+namespace gemm {
+template <class _GemmCore_T, JBLAS_ISA ISA_T>
+class ActivationBase {
+ public:
+  using AType = typename _GemmCore_T::AType;
+  using SRCType = AType;
+  struct Param {
+    const AType* A;
+    int lda;
+  };
+  ActivationBase() {}
+
+  JBLAS_CODE getActivation(AType** dstptr, int* dststep, const Param& _param, int m_size, int k_size, int m_offset,
+                           int k_offset, void* tmpcache, size_t cachesize) {
+    auto aptr = const_cast<AType*>(_param.A);
+    if (k_size % _GemmCore_T::KTILE == 0 && m_size >= _GemmCore_T::MTILE) {
+      *dstptr = aptr + m_offset * _param.lda + k_offset;
+      *dststep = _param.lda;
+      return JblasSuccess;
+    } else {
+      auto k_pad = utils::padto(k_size, _GemmCore_T::KTILE);
+      *dststep = k_pad;
+      return kernel::wrapper::Memcpy2D::forward<ISA_T, AType, AType>(aptr + m_offset * _param.lda + k_offset, *dstptr,
+                                                                     m_size, k_size, _param.lda, k_pad);
+    }
+  }
+};
+
+template <class _GemmCore_T, JBLAS_ISA ISA_T, typename SRC_T>
+class ActivationConverter {
+ public:
+  using AType = typename _GemmCore_T::AType;
+  using SRCType = SRC_T;
+  struct Param {
+    const SRC_T* A;
+    int lda;
+  };
+  ActivationConverter() {}
+
+  JBLAS_CODE getActivation(AType** dstptr, int* dststep, const Param& _param, int m_size, int k_size, int m_offset,
+                           int k_offset, void* tmpcache, size_t cachesize) {
+    auto aptr = const_cast<SRC_T*>(_param.A);
+    auto k_pad = utils::padto(k_size, _GemmCore_T::KTILE);
+    *dststep = k_pad;
+    if constexpr (std::is_same_v<AType, utils::bf16> && std::is_same_v<SRC_T, float>) {
+      return kernel::wrapper::Memcpy2DFp32CvtBf16::forward<ISA_T>(aptr + m_offset * _param.lda + k_offset, *dstptr,
+                                                                  m_size, k_size, _param.lda * sizeof(SRC_T),
+                                                                  k_pad * sizeof(AType), true);
+    } else if constexpr (std::is_same_v<AType, utils::fp16> && std::is_same_v<SRC_T, float>) {
+      return kernel::wrapper::Memcpy2DFp32CvtFp16::forward<ISA_T>(aptr + m_offset * _param.lda + k_offset, *dstptr,
+                                                                  m_size, k_size, _param.lda * sizeof(SRC_T),
+                                                                  k_pad * sizeof(AType), true);
+    } else if constexpr (std::is_same_v<AType, float> && std::is_same_v<SRC_T, utils::bf16>) {
+      return kernel::wrapper::Memcpy2DBf16CvtFp32::forward<ISA_T>(aptr + m_offset * _param.lda + k_offset, *dstptr,
+                                                                  m_size, k_size, _param.lda * sizeof(SRC_T),
+                                                                  k_pad * sizeof(AType), true);
+    } else {
+      assert(0);
+    }
+    return JblasNotSupport;
+  }
+};
+
+template <class _GemmCore_T, JBLAS_ISA ISA_T>
+using ActivationConverterFp32 = ActivationConverter<_GemmCore_T, ISA_T, float>;
+template <class _GemmCore_T, JBLAS_ISA ISA_T>
+using ActivationConverterBf16 = ActivationConverter<_GemmCore_T, ISA_T, utils::bf16>;
+
+template <class _GemmCore_T, JBLAS_ISA ISA_T, typename SRC_T>
+class ActivationKBlockQuantize {
+ public:
+  using AType = typename _GemmCore_T::AType;
+  using SType = float;
+  using QParam = storage::gemm::StorageQuantActivation;
+  using SRCType = SRC_T;
+  struct Param {
+    const SRC_T* A;
+    int lda;
+    QParam* quan;
+  };
+  using Parallel = jblas::parallel::Scheduler2D;
+  using ThreadProblem = jblas::parallel::ThreadProblem2D;
+
+  inline QParam createStorage(int m, int k, int kblock, bool hasreduce) {
+    QParam tmp;
+    int kpad = utils::padto(k, _GemmCore_T::KTILE);
+    int mpad = utils::padto(m, _GemmCore_T::MTILE);
+    tmp.resize(mpad, kpad, kblock == -1 ? kpad : kblock, JBLAS_DTYPE::U8, JBLAS_DTYPE::F32, JBLAS_DTYPE::U8,
+               JBLAS_DTYPE::F32, std::is_same_v<AType, uint8_t>, hasreduce);
+    return tmp;
+  }
+
+  void run(const Param& _param, ThreadProblem& thdp) {
+    auto quan = _param.quan;
+    if (thdp.valid) {
+      // min max
+      auto srcptr = const_cast<SRC_T*>(_param.A) + thdp.loc[0] * _param.lda + thdp.loc[1];
+      auto thdqptr = quan->template APtr<AType>() + thdp.loc[0] * quan->lda + thdp.loc[1];
+      auto blk_offset = thdp.loc[0] * quan->mCStep + thdp.loc[1] / quan->kblock;
+      auto thdsptr = quan->template SPtr<float>() + blk_offset;
+      auto thdzptr = quan->template ZPtr<AType>() + blk_offset;
+      auto thdrptr = quan->template RPtr<float>() == nullptr ? nullptr : quan->template RPtr<float>() + blk_offset;
+      if constexpr (std::is_same_v<AType, uint8_t>) {
+        kernel::wrapper::QuantizeU8ColBlock::template forward<ISA_T, SRC_T>(
+            thdp.size[0], thdp.size[1], srcptr, _param.lda, thdqptr, quan->lda, thdsptr, quan->mCStep, thdzptr,
+            quan->kblock, thdrptr);
+      }
+      if constexpr (std::is_same_v<AType, int8_t>) {
+        kernel::wrapper::QuantizeS8ColBlock::template forward<ISA_T, SRC_T>(thdp.size[0], thdp.size[1], srcptr,
+                                                                            _param.lda, thdqptr, quan->lda, thdsptr,
+                                                                            quan->mCStep, quan->kblock, thdrptr);
+      }
+    }
+  }
+
+  JBLAS_CODE quantize(const Param& _param, int m, int k, jblas::parallel::IThreading* threading) {
+    auto paral = Parallel({threading->num_threads(), m, k, 1, _param.quan->kblock});
+    threading->parallel_for([&](int tidx) {
+      parallel::ThreadProblem2D thdp{tidx};
+      paral.getIndex(thdp);
+      if (thdp.valid) run(_param, thdp);
+    });
+    return JblasSuccess;
+  }
+
+ public:  // Runtime get by launcher
+  JBLAS_CODE getActivation(AType** dstptr, int* dststep, const Param& _param, int m_size, int k_size, int m_offset,
+                           int k_offset, void* tmpcache, size_t cachesize) {
+    (void)m_size;
+    (void)k_size;
+    auto quan = _param.quan;
+    auto aptr = quan->template APtr<AType>();
+    *dstptr = aptr + m_offset * quan->lda + k_offset;
+    *dststep = quan->lda;
+    return JblasSuccess;
+  }
+};
+
+template <class _GemmCore_T, JBLAS_ISA ISA_T>
+using ActivationF32KBlockQuantize = ActivationKBlockQuantize<_GemmCore_T, ISA_T, float>;
+template <class _GemmCore_T, JBLAS_ISA ISA_T>
+using ActivationBf16KBlockQuantize = ActivationKBlockQuantize<_GemmCore_T, ISA_T, utils::bf16>;
+
+template <class _GemmCore_T, JBLAS_ISA ISA_T, typename SRC_T>
+class ActivationKBlockBase : public ActivationBase<_GemmCore_T, ISA_T> {
+ public:
+  using AType = typename _GemmCore_T::AType;
+  using SType = storage::gemm::StorageReduce;
+  using SRCType = SRC_T;
+  using Param = typename ActivationBase<_GemmCore_T, ISA_T>::Param;
+  using Parallel = jblas::parallel::Scheduler2D;
+  using ThreadProblem = jblas::parallel::ThreadProblem2D;
+
+  inline SType createStorage(int m, int k, int kblock) {
+    SType tmp;
+    tmp.resize(m, k, kblock == -1 ? k : kblock, JBLAS_DTYPE::F32);
+    return tmp;
+  }
+
+  void run(const Param& _param, SType* stor, int m, int k, ThreadProblem& thdp) {
+    if (thdp.valid) {
+      // min max
+      auto srcptr = const_cast<SRC_T*>(_param.A) + thdp.loc[0] * _param.lda + thdp.loc[1];
+      auto blk_offset = thdp.loc[0] * stor->lda + thdp.loc[1] / stor->kblock;
+      auto thdrptr = stor->template get<float>() + blk_offset;
+      auto ret = kernel::wrapper::ColBlockReduceSum::template forward<ISA_T, SRC_T>(
+          srcptr, _param.lda, thdp.size[0], thdp.size[1], stor->kblock, thdrptr, stor->lda);
+      assert(ret == JblasSuccess);
+    }
+  }
+
+  JBLAS_CODE reduce(const Param& _param, SType* stor, int m, int k, jblas::parallel::IThreading* threading) {
+    auto paral = Parallel({threading->num_threads(), m, k, 1, stor->kblock});
+    threading->parallel_for([&](int tidx) {
+      parallel::ThreadProblem2D thdp{tidx};
+      paral.getIndex(thdp);
+      if (thdp.valid) run(_param, stor, m, k, thdp);
+    });
+    return JblasSuccess;
+  }
+};
+
+template <class _GemmCore_T, JBLAS_ISA ISA_T>
+using ActivationKBlockBaseF32 = ActivationKBlockBase<_GemmCore_T, ISA_T, float>;
+}  // namespace gemm
+}  // namespace prologue_a
+}  // namespace jblas
diff --git a/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/jit_blas_prologue_b.h b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/jit_blas_prologue_b.h
new file mode 100644
index 0000000000000..7fd632d4d3c6c
--- /dev/null
+++ b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/jit_blas_prologue_b.h
@@ -0,0 +1,892 @@
+//  Copyright (c) 2023 Intel Corporation
+//
+//  Licensed under the Apache License, Version 2.0 (the "License");
+//  you may not use this file except in compliance with the License.
+//  You may obtain a copy of the License at
+//
+//    http://www.apache.org/licenses/LICENSE-2.0
+//
+//  Unless required by applicable law or agreed to in writing, software
+//  distributed under the License is distributed on an "AS IS" BASIS,
+//  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+//  See the License for the specific language governing permissions and
+//  limitations under the License.
+#pragma once
+#include "jit_blas_storage.h"
+#include "jit_blas_device.h"
+#include "jit_blas_parallel.h"
+#include "kernel_wrapper.h"
+
+namespace jblas {
+namespace prologue_b {
+namespace gemm {
+
+template <typename WT, JBLAS_ISA ISA_T>
+static inline void transposeWeight(const int Row, const int Col, const WT* src, const int ld_src, WT* dst,
+                                   const int ld_dst, parallel::IThreading* threading) {
+  jblas::parallel::Scheduler2D _para;
+  _para.update({threading->num_threads(), Row, Col, 16, 16});
+  threading->parallel_for([&](int tidx) {
+    jblas::parallel::ThreadProblem2D thdp{tidx};
+    _para.getIndex(thdp);
+    if (thdp.valid) {
+      kernel::wrapper::Transpose2D<WT>::template forward<ISA_T>(src + thdp.loc[0] * ld_src + thdp.loc[1],
+                                                                   dst + thdp.loc[0] + thdp.loc[1] * ld_dst,
+                                                                   thdp.size[0], thdp.size[1], ld_src, ld_dst);
+    }
+  });
+}
+
+template <class _GemmCore_T, JBLAS_ISA ISA_T>
+class WeightPack {
+ public:
+  using WType = typename _GemmCore_T::BType;
+  using StorageType = storage::gemm::StoragePackedWeight;
+  struct Param {
+    const WType* B;
+    const int ldb;
+    StorageType* packedW;
+  };
+
+  StorageType createStorage(int n, int k) {
+    int KPad = utils::padto(k, _GemmCore_T::KTILE);
+    int NPad = utils::padto(n, _GemmCore_T::NTILE);
+    StorageType tmp(_GemmCore_T::ID);
+    tmp.resize(NPad, KPad, n, k, utils::jblas_dtype<WType>);
+    return tmp;
+  }
+
+  void packWeightTranspose(const int N, const int K, const Param& _param, parallel::IThreading* threading) {
+    auto B_NT = utils::amalloc<WType>(static_cast<size_t>(N) * K);
+    transposeWeight<WType, ISA_T>(N, K, _param.B, _param.ldb, B_NT, N, threading);
+    packWeight(N, K, {B_NT, N, _param.packedW}, threading);
+    utils::afree(B_NT);
+  }
+
+  // from KxN int8 symmetric weight to packed N//NtilexKPadxNTile int4 weight
+  void packWeight(const int N, const int K, const Param& _param, parallel::IThreading* threading) {
+    parallel::Scheduler2D _para({threading->num_threads(), K, N, _GemmCore_T::KTILE, _GemmCore_T::NTILE});
+    threading->parallel_for([&](int tidx) {
+      parallel::ThreadProblem2D thdp{tidx};
+      _para.getIndex(thdp);
+      if (thdp.valid) {
+        run(_param, thdp);
+      }
+    });
+  }
+
+  void run(const Param& _param, parallel::ThreadProblem2D& thdp) {
+    auto packedw = _param.packedW;
+    auto rowpadded = utils::padto(thdp.size[0], _GemmCore_T::KTILE);
+    auto colpadded = utils::padto(thdp.size[1], _GemmCore_T::NTILE);
+    const auto src = _param.B + thdp.loc[0] * _param.ldb + thdp.loc[1];
+    const auto dst = packedw->template get<WType>() + thdp.loc[0] * _GemmCore_T::NTILE + thdp.loc[1] * packedw->mKPad;
+    using PaddingInterleaveMNWType = kernel::wrapper::PaddingInterleaveMN<_GemmCore_T::NTILE, _GemmCore_T::PACK_ROW>;
+    auto ret = PaddingInterleaveMNWType::template forward<ISA_T>(  //
+        src, dst, thdp.size[0], thdp.size[1], rowpadded, colpadded, _param.ldb, packedw->mKPad);
+    assert(ret == JblasSuccess);
+    (void)ret;
+  }
+
+  inline JBLAS_CODE getWeight(WType** dstptr, int* dststep, int k_size, int n_size, int k_offset, int n_offset,
+                              const Param param, void* tmpcache, size_t cachesize) {
+    auto wptr = param.packedW;
+    auto KPad = wptr->mKPad;
+    auto bptr = wptr->template get<WType>() + n_offset * KPad + k_offset * _GemmCore_T::NTILE;
+    kernel::wrapper::Memcpy2D::template forward<ISA_T, WType, WType>(
+        bptr, *dstptr, n_size / _GemmCore_T::NTILE, _GemmCore_T::NTILE * k_size, _GemmCore_T::NTILE * KPad,
+        _GemmCore_T::NTILE * k_size);
+    *dststep = k_size;
+    return JblasSuccess;
+  }
+};
+
+template <class _GemmCore_T, JBLAS_ISA ISA_T>
+class WeightKBlockS8 {
+ public:
+  using StorageWeight = storage::gemm::StorageWeightKBlockS8;
+  using BType = typename _GemmCore_T::BType;
+  struct Param {
+    const storage::gemm::WeightKBlockBase* packedW;
+  };
+
+  StorageWeight createStorage(int n, int k, int blocksize, JBLAS_DTYPE scat, JBLAS_DTYPE redt, bool is_asym) {
+    int KPad = utils::padto(k, _GemmCore_T::KTILE);
+    int NPad = utils::padto(n, _GemmCore_T::NTILE);
+    StorageWeight tmp(_GemmCore_T::ID);
+    tmp.resize(NPad, KPad, blocksize <= 0 ? KPad : blocksize, n, k, scat, redt, is_asym);
+    return tmp;
+  }
+
+  virtual void packTransposeWeight(const int N, const int K, const float* B, const int ldb, void* stor,
+                                   parallel::IThreading* threading) {
+    auto B_NT = utils::amalloc<float>(static_cast<size_t>(N) * K);
+    transposeWeight<float, ISA_T>(N, K, B, ldb, B_NT, N, threading);
+    packWeight(N, K, B_NT, N, stor, threading);
+    utils::afree(B_NT);
+  }
+
+  // from packed N//NtilexKPadxNTile int8 weight to KxN f32 weight
+  virtual void unpackTransposeWeight(const int N, const int K, void* stor, float* B, const int ldb,
+                                     parallel::IThreading* threading) {
+    auto B_NT = utils::amalloc<float>(static_cast<size_t>(N) * K);
+    unpackWeight(N, K, stor, B_NT, N, threading);
+    transposeWeight<float, ISA_T>(K, N, B_NT, N, B, ldb, threading);
+    utils::afree(B_NT);
+  }
+
+  // from KxN f32 weight to packed N//NtilexKPadxNTile int8 weight
+  virtual void packWeight(const int N, const int K, const float* B, const int ldb, void* stor,
+                          parallel::IThreading* threading) {
+    auto tmpq = utils::amalloc<int8_t>(static_cast<size_t>(N) * K);
+    auto ptr = reinterpret_cast<StorageWeight*>(stor);
+    int nk_scale = utils::updiv(K, ptr->mBlockSize);
+    auto ssize = static_cast<size_t>(N) * nk_scale;
+    auto Tscales = utils::amalloc<float>(ssize);
+    auto Tzps = utils::amalloc<int8_t>(ptr->mIsAsym ? ssize : 0);
+    quantizeWeight(N, K, B, ldb, ptr->mBlockSize, tmpq, Tscales, Tzps, ptr->mDType, threading);
+    packQWeight(N, K, tmpq, N, Tscales, Tzps, stor, threading);
+    utils::afree(tmpq);
+    utils::afree(Tscales);
+    utils::afree(Tzps);
+  }
+
+  virtual void unpackWeight(const int N, const int K, void* stor, float* B, const int ldb,
+                            parallel::IThreading* threading) {
+    parallel::Scheduler2D _para({threading->num_threads(), K, N, _GemmCore_T::KTILE, _GemmCore_T::NTILE});
+    threading->parallel_for([&](int tidx) {
+      parallel::ThreadProblem2D thdp{tidx};
+      _para.getIndex(thdp);
+      if (thdp.valid) {
+        auto rowpad = utils::padto(thdp.size[0], _GemmCore_T::KTILE);
+        auto colpad = utils::padto(thdp.size[1], _GemmCore_T::NTILE);
+        auto dequant = utils::amalloc<float>((size_t)rowpad * colpad);
+        auto dstptr = dequant;
+        int dststep = 0;
+        size_t constexpr CacheSize = size_t(100) << 10;
+        int8_t tmpcache[CacheSize];
+        getWeight(&dstptr, &dststep, rowpad, colpad, thdp.loc[0], thdp.loc[1], {(storage::gemm::WeightKBlockBase*)stor},
+                  tmpcache, CacheSize);
+        kernel::wrapper::RevertPaddingInterleaveMN<_GemmCore_T::NTILE, _GemmCore_T::PACK_ROW>::template forward<ISA_T>(
+            dstptr, B + thdp.loc[0] * ldb + thdp.loc[1], thdp.size[0], thdp.size[1], rowpad, colpad, dststep, ldb);
+        utils::afree(dequant);
+      }
+    });
+  }
+
+  virtual void unpackWeight(const int N, const int K, void* stor, int8_t* B, const int ldb,
+                            parallel::IThreading* threading) {
+    parallel::Scheduler2D _para({threading->num_threads(), K, N, _GemmCore_T::KTILE, _GemmCore_T::NTILE});
+    threading->parallel_for([&](int tidx) {
+      parallel::ThreadProblem2D thdp{tidx};
+      _para.getIndex(thdp);
+      if (thdp.valid) {
+        auto rowpad = utils::padto(thdp.size[0], _GemmCore_T::KTILE);
+        auto colpad = utils::padto(thdp.size[1], _GemmCore_T::NTILE);
+        auto dequant = utils::amalloc<int8_t>((size_t)rowpad * colpad);
+        auto dstptr = dequant;
+        int dststep = 0;
+        size_t constexpr CacheSize = size_t(100) << 10;
+        int8_t tmpcache[CacheSize];
+        getWeight(&dstptr, &dststep, rowpad, colpad, thdp.loc[0], thdp.loc[1], {(storage::gemm::WeightKBlockBase*)stor},
+                  tmpcache, CacheSize);
+        kernel::wrapper::RevertPaddingInterleaveMN<_GemmCore_T::NTILE, _GemmCore_T::PACK_ROW>::template forward<ISA_T>(
+            dstptr, B + thdp.loc[0] * ldb + thdp.loc[1], thdp.size[0], thdp.size[1], rowpad, colpad, dststep, ldb);
+        utils::afree(dequant);
+      }
+    });
+  }
+
+  virtual void setQuantCorrection(const int N, const int K, const int8_t* zero_points, const float* scales, void* ptr,
+                                  parallel::IThreading* threading) {
+    auto stor = reinterpret_cast<StorageWeight*>(ptr);
+    int rawnk_scale = utils::updiv(K, stor->mBlockSize);
+    int nk_scale = utils::updiv(stor->mKPad, stor->mBlockSize);
+    parallel::Scheduler2D _para({threading->num_threads(), 1, nk_scale, 1, 1});
+    if (stor->mScaT == JBLAS_DTYPE::F32) {  // fp32 to fp32 direct copy
+      threading->parallel_for([&](int tidx) {
+        parallel::ThreadProblem2D thdp{tidx};
+        _para.getIndex(thdp);
+        if (thdp.valid) {
+          for (int i = thdp.loc[1]; i < thdp.loc[1] + thdp.size[1]; i++) {
+            if (i < rawnk_scale) {
+              if (scales != nullptr)
+                std::memcpy(stor->template SPtr<float>() + i * stor->mNPad, scales + i * N, N * sizeof(scales[0]));
+              if (zero_points != nullptr)
+                std::memcpy(stor->template ZPtr<int8_t>() + i * stor->mNPad, zero_points + i * N,
+                            N * sizeof(zero_points[0]));
+            } else {
+              if (scales != nullptr)
+                std::memset(stor->template SPtr<float>() + i * stor->mNPad, 0, stor->mNPad * sizeof(float));
+              if (zero_points != nullptr)
+                std::memset(stor->template ZPtr<int8_t>() + i * stor->mNPad, 0, stor->mNPad * sizeof(zero_points[0]));
+            }
+          }
+        }
+      });
+    } else if (stor->mScaT == JBLAS_DTYPE::BF16) {
+      threading->parallel_for([&](int tidx) {
+        parallel::ThreadProblem2D thdp{tidx};
+        _para.getIndex(thdp);
+        if (thdp.valid) {
+          for (int i = thdp.loc[1]; i < thdp.loc[1] + thdp.size[1]; i++) {
+            if (i < rawnk_scale) {
+              if (scales != nullptr) {
+                for (size_t j = 0; j < N; j++) {
+                  stor->template SPtr<utils::bf16>()[j + i * stor->mNPad] = static_cast<utils::bf16>(scales[i * N + j]);
+                }
+              }
+              if (zero_points != nullptr) {
+                std::memcpy(stor->template ZPtr<int8_t>() + i * stor->mNPad, zero_points + i * N,
+                            N * sizeof(zero_points[0]));
+              }
+            } else {
+              if (scales != nullptr)
+                std::memset(stor->template SPtr<utils::bf16>() + i * stor->mNPad, 0, stor->mNPad * sizeof(utils::bf16));
+              if (zero_points != nullptr)
+                std::memset(stor->template ZPtr<int8_t>() + i * stor->mNPad, 0, stor->mNPad * sizeof(zero_points[0]));
+            }
+          }
+        }
+      });
+    }
+  }
+
+  virtual void setTransposeQuantCorrection(const int N, const int K, const int8_t* zero_points, const float* scales,
+                                           void* ptr, parallel::IThreading* threading) {
+    auto stor = reinterpret_cast<StorageWeight*>(ptr);
+    int rawnk_scale = utils::updiv(K, stor->mBlockSize);
+    int nk_scale = utils::updiv(stor->mKPad, stor->mBlockSize);
+    parallel::Scheduler2D _para({threading->num_threads(), 1, nk_scale, 1, 1});
+    if (stor->mScaT == JBLAS_DTYPE::F32) {  // fp32 to fp32 direct copy
+      threading->parallel_for([&](int tidx) {
+        parallel::ThreadProblem2D thdp{tidx};
+        _para.getIndex(thdp);
+        if (thdp.valid) {
+          if (scales) {
+            for (int i = thdp.loc[1]; i < thdp.loc[1] + thdp.size[1]; i++) {
+              if (i < rawnk_scale) {
+                for (size_t j = 0; j < N; j++) {
+                  stor->template SPtr<float>()[i * stor->mNPad + j] = scales[j * rawnk_scale + i];
+                }
+              } else {
+                std::memset(stor->template SPtr<float>() + i * stor->mNPad, 0, stor->mNPad * sizeof(float));
+              }
+            }
+          }
+        }
+      });
+    } else if (stor->mScaT == JBLAS_DTYPE::BF16) {
+      threading->parallel_for([&](int tidx) {
+        parallel::ThreadProblem2D thdp{tidx};
+        _para.getIndex(thdp);
+        if (thdp.valid) {
+          if (scales) {
+            for (int i = thdp.loc[1]; i < thdp.loc[1] + thdp.size[1]; i++) {
+              if (i < rawnk_scale) {
+                for (size_t j = 0; j < N; j++) {
+                  stor->template SPtr<utils::bf16>()[i * stor->mNPad + j] = utils::bf16(scales[j * rawnk_scale + i]);
+                }
+              } else {
+                std::memset(stor->template SPtr<utils::bf16>() + i * stor->mNPad, 0, stor->mNPad * sizeof(utils::bf16));
+              }
+            }
+          }
+        }
+      });
+    }
+    if (stor->mIsAsym && zero_points)
+      threading->parallel_for([&](int tidx) {
+        parallel::ThreadProblem2D thdp{tidx};
+        _para.getIndex(thdp);
+        if (thdp.valid) {
+          for (int i = thdp.loc[1]; i < thdp.loc[1] + thdp.size[1]; i++) {
+            if (i < rawnk_scale) {
+              for (size_t j = 0; j < N; j++) {
+                stor->template ZPtr<int8_t>()[i * stor->mNPad + j] = zero_points[j * rawnk_scale + i];
+              }
+            } else {
+              std::memset(stor->template ZPtr<int8_t>() + i * stor->mNPad, 0, stor->mNPad * sizeof(zero_points[0]));
+            }
+          }
+        }
+      });
+  }
+
+  virtual void packQWeight(const int N, const int K, const int8_t* B, const int ldb, const float* scales,
+                           const int8_t* zero_points, void* ptr, parallel::IThreading* threading) {
+    setQuantCorrection(N, K, zero_points, scales, ptr, threading);
+    auto stor = reinterpret_cast<StorageWeight*>(ptr);
+    reorderWeight(N, K, B, ldb, stor->WPtr(), threading);
+    reduceWeight(ptr, threading);
+  }
+
+  void reduceWeight(void* ptr, parallel::IThreading* threading) {
+    auto stor = reinterpret_cast<StorageWeight*>(ptr);
+    if (stor->mHasReduce) {
+      auto deq = utils::amalloc<float>((size_t)stor->mK * stor->mN);
+      unpackWeight(stor->mN, stor->mK, stor, deq, stor->mN, threading);
+      if (stor->mRedT == JBLAS_DTYPE::F32) {
+        reduce(stor->mN, stor->mK, stor->mBlockSize, deq, stor->mN, stor->template RPtr<float>(), stor->mCStep,
+               threading);
+      } else if (stor->mRedT == JBLAS_DTYPE::BF16) {
+        reduce(stor->mN, stor->mK, stor->mBlockSize, deq, stor->mN, stor->template RPtr<utils::bf16>(), stor->mCStep,
+               threading);
+      } else {
+        assert(0);
+      }
+      utils::afree(deq);
+    }
+  }
+  template <typename RED_T>
+  void reduce(const int N, const int K, const int KBlock, const float* B, const int ldb, RED_T* rptr, const int ldr,
+              parallel::IThreading* threading) {
+    parallel::Scheduler2D _para({threading->num_threads(), K, N, KBlock, 16});
+    threading->parallel_for([&](int tidx) {
+      parallel::ThreadProblem2D thdp({tidx});
+      _para.getIndex(thdp);
+      if (thdp.valid) {
+        const auto src = B + thdp.loc[0] * ldb + thdp.loc[1];
+        const auto dst = rptr + thdp.loc[1] + thdp.loc[0] / KBlock * ldr;
+        using RowReduceSum = kernel::wrapper::RowReduceSum<RED_T>;
+        for (int i = 0; i < thdp.size[0]; i += KBlock) {
+          int rowremain = utils::remainsize(thdp.loc[0] + i, K, KBlock);
+          auto ret = RowReduceSum::template forward<ISA_T>(  //
+              src + i * ldb, ldb, rowremain, thdp.size[1], dst + i / KBlock * ldr);
+          assert(ret == JblasSuccess);
+          (void)ret;
+        }
+      }
+    });
+  }
+
+  void quantizeWeight(const int N, const int K, const float* B, const int ldb, int blocksize, int8_t* qB, float* scales,
+                      int8_t* zero_points, JBLAS_DTYPE quant_dtype, parallel::IThreading* threading) {
+    int bsize = blocksize == -1 ? K : blocksize;
+    parallel::Scheduler2D _para({threading->num_threads(), K, N, bsize, 16});
+    threading->parallel_for([&](int tidx) {
+      parallel::ThreadProblem2D thdp({tidx});
+      _para.getIndex(thdp);
+      if (thdp.valid) {
+        quantRowBlock(B + thdp.loc[0] * ldb + thdp.loc[1], qB + thdp.loc[0] * N + thdp.loc[1], thdp.size[0],
+                      thdp.size[1], ldb, N, scales + thdp.loc[0] / bsize * N + thdp.loc[1],
+                      zero_points == nullptr ? zero_points : zero_points + thdp.loc[0] / bsize * N + thdp.loc[1], bsize,
+                      quant_dtype);
+      }
+    });
+  }
+
+  void reorderWeight(const int N, const int K, const int8_t* B, const int ldb, int8_t* dstptr,
+                     parallel::IThreading* threading) {
+    int KPad = utils::padto(K, _GemmCore_T::KTILE);
+    parallel::Scheduler2D _para({threading->num_threads(), K, N, _GemmCore_T::KTILE, _GemmCore_T::NTILE});
+    threading->parallel_for([&](int tidx) {
+      parallel::ThreadProblem2D thdp({tidx});
+      _para.getIndex(thdp);
+      if (thdp.valid) {
+        auto rowpadded = utils::padto(thdp.size[0], _GemmCore_T::KTILE);
+        auto colpadded = utils::padto(thdp.size[1], _GemmCore_T::NTILE);
+        const auto src = B + thdp.loc[0] * ldb + thdp.loc[1];
+        const auto dst = dstptr + thdp.loc[0] * _GemmCore_T::NTILE + thdp.loc[1] * KPad;
+        using PaddingInterleaveMNWType =
+            kernel::wrapper::PaddingInterleaveMN<_GemmCore_T::NTILE, _GemmCore_T::PACK_ROW>;
+        auto ret = PaddingInterleaveMNWType::template forward<ISA_T>(  //
+            src, dst, thdp.size[0], thdp.size[1], rowpadded, colpadded, ldb, KPad);
+        assert(ret == JblasSuccess);
+        (void)ret;
+      }
+    });
+  }
+
+ public:
+  virtual inline JBLAS_CODE getWeight(float** dstptr, int* dststep, int k_size, int n_size, int k_offset, int n_offset,
+                                      const Param& _param, void* tmpcache, size_t cachesize) {
+    auto wptr = reinterpret_cast<StorageWeight*>(const_cast<storage::gemm::WeightKBlockBase*>(_param.packedW));
+    auto NPad = wptr->mNPad;
+    auto KPad = wptr->mKPad;
+    auto bptr = wptr->WPtr() + n_offset * KPad + k_offset * _GemmCore_T::NTILE;
+    auto zptr = wptr->template ZPtr<int8_t>();
+    int constexpr ColSize = _GemmCore_T::NTILE * _GemmCore_T::PACK_ROW;
+
+    for (int i = 0; i < n_size; i += _GemmCore_T::NTILE) {
+      if (wptr->mScaT == JBLAS_DTYPE::F32) {
+        auto sptr = wptr->template SPtr<float>() + n_offset + i;
+        kernel::wrapper::DecompressKBlockS8F32<_GemmCore_T::PACK_ROW>::template forward<ISA_T, float>(
+            bptr + i * KPad, *dstptr + i * k_size, k_size / _GemmCore_T::PACK_ROW, ColSize, ColSize, ColSize, sptr,
+            zptr != nullptr ? zptr + n_offset + i : nullptr, k_offset / _GemmCore_T::PACK_ROW,
+            wptr->mBlockSize / _GemmCore_T::PACK_ROW, NPad);
+      } else if (wptr->mScaT == JBLAS_DTYPE::BF16) {
+        auto sptr = wptr->template SPtr<utils::bf16>() + n_offset + i;
+        kernel::wrapper::DecompressKBlockS8F32<_GemmCore_T::PACK_ROW>::template forward<ISA_T, utils::bf16>(
+            bptr + i * KPad, *dstptr + i * k_size, k_size / _GemmCore_T::PACK_ROW, ColSize, ColSize, ColSize, sptr,
+            zptr != nullptr ? zptr + n_offset + i : nullptr, k_offset / _GemmCore_T::PACK_ROW,
+            wptr->mBlockSize / _GemmCore_T::PACK_ROW, NPad);
+      }
+    }
+    *dststep = k_size;
+    return JblasSuccess;
+  }
+  virtual inline JBLAS_CODE getWeight(utils::bf16** dstptr, int* dststep, int k_size, int n_size, int k_offset,
+                                      int n_offset, const Param& _param, void* tmpcache, size_t cachesize) {
+    return JblasNotSupport;
+  }
+  virtual inline JBLAS_CODE getWeight(utils::fp16** dstptr, int* dststep, int k_size, int n_size, int k_offset,
+                                      int n_offset, const Param& _param, void* tmpcache, size_t cachesize) {
+    return JblasNotSupport;
+  }
+  virtual inline JBLAS_CODE getWeight(int8_t** dstptr, int* dststep, int k_size, int n_size, int k_offset, int n_offset,
+                                      const Param& _param, void* tmpcache, size_t cachesize) {
+    auto wptr = reinterpret_cast<StorageWeight*>(const_cast<storage::gemm::WeightKBlockBase*>(_param.packedW));
+    auto KPad = wptr->mKPad;
+    auto bptr = wptr->WPtr() + n_offset * KPad + k_offset * _GemmCore_T::NTILE;
+    kernel::wrapper::Memcpy2D::template forward<ISA_T, int8_t, int8_t>(
+        bptr, *dstptr, n_size / _GemmCore_T::NTILE, _GemmCore_T::NTILE * k_size, _GemmCore_T::NTILE * KPad,
+        _GemmCore_T::NTILE * k_size);
+    *dststep = k_size;
+    return JblasSuccess;
+  }
+
+  virtual inline JBLAS_CODE getKBlockWeight(float** dstptr, int* dststep, int k_size, int n_size, int k_offset,
+                                            int n_offset, const Param& _param, void* tmpcache, size_t cachesize) {
+    auto wptr = reinterpret_cast<StorageWeight*>(const_cast<storage::gemm::WeightKBlockBase*>(_param.packedW));
+    auto NPad = wptr->mNPad;
+    auto KPad = wptr->mKPad;
+    auto bptr = wptr->WPtr() + n_offset * KPad + k_offset * _GemmCore_T::NTILE;
+    int constexpr ColSize = _GemmCore_T::NTILE * _GemmCore_T::PACK_ROW;
+    for (int i = 0; i < n_size; i += _GemmCore_T::NTILE) {
+      kernel::wrapper::DecompressKBlockS8S8Fp::template forward<ISA_T>(
+          bptr + i * KPad, *dstptr + i * k_size, k_size / _GemmCore_T::PACK_ROW, ColSize, ColSize, ColSize);
+    }
+    *dststep = k_size;
+    return JblasSuccess;
+  }
+
+  virtual inline JBLAS_CODE getKBlockWeight(utils::bf16** dstptr, int* dststep, int k_size, int n_size, int k_offset,
+                                            int n_offset, const Param& _param, void* tmpcache, size_t cachesize) {
+    auto wptr = reinterpret_cast<StorageWeight*>(const_cast<storage::gemm::WeightKBlockBase*>(_param.packedW));
+    auto NPad = wptr->mNPad;
+    auto KPad = wptr->mKPad;
+    auto bptr = wptr->WPtr() + n_offset * KPad + k_offset * _GemmCore_T::NTILE;
+    int constexpr ColSize = _GemmCore_T::NTILE * _GemmCore_T::PACK_ROW;
+    for (int i = 0; i < n_size; i += _GemmCore_T::NTILE) {
+      kernel::wrapper::DecompressKBlockS8S8Fp::template forward<ISA_T>(
+          bptr + i * KPad, *dstptr + i * k_size, k_size / _GemmCore_T::PACK_ROW, ColSize, ColSize, ColSize);
+    }
+    *dststep = k_size;
+    return JblasSuccess;
+  }
+
+  virtual inline JBLAS_CODE getKBlockWeight(utils::fp16** dstptr, int* dststep, int k_size, int n_size, int k_offset,
+                                            int n_offset, const Param& _param, void* tmpcache, size_t cachesize) {
+    return JblasNotSupport;
+  }
+
+  virtual inline JBLAS_CODE getKBlockWeight(int8_t** dstptr, int* dststep, int k_size, int n_size, int k_offset,
+                                            int n_offset, const Param& _param, void* tmpcache, size_t cachesize) {
+    return getWeight(dstptr, dststep, k_size, n_size, k_offset, n_offset, _param, tmpcache, cachesize);
+  }
+
+ protected:
+  virtual void quantRowBlock(const float* srcptr, int8_t* dstptr, int row, int col, int ld_src, int ld_dst,
+                             float* scales, int8_t* zero_points, int blocksize, JBLAS_DTYPE quant_dtype) {
+    if (quant_dtype == JBLAS_DTYPE::S8) {
+      kernel::wrapper::QuantizeSignIntRowBlock::forward<ISA_T, JBLAS_DTYPE::S8>(srcptr, dstptr, row, col, ld_src,
+                                                                                ld_dst, scales, zero_points, blocksize);
+    } else {
+      assert(0);
+    }
+  }
+};
+
+template <class _GemmCore_T, JBLAS_ISA ISA_T>
+class WeightKBlockS4 : public WeightKBlockS8<_GemmCore_T, ISA_T> {
+ public:
+  using Param = typename WeightKBlockS8<_GemmCore_T, ISA_T>::Param;
+  using StorageWeight = storage::gemm::StorageWeightKBlockS4;
+  StorageWeight createStorage(const int N, const int K, int blocksize, JBLAS_DTYPE weiT, JBLAS_DTYPE scaT,
+                              JBLAS_DTYPE redT, bool is_asym = false) {
+    int KPad = utils::padto(K, _GemmCore_T::KTILE);
+    int NPad = utils::padto(N, _GemmCore_T::NTILE);
+    StorageWeight tmp(_GemmCore_T::ID);
+    tmp.resize(NPad, KPad, blocksize <= 0 ? KPad : blocksize, N, K, weiT, scaT, redT, is_asym);
+    return tmp;
+  }
+
+  virtual void packQWeight(const int N, const int K, const int8_t* B, const int ldb, const float* scales,
+                           const int8_t* zero_points, void* ptr, parallel::IThreading* threading) override {
+    WeightKBlockS8<_GemmCore_T, ISA_T>::setQuantCorrection(N, K, zero_points, scales, ptr, threading);
+    auto stor = reinterpret_cast<StorageWeight*>(ptr);
+    auto tmp = utils::amalloc<float>((size_t)stor->mKPad * stor->mNPad);
+    auto reorded = (int8_t*)tmp;
+    WeightKBlockS8<_GemmCore_T, ISA_T>::reorderWeight(N, K, B, ldb, reorded, threading);
+    compressWeight(stor->mNPad, stor->mKPad, reorded, stor->mNPad, stor->WPtr(), threading);
+    WeightKBlockS8<_GemmCore_T, ISA_T>::reduceWeight(ptr, threading);
+    utils::afree(tmp);
+  }
+
+  virtual void packNbitsWeight(const int N, const int K, bool isasym, const uint8_t* B, const int ldb,
+                               const float* scales, const uint8_t* zero_points, void* ptr,
+                               parallel::IThreading* threading) {
+    auto stor = reinterpret_cast<StorageWeight*>(ptr);
+    auto tmp = utils::amalloc<float>(static_cast<size_t>(stor->mKPad) * stor->mNPad);
+    auto blks = utils::updiv(K, stor->mBlockSize);
+    auto blks_padding2 = utils::padto(blks, 2);
+    auto tmpscales = tmp;
+    auto tmpzeropoints = reinterpret_cast<int8_t*>(tmpscales + N * blks);
+    if (scales) {
+      for (size_t i = 0; i < N * blks; i += 2) {
+        tmpscales[i] = scales[i] / 16;
+        tmpscales[i + 1] = scales[i + 1] / 16;
+      }
+    }
+    if (zero_points) {
+      for (size_t i = 0; i < N; i += 1) {
+        for (size_t ib = 0; ib < blks; ib += 2) {
+          auto tmpzp = *(zero_points + i * blks_padding2 / 2 + ib / 2);
+          tmpzeropoints[i * blks + ib] = ((tmpzp & 0xf) - 8) << 4;
+          if (ib + 1 < blks) {
+            tmpzeropoints[i * blks + ib + 1] = (((tmpzp & 0xf0) >> 4) - 8) << 4;
+          }
+        }
+      }
+    }
+
+    WeightKBlockS8<_GemmCore_T, ISA_T>::setTransposeQuantCorrection(N, K, zero_points ? tmpzeropoints : nullptr,
+                                                                    scales ? tmpscales : nullptr, ptr, threading);
+    if (B) {
+      auto s8ptr = (int8_t*)tmp;
+      auto transposeunpackfunc_u4s4 = [&]() {
+        parallel::Scheduler2D para({threading->num_threads(), N, K, 1, 2});
+        threading->parallel_for([&](int tid) {
+          parallel::ThreadProblem2D thdp{tid};
+          para.getIndex(thdp);
+          if (thdp.valid) {
+            for (size_t i = thdp.loc[0]; i < thdp.loc[0] + thdp.size[0]; i++) {
+              for (size_t j = thdp.loc[1]; j < thdp.loc[1] + thdp.size[1]; j += 2) {
+                auto src = *(B + i * ldb / 2 + j / 2);
+                s8ptr[(j + 0) * N + i] = ((src & 0xf) - 8) << 4;
+                s8ptr[(j + 1) * N + i] = (((src & 0xf0) >> 4) - 8) << 4;
+              }
+            }
+          }
+        });
+      };
+      transposeunpackfunc_u4s4();
+      auto reorded = s8ptr + static_cast<size_t>(K) * N;
+      WeightKBlockS8<_GemmCore_T, ISA_T>::reorderWeight(N, K, s8ptr, N, reorded, threading);
+      compressWeight(stor->mNPad, stor->mKPad, reorded, stor->mNPad, stor->WPtr(), threading);
+    }
+    utils::afree(tmp);
+  }
+
+  void compressWeight(const int N, const int K, const int8_t* B, const int ldb, utils::bit4x2* dstptr,
+                      parallel::IThreading* threading) {
+    parallel::Scheduler2D _para({threading->num_threads(), K, N, _GemmCore_T::KTILE, _GemmCore_T::NTILE});
+    threading->parallel_for([&](int tidx) {
+      parallel::ThreadProblem2D thdp({tidx});
+      _para.getIndex(thdp);
+      if (thdp.valid) {
+        auto ret = doCompress(B + thdp.loc[0] * ldb + thdp.loc[1], dstptr + thdp.loc[0] * ldb / 2 + thdp.loc[1] / 2,
+                              thdp.size[0], thdp.size[1], ldb, ldb);
+        assert(ret == JblasSuccess);
+        (void)ret;
+      }
+    });
+  }
+
+ public:
+  inline JBLAS_CODE getWeight(int8_t** dstptr, int* dststep, int k_size, int n_size, int k_offset, int n_offset,
+                              const Param& _param, void* tmpcache, size_t cachesize) override {
+    auto wptr = reinterpret_cast<StorageWeight*>(const_cast<storage::gemm::WeightKBlockBase*>(_param.packedW));
+    auto KPad = wptr->mKPad;
+    auto bptr = wptr->WPtr() + n_offset * KPad / 2 + k_offset * _GemmCore_T::NTILE / 2;
+    int constexpr ColSize = _GemmCore_T::NTILE * _GemmCore_T::PACK_ROW;
+    for (int i = 0; i < n_size; i += _GemmCore_T::NTILE) {
+      if (wptr->mDType == JBLAS_DTYPE::S4_CLIP) {
+        kernel::wrapper::DecompressKBlockS4S8::template forward<ISA_T, JBLAS_DTYPE::S4_CLIP>(
+            (utils::int4x2*)(bptr + i * KPad / 2), *dstptr + i * k_size, k_size / _GemmCore_T::PACK_ROW, ColSize,
+            ColSize, ColSize);
+      } else if (wptr->mDType == JBLAS_DTYPE::S4_FULLRANGE) {
+        kernel::wrapper::DecompressKBlockS4S8::template forward<ISA_T, JBLAS_DTYPE::S4_FULLRANGE>(
+            (utils::int4x2*)(bptr + i * KPad / 2), *dstptr + i * k_size, k_size / _GemmCore_T::PACK_ROW, ColSize,
+            ColSize, ColSize);
+      }
+    }
+    *dststep = k_size;
+    return JblasSuccess;
+  }
+
+  inline JBLAS_CODE getKBlockWeight(float** dstptr, int* dststep, int k_size, int n_size, int k_offset, int n_offset,
+                                    const Param& _param, void* tmpcache, size_t cachesize) override {
+    return getFpKBlockWeight(dstptr, dststep, k_size, n_size, k_offset, n_offset, _param, tmpcache, cachesize);
+  }
+
+  inline JBLAS_CODE getKBlockWeight(utils::bf16** dstptr, int* dststep, int k_size, int n_size, int k_offset,
+                                    int n_offset, const Param& _param, void* tmpcache, size_t cachesize) override {
+    return getFpKBlockWeight(dstptr, dststep, k_size, n_size, k_offset, n_offset, _param, tmpcache, cachesize);
+  }
+
+  inline JBLAS_CODE getKBlockWeight(int8_t** dstptr, int* dststep, int k_size, int n_size, int k_offset, int n_offset,
+                                    const Param& _param, void* tmpcache, size_t cachesize) override {
+    return getWeight(dstptr, dststep, k_size, n_size, k_offset, n_offset, _param, tmpcache, cachesize);
+  }
+
+  inline JBLAS_CODE getWeight(float** dstptr, int* dststep, int k_size, int n_size, int k_offset, int n_offset,
+                              const Param& _param, void* tmpcache, size_t cachesize) override {
+    return getFpWeight(dstptr, dststep, k_size, n_size, k_offset, n_offset, _param, tmpcache, cachesize);
+  }
+
+  inline JBLAS_CODE getWeight(utils::bf16** dstptr, int* dststep, int k_size, int n_size, int k_offset, int n_offset,
+                              const Param& _param, void* tmpcache, size_t cachesize) override {
+    return getFpWeight(dstptr, dststep, k_size, n_size, k_offset, n_offset, _param, tmpcache, cachesize);
+  }
+
+ protected:
+  virtual JBLAS_CODE doCompress(const int8_t* srcptr, void* dstptr, int row, int col, int ld_src, int ld_dst) {
+    return kernel::wrapper::CompressS8S4<_GemmCore_T::NTILE>::template forward<ISA_T>(
+        srcptr, reinterpret_cast<utils::int4x2*>(dstptr), row, col, ld_src,
+        ld_dst);  // ld_dst here not stride
+  }
+
+  virtual void quantRowBlock(const float* srcptr, int8_t* dstptr, int row, int col, int ld_src, int ld_dst,
+                             float* scales, int8_t* zero_points, int blocksize, JBLAS_DTYPE quant_dtype) {
+    if (quant_dtype == JBLAS_DTYPE::S4_FULLRANGE) {
+      kernel::wrapper::QuantizeSignIntRowBlock::forward<ISA_T, JBLAS_DTYPE::S4_FULLRANGE>(
+          srcptr, dstptr, row, col, ld_src, ld_dst, scales, zero_points, blocksize);
+    } else if (quant_dtype == JBLAS_DTYPE::S4_CLIP) {
+      kernel::wrapper::QuantizeSignIntRowBlock::forward<ISA_T, JBLAS_DTYPE::S4_CLIP>(
+          srcptr, dstptr, row, col, ld_src, ld_dst, scales, zero_points, blocksize);
+    }
+  }
+
+  template <typename T>
+  inline JBLAS_CODE getFpKBlockWeight(T** dstptr, int* dststep, int k_size, int n_size, int k_offset, int n_offset,
+                                      const Param& _param, void* tmpcache, size_t cachesize) {
+    auto wptr = reinterpret_cast<StorageWeight*>(const_cast<storage::gemm::WeightKBlockBase*>(_param.packedW));
+    auto NPad = wptr->mNPad;
+    auto KPad = wptr->mKPad;
+    auto bptr = wptr->WPtr() + n_offset * KPad / 2 + k_offset * _GemmCore_T::NTILE / 2;
+    int constexpr ColSize = _GemmCore_T::NTILE * _GemmCore_T::PACK_ROW;
+    for (int i = 0; i < n_size; i += _GemmCore_T::NTILE) {
+      if (wptr->mScaT == JBLAS_DTYPE::F32) {
+        auto sptr = wptr->template SPtr<float>() + n_offset + i;
+        if (wptr->mDType == JBLAS_DTYPE::S4_CLIP) {
+          kernel::wrapper::DecompressKBlockS4S8Fp<T>::template forward<ISA_T, JBLAS_DTYPE::S4_CLIP>(
+              (utils::int4x2*)(bptr + i * KPad / 2), *dstptr + i * k_size, k_size / _GemmCore_T::PACK_ROW, ColSize,
+              ColSize, ColSize, tmpcache, cachesize);
+        } else if (wptr->mDType == JBLAS_DTYPE::S4_FULLRANGE) {
+          kernel::wrapper::DecompressKBlockS4S8Fp<T>::template forward<ISA_T, JBLAS_DTYPE::S4_FULLRANGE>(
+              (utils::int4x2*)(bptr + i * KPad / 2), *dstptr + i * k_size, k_size / _GemmCore_T::PACK_ROW, ColSize,
+              ColSize, ColSize, tmpcache, cachesize);
+        }
+      } else if (wptr->mScaT == JBLAS_DTYPE::BF16) {
+        auto sptr = wptr->template SPtr<utils::bf16>() + n_offset + i;
+        if (wptr->mDType == JBLAS_DTYPE::S4_CLIP) {
+          kernel::wrapper::DecompressKBlockS4S8Fp<T>::template forward<ISA_T, JBLAS_DTYPE::S4_CLIP>(
+              (utils::int4x2*)(bptr + i * KPad / 2), *dstptr + i * k_size, k_size / _GemmCore_T::PACK_ROW, ColSize,
+              ColSize, ColSize, tmpcache, cachesize);
+        } else if (wptr->mDType == JBLAS_DTYPE::S4_FULLRANGE) {
+          kernel::wrapper::DecompressKBlockS4S8Fp<T>::template forward<ISA_T, JBLAS_DTYPE::S4_FULLRANGE>(
+              (utils::int4x2*)(bptr + i * KPad / 2), *dstptr + i * k_size, k_size / _GemmCore_T::PACK_ROW, ColSize,
+              ColSize, ColSize, tmpcache, cachesize);
+        }
+      }
+    }
+    *dststep = k_size;
+    return JblasSuccess;
+  }
+
+  template <typename _T>
+  inline JBLAS_CODE getFpWeight(_T** dstptr, int* dststep, int k_size, int n_size, int k_offset, int n_offset,
+                                const Param& _param, void* tmpcache, size_t cachesize) {
+    auto wptr = reinterpret_cast<StorageWeight*>(const_cast<storage::gemm::WeightKBlockBase*>(_param.packedW));
+    auto NPad = wptr->mNPad;
+    auto KPad = wptr->mKPad;
+    auto bptr = wptr->WPtr() + n_offset * KPad / 2 + k_offset * _GemmCore_T::NTILE / 2;
+    int constexpr ColSize = _GemmCore_T::NTILE * _GemmCore_T::PACK_ROW;
+    for (int i = 0; i < n_size; i += _GemmCore_T::NTILE) {
+      auto zptr = wptr->template ZPtr<int8_t>();
+      if (wptr->mScaT == JBLAS_DTYPE::F32) {
+        auto sptr = wptr->template SPtr<float>() + n_offset + i;
+        if (wptr->mDType == JBLAS_DTYPE::S4_CLIP) {
+          kernel::wrapper::DecompressKBlockS4Fp<_T, _GemmCore_T::PACK_ROW>::template forward<ISA_T, float,
+                                                                                             JBLAS_DTYPE::S4_CLIP>(
+              (utils::int4x2*)(bptr + i * KPad / 2), *dstptr + i * k_size, k_size / _GemmCore_T::PACK_ROW, ColSize,
+              ColSize, ColSize, sptr, zptr != nullptr ? zptr + n_offset + i : nullptr, k_offset / _GemmCore_T::PACK_ROW,
+              wptr->mBlockSize / _GemmCore_T::PACK_ROW, NPad, tmpcache, cachesize);
+        } else if (wptr->mDType == JBLAS_DTYPE::S4_FULLRANGE) {
+          kernel::wrapper::DecompressKBlockS4Fp<_T, _GemmCore_T::PACK_ROW>::template forward<ISA_T, float,
+                                                                                             JBLAS_DTYPE::S4_FULLRANGE>(
+              (utils::int4x2*)(bptr + i * KPad / 2), *dstptr + i * k_size, k_size / _GemmCore_T::PACK_ROW, ColSize,
+              ColSize, ColSize, sptr, zptr != nullptr ? zptr + n_offset + i : nullptr, k_offset / _GemmCore_T::PACK_ROW,
+              wptr->mBlockSize / _GemmCore_T::PACK_ROW, NPad, tmpcache, cachesize);
+        }
+      } else if (wptr->mScaT == JBLAS_DTYPE::BF16) {
+        auto sptr = wptr->template SPtr<utils::bf16>() + n_offset + i;
+        if (wptr->mDType == JBLAS_DTYPE::S4_CLIP) {
+          kernel::wrapper::DecompressKBlockS4Fp<_T, _GemmCore_T::PACK_ROW>::template forward<ISA_T, utils::bf16,
+                                                                                             JBLAS_DTYPE::S4_CLIP>(
+              (utils::int4x2*)(bptr + i * KPad / 2), *dstptr + i * k_size, k_size / _GemmCore_T::PACK_ROW, ColSize,
+              ColSize, ColSize, sptr, zptr != nullptr ? zptr + n_offset + i : nullptr, k_offset / _GemmCore_T::PACK_ROW,
+              wptr->mBlockSize / _GemmCore_T::PACK_ROW, NPad, tmpcache, cachesize);
+        } else if (wptr->mDType == JBLAS_DTYPE::S4_FULLRANGE) {
+          kernel::wrapper::DecompressKBlockS4Fp<_T, _GemmCore_T::PACK_ROW>::template forward<ISA_T, utils::bf16,
+                                                                                             JBLAS_DTYPE::S4_FULLRANGE>(
+              (utils::int4x2*)(bptr + i * KPad / 2), *dstptr + i * k_size, k_size / _GemmCore_T::PACK_ROW, ColSize,
+              ColSize, ColSize, sptr, zptr != nullptr ? zptr + n_offset + i : nullptr, k_offset / _GemmCore_T::PACK_ROW,
+              wptr->mBlockSize / _GemmCore_T::PACK_ROW, NPad, tmpcache, cachesize);
+        }
+      }
+    }
+    *dststep = k_size;
+    return JblasSuccess;
+  }
+};
+
+template <class _GemmCore_T, JBLAS_ISA ISA_T>
+class WeightKBlockF4 : public WeightKBlockS4<_GemmCore_T, ISA_T> {
+ public:
+  using Param = typename WeightKBlockS8<_GemmCore_T, ISA_T>::Param;
+  using StorageWeight = storage::gemm::StorageWeightKBlockF4;
+  StorageWeight createStorage(const int N, const int K, int blocksize, JBLAS_DTYPE f4T, JBLAS_DTYPE scaT) {
+    int KPad = utils::padto(K, _GemmCore_T::KTILE);
+    int NPad = utils::padto(N, _GemmCore_T::NTILE);
+    StorageWeight tmp(_GemmCore_T::ID);
+    tmp.resize(NPad, KPad, blocksize <= 0 ? KPad : blocksize, N, K, f4T, scaT);
+    return tmp;
+  }
+
+  virtual void packQWeight(const int N, const int K, const int8_t* B, const int ldb, const float* scales, void* ptr,
+                           parallel::IThreading* threading) {
+    WeightKBlockS8<_GemmCore_T, ISA_T>::setQuantCorrection(N, K, NULL, scales, ptr, threading);
+    auto stor = reinterpret_cast<StorageWeight*>(ptr);
+    auto reorded = utils::amalloc<int8_t>(static_cast<size_t>(stor->mKPad) * stor->mNPad);
+    WeightKBlockS8<_GemmCore_T, ISA_T>::reorderWeight(N, K, B, ldb, reorded, threading);
+    WeightKBlockS4<_GemmCore_T, ISA_T>::compressWeight(stor->mNPad, stor->mKPad, reorded, stor->mNPad, stor->WPtr(),
+                                                       threading);
+    utils::afree(reorded);
+  }
+
+  inline JBLAS_CODE getWeight(float** dstptr, int* dststep, int k_size, int n_size, int k_offset, int n_offset,
+                              const Param& _param, void* tmpcache, size_t cachesize) override {
+    return getFpWeight(dstptr, dststep, k_size, n_size, k_offset, n_offset, _param, tmpcache, cachesize);
+  }
+
+  inline JBLAS_CODE getWeight(utils::bf16** dstptr, int* dststep, int k_size, int n_size, int k_offset, int n_offset,
+                              const Param& _param, void* tmpcache, size_t cachesize) override {
+    return getFpWeight(dstptr, dststep, k_size, n_size, k_offset, n_offset, _param, tmpcache, cachesize);
+  }
+
+  inline JBLAS_CODE getKBlockWeight(float** dstptr, int* dststep, int k_size, int n_size, int k_offset, int n_offset,
+                                    const Param& _param, void* tmpcache, size_t cachesize) override {
+    return getFpKBlockWeight(dstptr, dststep, k_size, n_size, k_offset, n_offset, _param, tmpcache, cachesize);
+  }
+
+  inline JBLAS_CODE getKBlockWeight(utils::bf16** dstptr, int* dststep, int k_size, int n_size, int k_offset,
+                                    int n_offset, const Param& _param, void* tmpcache, size_t cachesize) override {
+    return getFpKBlockWeight(dstptr, dststep, k_size, n_size, k_offset, n_offset, _param, tmpcache, cachesize);
+  }
+
+ protected:
+  virtual void quantRowBlock(const float* srcptr, int8_t* dstptr, int row, int col, int ld_src, int ld_dst,
+                             float* scales, int8_t* zero_points, int blocksize, JBLAS_DTYPE quant_dtype) override {
+    if (quant_dtype == JBLAS_DTYPE::F4_BNB) {
+      kernel::wrapper::QuantizeF4RowBlock::forward<ISA_T, JBLAS_DTYPE::F4_BNB>(srcptr, dstptr, row, col, ld_src, ld_dst,
+                                                                               scales, zero_points, blocksize);
+    } else if (quant_dtype == JBLAS_DTYPE::F4_E2M1) {
+      kernel::wrapper::QuantizeF4RowBlock::forward<ISA_T, JBLAS_DTYPE::F4_E2M1>(srcptr, dstptr, row, col, ld_src,
+                                                                                ld_dst, scales, zero_points, blocksize);
+    } else if (quant_dtype == JBLAS_DTYPE::F4_NF4) {
+      kernel::wrapper::QuantizeF4RowBlock::forward<ISA_T, JBLAS_DTYPE::F4_NF4>(srcptr, dstptr, row, col, ld_src, ld_dst,
+                                                                               scales, zero_points, blocksize);
+    }
+  }
+
+  virtual JBLAS_CODE doCompress(const int8_t* srcptr, void* dstptr, int row, int col, int ld_src, int ld_dst) override {
+    return kernel::wrapper::CompressFp4<_GemmCore_T::NTILE>::template forward<ISA_T>(
+        srcptr, reinterpret_cast<utils::f4x2*>(dstptr), row, col, ld_src,
+        ld_dst);  // ld_dst here not stride
+  }
+
+  template <typename T>
+  inline JBLAS_CODE getFpWeight(T** dstptr, int* dststep, int k_size, int n_size, int k_offset, int n_offset,
+                                const Param& _param, void* tmpcache, size_t cachesize) {
+    auto wptr = reinterpret_cast<StorageWeight*>(const_cast<storage::gemm::WeightKBlockBase*>(_param.packedW));
+    auto NPad = wptr->mNPad;
+    auto KPad = wptr->mKPad;
+    auto bptr = wptr->WPtr() + n_offset * KPad / 2 + k_offset * _GemmCore_T::NTILE / 2;
+    int constexpr ColSize = _GemmCore_T::NTILE * _GemmCore_T::PACK_ROW;
+    for (int i = 0; i < n_size; i += _GemmCore_T::NTILE) {
+      auto f4ptr = reinterpret_cast<utils::f4x2*>(bptr + i * KPad / 2);
+      auto fp32ptr = *dstptr + i * k_size;
+      if (wptr->mScaT == JBLAS_DTYPE::F32) {
+        auto sptr = wptr->SPtr<float>() + n_offset + i;
+        if (wptr->mDType == JBLAS_DTYPE::F4_NF4) {
+          kernel::wrapper::DecompressKBlockF4Fp<T, _GemmCore_T::PACK_ROW>::template forward<ISA_T, float,
+                                                                                            JBLAS_DTYPE::F4_NF4>(
+              f4ptr, fp32ptr, k_size / _GemmCore_T::PACK_ROW, ColSize, ColSize, ColSize, sptr,
+              k_offset / _GemmCore_T::PACK_ROW, wptr->mBlockSize / _GemmCore_T::PACK_ROW, NPad, tmpcache, cachesize);
+        } else if (wptr->mDType == JBLAS_DTYPE::F4_E2M1) {
+          kernel::wrapper::DecompressKBlockF4Fp<T, _GemmCore_T::PACK_ROW>::template forward<ISA_T, float,
+                                                                                            JBLAS_DTYPE::F4_E2M1>(
+              f4ptr, fp32ptr, k_size / _GemmCore_T::PACK_ROW, ColSize, ColSize, ColSize, sptr,
+              k_offset / _GemmCore_T::PACK_ROW, wptr->mBlockSize / _GemmCore_T::PACK_ROW, NPad, tmpcache, cachesize);
+        } else if (wptr->mDType == JBLAS_DTYPE::F4_BNB) {
+          kernel::wrapper::DecompressKBlockF4Fp<T, _GemmCore_T::PACK_ROW>::template forward<ISA_T, float,
+                                                                                            JBLAS_DTYPE::F4_BNB>(
+              f4ptr, fp32ptr, k_size / _GemmCore_T::PACK_ROW, ColSize, ColSize, ColSize, sptr,
+              k_offset / _GemmCore_T::PACK_ROW, wptr->mBlockSize / _GemmCore_T::PACK_ROW, NPad, tmpcache, cachesize);
+        }
+      } else if (wptr->mScaT == JBLAS_DTYPE::BF16) {
+        auto sptr = wptr->SPtr<utils::bf16>() + n_offset + i;
+        if (wptr->mDType == JBLAS_DTYPE::F4_NF4) {
+          kernel::wrapper::DecompressKBlockF4Fp<T, _GemmCore_T::PACK_ROW>::template forward<ISA_T, utils::bf16,
+                                                                                            JBLAS_DTYPE::F4_NF4>(
+              f4ptr, fp32ptr, k_size / _GemmCore_T::PACK_ROW, ColSize, ColSize, ColSize, sptr,
+              k_offset / _GemmCore_T::PACK_ROW, wptr->mBlockSize / _GemmCore_T::PACK_ROW, NPad, tmpcache, cachesize);
+        } else if (wptr->mDType == JBLAS_DTYPE::F4_E2M1) {
+          kernel::wrapper::DecompressKBlockF4Fp<T, _GemmCore_T::PACK_ROW>::template forward<ISA_T, utils::bf16,
+                                                                                            JBLAS_DTYPE::F4_E2M1>(
+              f4ptr, fp32ptr, k_size / _GemmCore_T::PACK_ROW, ColSize, ColSize, ColSize, sptr,
+              k_offset / _GemmCore_T::PACK_ROW, wptr->mBlockSize / _GemmCore_T::PACK_ROW, NPad, tmpcache, cachesize);
+        } else if (wptr->mDType == JBLAS_DTYPE::F4_BNB) {
+          kernel::wrapper::DecompressKBlockF4Fp<T, _GemmCore_T::PACK_ROW>::template forward<ISA_T, utils::bf16,
+                                                                                            JBLAS_DTYPE::F4_BNB>(
+              f4ptr, fp32ptr, k_size / _GemmCore_T::PACK_ROW, ColSize, ColSize, ColSize, sptr,
+              k_offset / _GemmCore_T::PACK_ROW, wptr->mBlockSize / _GemmCore_T::PACK_ROW, NPad, tmpcache, cachesize);
+        }
+      }
+    }
+    *dststep = k_size;
+    return JblasSuccess;
+  }
+
+  template <typename T>
+  inline JBLAS_CODE getFpKBlockWeight(T** dstptr, int* dststep, int k_size, int n_size, int k_offset, int n_offset,
+                                      const Param& _param, void* tmpcache, size_t cachesize) {
+    auto wptr = reinterpret_cast<StorageWeight*>(const_cast<storage::gemm::WeightKBlockBase*>(_param.packedW));
+    auto NPad = wptr->mNPad;
+    auto KPad = wptr->mKPad;
+    auto bptr = wptr->WPtr() + n_offset * KPad / 2 + k_offset * _GemmCore_T::NTILE / 2;
+    int constexpr ColSize = _GemmCore_T::NTILE * _GemmCore_T::PACK_ROW;
+    for (int i = 0; i < n_size; i += _GemmCore_T::NTILE) {
+      auto f4ptr = reinterpret_cast<utils::f4x2*>(bptr + i * KPad / 2);
+      auto fp32ptr = *dstptr + i * k_size;
+      if (wptr->mDType == JBLAS_DTYPE::F4_NF4) {
+        kernel::wrapper::DecompressKBlockF4FpNoscale<T>::template forward<ISA_T, JBLAS_DTYPE::F4_NF4>(
+            f4ptr, fp32ptr, k_size / _GemmCore_T::PACK_ROW, ColSize, ColSize, ColSize, tmpcache, cachesize);
+      } else if (wptr->mDType == JBLAS_DTYPE::F4_E2M1) {
+        kernel::wrapper::DecompressKBlockF4FpNoscale<T>::template forward<ISA_T, JBLAS_DTYPE::F4_E2M1>(
+            f4ptr, fp32ptr, k_size / _GemmCore_T::PACK_ROW, ColSize, ColSize, ColSize, tmpcache, cachesize);
+      } else if (wptr->mDType == JBLAS_DTYPE::F4_BNB) {
+        kernel::wrapper::DecompressKBlockF4FpNoscale<T>::template forward<ISA_T, JBLAS_DTYPE::F4_BNB>(
+            f4ptr, fp32ptr, k_size / _GemmCore_T::PACK_ROW, ColSize, ColSize, ColSize, tmpcache, cachesize);
+      }
+    }
+    *dststep = k_size;
+    return JblasSuccess;
+  }
+};
+}  // namespace gemm
+}  // namespace prologue_b
+}  // namespace jblas
diff --git a/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/jit_blas_storage.h b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/jit_blas_storage.h
new file mode 100644
index 0000000000000..052728dba687f
--- /dev/null
+++ b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/jit_blas_storage.h
@@ -0,0 +1,665 @@
+//  Copyright (c) 2023 Intel Corporation
+//
+//  Licensed under the Apache License, Version 2.0 (the "License");
+//  you may not use this file except in compliance with the License.
+//  You may obtain a copy of the License at
+//
+//    http://www.apache.org/licenses/LICENSE-2.0
+//
+//  Unless required by applicable law or agreed to in writing, software
+//  distributed under the License is distributed on an "AS IS" BASIS,
+//  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+//  See the License for the specific language governing permissions and
+//  limitations under the License.
+#pragma once
+#include "jit_base.h"
+#include "jit_blas.h"
+#include "jit_blas_gemm.h"
+#include "jit_blas_utils.h"
+
+namespace jblas {
+namespace storage {
+
+constexpr size_t Alignment = 64;
+class ISerialObject {
+ protected:
+  virtual size_t getSerializedSize() = 0;
+
+  virtual void serializeToBuffer(int8_t*& wptr) = 0;
+
+  virtual void deserializeBuffer(int8_t*& rptr, bool map_buf) = 0;
+};
+
+class ISerializable : public ISerialObject {
+ public:
+  virtual ~ISerializable() = default;
+
+  virtual void assign(int8_t* buf) = 0;
+
+  virtual void serialize(int8_t* wptr) = 0;
+
+  virtual void deserialize(int8_t* rptr) = 0;
+  size_t mSize = 0;
+
+ protected:
+  virtual size_t getSerializedSize() override {
+    size_t totalsize = 0;
+    totalsize += sizeof(mSize);
+    return totalsize;
+  }
+  virtual void serializeToBuffer(int8_t*& wptr) override { utils::serialize(wptr, mSize); }
+  virtual void deserializeBuffer(int8_t*& rptr, bool map_buf) override {
+    if (!map_buf) {
+      mSize = utils::deserialize<size_t>(rptr);
+    } else {
+      utils::serialize<size_t>(rptr, mSize);
+    }
+  }
+};
+
+class ISerialBuffer : public ISerialObject {
+ public:
+  template <typename T>
+  inline constexpr T* get() {
+    return reinterpret_cast<T*>(mBufPtr);
+  };
+  template <typename T>
+  inline size_t size() {
+    return mBufSize / sizeof(T);
+  };
+
+  void resize(size_t bytes) { mBufSize = bytes; }
+
+ protected:
+  virtual size_t getSerializedSize() override {
+    size_t totalsize = 0;
+    totalsize += sizeof(mBufSize);
+    totalsize += mBufSize + Alignment;
+    return totalsize;
+  }
+  virtual void serializeToBuffer(int8_t*& wptr) override {
+    utils::serialize(wptr, mBufSize);
+    wptr = utils::pointer_align<Alignment>(wptr);
+    if (wptr != mBufPtr) {
+      std::memcpy(wptr, mBufPtr, mBufSize);
+    }
+    wptr += mBufSize;
+  }
+  virtual void deserializeBuffer(int8_t*& rptr, bool map_buf) override {
+    if (!map_buf) {
+      mBufSize = utils::deserialize<size_t>(rptr);
+    } else {
+      utils::serialize<size_t>(rptr, mBufSize);
+    }
+    rptr = utils::pointer_align<Alignment>(rptr);
+    mBufPtr = rptr;
+    rptr += mBufSize;
+  }
+
+  int8_t* mBufPtr = NULL;
+  size_t mBufSize = 0;
+};
+namespace gemm {
+// Storage classes for GEMM cases:
+// Weight K*N
+// Activation M*K
+
+class WeightBase : public storage::ISerializable {
+ public:
+  JBLAS_PROLOGUEB_IDS mPrologueID = JBLAS_PROLOGUEB_IDS::Undef;
+  uint32_t mCoreId = 0;
+  JBLAS_DTYPE mDType = JBLAS_DTYPE::F32;
+  int mNPad = 0, mKPad = 0;
+  int mN = 0, mK = 0;
+
+  WeightBase(uint32_t _id) { mCoreId = _id; }
+
+  // bytes offset to mPrologueID
+  static constexpr inline size_t offset() { return sizeof(mSize); }
+
+ protected:
+  void resize(int NPad, int KPad, int N, int K, JBLAS_DTYPE dtype) {
+    mNPad = NPad;
+    mKPad = KPad;
+    mN = N;
+    mK = K;
+    mDType = dtype;
+  }
+
+  virtual size_t getSerializedSize() { return ISerializable::getSerializedSize() + getMiscSize(); }
+
+  virtual void serializeToBuffer(int8_t*& wptr) {
+    ISerializable::serializeToBuffer(wptr);
+    utils::serialize(wptr, mPrologueID);
+    utils::serialize(wptr, mCoreId);
+    utils::serialize(wptr, mNPad);
+    utils::serialize(wptr, mKPad);
+    utils::serialize(wptr, mN);
+    utils::serialize(wptr, mK);
+    utils::serialize(wptr, mDType);
+  }
+
+  virtual void deserializeBuffer(int8_t*& rptr, bool map_buf) {
+    ISerializable::deserializeBuffer(rptr, map_buf);
+    if (!map_buf) {
+      mPrologueID = utils::deserialize<JBLAS_PROLOGUEB_IDS>(rptr);
+      mCoreId = utils::deserialize<uint32_t>(rptr);
+      mNPad = utils::deserialize<int>(rptr);
+      mKPad = utils::deserialize<int>(rptr);
+      mN = utils::deserialize<int>(rptr);
+      mK = utils::deserialize<int>(rptr);
+      mDType = utils::deserialize<JBLAS_DTYPE>(rptr);
+    } else {
+      utils::serialize<JBLAS_PROLOGUEB_IDS>(rptr, mPrologueID);
+      utils::serialize<uint32_t>(rptr, mCoreId);
+      utils::serialize<int>(rptr, mNPad);
+      utils::serialize<int>(rptr, mKPad);
+      utils::serialize<int>(rptr, mN);
+      utils::serialize<int>(rptr, mK);
+      utils::serialize<JBLAS_DTYPE>(rptr, mDType);
+    }
+  }
+
+  inline constexpr size_t getMiscSize() {
+    size_t totalsize = 0;
+    totalsize += sizeof(mPrologueID);
+    totalsize += sizeof(mCoreId);
+    totalsize += sizeof(mNPad);
+    totalsize += sizeof(mKPad);
+    totalsize += sizeof(mN);
+    totalsize += sizeof(mK);
+    totalsize += sizeof(mDType);
+    return totalsize;
+  }
+};
+
+class WeightKBlockBase : public WeightBase {
+ public:
+  int mBlockSize = 1;
+  WeightKBlockBase(uint32_t _id) : WeightBase(_id) {}
+  void resize(int NPad, int KPad, int Block, int N, int K, JBLAS_DTYPE dtype) {
+    WeightBase::resize(NPad, KPad, N, K, dtype);
+    mBlockSize = Block;
+  }
+
+ protected:
+  virtual size_t getSerializedSize() {
+    size_t totalsize = WeightBase::getSerializedSize() + getMiscSize();
+    return totalsize;
+  }
+
+  virtual void serializeToBuffer(int8_t*& wptr) {
+    WeightBase::serializeToBuffer(wptr);
+    utils::serialize(wptr, mBlockSize);
+  }
+
+  virtual void deserializeBuffer(int8_t*& rptr, bool map_buf) {
+    WeightBase::deserializeBuffer(rptr, map_buf);
+    if (!map_buf) {
+      mBlockSize = utils::deserialize<int>(rptr);
+    } else {
+      utils::serialize(rptr, mBlockSize);
+    }
+  }
+
+  inline constexpr size_t getMiscSize() {
+    size_t totalsize = sizeof(mBlockSize);
+    return totalsize;
+  }
+};
+
+class StorageQuantCorrection : public ISerialObject {
+  // ser
+ public:
+  size_t mCSize = 0;
+  int mCStep = 0;
+  bool mIsAsym = false;
+  bool mHasReduce = false;
+  JBLAS_DTYPE mScaT = JBLAS_DTYPE::F32, mZpT = JBLAS_DTYPE::F32, mRedT = JBLAS_DTYPE::F32;
+
+ protected:
+  int8_t* mSPtr = nullptr;
+  int8_t* mZPtr = nullptr;
+  int8_t* mRPtr = nullptr;
+
+  // non-ser
+ public:
+  int mScaEleSize = 0, mZpEleSize = 0, mRedEleSize = 0;
+
+ public:
+  template <typename T>
+  inline T* SPtr() {
+    return (T*)mSPtr;
+  }
+
+  template <typename T>
+  inline T* ZPtr() {
+    return (T*)mZPtr;
+  }
+
+  template <typename T>
+  inline T* RPtr() {
+    return (T*)mRPtr;
+  }
+
+  size_t resize(int Rows, int Step, JBLAS_DTYPE scalet, JBLAS_DTYPE zpt, JBLAS_DTYPE redt, bool _is_asym,
+                bool _has_reduce) {
+    mScaT = scalet;
+    mZpT = zpt;
+    mRedT = redt;
+    updateSize();
+    mIsAsym = _is_asym;
+    mHasReduce = _has_reduce;
+    mCStep = Step;
+    mCSize = static_cast<size_t>(Rows) * Step;
+    return getSerializedSize();
+  }
+
+ protected:
+  inline void updateSize() {
+    mScaEleSize = int(utils::jblas_dtype_size(mScaT));
+    mZpEleSize = int(utils::jblas_dtype_size(mZpT));
+    mRedEleSize = int(utils::jblas_dtype_size(mRedT));
+  }
+
+  inline constexpr size_t getMiscSize() {
+    size_t totalsize = 0;
+    totalsize += sizeof(mScaT);
+    totalsize += sizeof(mZpT);
+    totalsize += sizeof(mRedT);
+    totalsize += sizeof(mIsAsym);
+    totalsize += sizeof(mHasReduce);
+    totalsize += sizeof(mCStep);
+    totalsize += sizeof(mCSize);
+    return totalsize;
+  }
+  virtual size_t getSerializedSize() override {
+    size_t totalsize = getMiscSize();
+    totalsize += mCSize * mScaEleSize + Alignment;
+    if (mIsAsym) totalsize += mCSize * mZpEleSize + Alignment;
+    if (mHasReduce) totalsize += mCSize * mRedEleSize + Alignment;
+    return totalsize;
+  }
+  virtual void serializeToBuffer(int8_t*& wptr) override {
+    utils::serialize(wptr, mScaT);
+    utils::serialize(wptr, mZpT);
+    utils::serialize(wptr, mRedT);
+    utils::serialize(wptr, mIsAsym);
+    utils::serialize(wptr, mHasReduce);
+    utils::serialize(wptr, mCStep);
+    utils::serialize(wptr, mCSize);
+    wptr = utils::pointer_align<Alignment>(wptr);
+    if (wptr != mSPtr) {
+      std::memcpy(wptr, mSPtr, mScaEleSize);
+    }
+    wptr += mCSize * mScaEleSize;
+    if (mIsAsym) {
+      wptr = utils::pointer_align<Alignment>(wptr);
+      if (wptr != mZPtr) {
+        std::memcpy(wptr, mZPtr, mZpEleSize);
+      }
+      wptr += mCSize * mZpEleSize;
+    }
+    if (mHasReduce) {
+      wptr = utils::pointer_align<Alignment>(wptr);
+      if (wptr != mRPtr) {
+        std::memcpy(wptr, mRPtr, mCSize * mRedEleSize);
+      }
+      wptr += mCSize * mRedEleSize;
+    }
+  }
+  virtual void deserializeBuffer(int8_t*& rptr, bool locate_buf) override {
+    if (!locate_buf) {
+      mScaT = utils::deserialize<JBLAS_DTYPE>(rptr);
+      mZpT = utils::deserialize<JBLAS_DTYPE>(rptr);
+      mRedT = utils::deserialize<JBLAS_DTYPE>(rptr);
+      updateSize();
+      mIsAsym = utils::deserialize<bool>(rptr);
+      mHasReduce = utils::deserialize<bool>(rptr);
+      mCStep = utils::deserialize<int>(rptr);
+      mCSize = utils::deserialize<size_t>(rptr);
+    } else {
+      utils::serialize<JBLAS_DTYPE>(rptr, mScaT);
+      utils::serialize<JBLAS_DTYPE>(rptr, mZpT);
+      utils::serialize<JBLAS_DTYPE>(rptr, mRedT);
+      utils::serialize<bool>(rptr, mIsAsym);
+      utils::serialize<bool>(rptr, mHasReduce);
+      utils::serialize<int>(rptr, mCStep);
+      utils::serialize<size_t>(rptr, mCSize);
+    }
+    rptr = utils::pointer_align<Alignment>(rptr);
+    mSPtr = rptr;
+    rptr += mCSize * mScaEleSize;
+    if (mIsAsym) {
+      rptr = utils::pointer_align<Alignment>(rptr);
+      mZPtr = rptr;
+      rptr += mCSize * mZpEleSize;
+    }
+    if (mHasReduce) {
+      rptr = utils::pointer_align<Alignment>(rptr);
+      mRPtr = rptr;
+      rptr += mCSize * mRedEleSize;
+    }
+  }
+};
+
+class StorageReduce : public ISerializable, public ISerialBuffer {
+ public:
+  using CorrectionType = StorageQuantCorrection;
+  int m = 0, k = 0, lda = 0, kblock = 1;
+  size_t resize(int _m, int _k, int _kblock, JBLAS_DTYPE redt) {
+    kblock = _kblock;
+    m = _m;
+    k = _k;
+    lda = utils::updiv(_k, _kblock);
+    size_t bufsize = static_cast<size_t>(m) * lda * utils::jblas_dtype_size(redt);
+    ISerialBuffer::resize(bufsize);
+    mSize = getSerializedSize();
+    return mSize;
+  }
+  template <typename QT_T>
+  inline QT_T* APtr() {
+    return get<QT_T>();
+  }
+
+  virtual void assign(int8_t* buf) override {
+    ISerializable::deserializeBuffer(buf, true);
+    deserializeBuffer(buf, true);
+    ISerialBuffer::deserializeBuffer(buf, true);
+  }
+
+  virtual void serialize(int8_t* wptr) {
+    ISerializable::serializeToBuffer(wptr);
+    serializeToBuffer(wptr);
+    ISerialBuffer::serializeToBuffer(wptr);
+  }
+
+  virtual void deserialize(int8_t* rptr) override {
+    ISerializable::deserializeBuffer(rptr, false);
+    deserializeBuffer(rptr, false);
+    ISerialBuffer::deserializeBuffer(rptr, false);
+  }
+
+ protected:
+  virtual size_t getSerializedSize() {
+    return ISerializable::getSerializedSize() + getMiscSize() + ISerialBuffer::getSerializedSize();
+  }
+
+  virtual void serializeToBuffer(int8_t*& wptr) {
+    utils::serialize(wptr, m);
+    utils::serialize(wptr, k);
+    utils::serialize(wptr, lda);
+    utils::serialize(wptr, kblock);
+  }
+
+  virtual void deserializeBuffer(int8_t*& rptr, bool map_buf) {
+    if (!map_buf) {
+      m = utils::deserialize<int>(rptr);
+      lda = utils::deserialize<int>(rptr);
+      kblock = utils::deserialize<int>(rptr);
+    } else {
+      utils::serialize(rptr, m);
+      utils::serialize(rptr, k);
+      utils::serialize(rptr, lda);
+      utils::serialize(rptr, kblock);
+    }
+  }
+
+  inline constexpr size_t getMiscSize() {
+    size_t totalsize = 0;
+    totalsize += sizeof(m);
+    totalsize += sizeof(k);
+    totalsize += sizeof(lda);
+    totalsize += sizeof(kblock);
+    return totalsize;
+  }
+};
+
+class StorageQuantActivation : public ISerializable, public ISerialBuffer, public StorageQuantCorrection {
+ public:
+  using CorrectionType = StorageQuantCorrection;
+  int m = 0, lda = 0, kblock = 1;
+  size_t resize(int _m, int _lda, int _kblock, JBLAS_DTYPE buft, JBLAS_DTYPE scalet, JBLAS_DTYPE zpt, JBLAS_DTYPE redt,
+                bool is_asym, bool has_reduce) {
+    kblock = _kblock;
+    lda = _lda;
+    m = _m;
+    CorrectionType::resize(_m, utils::updiv(_lda, _kblock), scalet, zpt, redt, is_asym, has_reduce);
+    size_t bufsize = static_cast<size_t>(m) * lda * utils::jblas_dtype_size(buft);
+    ISerialBuffer::resize(bufsize);
+    mSize = getSerializedSize();
+    return mSize;
+  }
+  template <typename QT_T>
+  inline QT_T* APtr() {
+    return get<QT_T>();
+  }
+
+  virtual void assign(int8_t* buf) override {
+    ISerializable::deserializeBuffer(buf, true);
+    deserializeBuffer(buf, true);
+    ISerialBuffer::deserializeBuffer(buf, true);
+    CorrectionType::deserializeBuffer(buf, true);
+  }
+
+  virtual void serialize(int8_t* wptr) {
+    ISerializable::serializeToBuffer(wptr);
+    serializeToBuffer(wptr);
+    ISerialBuffer::serializeToBuffer(wptr);
+    CorrectionType::serializeToBuffer(wptr);
+  }
+
+  virtual void deserialize(int8_t* rptr) override {
+    ISerializable::deserializeBuffer(rptr, false);
+    deserializeBuffer(rptr, false);
+    ISerialBuffer::deserializeBuffer(rptr, false);
+    CorrectionType::deserializeBuffer(rptr, false);
+  }
+
+ protected:
+  virtual size_t getSerializedSize() {
+    return ISerializable::getSerializedSize() + getMiscSize() + ISerialBuffer::getSerializedSize() +
+           CorrectionType::getSerializedSize();
+  }
+
+  virtual void serializeToBuffer(int8_t*& wptr) {
+    utils::serialize(wptr, m);
+    utils::serialize(wptr, lda);
+    utils::serialize(wptr, kblock);
+  }
+
+  virtual void deserializeBuffer(int8_t*& rptr, bool map_buf) {
+    if (!map_buf) {
+      m = utils::deserialize<int>(rptr);
+      lda = utils::deserialize<int>(rptr);
+      kblock = utils::deserialize<int>(rptr);
+    } else {
+      utils::serialize(rptr, m);
+      utils::serialize(rptr, lda);
+      utils::serialize(rptr, kblock);
+    }
+  }
+
+  inline constexpr size_t getMiscSize() {
+    size_t totalsize = 0;
+    totalsize += sizeof(m);
+    totalsize += sizeof(lda);
+    totalsize += sizeof(kblock);
+    return totalsize;
+  }
+};
+
+class StoragePackedWeight : public WeightBase, public ISerialBuffer {
+ public:
+  StoragePackedWeight(uint32_t _id) : WeightBase(_id) { mPrologueID = JBLAS_PROLOGUEB_IDS::WeightPack; }
+
+  size_t resize(int NPad, int KPad, int N, int K, JBLAS_DTYPE dtype) {
+    WeightBase::resize(NPad, KPad, N, K, dtype);
+    auto bsize = static_cast<size_t>(NPad) * KPad * jblas::utils::jblas_dtype_size(dtype);
+    ISerialBuffer::resize(bsize);
+    mSize = WeightBase::getSerializedSize() + ISerialBuffer::getSerializedSize();
+    return mSize;
+  }
+
+  virtual void assign(int8_t* buf) override {
+    WeightBase::deserializeBuffer(buf, true);
+    ISerialBuffer::deserializeBuffer(buf, true);
+  }
+
+  virtual void serialize(int8_t* wptr) {
+    WeightBase::serializeToBuffer(wptr);
+    ISerialBuffer::serializeToBuffer(wptr);
+  }
+
+  virtual void deserialize(int8_t* rptr) override {
+    WeightBase::deserializeBuffer(rptr, false);
+    ISerialBuffer::deserializeBuffer(rptr, false);
+  }
+};
+
+class Buffer8Bit : public ISerialBuffer {
+ public:
+  void resize(size_t size) { ISerialBuffer::resize(size); }
+  inline int8_t* WPtr() { return get<int8_t>(); }
+};
+
+class Buffer4Bit : public ISerialBuffer {
+ public:
+  void resize(size_t size) { ISerialBuffer::resize(utils::updiv(size, 2)); }
+  inline utils::bit4x2* WPtr() { return get<utils::bit4x2>(); }
+};
+
+class StorageWeightKBlockS8 : public WeightKBlockBase, public Buffer8Bit, public StorageQuantCorrection {
+ public:
+  using InfoType = WeightKBlockBase;
+  using QWeightType = Buffer8Bit;
+  using CorrectionType = StorageQuantCorrection;
+  StorageWeightKBlockS8(uint32_t _type) : WeightKBlockBase(_type) { mPrologueID = JBLAS_PROLOGUEB_IDS::WeightKBlockS8; }
+
+  size_t resize(int NPad, int KPad, int Block, int N, int K, JBLAS_DTYPE scalet, JBLAS_DTYPE redt, bool IsAsym) {
+    JBLAS_DTYPE zpt = JBLAS_DTYPE::S8;
+    InfoType::resize(NPad, KPad, Block, N, K, JBLAS_DTYPE::S8);
+    QWeightType::resize(static_cast<size_t>(NPad) * KPad);
+    int nk_scale = utils::updiv(KPad, Block);
+    auto gemm_comp = jblas::gemm::CoreAttr::get_mask_val(mCoreId, jblas::gemm::CoreAttr::COMP_MASK,
+                                                         jblas::gemm::CoreAttr::COMP_SHIFT);
+    CorrectionType::resize(nk_scale, NPad, scalet, zpt, redt, IsAsym,
+                           gemm_comp >= static_cast<uint32_t>(jblas::gemm::CompType::COMP_INT_START));
+    mSize = InfoType::getSerializedSize() + QWeightType::getSerializedSize() + CorrectionType::getSerializedSize();
+    return mSize;
+  }
+
+  virtual void assign(int8_t* buf) override {
+    InfoType::deserializeBuffer(buf, true);
+    QWeightType::deserializeBuffer(buf, true);
+    CorrectionType::deserializeBuffer(buf, true);
+  }
+
+  virtual void serialize(int8_t* wptr) {
+    InfoType::serializeToBuffer(wptr);
+    QWeightType::serializeToBuffer(wptr);
+    CorrectionType::serializeToBuffer(wptr);
+  }
+
+  virtual void deserialize(int8_t* rptr) override {
+    InfoType::deserializeBuffer(rptr, false);
+    QWeightType::deserializeBuffer(rptr, false);
+    CorrectionType::deserializeBuffer(rptr, false);
+  }
+};
+
+class StorageWeightKBlockS4 : public WeightKBlockBase, public Buffer4Bit, public StorageQuantCorrection {
+ public:
+  using InfoType = WeightKBlockBase;
+  using QWeightType = Buffer4Bit;
+  using CorrectionType = StorageQuantCorrection;
+  StorageWeightKBlockS4(uint32_t _type) : WeightKBlockBase(_type) { mPrologueID = JBLAS_PROLOGUEB_IDS::WeightKBlockS4; }
+
+  size_t resize(int NPad, int KPad, int Block, int N, int K, JBLAS_DTYPE s4t, JBLAS_DTYPE scalet, JBLAS_DTYPE redt,
+                bool IsAsym) {
+    JBLAS_DTYPE zpt = JBLAS_DTYPE::S8;
+    InfoType::resize(NPad, KPad, Block, N, K, s4t);
+    QWeightType::resize(static_cast<size_t>(NPad) * KPad);
+    int nk_scale = utils::updiv(KPad, Block);
+    auto gemm_comp = jblas::gemm::CoreAttr::get_mask_val(mCoreId, jblas::gemm::CoreAttr::COMP_MASK,
+                                                         jblas::gemm::CoreAttr::COMP_SHIFT);
+    CorrectionType::resize(nk_scale, NPad, scalet, zpt, redt, IsAsym,
+                           gemm_comp >= static_cast<uint32_t>(jblas::gemm::CompType::COMP_INT_START));
+    mSize = InfoType::getSerializedSize() + QWeightType::getSerializedSize() + CorrectionType::getSerializedSize();
+    return mSize;
+  }
+
+  virtual void assign(int8_t* buf) override {
+    InfoType::deserializeBuffer(buf, true);
+    QWeightType::deserializeBuffer(buf, true);
+    CorrectionType::deserializeBuffer(buf, true);
+  }
+
+  virtual void serialize(int8_t* wptr) {
+    InfoType::serializeToBuffer(wptr);
+    QWeightType::serializeToBuffer(wptr);
+    CorrectionType::serializeToBuffer(wptr);
+  }
+
+  virtual void deserialize(int8_t* rptr) override {
+    InfoType::deserializeBuffer(rptr, false);
+    QWeightType::deserializeBuffer(rptr, false);
+    CorrectionType::deserializeBuffer(rptr, false);
+  }
+};
+
+class StorageWeightKBlockF4 : public StorageWeightKBlockS4 {
+ public:
+  StorageWeightKBlockF4(uint32_t _type) : StorageWeightKBlockS4(_type) {
+    mPrologueID = JBLAS_PROLOGUEB_IDS::WeightKBlockF4;
+  }
+
+  size_t resize(int NPad, int KPad, int Block, int N, int K, JBLAS_DTYPE f4t, JBLAS_DTYPE scalet) {
+    StorageWeightKBlockS4::InfoType::resize(NPad, KPad, Block, N, K, f4t);
+    StorageWeightKBlockS4::QWeightType::resize((size_t)NPad * KPad);
+    int nk_scale = utils::updiv(KPad, Block);
+    StorageWeightKBlockS4::CorrectionType::resize(nk_scale, NPad, scalet, JBLAS_DTYPE::S8, JBLAS_DTYPE::F32, false,
+                                                  false);
+    mSize = StorageWeightKBlockS4::InfoType::getSerializedSize() +
+            StorageWeightKBlockS4::QWeightType::getSerializedSize() +
+            StorageWeightKBlockS4::CorrectionType::getSerializedSize();
+    return mSize;
+  }
+};
+
+class PackedWeightParser {
+ public:
+  static gemm::WeightBase* deserialBuffer(const void* serialized_buf) {
+    auto rptr = reinterpret_cast<int8_t*>(const_cast<void*>(serialized_buf));
+    rptr += WeightBase::offset();
+    int mProID = utils::deserialize<int>(rptr);
+    WeightBase* ptr = NULL;
+    if (mProID >= int(JBLAS_PROLOGUEB_IDS::Begin) && mProID < int(JBLAS_PROLOGUEB_IDS::End)) {
+      rptr = reinterpret_cast<int8_t*>(const_cast<void*>(serialized_buf));
+      auto type = static_cast<JBLAS_PROLOGUEB_IDS>(mProID);
+      switch (type) {
+        case JBLAS_PROLOGUEB_IDS::WeightPack:
+          ptr = new gemm::StoragePackedWeight(0);
+          break;
+        case JBLAS_PROLOGUEB_IDS::WeightKBlockS8:
+          ptr = new gemm::StorageWeightKBlockS8(0);
+          break;
+        case JBLAS_PROLOGUEB_IDS::WeightKBlockS4:
+          ptr = new gemm::StorageWeightKBlockS4(0);
+          break;
+        case JBLAS_PROLOGUEB_IDS::WeightKBlockF4:
+          ptr = new gemm::StorageWeightKBlockF4(0);
+          break;
+        default:
+          break;
+      }
+      if (ptr) {
+        ptr->deserialize(rptr);
+      }
+    }
+    return ptr;
+  }
+};
+}  // namespace gemm
+}  // namespace storage
+}  // namespace jblas
diff --git a/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/jit_blas_utils.h b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/jit_blas_utils.h
new file mode 100644
index 0000000000000..96d9e94c9bfc0
--- /dev/null
+++ b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/jit_blas_utils.h
@@ -0,0 +1,638 @@
+//  Copyright (c) 2023 Intel Corporation
+//
+//  Licensed under the Apache License, Version 2.0 (the "License");
+//  you may not use this file except in compliance with the License.
+//  You may obtain a copy of the License at
+//
+//    http://www.apache.org/licenses/LICENSE-2.0
+//
+//  Unless required by applicable law or agreed to in writing, software
+//  distributed under the License is distributed on an "AS IS" BASIS,
+//  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+//  See the License for the specific language governing permissions and
+//  limitations under the License.
+#pragma once
+#ifdef _OPENMP
+#include <omp.h>
+#endif
+
+#include <algorithm>
+#include <chrono>
+#include <cmath>
+#include <cstring>
+#include <functional>
+#include <cassert>
+#include <vector>
+#include <cstdio>
+#ifdef _WIN32
+#include <cstdlib>
+#else
+#include <err.h>
+#include <errno.h>
+#include <sys/mman.h>
+#include <sys/signal.h>
+#include <sys/syscall.h>
+#include <unistd.h>
+#include <stdlib.h>
+
+#define fatal_error(msg, ...) err(1, "[FAIL]\t" msg, ##__VA_ARGS__)
+#define XFEATURE_XTILECFG 17
+#define XFEATURE_XTILEDATA 18
+#define XFEATURE_MASK_XTILECFG (1 << XFEATURE_XTILECFG)
+#define XFEATURE_MASK_XTILEDATA (1 << XFEATURE_XTILEDATA)
+#define XFEATURE_MASK_XTILE (XFEATURE_MASK_XTILECFG | XFEATURE_MASK_XTILEDATA)
+
+#define ARCH_GET_XCOMP_PERM 0x1022
+#define ARCH_REQ_XCOMP_PERM 0x1023
+
+#endif
+#include "jit_blas.h"
+
+// As long as the compiler supports the ISA, we will enable it.
+// Only the ISA you use in your project will be compiled.
+#ifdef __GNUC__
+#define CompileAVX512F() (__GNUC__ >= 6)
+#define CompileAVX2() (__GNUC__ >= 5)
+#define CompileAMX() (__GNUC__ >= 11)
+#define CompileBF16() (__GNUC__ >= 13)
+#define CompileFP16() (__GNUC__ >= 13)
+#define CompileAMXBF16() (CompileAMX())
+#define CompileAMXINT8() (CompileAMX())
+#else
+#define CompileAVX512F() _MSC_VER && (_MSC_VER >= 1911)
+#define CompileAVX2() _MSC_VER && (_MSC_VER >= 1900)
+#define CompileAMX() 0
+#define CompileBF16() 0
+#define CompileFP16() 0
+#define CompileAMXBF16() 0
+#define CompileAMXINT8() 0
+#endif
+#if CompileBF16() || CompileFP16()
+#include <immintrin.h>
+#endif
+
+namespace jblas {
+namespace utils {
+
+template <typename T2, typename T1>
+inline const T2 bit_cast(T1 i) {
+  static_assert(sizeof(T1) == sizeof(T2), "Bit-casting must preserve size.");
+  T2 o;
+  memcpy(&o, &i, sizeof(T2));
+  return o;
+}
+
+template <typename T>
+inline uint32_t bitand_u32(const T& src, const T& src1) {
+  return uint32_t(src) & uint32_t(src1);
+}
+
+struct bf16 {
+  uint16_t x;
+  union bf16f32 {
+    float f32;
+    unsigned int u;
+    uint16_t bf16[2];
+  };
+  bf16() : x(0) {}
+
+#if CompileBF16()
+#pragma GCC push_options
+#pragma GCC target("avx512vl", "avx512bf16")
+  static uint16_t f32_to_bf16(float v) {
+    auto mm = _mm_load_ss(&v);
+    auto mm2 = _mm_cvtneps_pbh(mm);
+    uint16_t dst;
+    _mm_storeu_si16(reinterpret_cast<uint16_t*>(&dst), reinterpret_cast<__m128i>(mm2));
+    return dst;
+  }
+#pragma GCC pop_options
+  explicit bf16(float vf32) : x(bit_cast<uint16_t>(f32_to_bf16(vf32))) {}
+#else
+  explicit bf16(float vf32) { fromfloat(vf32); }
+#endif
+
+#if CompileBF16()
+#pragma GCC push_options
+#pragma GCC target("avx512vl", "avx512bf16")
+  float tofloat() const {
+    auto mm = _mm_loadu_si16(&(this->x));
+    auto mm2 = _mm_bslli_si128(mm, 2);
+    float dst;
+    _mm_store_ss(&dst, reinterpret_cast<__m128>(mm2));
+    return dst;
+  }
+#pragma GCC pop_options
+#else
+  float tofloat() const {
+    bf16f32 tmp = {0.f};
+    tmp.bf16[1] = x;
+    return tmp.f32;
+  }
+#endif
+
+  float tofloat_nosimd() const {
+    bf16f32 tmp = {0.f};
+    tmp.bf16[1] = x;
+    return tmp.f32;
+  }
+
+  operator float() const { return tofloat(); }
+
+  static bf16 from_bin(const uint16_t x) {
+    bf16 res;
+    res.x = x;
+    return res;
+  }
+
+  void fromfloat(float _v) {
+#if CompileBF16()
+    x = bit_cast<uint16_t>(f32_to_bf16(_v));
+#else
+    bf16f32 tmp = {0.f};
+    tmp.f32 = _v;
+    // See document of VCVTNEPS2BF16 in Intel® 64 and IA-32 Architectures Software Developer’s Manual Volume 2
+    const auto lsb = tmp.bf16[1] & 1;
+    tmp.u += 0x7fff + lsb;
+    x = tmp.bf16[1];
+#endif
+  }
+
+  void fromfloat_nosimd(float _v) {
+    bf16f32 tmp = {0.f};
+    tmp.f32 = _v;
+    // See document of VCVTNEPS2BF16 in Intel® 64 and IA-32 Architectures
+    // Software Developer’s Manual Volume 2
+    const auto lsb = tmp.bf16[1] & 1;
+    tmp.u += 0x7fff + lsb;
+    x = tmp.bf16[1];
+  }
+};
+
+struct fp16 {
+  uint16_t x;
+
+  fp16() { x = 0; }
+  explicit fp16(float val) { (*this) = val; }
+  explicit fp16(bf16 val) { (*this) = static_cast<float>(val); }
+
+  fp16& operator=(float val) {
+#if CompileFP16()
+    this->x = bit_cast<uint16_t>(static_cast<_Float16>(val));
+#else
+    // round-to-nearest-even: add last bit after truncated mantissa
+    const uint32_t b = bit_cast<uint32_t>(val) + 0x00001000;
+    const uint32_t e = (b & 0x7F800000) >> 23;  // exponent
+    // mantissa; in line below: 0x007FF000 = 0x00800000-0x00001000 = decimal indicator flag - initial rounding
+    const uint32_t m = b & 0x007FFFFF;
+    // sign : normalized : denormalized : saturate
+
+    this->x = static_cast<uint16_t>((b & 0x80000000) >> 16 | (e > 112) * ((((e - 112) << 10) & 0x7C00) | m >> 13) |
+                                    ((e < 113) & (e > 101)) * ((((0x007FF000 + m) >> (125 - e)) + 1) >> 1) |
+                                    (e > 143) * 0x7FFF);
+#endif
+    return *this;
+  }
+  explicit operator float() const {
+#if CompileFP16()
+    return static_cast<float>(bit_cast<_Float16>(this->x));
+#else
+    // IEEE-754 16-bit floating-point format (without infinity): 1-5-10, exp-15,
+    // +-131008.0, +-6.1035156E-5, +-5.9604645E-8, 3.311 digits
+    const uint32_t e = (x & 0x7C00) >> 10;  // exponent
+    const uint32_t m = (x & 0x03FF) << 13;  // mantissa
+    // evil log2 bit hack to count leading zeros in denormalized format
+    const uint32_t v = bit_cast<uint32_t>(static_cast<float>(m)) >> 23;
+    // sign : normalized : denormalized
+    return bit_cast<float>((x & 0x8000) << 16 | (e != 0) * ((e + 112) << 23 | m) |
+                           ((e == 0) & (m != 0)) * ((v - 37) << 23 | ((m << (150 - v)) & 0x007FE000)));
+#endif
+  }
+  explicit operator bf16() const {
+#if CompileBF16() && CompileFP16()
+    return bf16(static_cast<float>(bit_cast<_Float16>(this->x)));
+#else
+    // Extract the exponent, and mantissa from the fp16 value.
+    int exponent = x >> 10 & 0x1f;
+    int mantissa = x & 0x3ff;
+
+    // If the exponent is 0, the bf16 value is 0.
+    if (exponent == 0) {
+      return bf16();
+    }
+    // If the exponent is 31, the bf16 value is the sign bit plus 0x7fff.
+    else if (exponent == 31) {
+      bf16 res{};
+      return bf16::from_bin(x | 0x7fff);
+    }
+    // Otherwise, the bf16 value is the sign bit plus the exponent minus 15,
+    // followed by the mantissa.
+    else {
+      int sign = x & 0x8000;
+      return bf16::from_bin(static_cast<uint16_t>(sign | (exponent + 128 - 16) << 7 | mantissa >> 3));
+    }
+#endif
+  }
+};
+
+struct bit4x2 {
+  int8_t x : 4;
+  int8_t y : 4;
+  bit4x2(int8_t v) : x(v), y(v) {}
+  bit4x2() : x(0), y(0) {}
+};
+
+struct int4x2 : bit4x2 {
+  int4x2(int8_t v) : bit4x2(v) {}
+  int4x2() : bit4x2() {}
+  static int8_t convert(int8_t src) {
+    int32_t dst = src;
+    dst = dst >= 0 ? dst + 8 : dst - 8;
+    dst = dst / 16;
+    dst = dst > 7 ? 7 : dst;
+    dst = dst < -8 ? -8 : dst;
+    return static_cast<int8_t>(dst);
+  }
+};
+
+struct f4x2 : bit4x2 {
+  f4x2(int8_t v) : bit4x2(v) {}
+  f4x2() : bit4x2() {}
+};
+
+template <typename T>
+inline constexpr JBLAS_DTYPE jblas_dtype = std::is_same_v<T, double>        ? JBLAS_DTYPE::F64
+                                           : std::is_same_v<T, float>       ? JBLAS_DTYPE::F32
+                                           : std::is_same_v<T, utils::bf16> ? JBLAS_DTYPE::BF16
+                                           : std::is_same_v<T, utils::fp16> ? JBLAS_DTYPE::F16
+                                           : std::is_same_v<T, int8_t>      ? JBLAS_DTYPE::S8
+                                           : std::is_same_v<T, uint8_t>     ? JBLAS_DTYPE::U8
+                                                                            : (assert(0), JBLAS_DTYPE::F32);
+template <typename T>
+inline constexpr const char* type_str = std::is_same_v<T, double>    ? "double"
+                                        : std::is_same_v<T, float>   ? "float"
+                                        : std::is_same_v<T, bf16>    ? "bf16"
+                                        : std::is_same_v<T, fp16>    ? "fp16"
+                                        : std::is_same_v<T, int8_t>  ? "int8_t"
+                                        : std::is_same_v<T, uint8_t> ? "uint8_t"
+                                                                     : (assert(0), "undef");
+
+inline const char* dtype2str(JBLAS_DTYPE dtype) {
+  switch (dtype) {
+    case JBLAS_DTYPE::F64:
+      return "float64";
+    case JBLAS_DTYPE::F32:
+      return "float32";
+    case JBLAS_DTYPE::F16:
+      return "float16";
+    case JBLAS_DTYPE::BF16:
+      return "bfloat16";
+    case JBLAS_DTYPE::F8_E4M3:
+      return "fp8_e4m3";
+    case JBLAS_DTYPE::F8_E5M2:
+      return "fp8_e5m2";
+    case JBLAS_DTYPE::F8_E3M4:
+      return "fp8_e3m4";
+    case JBLAS_DTYPE::S8:
+      return "signed_int8";
+    case JBLAS_DTYPE::U8:
+      return "unsigned_int8";
+    case JBLAS_DTYPE::S4_CLIP:
+      return "int4_clip";
+    case JBLAS_DTYPE::S4_FULLRANGE:
+      return "int4_fullrange";
+    case JBLAS_DTYPE::F4_E2M1:
+      return "fp4_e2m1";
+    case JBLAS_DTYPE::F4_BNB:
+      return "fp4_bitsandbytes";
+    case JBLAS_DTYPE::F4_NF4:
+      return "fp4_nf4";
+    case JBLAS_DTYPE::S32:
+      return "signed_int32";
+    case JBLAS_DTYPE::U32:
+      return "unsigned_int32";
+    default:
+      return "ErrType";
+  }
+}
+
+template <JBLAS_DTYPE DT>
+inline constexpr const char* dtype_str() {
+  return dtype2str(DT);
+}
+
+inline constexpr size_t jblas_dtype_size(const JBLAS_DTYPE t) {
+  auto bits = static_cast<uint32_t>(t) & static_cast<uint32_t>(0xff);
+  return bits >> 3;  // bits to bytes
+}
+
+#ifndef _WIN32
+static void request_perm_xtile_data() {
+  unsigned long bitmask;
+  long rc;
+
+  rc = syscall(SYS_arch_prctl, ARCH_REQ_XCOMP_PERM, XFEATURE_XTILEDATA);
+  if (rc) fatal_error("XTILE_DATA request failed: %ld", rc);
+
+  rc = syscall(SYS_arch_prctl, ARCH_GET_XCOMP_PERM, &bitmask);
+  if (rc) fatal_error("prctl(ARCH_GET_XCOMP_PERM) error: %ld", rc);
+#ifndef NDEBUG
+  if (bitmask & XFEATURE_MASK_XTILE) printf("ARCH_REQ_XCOMP_PERM XTILE_DATA successful.\n");
+#endif
+}
+#else
+static void request_perm_xtile_data() {}
+#endif
+
+template <JBLAS_ISA ISA_T>
+class isa_base {
+ public:
+  static bool constexpr avx = ISA_T >= JblasAVX;
+  static bool constexpr avx2 = ISA_T >= JblasAVX2;
+  static bool constexpr avx512f = ISA_T >= JblasAVX512F;
+  static bool constexpr avx512_vnni = ISA_T >= JblasAVX512_VNNI;
+  static bool constexpr avx512_fp16 = ISA_T >= JblasAVX512_FP16;
+  static bool constexpr amx_bf16 = ISA_T >= JblasAMX_BF16;
+  static bool constexpr amx_int8 = ISA_T >= JblasAMX_INT8;
+};
+
+static inline int padto_le(int src, int padding) { return src / padding * padding; }
+
+static inline size_t padto_le(size_t src, int padding) { return src / size_t(padding) * size_t(padding); }
+
+static inline int updiv(int a, int b) { return (a + b - 1) / b; }
+
+static inline size_t updiv(size_t a, int b) { return (a + b - 1) / b; }
+
+static inline int downdiv(int a, int b) { return a / b; }
+
+static inline int remainsize(int pos, int size, int N) { return pos + N <= size ? N : size - pos; }
+
+template <typename _SRCT, typename _DSTT>
+static inline _DSTT cast(_SRCT _src) {
+  return static_cast<_DSTT>(_src);
+}
+
+template <>
+int8_t cast(float _src) {
+  _src = roundf(_src);
+  _src = std::min(_src, 127.f);
+  _src = std::max(_src, -128.f);
+  return static_cast<int8_t>(_src);
+}
+
+template <>
+uint8_t cast(float _src) {
+  _src += 0.5f;
+  _src = std::min(_src, 255.f);
+  _src = std::max(_src, 0.f);
+  return static_cast<uint8_t>(_src);
+}
+
+template <>
+int cast(float _src) {
+  return int(roundf(_src));
+}
+
+template <>
+float cast(bf16 _src) {
+  return _src.tofloat();
+}
+
+template <>
+bf16 cast(float _src) {
+  bf16 tmp;
+  tmp.fromfloat(_src);
+  return tmp;
+}
+
+template <typename _T>
+void serialize(int8_t*& buf, _T _val) {
+  *reinterpret_cast<_T*>(buf) = _val;
+  buf += sizeof(_T);
+}
+
+template <typename _T>
+_T deserialize(int8_t*& buf) {
+  auto val = *reinterpret_cast<_T*>(buf);
+  buf += sizeof(_T);
+  return val;
+}
+
+static inline int padto(int a, int b) { return updiv(a, b) * b; }
+static inline size_t padto(size_t a, int b) { return updiv(a, b) * b; }
+
+template <int _Alignment, typename _T>
+static inline _T* pointer_align(_T* src) {
+  auto uptr = reinterpret_cast<uint64_t>(src);
+  return reinterpret_cast<_T*>((uptr + _Alignment - 1) / _Alignment * _Alignment);
+}
+
+template <typename _T>
+static inline _T* amalloc(size_t _size, size_t _alignment = 64) {
+  if (_size == 0) {
+    return NULL;
+  }
+  auto psize = padto(_size * sizeof(_T), static_cast<int>(_alignment));
+#ifdef _WIN32
+  return reinterpret_cast<_T*>(_aligned_malloc(psize, _alignment));
+#else
+  return reinterpret_cast<_T*>(aligned_alloc(_alignment, psize));
+#endif
+}
+
+static inline void afree(void* ptr) {
+  if (ptr == NULL) {
+    return;
+  }
+#ifdef _WIN32
+  _aligned_free(ptr);
+#else
+  free(ptr);
+#endif
+}
+
+template <typename _T, int _Alignment = 64>
+class aligned_vector {
+ public:
+  aligned_vector() : mRawsize(0), mPtr(nullptr), mAlignedsize(0) {}
+  aligned_vector(size_t _size) { resize(_size); }
+  aligned_vector(size_t _size, _T _val) {
+    resize(_size);
+    std::fill_n(mVec.begin(), mVec.size(), _val);
+  }
+  size_t size() { return mRawsize; }
+  void resize(size_t size) {
+    mRawsize = size;
+    mAlignedsize = (mRawsize + _Alignment - 1) / _Alignment * _Alignment + _Alignment;
+    if (size) {
+      mVec.resize(mAlignedsize);
+      auto uptr = reinterpret_cast<uint64_t>(mVec.data());
+      mPtr = reinterpret_cast<_T*>((uptr + _Alignment - 1) / _Alignment * _Alignment);
+    } else {
+      mPtr = NULL;
+    }
+  }
+  _T* data() const { return mPtr; }
+  _T& operator[](size_t _n) noexcept { return mPtr[_n]; }
+
+ protected:
+  size_t mAlignedsize, mRawsize;
+  std::vector<_T> mVec;
+  _T* mPtr;
+};
+
+template <typename _T, int _Alignment = 64>
+using avector = aligned_vector<_T, _Alignment>;
+
+using milliseconds = std::chrono::milliseconds;
+using nanoseconds = std::chrono::nanoseconds;
+using microseconds = std::chrono::microseconds;
+template <typename _DUR = std::chrono::milliseconds>
+class timer {
+ public:
+  using sclock_t = std::chrono::steady_clock;
+  using stime_point_t = std::chrono::time_point<sclock_t>;
+
+  timer() { clear(); }
+
+  void start() { startT = sclock_t::now(); }
+
+  void clear() { startT = stime_point_t::min(); }
+
+  bool null_state() { return startT == stime_point_t::min(); }
+
+  float stop() { return static_cast<float>(std::chrono::duration_cast<_DUR>(sclock_t::now() - startT).count()); }
+
+  stime_point_t startT;
+};
+
+template <typename T>
+class minmax_statistics {
+ public:
+  minmax_statistics() { clear(); }
+
+  void clear() {
+    min_val = std::numeric_limits<T>::max();
+    max_val = std::numeric_limits<T>::min();
+    avg_val = 0;
+    count = 0;
+  }
+
+  void add(T _val) {
+    min_val = min_val > _val ? _val : min_val;
+    max_val = max_val < _val ? _val : max_val;
+    count += 1;
+    avg_val = (avg_val * (count - 1) + _val) / count;
+  }
+
+  T min_val, max_val, avg_val;
+  size_t count;
+};
+
+template <int _PRINT_CYCLE_MS = 100, typename _PRECISION = microseconds, typename _LOG_PRECISION = milliseconds>
+class timer_statistics_logger {
+ public:
+  typedef timer<milliseconds> log_timer_t;
+  timer_statistics_logger() {
+    clear();
+    log_ratio = static_cast<float>(std::chrono::duration_cast<_PRECISION>(_LOG_PRECISION(1)).count());
+  }
+
+  void clear() {
+    statis.clear();
+    logtm.clear();
+  }
+
+  void start() {
+    if (logtm.null_state()) {
+      logtm.start();
+    }
+    tm.start();
+  }
+
+  bool stop() {
+    auto elapsed = tm.stop();
+    statis.add(elapsed);
+    if (logtm.stop() >= _PRINT_CYCLE_MS) {
+      record();
+      clear();
+      logtm.start();
+      return true;
+    }
+    return false;
+  }
+
+  bool add(float time) {
+    statis.add(time);
+    if (logtm.stop() >= _PRINT_CYCLE_MS) {
+      record();
+      clear();
+      logtm.start();
+      return true;
+    }
+    return false;
+  }
+
+  const char* get_log_str() {
+    sprintf(str, "Min:%.4f, Max:%.4f, Average:%.4f", min_val, max_val, avg_val);
+    return str;
+  }
+  float min_val, max_val, avg_val;
+
+ private:
+  void record() {
+    min_val = statis.min_val / log_ratio;
+    max_val = statis.max_val / log_ratio;
+    avg_val = statis.avg_val / log_ratio;
+  }
+  float log_ratio;
+  char str[256];
+  timer<_PRECISION> tm;
+  minmax_statistics<float> statis;
+  timer<milliseconds> logtm;
+};
+}  // namespace utils
+
+static float fp4_bnb_dequant_fp32_LUT[] = {
+    0.00000000f,        5.208333333e-03f,   0.66666667f,        1.00000000f,        0.33333333f,
+    0.50000000f,        0.16666667f,        0.25000000f,        -1.f * 0.00000000f, -1.f * 5.208333333e-03f,
+    -1.f * 0.66666667f, -1.f * 1.00000000f, -1.f * 0.33333333f, -1.f * 0.50000000f, -1.f * 0.16666667f,
+    -1.f * 0.25000000f};
+
+static float fp4_e2m1_dequant_fp32_LUT[] = {
+    0.f,
+    0.010416666666666666f,
+    0.16666666666666666f,
+    0.25f,
+    0.333333333333333f,
+    0.5f,
+    0.6666666666666f,
+    1.f,
+    -1.f * 0.f,
+    -1.f * 0.010416666666666666f,
+    -1.f * 0.16666666666666666f,
+    -1.f * 0.25f,
+    -1.f * 0.333333333333333f,
+    -1.f * 0.5f,
+    -1.f * 0.6666666666666f,
+    -1.f * 1.f,
+};
+
+static float nf4_dequant_fp32_LUT[] = {0.f,
+                                       -0.6961928009986877f,
+                                       -0.5250730514526367f,
+                                       -0.39491748809814453f,
+                                       -0.28444138169288635f,
+                                       -0.18477343022823334f,
+                                       -0.09105003625154495f,
+                                       -1.f,
+                                       0.07958029955625534f,
+                                       0.16093020141124725f,
+                                       0.24611230194568634f,
+                                       0.33791524171829224f,
+                                       0.44070982933044434f,
+                                       0.5626170039176941f,
+                                       0.7229568362236023f,
+                                       1.0f};
+}  // namespace jblas
diff --git a/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/jit_blas_wrapper.h b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/jit_blas_wrapper.h
new file mode 100644
index 0000000000000..27e240a822cdc
--- /dev/null
+++ b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/jit_blas_wrapper.h
@@ -0,0 +1,281 @@
+//  Copyright (c) 2023 Intel Corporation
+//
+//  Licensed under the Apache License, Version 2.0 (the "License");
+//  you may not use this file except in compliance with the License.
+//  You may obtain a copy of the License at
+//
+//    http://www.apache.org/licenses/LICENSE-2.0
+//
+//  Unless required by applicable law or agreed to in writing, software
+//  distributed under the License is distributed on an "AS IS" BASIS,
+//  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+//  See the License for the specific language governing permissions and
+//  limitations under the License.
+#pragma once
+#include <thread>
+
+#include "jit_blas_epilogue.h"
+#include "jit_blas_gemm.h"
+#include "jit_blas_prologue_a.h"
+#include "jit_blas_prologue_b.h"
+#include "jit_blas_utils.h"
+#include "kernel_avx512f.h"
+#include "kernel_jit.h"
+#include "kernel_ref.h"
+
+namespace jblas {
+namespace wrapper {
+namespace gemm {
+
+template <JBLAS_ISA _RT_ISA_T, class _GemmCore_T, template <class _T, JBLAS_ISA> class _PrologueA_T,
+          template <class _T, JBLAS_ISA> class _PrologueB_T, template <JBLAS_ISA> class _Epilogue_T>
+class LauncherBase {
+ public:
+  using GemmCore = _GemmCore_T;
+  using PrologueA = _PrologueA_T<GemmCore, _RT_ISA_T>;
+  using PrologueB = _PrologueB_T<GemmCore, _RT_ISA_T>;
+  using Epilogue = _Epilogue_T<_RT_ISA_T>;
+  using AType = typename GemmCore::AType;
+  using AParam = typename PrologueA::Param;
+  using BType = typename GemmCore::BType;
+  using BParam = typename PrologueB::Param;
+  using CType = typename GemmCore::CType;
+  using EpiParam = typename Epilogue::Param;
+  static_assert(GemmCore::ISA <= _RT_ISA_T, "RunTime ISA should cover GEMM's ISA");
+  struct Param {
+    const int M, N, K;
+    const AParam paramA;
+    const BParam paramB;
+    const EpiParam paramC;
+  };
+  _GemmCore_T mGemmCore;
+  PrologueA mProA;
+  PrologueB mProB;
+  Epilogue mEpilogue;
+
+  void run(const Param& _param, const parallel::gemm::ThreadProblemBase& _config) {
+    mGemmCore.configure();
+    auto StackTmp = alloca(_config.l2cachesize);
+    auto tmpB = reinterpret_cast<BType*>(StackTmp);
+    tmpB = utils::pointer_align<64>(tmpB);
+    auto tmpA = reinterpret_cast<AType*>(tmpB + static_cast<size_t>(_config.block[1]) * _config.block[2]);
+    tmpA = utils::pointer_align<64>(tmpA);
+    auto tmpC = reinterpret_cast<CType*>(tmpA + static_cast<size_t>(GemmCore::MTILE) * _config.block[2]);
+    tmpC = utils::pointer_align<64>(tmpC);
+    auto tmpCache = (void*)(tmpC + static_cast<size_t>(_config.block[0]) * _config.block[1]);
+    tmpCache = utils::pointer_align<64>(tmpCache);
+    for (int itern = 0; itern < _config.size[1]; itern += _config.block[1]) {
+      int n_remain = utils::remainsize(itern, _config.size[1], _config.block[1]);
+      for (int iterm = 0; iterm < _config.size[0]; iterm += _config.block[0]) {
+        int m_remain = utils::remainsize(iterm, _config.size[0], _config.block[0]);
+        run_block(_param, _config, iterm, itern, m_remain, n_remain, tmpA, tmpB, tmpC, tmpCache);
+      }
+    }
+  }
+
+ protected:
+  void run_block(const Param& _param, const parallel::gemm::ThreadProblemBase& _config, int blk_m, int blk_n,
+                 int blk_msize, int blk_nsize, AType* tmpA, BType* tmpB, CType* tmpC, void* tmpcache) {
+    int n_padded = utils::padto(blk_nsize, GemmCore::NTILE);
+    for (int iterk = 0; iterk < _param.K; iterk += _config.block[2]) {
+      int k_remain = utils::remainsize(iterk, _param.K, _config.block[2]);
+      int k_padded = utils::padto(k_remain, GemmCore::KTILE);
+      int k_paddedle = utils::padto_le(k_remain, GemmCore::KTILE);
+      auto bptr_cache = tmpB;
+      int bcache_step = 0;
+      mProB.getWeight(&bptr_cache, &bcache_step, k_padded, n_padded, iterk, _config.loc[1] + blk_n, _param.paramB,
+                      tmpcache, _config.tmpcachesize);
+      int bcache_stride = bcache_step * sizeof(BType);
+      for (int i = 0; i < blk_msize; i += GemmCore::MTILE) {
+        int m_remain = utils::remainsize(i, blk_msize, GemmCore::MTILE);
+        auto cptr_cache = tmpC + i * _config.block[1];
+        int ccache_stride = _config.block[1] * sizeof(CType);
+        if (k_paddedle) {
+          AType* aptr_cache = tmpA;
+          int acache_step = 0;
+          mProA.getActivation(&aptr_cache, &acache_step, _param.paramA, m_remain, k_paddedle,
+                              (blk_m + i + _config.loc[0]), iterk, tmpcache, _config.tmpcachesize);
+          mGemmCore.forward(aptr_cache, bptr_cache, cptr_cache, m_remain, n_padded, k_paddedle,
+                            acache_step * sizeof(AType), bcache_stride, ccache_stride, iterk, tmpcache,
+                            _config.tmpcachesize);
+        }
+        int k_tail = k_remain - k_paddedle;
+        if (k_tail) {
+          AType* aptr_cache = tmpA;
+          int acache_step = 0;
+          mProA.getActivation(&aptr_cache, &acache_step, _param.paramA, m_remain, k_tail, (blk_m + i + _config.loc[0]),
+                              iterk + k_paddedle, tmpcache, _config.tmpcachesize);
+          mGemmCore.forward(aptr_cache, bptr_cache + k_paddedle * GemmCore::NTILE, cptr_cache, m_remain, n_padded,
+                            GemmCore::KTILE, acache_step * sizeof(AType), bcache_stride, ccache_stride,
+                            iterk + k_paddedle, tmpcache, _config.tmpcachesize);
+        }
+      }
+    }
+    mEpilogue.forward(tmpC, _config.block[1], (_config.loc[0] + blk_m), _config.loc[1] + blk_n, blk_msize, blk_nsize,
+                      _param.paramC, tmpcache, _config.tmpcachesize);
+  }
+};
+
+template <JBLAS_ISA _RT_ISA_T, class _GemmCore_T, template <class _T, JBLAS_ISA> class _PrologueA_T,
+          template <class _T, JBLAS_ISA> class _PrologueB_T, template <JBLAS_ISA> class _BlockEpilogue_T,
+          template <JBLAS_ISA> class _Epilogue_T>
+class LauncherKBlock {
+ public:
+  using GemmCore = _GemmCore_T;
+  using PrologueA = _PrologueA_T<GemmCore, _RT_ISA_T>;
+  using PrologueB = _PrologueB_T<GemmCore, _RT_ISA_T>;
+  using Epilogue = _Epilogue_T<_RT_ISA_T>;
+  using BlockEpilogue = _BlockEpilogue_T<_RT_ISA_T>;
+  using AType = typename GemmCore::AType;
+  using AParam = typename PrologueA::Param;
+  using BType = typename GemmCore::BType;
+  using BParam = typename PrologueB::Param;
+  using CType = typename GemmCore::CType;
+  using BEpiParam = typename BlockEpilogue::Param;
+  using EpiParam = typename Epilogue::Param;
+  using AccType = float;
+  static_assert(GemmCore::ISA <= _RT_ISA_T, "RunTime ISA should cover GEMM's ISA");
+  struct Param {
+    const int M, N, K, KBlock;
+    const AParam paramA;
+    const BParam paramB;
+    const BEpiParam paramBlk;
+    const EpiParam paramC;
+  };
+  _GemmCore_T mGemmCore;
+  PrologueA mProA;
+  PrologueB mProB;
+  BlockEpilogue mBlockEpi;
+  Epilogue mEpilogue;
+
+  void run(const Param& _param, const parallel::gemm::ThreadProblemBase& _config) {
+    mGemmCore.configure();
+    auto StackTmp = alloca(_config.l2cachesize);
+    auto tmpB = reinterpret_cast<BType*>(StackTmp);
+    tmpB = utils::pointer_align<64>(tmpB);
+    auto tmpA = reinterpret_cast<AType*>(tmpB + static_cast<size_t>(_config.block[1]) * _config.block[2]);
+    tmpA = utils::pointer_align<64>(tmpA);
+    auto tmpC = reinterpret_cast<AccType*>(tmpA + static_cast<size_t>(GemmCore::MTILE) * _config.block[2]);
+    tmpC = utils::pointer_align<64>(tmpC);
+    auto tmpBlk = reinterpret_cast<CType*>(tmpC + static_cast<size_t>(_config.block[0]) * _config.block[1]);
+    tmpBlk = utils::pointer_align<64>(tmpBlk);
+    auto tmpCache = reinterpret_cast<void*>(tmpBlk + static_cast<size_t>(_config.block[0]) * _config.block[1]);
+    tmpCache = utils::pointer_align<64>(tmpCache);
+    for (int itern = 0; itern < _config.size[1]; itern += _config.block[1]) {
+      int n_remain = utils::remainsize(itern, _config.size[1], _config.block[1]);
+      for (int iterm = 0; iterm < _config.size[0]; iterm += _config.block[0]) {
+        int m_remain = utils::remainsize(iterm, _config.size[0], _config.block[0]);
+        std::memset(tmpC, 0, _config.block[0] * _config.block[1] * sizeof(AccType));
+        if (_param.KBlock <= _config.block[2]) {
+          run_block(_param, _config, iterm, itern, m_remain, n_remain, tmpA, tmpB, tmpBlk, tmpC, tmpCache);
+        } else {
+          run_block_large(_param, _config, iterm, itern, m_remain, n_remain, tmpA, tmpB, tmpBlk, tmpC, tmpCache);
+        }
+      }
+    }
+  }
+
+ protected:
+  void run_block(const Param& _param, const parallel::gemm::ThreadProblemBase& _config, int blk_m, int blk_n,
+                 int blk_msize, int blk_nsize, AType* tmpA, BType* tmpB, CType* tmpBlk, AccType* tmpC, void* tmpcache) {
+    int n_padded = utils::padto(blk_nsize, GemmCore::NTILE);
+    for (int iterk = 0; iterk < _param.K; iterk += _config.block[2]) {
+      int k_remain = utils::remainsize(iterk, _param.K, _config.block[2]);
+      int k_padded = utils::padto(k_remain, GemmCore::KTILE);
+      auto bptr_cache = tmpB;
+      int bcache_step = 0;
+      mProB.getKBlockWeight(&bptr_cache, &bcache_step, k_padded, n_padded, iterk, _config.loc[1] + blk_n, _param.paramB,
+                            tmpcache, _config.tmpcachesize);
+      int bcache_stride = bcache_step * sizeof(BType);
+
+      for (int ikk = 0; ikk < k_remain; ikk += _param.KBlock) {
+        int k_remain1 = utils::remainsize(iterk + ikk, _param.K, _param.KBlock);
+        int k_paddedle1 = utils::padto_le(k_remain1, GemmCore::KTILE);
+        for (int i = 0; i < blk_msize; i += GemmCore::MTILE) {
+          int m_remain = utils::remainsize(i, blk_msize, GemmCore::MTILE);
+          auto cptr_cache = tmpBlk + i * _config.block[1];
+          int ccache_stride = _config.block[1] * sizeof(CType);
+          if (k_paddedle1) {
+            AType* aptr_cache = tmpA;
+            int acache_step = 0;
+            mProA.getActivation(&aptr_cache, &acache_step, _param.paramA, m_remain, k_paddedle1,
+                                (blk_m + i + _config.loc[0]), iterk + ikk, tmpcache, _config.tmpcachesize);
+            mGemmCore.forward(aptr_cache, bptr_cache + ikk * GemmCore::NTILE, cptr_cache, m_remain, n_padded,
+                              k_paddedle1, acache_step * sizeof(AType), bcache_stride, ccache_stride, 0, tmpcache,
+                              _config.tmpcachesize);
+          }
+          int k_tail = k_remain1 - k_paddedle1;
+          if (k_tail) {
+            AType* aptr_cache = tmpA;
+            int acache_step = 0;
+            mProA.getActivation(&aptr_cache, &acache_step, _param.paramA, m_remain, k_tail,
+                                (blk_m + i + _config.loc[0]), iterk + ikk + k_paddedle1, tmpcache,
+                                _config.tmpcachesize);
+            mGemmCore.forward(aptr_cache, bptr_cache + (ikk + k_paddedle1) * GemmCore::NTILE, cptr_cache, m_remain,
+                              n_padded, k_tail, acache_step * sizeof(AType), bcache_stride, ccache_stride,
+                              0 + k_paddedle1, tmpcache, _config.tmpcachesize);
+          }
+        }
+        mBlockEpi.forward(tmpBlk, tmpC, _config.block[1], (_config.loc[0] + blk_m), _config.loc[1] + blk_n,
+                          (iterk + ikk) / _param.KBlock, blk_msize, blk_nsize, _param.paramBlk, tmpcache,
+                          _config.tmpcachesize);
+      }
+    }
+    auto cachewithblk = _config.tmpcachesize + static_cast<size_t>(_config.block[0]) * _config.block[1] * sizeof(CType);
+    mEpilogue.forward(tmpC, _config.block[1], (_config.loc[0] + blk_m), _config.loc[1] + blk_n, blk_msize, blk_nsize,
+                      _param.paramC, tmpBlk, cachewithblk);
+  }
+
+  void run_block_large(const Param& _param, const parallel::gemm::ThreadProblemBase& _config, int blk_m, int blk_n,
+                       int blk_msize, int blk_nsize, AType* tmpA, BType* tmpB, CType* tmpBlk, AccType* tmpC,
+                       void* tmpcache) {
+    int n_padded = utils::padto(blk_nsize, GemmCore::NTILE);
+    assert(_param.K % _param.KBlock == 0);
+    for (int iterk = 0; iterk < _param.K; iterk += _param.KBlock) {
+      memset(tmpBlk, 0, sizeof(CType) * blk_msize * _config.block[1]);
+      for (int iblkk = 0; iblkk < _param.KBlock; iblkk += _config.block[2]) {
+        int k_remain = utils::remainsize(iterk + iblkk, iterk + _param.KBlock, _config.block[2]);
+        int k_padded = utils::padto(k_remain, GemmCore::KTILE);
+        int k_paddedle = utils::padto_le(k_remain, GemmCore::KTILE);
+        auto bptr_cache = tmpB;
+        int bcache_step = 0;
+        mProB.getKBlockWeight(&bptr_cache, &bcache_step, k_padded, n_padded, iterk + iblkk, _config.loc[1] + blk_n,
+                              _param.paramB, tmpcache, _config.tmpcachesize);
+        int bcache_stride = bcache_step * sizeof(BType);
+        for (int i = 0; i < blk_msize; i += GemmCore::MTILE) {
+          int m_remain = utils::remainsize(i, blk_msize, GemmCore::MTILE);
+          auto cptr_cache = tmpBlk + i * _config.block[1];
+          int ccache_stride = _config.block[1] * sizeof(CType);
+          if (k_paddedle) {
+            AType* aptr_cache = tmpA;
+            int acache_step = 0;
+            mProA.getActivation(&aptr_cache, &acache_step, _param.paramA, m_remain, k_paddedle,
+                                (blk_m + i + _config.loc[0]), iterk + iblkk, tmpcache, _config.tmpcachesize);
+            mGemmCore.forward(aptr_cache, bptr_cache, cptr_cache, m_remain, n_padded, k_paddedle,
+                              acache_step * sizeof(AType), bcache_stride, ccache_stride, iblkk, tmpcache,
+                              _config.tmpcachesize);
+          }
+          int k_tail = k_remain - k_paddedle;
+          if (k_tail) {
+            AType* aptr_cache = tmpA;
+            int acache_step = 0;
+            mProA.getActivation(&aptr_cache, &acache_step, _param.paramA, m_remain, k_tail,
+                                (blk_m + i + _config.loc[0]), iterk + k_paddedle + iblkk, tmpcache,
+                                _config.tmpcachesize);
+            mGemmCore.forward(aptr_cache, bptr_cache + k_paddedle * GemmCore::NTILE, cptr_cache, m_remain, n_padded,
+                              k_tail, acache_step * sizeof(AType), bcache_stride, ccache_stride, iblkk + k_paddedle,
+                              tmpcache, _config.tmpcachesize);
+          }
+        }
+      }
+      mBlockEpi.forward(tmpBlk, tmpC, _config.block[1], (_config.loc[0] + blk_m), _config.loc[1] + blk_n,
+                        iterk / _param.KBlock, blk_msize, blk_nsize, _param.paramBlk, tmpcache, _config.tmpcachesize);
+    }
+    auto cachewithblk = _config.tmpcachesize + static_cast<size_t>(_config.block[0]) * _config.block[1] * sizeof(CType);
+    mEpilogue.forward(tmpC, _config.block[1], (_config.loc[0] + blk_m), _config.loc[1] + blk_n, blk_msize, blk_nsize,
+                      _param.paramC, tmpBlk, cachewithblk);
+  }
+};
+}  // namespace gemm
+}  // namespace wrapper
+}  // namespace jblas
diff --git a/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/kernel_avx2.h b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/kernel_avx2.h
new file mode 100644
index 0000000000000..56472aba64f91
--- /dev/null
+++ b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/kernel_avx2.h
@@ -0,0 +1,874 @@
+//  Copyright (c) 2023 Intel Corporation
+//
+//  Licensed under the Apache License, Version 2.0 (the "License");
+//  you may not use this file except in compliance with the License.
+//  You may obtain a copy of the License at
+//
+//    http://www.apache.org/licenses/LICENSE-2.0
+//
+//  Unless required by applicable law or agreed to in writing, software
+//  distributed under the License is distributed on an "AS IS" BASIS,
+//  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+//  See the License for the specific language governing permissions and
+//  limitations under the License.
+#pragma once
+#include "jblas/jit_blas.h"
+#include "kernel_ref.h"
+#include "jit_blas_utils.h"
+#if CompileAVX2()
+#include <immintrin.h>
+#endif
+namespace jblas {
+namespace kernel {
+namespace avx2 {
+#if CompileAVX2()
+#ifdef __GNUC__
+#pragma GCC push_options
+#pragma GCC target("avx2", "fma")
+#else
+#endif
+
+static uint8_t shuffle_map[] = {0x00, 0x01, 0x02, 0x03, 0xff, 0xff, 0xff, 0xff,
+                                0x04, 0x05, 0x06, 0x07, 0xff, 0xff, 0xff, 0xff};
+
+template <JBLAS_DTYPE S4_T>
+static inline __m128i unpack_4bits_sse(void* srcptr) {
+  auto shuffle_v = _mm_loadu_si128(reinterpret_cast<__m128i*>(shuffle_map));
+  auto raw_data = _mm_loadl_epi64(reinterpret_cast<__m128i*>(srcptr));
+  auto xmm0 = _mm_shuffle_epi8(raw_data, shuffle_v);
+  auto xmm1 = _mm_srli_epi32(xmm0, 0x04);
+  auto and_helper = _mm_set1_epi8(0x0f);
+  xmm0 = _mm_and_si128(xmm0, and_helper);
+  xmm1 = _mm_and_si128(xmm1, and_helper);
+  auto xmm2 = _mm_unpacklo_epi8(xmm0, xmm1);
+  auto xmm3 = _mm_unpackhi_epi8(xmm0, xmm1);
+  xmm2 = _mm_unpacklo_epi64(xmm2, xmm3);
+  if constexpr (S4_T != JBLAS_DTYPE::S4_FULLRANGE) xmm2 = _mm_slli_epi32(xmm2, 4);
+  return xmm2;
+}
+
+inline __m256 ymm_cvt_bf16_fp32(__m128i vbf16) {
+  auto vf32 = _mm256_cvtepu16_epi32(vbf16);
+  return _mm256_castsi256_ps(_mm256_slli_epi32(vf32, 16));
+}
+
+inline __m128i ymm_cvtepi32_epi16(__m256i src) {
+  __m128i tmp;
+#ifdef __GNUC__
+  for (size_t i = 0; i < 8; i++) {
+    (reinterpret_cast<int16_t*>(&tmp))[i] = (reinterpret_cast<int32_t*>(&src))[i];
+  }
+#else
+  for (size_t i = 0; i < 8; i++) {
+    tmp.m128i_i16[i] = src.m256i_i32[i];
+  }
+#endif
+  return tmp;
+}
+
+inline __m128i ymm_cvt_fp32_bf16(__m256 vfp32) {
+  return ymm_cvtepi32_epi16(_mm256_bsrli_epi128(_mm256_castps_si256(vfp32), 2));
+}
+
+template <JBLAS_DTYPE S4_T>
+static inline void convert_s4_s8_16_sse(int8_t* dstptr, int8_t* srcptr) {
+  auto dst0 = unpack_4bits_sse<S4_T>(srcptr);
+  if constexpr (S4_T == JBLAS_DTYPE::S4_FULLRANGE) {
+    auto s8 = _mm_set1_epi8(8);
+    dst0 = _mm_sub_epi8(dst0, s8);
+  }
+  _mm_storeu_si128(reinterpret_cast<__m128i*>(dstptr), dst0);
+}
+
+template <typename T>
+static inline void convert_s8_fp_v8(T* dstptr, int8_t* srcptr) {
+  auto xmm = _mm_loadl_epi64(reinterpret_cast<__m128i*>(srcptr));
+  auto ymm = _mm256_cvtepi8_epi32(xmm);
+  auto ymm1 = _mm256_cvtepi32_ps(ymm);
+  if constexpr (std::is_same_v<T, utils::bf16>) {
+    auto xmm = ymm_cvt_fp32_bf16(ymm1);
+    _mm_storeu_si128(reinterpret_cast<__m128i*>(dstptr), xmm);
+  } else {
+    _mm256_storeu_ps(dstptr, ymm1);
+  }
+}
+
+static inline void fp4_pad_4bit(int8_t* dstptr, int8_t* srcptr) {
+  auto dst0 = unpack_4bits_sse<JBLAS_DTYPE::S4_FULLRANGE>(srcptr);
+  _mm_storeu_si128(reinterpret_cast<__m128i*>(dstptr), dst0);
+}
+
+template <int N, bool _IS_SYM>
+static inline void dequant_s8_N_avx2(float* dstptr, int8_t* srcptr, __m256* vscales, __m256i* vzps = nullptr) {
+  static_assert(N % 8 == 0);
+  int constexpr VLoop = N / 8;
+  for (int iv = 0; iv < VLoop; iv += 1) {
+    auto src_s8 = _mm_loadl_epi64(reinterpret_cast<__m128i*>(srcptr + iv * 8));
+    auto zmm = _mm256_cvtepi8_epi32(src_s8);
+    if constexpr (!_IS_SYM) zmm = _mm256_sub_epi32(zmm, vzps[iv]);
+    auto fzmm = _mm256_cvtepi32_ps(zmm);
+    fzmm = _mm256_mul_ps(fzmm, vscales[iv]);
+    _mm256_storeu_ps(dstptr + iv * 8, fzmm);
+  }
+}
+
+static inline JBLAS_CODE alphabeta_f32_f32(const float alpha, const float* srcptr, const int srcstep, const float beta,
+                                           const float* src1ptr, const int src1step, float* dstptr, const int dststep,
+                                           const int M, const int N) {
+  int constexpr Vlen = 8;
+  auto vN = utils::padto_le(N, Vlen);
+  auto valpha = _mm256_set1_ps(alpha);
+  auto vbeta = _mm256_set1_ps(beta);
+
+  for (int i = 0; i < M; i++) {
+    int j = 0;
+    if (beta != 0.f) {
+      for (; j < vN; j += Vlen) {
+        auto vsrc = _mm256_loadu_ps(srcptr + i * srcstep + j);
+        auto vsrc1 = _mm256_loadu_ps(src1ptr + i * src1step + j);
+        auto vdst = _mm256_mul_ps(valpha, vsrc);
+        vdst = _mm256_fmadd_ps(vbeta, vsrc1, vdst);
+        _mm256_storeu_ps(dstptr + i * dststep + j, vdst);
+      }
+      for (; j < N; j += 1) {
+        dstptr[i * dststep + j] = alpha * srcptr[i * srcstep + j] + beta * src1ptr[i * src1step + j];
+      }
+    } else {
+      for (; j < vN; j += Vlen) {
+        auto vsrc = _mm256_loadu_ps(srcptr + i * srcstep + j);
+        auto vdst = _mm256_mul_ps(valpha, vsrc);
+        _mm256_storeu_ps(dstptr + i * dststep + j, vdst);
+      }
+      for (; j < N; j += 1) {
+        dstptr[i * dststep + j] = alpha * srcptr[i * srcstep + j];
+      }
+    }
+  }
+  return JblasSuccess;
+}
+
+template <bool WITH_ZP>
+JBLAS_CODE dequant_kblock_s8_f32_fwd(int8_t* srcptr, float* dstptr, int row, int col, int ld_src, int ld_dst,
+                                     float* scales, int8_t* zero_points, int k_offset, int kblock, int NPad) {
+  const int Vlen = 8;
+  size_t simd_process_num = utils::padto_le(col, Vlen);
+  for (int i = 0; i < row; i++) {
+    int kpos = (k_offset + i) / kblock;
+    auto sptr = scales + kpos * NPad;
+    int j = 0;
+    for (; j < simd_process_num; j += Vlen) {
+      auto s8_ymm_v = _mm_loadl_epi64(reinterpret_cast<__m128i*>(srcptr + i * ld_src + j));
+      auto s32_ymm_v = _mm256_cvtepi8_epi32(s8_ymm_v);
+      if constexpr (WITH_ZP) {
+        s32_ymm_v = _mm256_sub_epi32(
+            s32_ymm_v,
+            _mm256_cvtepi8_epi32(_mm_loadl_epi64(reinterpret_cast<__m128i*>(zero_points + kpos * NPad + j))));
+      }
+      auto f32_ymm_v = _mm256_cvtepi32_ps(s32_ymm_v);
+      f32_ymm_v = _mm256_mul_ps(f32_ymm_v, _mm256_loadu_ps(sptr + j));
+      _mm256_storeu_ps(dstptr + i * ld_dst + j, f32_ymm_v);
+    }
+    for (; j < col; j++) {
+      float tmp = (float)(srcptr[i * ld_src + j]);
+      if constexpr (WITH_ZP) tmp -= (float)(zero_points[kpos * NPad + j]);
+      dstptr[i * ld_dst + j] = tmp * sptr[j];
+    }
+  }
+  return JblasSuccess;
+}
+
+static inline JBLAS_CODE dequant_kblock_s8_f32(int8_t* srcptr, float* dstptr, int row, int col, int ld_src, int ld_dst,
+                                               float* scales, int8_t* zero_points, int k_offset, int kblock, int NPad) {
+  if (zero_points == nullptr)
+    return dequant_kblock_s8_f32_fwd<false>(srcptr, dstptr, row, col, ld_src, ld_dst, scales, zero_points, k_offset,
+                                            kblock, NPad);
+  else
+    return dequant_kblock_s8_f32_fwd<true>(srcptr, dstptr, row, col, ld_src, ld_dst, scales, zero_points, k_offset,
+                                           kblock, NPad);
+}
+
+template <typename SCAB_T>
+static inline JBLAS_CODE dequant_s32_fp32(const int32_t* srcptr, const int srcstep, float* dstptr, const int dststep,
+                                          const int row, const int col, const float* scaleA, const int ldsa,
+                                          const SCAB_T* scaleB) {
+  int col8 = utils::padto_le(col, 8);
+  for (int irow = 0; irow < row; irow++) {
+    auto scale = scaleA[irow * ldsa];
+    auto valpha = _mm256_set1_ps(scale);
+    int icol = 0;
+    for (; icol < col8; icol += 8) {
+      __m256 vwscale;
+      if constexpr (std::is_same_v<SCAB_T, float>) {
+        vwscale = _mm256_loadu_ps(scaleB + icol);
+      } else if constexpr (std::is_same_v<SCAB_T, utils::bf16>) {
+        auto tmp = _mm_loadu_si128(reinterpret_cast<__m128i*>(scaleB + icol));
+        vwscale = ymm_cvt_bf16_fp32(tmp);
+      }
+      auto vscale = _mm256_mul_ps(valpha, vwscale);
+      auto vsrcd = _mm256_loadu_si256(reinterpret_cast<const __m256i*>(srcptr + irow * srcstep + icol));
+      auto vsrc = _mm256_cvtepi32_ps(vsrcd);
+      vsrc = _mm256_mul_ps(vsrc, vscale);
+      _mm256_storeu_ps(dstptr + irow * dststep + icol, vsrc);
+    }
+    for (; icol < col; icol += 1) {
+      dstptr[irow * dststep + icol] = scale * scaleB[icol] * srcptr[irow * srcstep + icol];
+    }
+  }
+  return JblasSuccess;
+}
+
+static inline JBLAS_CODE remove_act_zeropoint_bias(float* accptr, int ldacc, int row, int col, uint8_t* zps,
+                                                   float* scales, int lds, const float* reduce) {
+  int constexpr VLen = 8;
+  auto col8 = utils::padto_le(col, VLen);
+  for (int i = 0; i < row; i++) {
+    auto zpf = static_cast<float>(zps[i * lds]) * scales[i * lds];
+    int j = 0;
+    auto vzp = _mm256_set1_ps(-zpf);
+    for (; j < col8; j += VLen) {
+      auto vreduce = _mm256_loadu_ps(reduce + j);
+      auto vacc = _mm256_loadu_ps(&accptr[i * ldacc + j]);
+      vacc = _mm256_fmadd_ps(vzp, vreduce, vacc);
+      _mm256_storeu_ps(&accptr[i * ldacc + j], vacc);
+    }
+    if (j < col) {
+      for (; j < col; j++) {
+        accptr[i * ldacc + j] -= zpf * reduce[j];
+      }
+    }
+  }
+  return JblasSuccess;
+}
+
+static inline JBLAS_CODE remove_wei_zeropoint_bias(float* accptr, int ldacc, int row, int col, int8_t* zps,
+                                                   float* scales, int lds, const float* reduce) {
+  int constexpr VLen = 8;
+  auto col8 = utils::padto_le(col, VLen);
+  const int32_t mask[] = {-1, -1, 0, 0};
+  for (int i = 0; i < row; i++) {
+    auto vreduce = _mm256_set1_ps(-reduce[i * lds]);
+    int j = 0;
+    for (; j < col8; j += VLen) {
+      auto vzp_s32 = _mm256_cvtepi8_epi32(_mm_maskload_epi32(reinterpret_cast<const int*>(zps + j),
+                                                             _mm_loadu_si128(reinterpret_cast<const __m128i*>(mask))));
+      auto vzp_f32 = _mm256_cvtepi32_ps(vzp_s32);
+      auto vzp = _mm256_mul_ps(vzp_f32, _mm256_loadu_ps(scales + j));
+      auto vacc = _mm256_loadu_ps(&accptr[i * ldacc + j]);
+      vacc = _mm256_fmadd_ps(vzp, vreduce, vacc);
+      _mm256_storeu_ps(&accptr[i * ldacc + j], vacc);
+    }
+    if (j < col) {
+      for (; j < col; j++) {
+        accptr[i * ldacc + j] -= static_cast<float>(zps[j]) * scales[j] * reduce[i * lds];
+      }
+    }
+  }
+  return JblasSuccess;
+}
+
+static inline JBLAS_CODE remove_zeropoint_bias(float* accptr, int ldacc, int row, int col, uint8_t* zpa, int8_t* zpb,
+                                               float* scalea, float* scaleb, int lds, int k, const float* reducea,
+                                               const float* reduceb) {
+  int constexpr VLen = 8;
+  auto col8 = utils::padto_le(col, VLen);
+  auto vk = _mm256_set1_ps(static_cast<float>(k));
+  const int32_t mask[] = {-1, -1, 0, 0};
+  for (int i = 0; i < row; i++) {
+    auto vreducea = _mm256_set1_ps(-reducea[i * lds]);
+    auto zpaf = static_cast<float>(zpa[i * lds]) * scalea[i * lds];
+    auto vzpa = _mm256_set1_ps(-zpaf);
+    int j = 0;
+    for (; j < col8; j += VLen) {
+      auto vzp_s32 = _mm256_cvtepi8_epi32(_mm_maskload_epi32(reinterpret_cast<const int*>(zpb + j),
+                                                             _mm_loadu_si128(reinterpret_cast<const __m128i*>(mask))));
+      auto vzp_f32 = _mm256_cvtepi32_ps(vzp_s32);
+      auto vzpb = _mm256_mul_ps(vzp_f32, _mm256_loadu_ps(scaleb + j));
+      auto vreduceb = _mm256_loadu_ps(reduceb + j);
+      auto vacc = _mm256_loadu_ps(&accptr[i * ldacc + j]);
+      vacc = _mm256_fmadd_ps(vzpa, vreduceb, vacc);
+      vacc = _mm256_fmadd_ps(vzpb, vreducea, vacc);
+      vzpb = _mm256_mul_ps(vzpb, vk);
+      vacc = _mm256_fmadd_ps(vzpa, vzpb, vacc);
+      _mm256_storeu_ps(&accptr[i * ldacc + j], vacc);
+    }
+    if (j < col) {
+      for (; j < col; j++) {
+        accptr[i * ldacc + j] -= static_cast<float>(zpb[j]) * scaleb[j] * reducea[i * lds];
+        accptr[i * ldacc + j] -= zpaf * reduceb[j];
+        accptr[i * ldacc + j] -= zpaf * static_cast<float>(zpb[j]) * scaleb[j] * k;
+      }
+    }
+  }
+  return JblasSuccess;
+}
+
+template <JBLAS_DTYPE S4_T>
+static inline JBLAS_CODE decompress_s4_s8(utils::int4x2* srcptr, int8_t* dstptr, int row, int col, int ld_src,
+                                          int ld_dst) {
+  uint32_t mask = 0xf0f0f0f0;
+  auto vmask = _mm256_set1_epi32(*reinterpret_cast<int*>(&mask));
+  if (col == ld_src) {
+    size_t elesize = static_cast<size_t>(row) * col;
+    size_t ele16 = utils::padto_le(elesize, 16);
+    size_t i = 0;
+#pragma unroll
+    for (; i < ele16; i += 16) {
+      convert_s4_s8_16_sse<S4_T>(dstptr + i, reinterpret_cast<int8_t*>(srcptr + i / 2));
+    }
+    for (; i < elesize; i += 2) {
+      auto tmp = srcptr[i / 2];
+      dstptr[i + 0] = jblas::kernel::ref::get_s8<S4_T>(tmp.x);
+      dstptr[i + 1] = jblas::kernel::ref::get_s8<S4_T>(tmp.y);
+    }
+    return JblasSuccess;
+  }
+  return JblasNotSupport;
+}
+
+template <JBLAS_DTYPE S4_T, typename _DST_T>
+inline JBLAS_CODE decompress_kblock_s4_s8fp(utils::int4x2* srcptr, _DST_T* dstptr, int row, int col, int ld_src,
+                                            int ld_dst, int8_t* tmp, size_t tmpsize) {
+  uint32_t mask = 0xf0f0f0f0;
+  auto vmask = _mm256_set1_epi32(*reinterpret_cast<int*>(&mask));
+  if (col == ld_src) {
+    size_t elesize = static_cast<size_t>(row) * col;
+    size_t ele16 = utils::padto_le(elesize, 16);
+    size_t i = 0;
+    assert(tmpsize >= 16);
+#pragma unroll
+    for (; i < ele16; i += 16) {
+      convert_s4_s8_16_sse<S4_T>(tmp, reinterpret_cast<int8_t*>(srcptr + i / 2));
+      convert_s8_fp_v8(dstptr + i, tmp);
+      convert_s8_fp_v8(dstptr + i + 8, tmp + 8);
+    }
+    for (; i < elesize; i += 2) {
+      auto tmp = srcptr[i / 2];
+      dstptr[i + 0] = static_cast<_DST_T>(static_cast<float>(ref::get_s8<S4_T>(tmp.x)));
+      dstptr[i + 1] = static_cast<_DST_T>(static_cast<float>(ref::get_s8<S4_T>(tmp.y)));
+    }
+    return JblasSuccess;
+  }
+  return JblasSuccess;
+}
+
+template <typename DST_T>
+inline JBLAS_CODE decompress_kblock_s8_s8fp(int8_t* srcptr, DST_T* dstptr, int row, int col, int ld_src, int ld_dst) {
+  if (col == ld_src) {
+    size_t elesize = (size_t)row * col;
+    size_t ele64 = utils::padto_le(elesize, 64);
+    size_t i = 0;
+    if (i + 64 <= ele64) {
+      for (; i < ele64; i += 64) {
+        for (size_t j = 0; j < 64; j += 8) {
+          convert_s8_fp_v8(dstptr + i + j, srcptr + i + j);
+        }
+      }
+    }
+    for (; i < elesize; i += 1) {
+      auto tmp = srcptr[i];
+      dstptr[i] = static_cast<DST_T>(static_cast<float>(tmp));
+    }
+    return JblasSuccess;
+  }
+  return JblasNotSupport;
+}
+
+template <typename SCA_T>
+static inline JBLAS_CODE accum_alphaN_f32_f32(const SCA_T* alpha, const float* srcptr, const int srcstep, float* dstptr,
+                                              const int dststep, const int M, const int N) {
+  int constexpr Vlen = 8;
+  auto vN = utils::padto_le(N, Vlen);
+  int j = 0;
+  for (; j < vN; j += Vlen) {
+    __m256 valpha;
+    if constexpr (std::is_same_v<SCA_T, float>) {
+      valpha = _mm256_loadu_ps(alpha + j);
+    } else if constexpr (std::is_same_v<SCA_T, utils::bf16>) {
+      auto tmp = _mm_loadu_si128(reinterpret_cast<const __m128i*>(alpha + j));
+      valpha = ymm_cvt_bf16_fp32(tmp);
+    }
+    for (size_t i = 0; i < M; i++) {
+      auto vsrc = _mm256_loadu_ps(srcptr + i * srcstep + j);
+      auto vsrc1 = _mm256_loadu_ps(dstptr + i * dststep + j);
+      auto vdst = _mm256_fmadd_ps(valpha, vsrc, vsrc1);
+      _mm256_storeu_ps(dstptr + i * dststep + j, vdst);
+    }
+  }
+  for (; j < N; j += 1) {
+    for (size_t i = 0; i < M; i++) {
+      dstptr[i * dststep + j] += alpha[j] * srcptr[i * srcstep + j];
+    }
+  }
+  return JblasSuccess;
+}
+
+template <int N, typename _DST_T, JBLAS_DTYPE F4_T>
+static inline void dequant_f4_N(_DST_T* dstptr, int8_t* srcptr, __m256* vscales, __m256i* vzps) {
+  static_assert(N % 8 == 0);
+  float* LUT;
+  static_assert(F4_T == JBLAS_DTYPE::F4_BNB || F4_T == JBLAS_DTYPE::F4_NF4 || F4_T == JBLAS_DTYPE::F4_E2M1,
+                "Unsupported F4 type");
+  if constexpr (F4_T == JBLAS_DTYPE::F4_BNB) {
+    LUT = fp4_bnb_dequant_fp32_LUT;
+  } else if constexpr (F4_T == JBLAS_DTYPE::F4_NF4) {
+    LUT = nf4_dequant_fp32_LUT;
+  } else if constexpr (F4_T == JBLAS_DTYPE::F4_E2M1) {
+    LUT = fp4_e2m1_dequant_fp32_LUT;
+  }
+  int constexpr VLoop = N / 8;
+#pragma unroll(VLoop)
+  for (int iv = 0; iv < VLoop; iv++) {
+    auto idx = _mm_loadl_epi64(reinterpret_cast<__m128i*>(srcptr + iv * 8));
+    auto pad_idx = _mm256_cvtepu8_epi32(idx);
+    auto fp32_dq_v = _mm256_i32gather_ps(LUT, pad_idx, 4);
+    fp32_dq_v = _mm256_mul_ps(fp32_dq_v, vscales[iv]);
+    if constexpr (std::is_same_v<_DST_T, float>) {
+      _mm256_storeu_ps(dstptr + iv * 8, fp32_dq_v);
+    } else if constexpr (std::is_same_v<_DST_T, utils::bf16>) {
+      auto bf16v = ymm_cvt_fp32_bf16(fp32_dq_v);
+      _mm_storeu_si128(reinterpret_cast<__m128i*>(dstptr + iv * 8), bf16v);
+    }
+  }
+}
+
+template <int N, typename _DST_T, JBLAS_DTYPE F4_T>
+static inline void unpack_f4_N(_DST_T* dstptr, int8_t* srcptr) {
+  static_assert(N % 8 == 0);
+  float* LUT;
+  static_assert(F4_T == JBLAS_DTYPE::F4_BNB || F4_T == JBLAS_DTYPE::F4_NF4 || F4_T == JBLAS_DTYPE::F4_E2M1,
+                "Unsupported F4 type");
+  if constexpr (F4_T == JBLAS_DTYPE::F4_BNB) {
+    LUT = fp4_bnb_dequant_fp32_LUT;
+  } else if constexpr (F4_T == JBLAS_DTYPE::F4_NF4) {
+    LUT = nf4_dequant_fp32_LUT;
+  } else if constexpr (F4_T == JBLAS_DTYPE::F4_E2M1) {
+    LUT = fp4_e2m1_dequant_fp32_LUT;
+  }
+  int constexpr VLoop = N / 8;
+#pragma unroll(VLoop)
+  for (int iv = 0; iv < VLoop; iv++) {
+    auto idx = _mm_loadl_epi64(reinterpret_cast<__m128i*>(srcptr + iv * 8));
+    auto pad_idx = _mm256_cvtepu8_epi32(idx);
+    auto fp32_dq_v = _mm256_i32gather_ps(LUT, pad_idx, 4);
+    if constexpr (std::is_same_v<_DST_T, float>) {
+      _mm256_storeu_ps(dstptr + iv * 8, fp32_dq_v);
+    } else if constexpr (std::is_same_v<_DST_T, utils::bf16>) {
+      auto bf16v = ymm_cvt_fp32_bf16(fp32_dq_v);
+      _mm_storeu_si128(reinterpret_cast<__m128i*>(dstptr + iv * 8), bf16v);
+    }
+  }
+}
+
+template <JBLAS_DTYPE F4_T, typename DST_T>
+inline JBLAS_CODE decompress_kblock_f4_fp_noscale(utils::f4x2* srcptr, DST_T* dstptr, int row, int col, int ld_src,
+                                                  int ld_dst, int8_t* tmp, size_t tmpsize) {
+  uint32_t mask = 0xf0f0f0f0;
+  auto vmask = _mm256_set1_epi32(*reinterpret_cast<int*>(&mask));
+  if (col == ld_src) {
+    size_t elesize = static_cast<size_t>(row) * col;
+    size_t ele16 = utils::padto_le(elesize, 16);
+    size_t i = 0;
+    assert(tmpsize >= 16);
+#pragma unroll
+    for (; i < ele16; i += 16) {
+      fp4_pad_4bit(tmp, reinterpret_cast<int8_t*>(srcptr + i / 2));
+      unpack_f4_N<16, DST_T, F4_T>(dstptr + i, tmp);
+    }
+    for (; i < elesize; i += 2) {
+      auto tmp = srcptr[i / 2];
+      dstptr[i + 0] = static_cast<DST_T>(ref::f4_unpack<F4_T>(tmp.x));
+      dstptr[i + 1] = static_cast<DST_T>(ref::f4_unpack<F4_T>(tmp.y));
+    }
+    return JblasSuccess;
+  }
+  return JblasSuccess;
+}
+
+template <bool _IS_SYM, typename _ST, typename _DST_T>
+static inline JBLAS_CODE decompress_kblock_bit4_packrow1(utils::bit4x2* srcptr, _DST_T* dstptr, int row, int col,
+                                                         int ld_src, int ld_dst, _ST* scales, int8_t* zero_points,
+                                                         int k_offset, int kblock, int NPad,
+                                                         void (*dequantize)(_DST_T*, int8_t*, __m256*, __m256i*),
+                                                         void (*pad_bit4)(int8_t*, int8_t*), int8_t* tmpbuf,
+                                                         size_t tmpsize) {
+  uint32_t mask = 0xf0f0f0f0;
+  auto vmask = _mm256_set1_epi32(*reinterpret_cast<int*>(&mask));
+  if (col == 48) {
+    __m256 vscales[6];
+    __m256i vzps[6];
+    int constexpr UnrollRow = 4;
+    int constexpr Loop16 = 48 * UnrollRow / 16;
+    assert(tmpsize >= (48 * UnrollRow));
+    int row0 = kblock - k_offset % kblock;
+    row0 = row0 == kblock ? 0 : row0;
+    row0 = row0 > row ? row : row0;
+    int row1 = row - row0;
+    int irow = 0;
+    if (row0) {
+      int rowpad4 = utils::padto_le(row0, UnrollRow);
+      for (int iv = 0; iv < 6; iv++) {
+        vscales[iv] = _mm256_loadu_ps(scales + (k_offset + irow) / kblock * NPad + iv * 8);
+        if constexpr (!_IS_SYM) {
+          auto tmp =
+              _mm_loadl_epi64(reinterpret_cast<__m128i*>(zero_points + (k_offset + irow) / kblock * NPad + iv * 8));
+          vzps[iv] = _mm256_cvtepi8_epi32(tmp);
+        }
+      }
+      for (; irow < rowpad4; irow += UnrollRow) {
+        for (int iter16 = 0; iter16 < Loop16; iter16++)
+          pad_bit4(tmpbuf + iter16 * 16, reinterpret_cast<int8_t*>(srcptr + irow * ld_src / 2 + 8 * iter16));
+        for (int iterr = 0; iterr < UnrollRow; iterr++)
+          dequantize(dstptr + (irow + iterr) * ld_dst, tmpbuf + iterr * 48, vscales, vzps);
+      }
+      for (; irow < row0; irow++) {
+        for (int iter16 = 0; iter16 < 3; iter16++)
+          pad_bit4(tmpbuf + iter16 * 16, reinterpret_cast<int8_t*>(srcptr + irow * ld_src / 2 + 8 * iter16));
+        dequantize(dstptr + irow * ld_dst, tmpbuf, vscales, vzps);
+      }
+    }
+
+    int row1_blk = utils::padto_le(row1, kblock) + row0;
+    assert(kblock % UnrollRow == 0);
+    assert(ld_src == 48);
+    assert(ld_dst == 48);
+
+    for (; irow < row1_blk; irow += kblock) {
+      for (int iv = 0; iv < 6; iv++) {
+        vscales[iv] = _mm256_loadu_ps(scales + (k_offset + irow) / kblock * NPad + iv * 8);
+        if constexpr (!_IS_SYM) {
+          auto tmp =
+              _mm_loadl_epi64(reinterpret_cast<__m128i*>(zero_points + (k_offset + irow) / kblock * NPad + iv * 8));
+          vzps[iv] = _mm256_cvtepi8_epi32(tmp);
+        }
+      }
+      for (int irr = 0; irr < kblock; irr += UnrollRow) {
+        for (int iter16 = 0; iter16 < Loop16; iter16++)
+          pad_bit4(tmpbuf + iter16 * 16, reinterpret_cast<int8_t*>(srcptr + (irow + irr) * ld_src / 2 + 8 * iter16));
+        for (int iterr = 0; iterr < UnrollRow; iterr++)
+          dequantize(dstptr + (irow + irr + iterr) * ld_src, tmpbuf + iterr * 48, vscales, vzps);
+      }
+    }
+    if (irow < row) {
+      for (int iv = 0; iv < 6; iv++) {
+        vscales[iv] = _mm256_loadu_ps(scales + (k_offset + irow) / kblock * NPad + iv * 8);
+        if constexpr (!_IS_SYM) {
+          auto tmp =
+              _mm_loadl_epi64(reinterpret_cast<__m128i*>(zero_points + (k_offset + irow) / kblock * NPad + iv * 8));
+          vzps[iv] = _mm256_cvtepi8_epi32(tmp);
+        }
+      }
+      for (; irow < row; irow++) {
+        for (int iter16 = 0; iter16 < 3; iter16++)
+          pad_bit4(tmpbuf + iter16 * 16, reinterpret_cast<int8_t*>(srcptr + irow * ld_src / 2 + 8 * iter16));
+        dequantize(dstptr + irow * ld_dst, tmpbuf, vscales, vzps);
+      }
+    }
+    return JblasSuccess;
+  } else {
+    assert(0);
+  }
+  return JblasNotSupport;
+}
+
+template <bool _IS_SYM, typename _ST, typename _DST_T>
+static inline JBLAS_CODE decompress_kblock_bit4_packrow2(utils::bit4x2* srcptr, _DST_T* dstptr, int row, int col,
+                                                         int ld_src, int ld_dst, _ST* scales, int8_t* zero_points,
+                                                         int k_offset, int kblock, int NPad,
+                                                         void (*dequantize)(_DST_T*, int8_t*, __m256*, __m256i*),
+                                                         void (*pad_bit4)(int8_t*, int8_t*), int8_t* tmp,
+                                                         size_t tmpsize) {
+  return JblasNotSupport;
+}
+
+template <JBLAS_DTYPE _F4_T, typename _DST_T, int _PACK_ROW, typename _ST>
+static inline JBLAS_CODE decompress_kblock_f4_fp(utils::f4x2* srcptr, _DST_T* dstptr, int row, int col, int ld_src,
+                                                 int ld_dst, _ST* scales, int k_offset, int kblock, int NPad,
+                                                 int8_t* tmp, size_t tmpsize) {
+  if constexpr (_PACK_ROW == 1) {
+    return decompress_kblock_bit4_packrow1<true, _ST, _DST_T>(srcptr, dstptr, row, col, ld_src, ld_dst, scales, nullptr,
+                                                              k_offset, kblock, NPad, &dequant_f4_N<48, _DST_T, _F4_T>,
+                                                              fp4_pad_4bit, tmp, tmpsize);
+  } else if constexpr (_PACK_ROW == 2) {
+    return decompress_kblock_bit4_packrow2<true, _ST, _DST_T>(srcptr, dstptr, row, col, ld_src, ld_dst, scales, nullptr,
+                                                              k_offset, kblock, NPad, &dequant_f4_N<64, _DST_T, _F4_T>,
+                                                              fp4_pad_4bit, tmp, tmpsize);
+  }
+  return JblasNotSupport;
+}
+
+enum class AVX2_REDUCE_TYPE { MAX, MIN, ADD };
+#define AVX2_REDUCE_OP                                                  \
+  if constexpr (TYPE == AVX2_REDUCE_TYPE::MAX) x = _mm256_max_ps(x, y); \
+  if constexpr (TYPE == AVX2_REDUCE_TYPE::MIN) x = _mm256_min_ps(x, y); \
+  if constexpr (TYPE == AVX2_REDUCE_TYPE::ADD) x = _mm256_add_ps(x, y);
+
+template <AVX2_REDUCE_TYPE TYPE>
+inline float avx2_reduce_ps(__m256 x) {
+  __m256 y = _mm256_permute2f128_ps(x, x, 1);
+  AVX2_REDUCE_OP
+  y = _mm256_permute_ps(x, 0b01001110);
+  AVX2_REDUCE_OP
+  y = _mm256_permute_ps(x, 0b10110001);
+  AVX2_REDUCE_OP
+  return _mm256_cvtss_f32(x);
+}
+
+#define AVX2_REDUCE_OP_EPI32(dst, src)                                           \
+  if constexpr (TYPE == AVX2_REDUCE_TYPE::MAX) dst = _mm256_max_epi32(dst, src); \
+  if constexpr (TYPE == AVX2_REDUCE_TYPE::MIN) dst = _mm256_min_epi32(dst, src); \
+  if constexpr (TYPE == AVX2_REDUCE_TYPE::ADD) dst = _mm256_add_epi32(dst, src);
+
+#ifndef _mm256_cvtsi256_si32
+#define _mm256_cvtsi256_si32(a) (_mm_cvtsi128_si32(_mm256_castsi256_si128(a)))
+#endif
+
+template <AVX2_REDUCE_TYPE TYPE>
+inline int avx2_reduce_epi32(__m256i xd) {
+  auto x = _mm256_castsi256_ps(xd);
+  __m256 y = _mm256_permute2f128_ps(x, x, 1);
+  auto yd = _mm256_castps_si256(y);
+  AVX2_REDUCE_OP_EPI32(xd, yd);
+  x = _mm256_castsi256_ps(xd);
+  y = _mm256_permute_ps(x, 0b01001110);
+  yd = _mm256_castps_si256(y);
+  AVX2_REDUCE_OP_EPI32(xd, yd);
+  x = _mm256_castsi256_ps(xd);
+  y = _mm256_permute_ps(x, 0b10110001);
+  yd = _mm256_castps_si256(y);
+  AVX2_REDUCE_OP_EPI32(xd, yd);
+  return _mm256_cvtsi256_si32(xd);
+}
+
+inline __m128i avx2_cvtepi32_epu8(__m256i x) {
+  auto out_v = _mm_packus_epi32(_mm256_castsi256_si128(x), _mm256_extractf128_si256(x, 1));
+  out_v = _mm_packus_epi16(out_v, out_v);
+  return out_v;
+}
+
+template <typename SRC_T>
+static inline JBLAS_CODE quantize_fp_u8_colblock(int row, int col, const SRC_T* srcptr, int ld_src, uint8_t* dstptr,
+                                                 int ld_dst, float* scales, int ld_scale, uint8_t* zps, int blocksize,
+                                                 float* blkreduce) {
+  int constexpr VLen = 8;
+  auto vff = _mm256_set1_epi32(255);
+  auto v0 = _mm256_set1_epi32(0);
+  int vblocksize = utils::padto_le(blocksize, VLen);
+  int colblk = utils::padto_le(col, blocksize);
+  for (int i = 0; i < row; i++) {
+    size_t j = 0;
+    for (; j < colblk; j += blocksize) {
+      __m256 vmaxval = _mm256_set1_ps(0.f);
+      __m256 vminval = _mm256_set1_ps(0.f);
+      size_t ij = 0;
+      for (; ij < vblocksize; ij += VLen) {
+        __m256 vsrc;
+        if constexpr (std::is_same_v<SRC_T, float>) vsrc = _mm256_loadu_ps(&srcptr[(j + ij) + i * ld_src]);
+        if constexpr (std::is_same_v<SRC_T, utils::bf16>) assert(0);
+        vmaxval = _mm256_max_ps(vmaxval, vsrc);
+        vminval = _mm256_min_ps(vminval, vsrc);
+      }
+      auto maxval = avx2_reduce_ps<AVX2_REDUCE_TYPE::MAX>(vmaxval);
+      auto minval = avx2_reduce_ps<AVX2_REDUCE_TYPE::MIN>(vminval);
+      if (ij < blocksize) {
+        for (; ij < blocksize; ij++) {
+          auto srcval = (float)srcptr[(j + ij) + i * ld_src];
+          maxval = std::max(maxval, srcval);
+          minval = std::min(minval, srcval);
+        }
+      }
+      float scale = (maxval - minval) / 255;
+      uint8_t zp = utils::cast<float, uint8_t>((0 - minval) / scale);
+      scales[j / blocksize + i * ld_scale] = scale;
+      zps[j / blocksize + i * ld_scale] = zp;
+      int sum = 0;
+      float rscale = 1.f / scale;
+      auto vrscale = _mm256_set1_ps(rscale);
+      auto vdzp = _mm256_set1_epi32(zp);
+      ij = 0;
+      if (blkreduce) {
+        for (; ij < vblocksize; ij += VLen) {
+          __m256 vsrc;
+          if constexpr (std::is_same_v<SRC_T, float>) vsrc = _mm256_loadu_ps(&srcptr[(j + ij) + i * ld_src]);
+          if constexpr (std::is_same_v<SRC_T, utils::bf16>) {
+            auto vtmp = _mm_loadu_si128(reinterpret_cast<__m128i*>(&srcptr[(j + ij) + i * ld_src]));
+            vsrc = ymm_cvt_bf16_fp32(vtmp);
+          }
+          vsrc = _mm256_mul_ps(vsrc, vrscale);
+          auto vdsrc = _mm256_cvtps_epi32(vsrc);
+          sum += avx2_reduce_epi32<AVX2_REDUCE_TYPE::ADD>(vdsrc);
+          vdsrc = _mm256_add_epi32(vdsrc, vdzp);
+          vdsrc = _mm256_min_epi32(vdsrc, vff);
+          vdsrc = _mm256_max_epi32(vdsrc, v0);
+          auto vbsrc = avx2_cvtepi32_epu8(vdsrc);
+          _mm_storel_epi64(reinterpret_cast<__m128i*>(&dstptr[(j + ij) + i * ld_dst]), vbsrc);
+        }
+      } else {
+        for (; ij < vblocksize; ij += VLen) {
+          __m256 vsrc;
+          if constexpr (std::is_same_v<SRC_T, float>) vsrc = _mm256_loadu_ps(&srcptr[(j + ij) + i * ld_src]);
+          if constexpr (std::is_same_v<SRC_T, utils::bf16>) {
+            auto vtmp = _mm_loadu_si128(reinterpret_cast<__m128i*>(&srcptr[(j + ij) + i * ld_src]));
+            vsrc = ymm_cvt_bf16_fp32(vtmp);
+          }
+          vsrc = _mm256_mul_ps(vsrc, vrscale);
+          auto vdsrc = _mm256_cvtps_epi32(vsrc);
+          vdsrc = _mm256_add_epi32(vdsrc, vdzp);
+          vdsrc = _mm256_min_epi32(vdsrc, vff);
+          vdsrc = _mm256_max_epi32(vdsrc, v0);
+          auto vbsrc = avx2_cvtepi32_epu8(vdsrc);
+          _mm_storel_epi64(reinterpret_cast<__m128i*>(&dstptr[(j + ij) + i * ld_dst]), vbsrc);
+        }
+      }
+      for (; ij < blocksize; ij++) {
+        auto srcval = (float)srcptr[(j + ij) + i * ld_src];
+        srcval = srcval * rscale;
+        auto srcint = int(roundf(srcval));
+        sum += srcint;
+        srcint += zp;
+        srcint = std::min(srcint, 0xff);
+        srcint = std::max(srcint, 0);
+        dstptr[(j + ij) + i * ld_dst] = static_cast<uint8_t>(srcint);
+      }
+      if (blkreduce) {
+        blkreduce[j / blocksize + i * ld_scale] = sum * scale;
+      }
+    }
+    if (j < col) {
+      float maxval = 0.f;
+      float minval = 0.f;
+      for (size_t ij = j; ij < col; ij++) {
+        maxval = std::max((float)srcptr[ij + i * ld_src], maxval);
+        minval = std::min((float)srcptr[ij + i * ld_src], minval);
+      }
+      float scale = (maxval - minval) / 255;
+      uint8_t zp = utils::cast<float, uint8_t>((0 - minval) / scale);
+      float rscale = 1.f / scale;
+      scales[j / blocksize + i * ld_scale] = scale;
+      zps[j / blocksize + i * ld_scale] = zp;
+      int sum = 0;
+      for (size_t ij = j; ij < col; ij++) {
+        auto srcint = utils::cast<float, int>(srcptr[ij + i * ld_src] * rscale);
+        sum += srcint;
+        srcint += zp;
+        srcint = srcint <= 255 ? srcint : 255;
+        srcint = srcint >= 0 ? srcint : 0;
+        dstptr[ij + i * ld_dst] = utils::cast<int, uint8_t>(srcint);
+      }
+      if (blkreduce) {
+        blkreduce[j / blocksize + i * ld_scale] = sum * scale;
+      }
+    }
+  }
+  return JblasSuccess;
+}
+
+template <typename SRC_T>
+static inline JBLAS_CODE col_block_reduce_sum(const SRC_T* srcptr, int ldsrc, int row, int col, int blocksize,
+                                              float* reduce, int ldr) {
+  int constexpr VLen = 8;
+  auto vblock2_ = utils::padto_le(blocksize, VLen * 2);
+  auto vblock_ = utils::padto_le(blocksize, VLen);
+  for (int i = 0; i < row; i++) {
+    for (int j = 0; j < col; j += blocksize) {
+      auto tmp = 0.f;
+      auto vsum = _mm256_set1_ps(0.f);
+      int jj = 0;
+      auto vblock2 = j + vblock2_ <= col ? vblock2_ : 0;
+      auto vblock = j + vblock_ <= col ? vblock_ : 0;
+      for (; jj < vblock2; jj += VLen * 2) {
+        auto vtmp = _mm256_loadu_ps(srcptr + i * ldsrc + j + jj);
+        auto vtmp1 = _mm256_loadu_ps(srcptr + i * ldsrc + j + jj + VLen);
+        auto s0 = avx2_reduce_ps<AVX2_REDUCE_TYPE::ADD>(vtmp);
+        auto s1 = avx2_reduce_ps<AVX2_REDUCE_TYPE::ADD>(vtmp1);
+        tmp += s0;
+        tmp += s1;
+      }
+      if (jj + VLen <= vblock) {
+        for (; jj < vblock; jj += VLen) {
+          auto vtmp = _mm256_loadu_ps(srcptr + i * ldsrc + j + jj);
+          auto s0 = avx2_reduce_ps<AVX2_REDUCE_TYPE::ADD>(vtmp);
+          tmp += s0;
+        }
+      }
+      for (; jj < blocksize; jj++) {
+        tmp += *(srcptr + i * ldsrc + j + jj);
+      }
+      reduce[i * ldr + j / blocksize] = tmp;
+    }
+  }
+  return JblasSuccess;
+}
+
+static inline JBLAS_CODE bf16_cvt_fp32_2D_write_back(const utils::bf16* src_ptr, float* dst_ptr, int row, int col,
+                                                     int src_step, int dst_step, bool zeropadding) {
+  const int npadding = (dst_step - col) * sizeof(float);
+  constexpr int simd_proc_elt = 8;
+  auto col_body = col / simd_proc_elt * simd_proc_elt;
+  for (int i = 0; i < row; i++) {
+    auto src = const_cast<utils::bf16*>(src_ptr + i * src_step);
+    auto dst = dst_ptr + i * dst_step;
+    int j = 0;
+    for (; j < col_body; j += simd_proc_elt) {
+      auto bf16_v = _mm_loadu_si128(reinterpret_cast<__m128i*>(src + j));
+      auto fp32_v = _mm256_castsi256_ps(_mm256_bslli_epi128(_mm256_cvtepu16_epi32(bf16_v), 2));
+      _mm256_storeu_ps(dst + j, fp32_v);
+    }
+    for (; j < col; j++) {
+      *(dst + j) = (src + j)->tofloat();
+    }
+    if (zeropadding && npadding) std::memset(dst + col, 0, npadding);
+  }
+  return JblasSuccess;
+}
+
+static const uint8_t avx2_bf16_convert_maigc_num[32] = {
+    0x02, 0x03, 0x06, 0x07, 0x0a, 0x0b, 0x0e, 0x0f, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80,
+    0x02, 0x03, 0x06, 0x07, 0x0a, 0x0b, 0x0e, 0x0f, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80};
+
+static inline __m128i cvt_fp32_to_bf16(const __m256 src, __m256i* and_helper, __m256i* add_helper) {
+  auto shuffle_v = _mm256_loadu_si256(reinterpret_cast<const __m256i*>(avx2_bf16_convert_maigc_num));
+  auto round_bias = _mm256_castps_si256(src);
+  round_bias = _mm256_and_si256(*and_helper, _mm256_srli_si256(round_bias, 2));
+  round_bias = _mm256_add_epi32(round_bias, *add_helper);
+  auto round_fp32_v = _mm256_add_epi32(_mm256_castps_si256(src), round_bias);
+  __m256i trunc_elements = _mm256_shuffle_epi8(round_fp32_v, shuffle_v);
+  __m256i ordered = _mm256_permute4x64_epi64(trunc_elements, 0x58);
+  return _mm256_castsi256_si128(ordered);
+}
+
+static inline JBLAS_CODE fp32_cvt_bf16_2D_write_back(const void* raw_srcptr, void* raw_dstptr, int row, int col,
+                                                     int srcstride, int dststride, bool zeropadding) {
+  auto srcptr = reinterpret_cast<const char*>(raw_srcptr);
+  auto dstptr = reinterpret_cast<char*>(raw_dstptr);
+  constexpr int simd_proc_elt = 8;
+  auto bf16_and_helper = _mm256_set1_epi32(0X00000001);
+  auto bf16_add_helper = _mm256_set1_epi32(0x00007FFF);
+  auto col_body_loop = col / simd_proc_elt * simd_proc_elt;
+  int npadding = dststride - col * sizeof(utils::bf16);
+  for (int i = 0; i < row; i++) {
+    auto src = srcptr + i * srcstride;
+    auto dst = dstptr + i * dststride;
+    int j = 0;
+    for (; j < col_body_loop; j += simd_proc_elt) {
+      auto pack_bf16_value = cvt_fp32_to_bf16(_mm256_loadu_ps(reinterpret_cast<const float*>(src) + j),
+                                              &bf16_and_helper, &bf16_add_helper);
+      _mm_storeu_si128(reinterpret_cast<__m128i*>(dst + j * sizeof(jblas::utils::bf16)), pack_bf16_value);
+    }
+    for (; j < col; j++) {
+      (reinterpret_cast<jblas::utils::bf16*>(dst) + j)->fromfloat(*(reinterpret_cast<const float*>(src) + j));
+    }
+    if (zeropadding && npadding) {
+      std::memset(dst + col * sizeof(utils::bf16), 0, npadding);
+    }
+  }
+  return JblasSuccess;
+}
+
+#ifdef __GNUC__
+#pragma GCC pop_options
+#else
+#endif
+#endif
+}  // namespace avx2
+}  // namespace kernel
+}  // namespace jblas
diff --git a/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/kernel_avx512_bf16.h b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/kernel_avx512_bf16.h
new file mode 100644
index 0000000000000..70cea4749aa79
--- /dev/null
+++ b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/kernel_avx512_bf16.h
@@ -0,0 +1,92 @@
+//  Copyright (c) 2023 Intel Corporation
+//
+//  Licensed under the Apache License, Version 2.0 (the "License");
+//  you may not use this file except in compliance with the License.
+//  You may obtain a copy of the License at
+//
+//    http://www.apache.org/licenses/LICENSE-2.0
+//
+//  Unless required by applicable law or agreed to in writing, software
+//  distributed under the License is distributed on an "AS IS" BASIS,
+//  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+//  See the License for the specific language governing permissions and
+//  limitations under the License.
+#pragma once
+#include <immintrin.h>
+#include "kernel_avx512f.h"
+#include "jit_blas_utils.h"
+
+namespace jblas {
+namespace kernel {
+namespace avx512_bf16 {
+#if CompileBF16()
+#pragma GCC push_options
+#pragma GCC target("avx512bf16", "avx512vl", "avx512bw")
+#endif
+static inline JBLAS_CODE bf16_cvt_fp32_2D_write_back(const utils::bf16* src_ptr, float* dst_ptr, int row, int col,
+                                                     int src_step, int dst_step, bool zeropadding) {
+#if CompileBF16()
+  const int npadding = (dst_step - col) * sizeof(float);
+  constexpr int simd_proc_elt = 16;
+  auto col_body = col / simd_proc_elt * simd_proc_elt;
+  auto col_tail = col % simd_proc_elt;
+  const auto tail_mask = _cvtu32_mask16((1U << col_tail) - 1);
+  for (int i = 0; i < row; i++) {
+    auto src = const_cast<utils::bf16*>(src_ptr + i * src_step);
+    auto dst = dst_ptr + i * dst_step;
+    int j = 0;
+    for (; j < col_body; j += simd_proc_elt)
+      _mm512_storeu_ps(
+          dst + j,  //
+          reinterpret_cast<__m512>(_mm512_bslli_epi128(_mm512_cvtepu16_epi32(_mm256_loadu_epi16(src + j)), 2)));
+    if (col_tail > 0)
+      _mm512_mask_storeu_ps(
+          dst + j, tail_mask,
+          reinterpret_cast<__m512>(_mm512_bslli_epi128(_mm512_cvtepu16_epi32(_mm256_loadu_epi16(src + j)), 2)));
+    if (zeropadding && npadding) std::memset(dst + col, 0, npadding);
+  }
+  return JblasSuccess;
+#endif
+  return avx512f::bf16_cvt_fp32_2D_write_back(src_ptr, dst_ptr, row, col, src_step, dst_step, zeropadding);
+}
+
+static inline JBLAS_CODE fp32_cvt_bf16_2D_write_back(const void* raw_srcptr, void* raw_dstptr, int row, int col,
+                                                     int srcstride, int dststride, bool zeropadding) {
+#if CompileBF16()
+  auto srcptr = reinterpret_cast<const char*>(raw_srcptr);
+  auto dstptr = reinterpret_cast<char*>(raw_dstptr);
+  constexpr int simd_proc_elt = 32;
+  auto col_body_loop = col / simd_proc_elt;
+  auto col_tail = col % simd_proc_elt;
+  const uint32_t tail_mask = (1U << col_tail) - 1;
+  int npadding = dststride - col * sizeof(utils::bf16);
+  for (int i = 0; i < row; i++) {
+    auto src = srcptr + i * srcstride;
+    auto dst = dstptr + i * dststride;
+    int j = 0;
+    for (; j < col_body_loop; j++) {
+      _mm512_storeu_epi16(
+          (dst + (j * simd_proc_elt) * sizeof(jblas::utils::bf16)),
+          (__m512i)_mm512_cvtne2ps_pbh(_mm512_loadu_ps(src + sizeof(float) * simd_proc_elt * j + sizeof(float) * 16),
+                                       _mm512_loadu_ps(src + sizeof(float) * simd_proc_elt * j + sizeof(float) * 0)));
+    }
+    if (col_tail > 0) {
+      _mm512_mask_storeu_epi16(
+          (dst + (j * simd_proc_elt) * sizeof(jblas::utils::bf16)), tail_mask,  //
+          (__m512i)_mm512_cvtne2ps_pbh(
+              _mm512_maskz_loadu_ps(tail_mask >> 16, src + sizeof(float) * simd_proc_elt * j + sizeof(float) * 16),
+              _mm512_maskz_loadu_ps(tail_mask >> 0, src + sizeof(float) * simd_proc_elt * j + sizeof(float) * 0)));
+    }
+    if (zeropadding && npadding) {
+      std::memset(dst + col * sizeof(utils::bf16), 0, npadding);
+    }
+  }
+#endif
+  return avx512f::fp32_cvt_bf16_2D_write_back(raw_srcptr, raw_dstptr, row, col, srcstride, dststride, zeropadding);
+}
+#if CompileBF16()
+#pragma GCC pop_options
+#endif
+}  // namespace avx512_bf16
+}  // namespace kernel
+}  // namespace jblas
diff --git a/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/kernel_avx512f.h b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/kernel_avx512f.h
new file mode 100644
index 0000000000000..3dc0278b8b801
--- /dev/null
+++ b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/kernel_avx512f.h
@@ -0,0 +1,1966 @@
+//  Copyright (c) 2023 Intel Corporation
+//
+//  Licensed under the Apache License, Version 2.0 (the "License");
+//  you may not use this file except in compliance with the License.
+//  You may obtain a copy of the License at
+//
+//    http://www.apache.org/licenses/LICENSE-2.0
+//
+//  Unless required by applicable law or agreed to in writing, software
+//  distributed under the License is distributed on an "AS IS" BASIS,
+//  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+//  See the License for the specific language governing permissions and
+//  limitations under the License.
+#pragma once
+#include "jit_blas_utils.h"
+#include "kernel_ref.h"
+
+#include <array>
+#include <cstring>
+#include <type_traits>
+#if CompileAVX512F()
+#include <immintrin.h>
+#endif
+
+namespace jblas {
+namespace kernel {
+namespace avx512f {
+#if CompileAVX512F()
+#ifdef __GNUC__
+#pragma GCC push_options
+#pragma GCC target("avx512f", "avx512bw", "avx512vl", "avx512vbmi", "avx512dq")
+#if CompileBF16()
+#pragma GCC target("avx512bf16")
+#endif
+#if CompileFP16()
+#pragma GCC target("avx512fp16")
+#endif
+#else
+#endif
+
+inline __m512 zmm_cvt_bf16_fp32(__m256i vbf16) {
+#if CompileBF16()
+  return _mm512_cvtpbh_ps((__m256bh)vbf16);
+#else
+  auto vf32 = _mm512_cvtepu16_epi32(vbf16);
+  return _mm512_castsi512_ps(_mm512_slli_epi32(vf32, 16));
+#endif
+}
+
+inline __m256i zmm_cvt_fp32_bf16(__m512 vfp32) {
+#if CompileBF16()
+  return (__m256i)_mm512_cvtneps_pbh(vfp32);
+#else
+  return _mm512_cvtepi32_epi16(_mm512_bsrli_epi128(_mm512_castps_si512(vfp32), 2));
+#endif
+}
+
+static inline __m512i unpack_4bits(__m256i v4bits, __m512i vmask) {
+  auto ymm1 = _mm256_slli_epi32(v4bits, 4);
+  auto zmm = _mm512_cvtepi8_epi16(v4bits);
+  auto zmm1 = _mm512_cvtepi8_epi16(ymm1);
+  zmm = _mm512_slli_epi16(zmm, 8);
+  zmm1 = _mm512_mask_mov_epi8(zmm1, 0xaaaaaaaaaaaaaaaa, zmm);
+  zmm1 = _mm512_and_epi32(zmm1, vmask);
+  return zmm1;
+}
+
+template <JBLAS_DTYPE S4_T>
+static inline void convert_s4_s8(int8_t* dstptr, int8_t* srcptr, __m512i vmask, int LoadMask) {
+  auto ymm = _mm256_maskz_loadu_epi32(__mmask8(LoadMask), reinterpret_cast<const __m256i*>(srcptr));
+  auto zmm = unpack_4bits(ymm, vmask);
+  if constexpr (S4_T == JBLAS_DTYPE::S4_FULLRANGE) {
+    zmm = _mm512_srli_epi32(zmm, 4);
+    auto s8 = _mm512_set1_epi8(8);
+    zmm = _mm512_sub_epi8(zmm, s8);
+  }
+  _mm512_mask_storeu_epi64(dstptr, __mmask8(LoadMask), zmm);
+}
+
+template <typename T>
+static inline void convert_s8_fp_v16(T* dstptr, int8_t* srcptr) {
+  auto xmm = _mm_loadu_si128(reinterpret_cast<const __m128i*>(srcptr));
+  auto zmm = _mm512_cvtepi8_epi32(xmm);
+  auto zmm1 = _mm512_cvtepi32_ps(zmm);
+  if constexpr (std::is_same_v<T, utils::bf16>) {
+    auto ymm = zmm_cvt_fp32_bf16(zmm1);
+    _mm256_storeu_si256(reinterpret_cast<__m256i*>(dstptr), ymm);
+  } else {
+    _mm512_storeu_ps(dstptr, zmm1);
+  }
+}
+
+constexpr void (*pad_fp4)(int8_t* dstptr, int8_t* srcptr, __m512i vmask, int) = &convert_s4_s8<JBLAS_DTYPE::S4_CLIP>;
+
+template <int N, typename _DST_T, bool _IS_SYM>
+static inline void dequant_s8_N(_DST_T* dstptr, int8_t* srcptr, __m512* vscales, __m512i* vzps = nullptr) {
+  static_assert(N % 16 == 0);
+  int constexpr VLoop = N / 16;
+#pragma unroll(VLoop)
+  for (int iv = 0; iv < VLoop; iv += 1) {
+    auto src_s8 = _mm_loadu_si128(reinterpret_cast<__m128i*>(srcptr + iv * 16));
+    auto zmm = _mm512_cvtepi8_epi32(src_s8);
+    if constexpr (!_IS_SYM) zmm = _mm512_sub_epi32(zmm, vzps[iv]);
+    auto fzmm = _mm512_cvtepi32_ps(zmm);
+    fzmm = _mm512_mul_ps(fzmm, vscales[iv]);
+    if constexpr (std::is_same<_DST_T, float>::value) {
+      _mm512_storeu_ps(dstptr + iv * 16, fzmm);
+    } else if constexpr (std::is_same<_DST_T, utils::bf16>::value) {
+      auto bf16_v = zmm_cvt_fp32_bf16(fzmm);
+      _mm256_storeu_si256(reinterpret_cast<__m256i*>(dstptr + iv * 16), bf16_v);
+    } else {
+      assert(false);
+    }
+  }
+}
+
+template <int N, typename _DST_T, JBLAS_DTYPE F4_T>
+static inline void dequant_f4_N(_DST_T* dstptr, int8_t* srcptr, __m512* vscales, __m512i* vzps = nullptr) {
+  static_assert(N % 16 == 0);
+  int constexpr VLoop = N / 16;
+  float* LUT;
+  static_assert(F4_T == JBLAS_DTYPE::F4_BNB || F4_T == JBLAS_DTYPE::F4_NF4 || F4_T == JBLAS_DTYPE::F4_E2M1,
+                "Unsupported F4 type");
+  if constexpr (F4_T == JBLAS_DTYPE::F4_BNB) {
+    LUT = fp4_bnb_dequant_fp32_LUT;
+  } else if constexpr (F4_T == JBLAS_DTYPE::F4_NF4) {
+    LUT = nf4_dequant_fp32_LUT;
+  } else if constexpr (F4_T == JBLAS_DTYPE::F4_E2M1) {
+    LUT = fp4_e2m1_dequant_fp32_LUT;
+  }
+#pragma unroll(VLoop)
+  for (int iv = 0; iv < VLoop; iv += 1) {
+    auto idx = _mm_loadu_si128(reinterpret_cast<__m128i*>(srcptr + iv * 16));
+    idx = _mm_srli_epi32(idx, 4);
+    auto pad_idx = _mm512_cvtepu8_epi32(idx);
+    auto lut = _mm512_loadu_si512(LUT);
+    auto fp32_dq_v = _mm512_permutexvar_epi32(pad_idx, lut);
+    auto fzmm = _mm512_mul_ps(_mm512_castsi512_ps(fp32_dq_v), vscales[iv]);
+    if constexpr (std::is_same<_DST_T, float>::value) {
+      _mm512_storeu_ps(dstptr + iv * 16, fzmm);
+    } else if constexpr (std::is_same<_DST_T, utils::bf16>::value) {
+      auto bf16_v = zmm_cvt_fp32_bf16(fzmm);
+      _mm256_storeu_si256(reinterpret_cast<__m256i*>(dstptr + iv * 16), bf16_v);
+    } else {
+      assert(false);
+    }
+  }
+}
+
+template <int N, typename _DST_T, JBLAS_DTYPE F4_T>
+static inline void unpack_f4_N(_DST_T* dstptr, int8_t* srcptr) {
+  static_assert(N % 16 == 0);
+  int constexpr VLoop = N / 16;
+  float* LUT;
+  static_assert(F4_T == JBLAS_DTYPE::F4_BNB || F4_T == JBLAS_DTYPE::F4_NF4 || F4_T == JBLAS_DTYPE::F4_E2M1,
+                "Unsupported F4 type");
+  if constexpr (F4_T == JBLAS_DTYPE::F4_BNB) {
+    LUT = fp4_bnb_dequant_fp32_LUT;
+  } else if constexpr (F4_T == JBLAS_DTYPE::F4_NF4) {
+    LUT = nf4_dequant_fp32_LUT;
+  } else if constexpr (F4_T == JBLAS_DTYPE::F4_E2M1) {
+    LUT = fp4_e2m1_dequant_fp32_LUT;
+  }
+#pragma unroll(VLoop)
+  for (int iv = 0; iv < VLoop; iv += 1) {
+    auto idx = _mm_loadu_si128(reinterpret_cast<__m128i*>(srcptr + iv * 16));
+    idx = _mm_srli_epi32(idx, 4);
+    auto pad_idx = _mm512_cvtepu8_epi32(idx);
+    auto lut = _mm512_loadu_si512(LUT);
+    auto fp32_dq_v = _mm512_permutexvar_epi32(pad_idx, lut);
+    auto fzmm = _mm512_castsi512_ps(fp32_dq_v);
+    if constexpr (std::is_same<_DST_T, float>::value) {
+      _mm512_storeu_ps(dstptr + iv * 16, fzmm);
+    } else if constexpr (std::is_same<_DST_T, utils::bf16>::value) {
+      auto bf16_v = zmm_cvt_fp32_bf16(fzmm);
+      _mm256_storeu_si256(reinterpret_cast<__m256i*>(dstptr + iv * 16), bf16_v);
+    } else {
+      assert(false);
+    }
+  }
+}
+
+template <typename _ST>
+static inline __m512 vec_loadscalex16(_ST* ptr) {
+  return _mm512_loadu_ps(ptr);
+}
+
+template <>
+inline __m512 vec_loadscalex16(utils::bf16* ptr) {
+  auto vbf16 = _mm256_loadu_si256(reinterpret_cast<__m256i*>(ptr));
+  return zmm_cvt_bf16_fp32(vbf16);
+}
+
+static inline void vec_broadcast_epi32_1_2(__m512i* dst2regs, __m512i* src1regs) {
+  dst2regs[0] = _mm512_unpacklo_epi32(src1regs[0], src1regs[0]);
+  dst2regs[1] = _mm512_unpackhi_epi32(src1regs[0], src1regs[0]);
+}
+
+static inline void vec_broadcast_ps_1_2(__m512* dst2regs, __m512* src1regs, __m512i idxreg) {
+  auto tmpreg = _mm512_permutexvar_epi64(idxreg, _mm512_castps_si512(src1regs[0]));
+  dst2regs[0] = _mm512_castsi512_ps(_mm512_unpacklo_epi32(tmpreg, tmpreg));
+  dst2regs[1] = _mm512_castsi512_ps(_mm512_unpackhi_epi32(tmpreg, tmpreg));
+}
+
+static inline void vec_broadcast_epi32_1_2(__m512i* dst2regs, __m512i* src1regs, __m512i idxreg) {
+  auto tmpreg = _mm512_permutexvar_epi64(idxreg, src1regs[0]);
+  dst2regs[0] = _mm512_unpacklo_epi32(tmpreg, tmpreg);
+  dst2regs[1] = _mm512_unpackhi_epi32(tmpreg, tmpreg);
+}
+
+static inline void vec_broadcast_pi8_1_2(__m128i* dst2regs, __m128i* src1regs, __m128i idxreg) {
+  auto tmpreg = _mm_permutexvar_epi16(idxreg, src1regs[0]);
+  dst2regs[0] = _mm_unpacklo_epi8(tmpreg, tmpreg);
+  dst2regs[1] = _mm_unpackhi_epi8(tmpreg, tmpreg);
+}
+
+static inline void vec_broadcast_epi32_2_4(__m512i* dst4regs, __m512i* src2regs) {
+  vec_broadcast_epi32_1_2(dst4regs, src2regs);
+  vec_broadcast_epi32_1_2(dst4regs + 2, src2regs + 1);
+}
+
+template <typename _ST, typename _DT, bool _IS_SYM>
+static inline JBLAS_CODE decompress_kblock_bit4_packrow1(utils::bit4x2* srcptr, _DT* dstptr, int row, int col,
+                                                         int ld_src, int ld_dst, _ST* scales, int8_t* zero_points,
+                                                         int k_offset, int kblock, int NPad,
+                                                         void (*dequantize)(_DT*, int8_t*, __m512*, __m512i*),
+                                                         void (*pad_bit4)(int8_t*, int8_t*, __m512i, int),
+                                                         int8_t* tmpbuf, size_t tmpsize) {
+  uint32_t mask = 0xf0f0f0f0;
+  auto zmm_mask = _mm512_set1_epi32(*reinterpret_cast<int*>(&mask));
+  if (col == 48) {
+    constexpr int ColTile = 48;
+    constexpr int NRegs = ColTile / 16;
+    constexpr int LoadMask64 = (1 << (64 / 8)) - 1;
+    constexpr int LoadMask48 = (1 << (48 / 8)) - 1;
+    __m512 vscales[NRegs];
+    __m512i vzps[NRegs];
+    int constexpr UnrollRow = 4;
+    int constexpr Loop64 = ColTile * UnrollRow / 64;
+    assert(tmpsize >= (ColTile * UnrollRow));
+    int row0 = kblock - k_offset % kblock;
+    row0 = row0 == kblock ? 0 : row0;
+    row0 = row0 > row ? row : row0;
+    int row1 = row - row0;
+    int irow = 0;
+    if (row0) {
+      int rowpad4 = utils::padto_le(row0, UnrollRow);
+      for (int iv = 0; iv < 3; iv++) {
+        vscales[iv] = vec_loadscalex16(scales + (k_offset + irow) / kblock * NPad + iv * 16);
+        if constexpr (!_IS_SYM) {
+          auto tmp =
+              _mm_loadu_si128(reinterpret_cast<__m128i*>(zero_points + (k_offset + irow) / kblock * NPad + iv * 16));
+          vzps[iv] = _mm512_cvtepi8_epi32(tmp);
+        }
+      }
+      for (; irow < rowpad4; irow += UnrollRow) {
+        for (int iter64 = 0; iter64 < Loop64; iter64++) {
+          pad_bit4(tmpbuf + iter64 * 64, reinterpret_cast<int8_t*>(srcptr + irow * ld_src / 2 + 32 * iter64), zmm_mask,
+                   LoadMask64);
+        }
+        for (int iterr = 0; iterr < UnrollRow; iterr++) {
+          if constexpr (_IS_SYM) {
+            dequantize(dstptr + (irow + iterr) * ld_dst, tmpbuf + iterr * ColTile, vscales, nullptr);
+          } else {
+            dequantize(dstptr + (irow + iterr) * ld_dst, tmpbuf + iterr * ColTile, vscales, vzps);
+          }
+        }
+      }
+      for (; irow < row0; irow++) {
+        pad_bit4(tmpbuf, reinterpret_cast<int8_t*>(srcptr + irow * ld_src / 2), zmm_mask, LoadMask48);
+        if constexpr (_IS_SYM) {
+          dequantize(dstptr + irow * ld_dst, tmpbuf, vscales, nullptr);
+        } else {
+          dequantize(dstptr + irow * ld_dst, tmpbuf, vscales, vzps);
+        }
+      }
+    }
+
+    int row1_blk = utils::padto_le(row1, kblock) + row0;
+    assert(kblock % UnrollRow == 0);
+    assert(ld_src == 48);  // no padding for unroll process
+
+    for (; irow < row1_blk; irow += kblock) {
+      for (int iv = 0; iv < 3; iv++) {
+        vscales[iv] = vec_loadscalex16(scales + (k_offset + irow) / kblock * NPad + iv * 16);
+        if constexpr (!_IS_SYM) {
+          auto tmp =
+              _mm_loadu_si128(reinterpret_cast<__m128i*>(zero_points + (k_offset + irow) / kblock * NPad + iv * 16));
+          vzps[iv] = _mm512_cvtepi8_epi32(tmp);
+        }
+      }
+
+      for (int irr = 0; irr < kblock; irr += UnrollRow) {
+        for (int iter64 = 0; iter64 < Loop64; iter64++) {
+          pad_bit4(tmpbuf + iter64 * 64, reinterpret_cast<int8_t*>(srcptr + (irow + irr) * ld_src / 2 + 32 * iter64),
+                   zmm_mask, LoadMask64);
+        }
+        for (int iterr = 0; iterr < UnrollRow; iterr++) {
+          if constexpr (_IS_SYM) {
+            dequantize(dstptr + (irow + irr + iterr) * ld_dst, tmpbuf + iterr * ColTile, vscales, nullptr);
+          } else {
+            dequantize(dstptr + (irow + irr + iterr) * ld_dst, tmpbuf + iterr * ColTile, vscales, vzps);
+          }
+        }
+      }
+    }
+    if (irow < row) {
+      for (int iv = 0; iv < 3; iv++) {
+        vscales[iv] = vec_loadscalex16(scales + (k_offset + irow) / kblock * NPad + iv * 16);
+        if constexpr (!_IS_SYM) {
+          auto tmp =
+              _mm_loadu_si128(reinterpret_cast<__m128i*>(zero_points + (k_offset + irow) / kblock * NPad + iv * 16));
+          vzps[iv] = _mm512_cvtepi8_epi32(tmp);
+        }
+      }
+    }
+    for (; irow < row; irow++) {
+      pad_bit4(tmpbuf, reinterpret_cast<int8_t*>(srcptr + irow * ld_src / 2), zmm_mask, LoadMask48);
+      if constexpr (_IS_SYM) {
+        dequantize(dstptr + irow * ld_dst, tmpbuf, vscales, nullptr);
+      } else {
+        dequantize(dstptr + irow * ld_dst, tmpbuf, vscales, vzps);
+      }
+    }
+    return JblasSuccess;
+  }
+  return JblasNotSupport;
+}
+
+template <typename _ST, typename _DT, bool _IS_SYM = true>
+static inline JBLAS_CODE decompress_kblock_bit4_packrow2(utils::bit4x2* srcptr, _DT* dstptr, int row, int col,
+                                                         int ld_src, int ld_dst, _ST* scales, int8_t* zero_points,
+                                                         int k_offset, int kblock, int NPad,
+                                                         void (*dequantize)(_DT*, int8_t*, __m512*, __m512i*),
+                                                         void (*pad_bit4)(int8_t*, int8_t*, __m512i, int),
+                                                         int8_t* tmpbuf, size_t tmpsize) {
+  uint32_t mask = 0xf0f0f0f0;
+  auto zmm_mask = _mm512_set1_epi32(*reinterpret_cast<int*>(&mask));
+  auto broadcast_idx = _mm512_setr_epi64(0, 4, 1, 5, 2, 6, 3, 7);
+  auto broadcast_idx_128 = _mm_setr_epi16(0, 1, 2, 3, 4, 5, 6, 7);
+  if (col % 64 == 0) {
+    constexpr int ColTile = 64;
+    constexpr int NRegs = ColTile / 16;
+    constexpr int LoadMask64 = (1 << (64 / 8)) - 1;
+    for (int icol = 0; icol < col; icol += ColTile) {
+      __m512 vscales[NRegs];
+      __m512i vzps[NRegs];
+      assert(tmpsize >= ColTile);
+      int row0 = kblock - k_offset % kblock;
+      row0 = row0 == kblock ? 0 : row0;
+      row0 = row0 > row ? row : row0;
+      int row1 = row - row0;
+      int irow = 0;
+      if (row0) {
+        for (int iv = 0; iv < 2; iv++) {
+          auto tmpscale = vec_loadscalex16(scales + (k_offset + irow) / kblock * NPad + iv * 16 + icol / 2);
+          vec_broadcast_ps_1_2(vscales + iv * 2, &tmpscale, broadcast_idx);
+          if constexpr (!_IS_SYM) {
+            auto tmpzp = _mm_loadu_si128(
+                reinterpret_cast<__m128i*>(zero_points + (k_offset + irow) / kblock * NPad + iv * 16 + icol / 2));
+            auto vzp = _mm512_cvtepi8_epi32(tmpzp);
+            vec_broadcast_epi32_1_2(vzps + iv * 2, &vzp, broadcast_idx);
+          }
+        }
+
+        for (; irow < row0; irow++) {
+          pad_bit4(tmpbuf, reinterpret_cast<int8_t*>(srcptr + irow * ld_src / 2 + icol / 2), zmm_mask, LoadMask64);
+          if constexpr (_IS_SYM) {
+            dequantize(dstptr + irow * ld_dst + icol, tmpbuf, vscales, nullptr);
+          } else {
+            dequantize(dstptr + irow * ld_dst + icol, tmpbuf, vscales, vzps);
+          }
+        }
+      }
+
+      int row1_blk = utils::padto_le(row1, kblock) + row0;
+      for (; irow < row1_blk; irow += kblock) {
+        for (int iv = 0; iv < 2; iv++) {
+          auto tmpscale = vec_loadscalex16(scales + (k_offset + irow) / kblock * NPad + iv * 16 + icol / 2);
+          vec_broadcast_ps_1_2(vscales + iv * 2, &tmpscale, broadcast_idx);
+          if constexpr (!_IS_SYM) {
+            auto tmpzp = _mm_loadu_si128(
+                reinterpret_cast<__m128i*>(zero_points + (k_offset + irow) / kblock * NPad + iv * 16 + icol / 2));
+            auto vzp = _mm512_cvtepi8_epi32(tmpzp);
+            vec_broadcast_epi32_1_2(vzps + iv * 2, &vzp, broadcast_idx);
+          }
+        }
+
+        for (int irr = 0; irr < kblock; irr += 1) {
+          pad_bit4(tmpbuf, reinterpret_cast<int8_t*>(srcptr + (irow + irr) * ld_src / 2 + icol / 2), zmm_mask,
+                   LoadMask64);
+          if constexpr (_IS_SYM) {
+            dequantize(dstptr + (irow + irr) * ld_dst + icol, tmpbuf, vscales, nullptr);
+          } else {
+            dequantize(dstptr + (irow + irr) * ld_dst + icol, tmpbuf, vscales, vzps);
+          }
+        }
+      }
+      if (irow < row) {
+        for (int iv = 0; iv < 2; iv++) {
+          auto tmpscale = vec_loadscalex16(scales + (k_offset + irow) / kblock * NPad + iv * 16 + icol / 2);
+          vec_broadcast_ps_1_2(vscales + iv * 2, &tmpscale, broadcast_idx);
+          if constexpr (!_IS_SYM) {
+            auto tmpzp = _mm_loadu_si128(
+                reinterpret_cast<__m128i*>(zero_points + (k_offset + irow) / kblock * NPad + iv * 16 + icol / 2));
+            auto vzp = _mm512_cvtepi8_epi32(tmpzp);
+            vec_broadcast_epi32_1_2(vzps + iv * 2, &vzp, broadcast_idx);
+          }
+        }
+      }
+      for (; irow < row; irow++) {
+        pad_bit4(tmpbuf, reinterpret_cast<int8_t*>(srcptr + irow * ld_src / 2 + icol / 2), zmm_mask, LoadMask64);
+        if constexpr (_IS_SYM) {
+          dequantize(dstptr + irow * ld_dst + icol, tmpbuf, vscales, nullptr);
+        } else {
+          dequantize(dstptr + irow * ld_dst + icol, tmpbuf, vscales, vzps);
+        }
+      }
+    }
+
+    return JblasSuccess;
+  }
+  return JblasNotSupport;
+}
+
+template <JBLAS_DTYPE S4_T, typename _DST_T, int _PACK_ROW, typename _ST>
+static inline JBLAS_CODE decompress_kblock_s4_fp(utils::int4x2* srcptr, _DST_T* dstptr, int row, int col, int ld_src,
+                                                 int ld_dst, _ST* scales, int8_t* zero_points, int k_offset, int kblock,
+                                                 int NPad, int8_t* tmp, size_t tmpsize) {
+  if constexpr (_PACK_ROW == 1) {
+    if (zero_points == nullptr) {
+      return decompress_kblock_bit4_packrow1<_ST, _DST_T, true>(
+          srcptr, dstptr, row, col, ld_src, ld_dst, scales, zero_points, k_offset, kblock, NPad,
+          &dequant_s8_N<48, _DST_T, true>, &convert_s4_s8<S4_T>, tmp, tmpsize);
+    } else {
+      return decompress_kblock_bit4_packrow1<_ST, _DST_T, false>(
+          srcptr, dstptr, row, col, ld_src, ld_dst, scales, zero_points, k_offset, kblock, NPad,
+          &dequant_s8_N<48, _DST_T, false>, &convert_s4_s8<S4_T>, tmp, tmpsize);
+    }
+  } else if constexpr (_PACK_ROW == 2) {
+    if (zero_points == nullptr) {
+      return decompress_kblock_bit4_packrow2<_ST, _DST_T, true>(
+          srcptr, dstptr, row, col, ld_src, ld_dst, scales, zero_points, k_offset, kblock, NPad,
+          &dequant_s8_N<64, _DST_T, true>, &convert_s4_s8<S4_T>, tmp, tmpsize);
+    } else {
+      return decompress_kblock_bit4_packrow2<_ST, _DST_T, false>(
+          srcptr, dstptr, row, col, ld_src, ld_dst, scales, zero_points, k_offset, kblock, NPad,
+          &dequant_s8_N<64, _DST_T, false>, &convert_s4_s8<S4_T>, tmp, tmpsize);
+    }
+  }
+  return JblasNotSupport;
+}
+
+template <JBLAS_DTYPE _F4_T, typename _DST_T, int _PACK_ROW, typename _ST>
+static inline JBLAS_CODE decompress_kblock_f4_fp(utils::f4x2* srcptr, _DST_T* dstptr, int row, int col, int ld_src,
+                                                 int ld_dst, _ST* scales, int k_offset, int kblock, int NPad,
+                                                 int8_t* tmp, size_t tmpsize) {
+  if constexpr (_PACK_ROW == 1) {
+    return decompress_kblock_bit4_packrow1<_ST, _DST_T, true>(srcptr, dstptr, row, col, ld_src, ld_dst, scales, nullptr,
+                                                              k_offset, kblock, NPad, &dequant_f4_N<48, _DST_T, _F4_T>,
+                                                              pad_fp4, tmp, tmpsize);
+  } else if constexpr (_PACK_ROW == 2) {
+    return decompress_kblock_bit4_packrow2<_ST, _DST_T, true>(srcptr, dstptr, row, col, ld_src, ld_dst, scales, nullptr,
+                                                              k_offset, kblock, NPad, &dequant_f4_N<64, _DST_T, _F4_T>,
+                                                              pad_fp4, tmp, tmpsize);
+  }
+  return JblasNotSupport;
+}
+
+template <JBLAS_DTYPE F4_T, typename DST_T>
+inline JBLAS_CODE decompress_kblock_f4_fp_noscale(utils::f4x2* srcptr, DST_T* dstptr, int row, int col, int ld_src,
+                                                  int ld_dst, int8_t* tmp, size_t tmpsize) {
+  uint32_t mask = 0xf0f0f0f0;
+  auto zmm_mask = _mm512_set1_epi32(*reinterpret_cast<int*>(&mask));
+  if (col == ld_src) {
+    size_t elesize = (size_t)row * col;
+    size_t ele256 = utils::padto_le(elesize, 256);
+    size_t ele64 = utils::padto_le(elesize, 64);
+    assert(tmpsize >= 256);
+    size_t i = 0;
+    constexpr int LoadMask64 = (1 << (64 / 8)) - 1;
+    for (; i < ele256; i += 256) {
+      pad_fp4(tmp + 0, reinterpret_cast<int8_t*>(srcptr + i / 2 + 0), zmm_mask, LoadMask64);
+      pad_fp4(tmp + 64, reinterpret_cast<int8_t*>(srcptr + i / 2 + 32), zmm_mask, LoadMask64);
+      pad_fp4(tmp + 128, reinterpret_cast<int8_t*>(srcptr + i / 2 + 64), zmm_mask, LoadMask64);
+      pad_fp4(tmp + 192, reinterpret_cast<int8_t*>(srcptr + i / 2 + 96), zmm_mask, LoadMask64);
+      for (size_t j = 0; j < 256; j += 64) {
+        unpack_f4_N<64, DST_T, F4_T>(dstptr + i + j, tmp + j);
+      }
+    }
+    if (i + 64 <= ele64) {
+      for (; i < ele64; i += 64) {
+        pad_fp4(tmp, reinterpret_cast<int8_t*>(srcptr + i / 2), zmm_mask, LoadMask64);
+        unpack_f4_N<64, DST_T, F4_T>(dstptr + i, tmp);
+      }
+    }
+    for (; i < elesize; i += 2) {
+      auto tmp = srcptr[i / 2];
+      dstptr[i + 0] = static_cast<DST_T>(ref::f4_unpack<F4_T>(tmp.x));
+      dstptr[i + 1] = static_cast<DST_T>(ref::f4_unpack<F4_T>(tmp.y));
+    }
+    return JblasSuccess;
+  }
+  return JblasNotSupport;
+}
+
+template <JBLAS_DTYPE S4_T>
+static inline JBLAS_CODE decompress_s4_s8(utils::int4x2* srcptr, int8_t* dstptr, int row, int col, int ld_src,
+                                          int ld_dst) {
+  uint32_t mask = 0xf0f0f0f0;
+  auto zmm_mask = _mm512_set1_epi32(*reinterpret_cast<int*>(&mask));
+  if (col == ld_src) {
+    size_t elesize = (size_t)row * col;
+    size_t ele256 = utils::padto_le(elesize, 256);
+    size_t ele64 = utils::padto_le(elesize, 64);
+    size_t i = 0;
+    constexpr int LoadMask64 = (1 << (64 / 8)) - 1;
+    for (; i < ele256; i += 256) {
+      convert_s4_s8<S4_T>(dstptr + i + 0, reinterpret_cast<int8_t*>(srcptr + i / 2 + 0), zmm_mask, LoadMask64);
+      convert_s4_s8<S4_T>(dstptr + i + 64, reinterpret_cast<int8_t*>(srcptr + i / 2 + 32), zmm_mask, LoadMask64);
+      convert_s4_s8<S4_T>(dstptr + i + 128, reinterpret_cast<int8_t*>(srcptr + i / 2 + 64), zmm_mask, LoadMask64);
+      convert_s4_s8<S4_T>(dstptr + i + 192, reinterpret_cast<int8_t*>(srcptr + i / 2 + 96), zmm_mask, LoadMask64);
+    }
+    if (i + 64 <= ele64) {
+      for (; i < ele64; i += 64) {
+        convert_s4_s8<S4_T>(dstptr + i, reinterpret_cast<int8_t*>(srcptr + i / 2), zmm_mask, LoadMask64);
+      }
+    }
+    for (; i < elesize; i += 2) {
+      auto tmp = srcptr[i / 2];
+      dstptr[i + 0] = jblas::kernel::ref::get_s8<S4_T>(tmp.x);
+      dstptr[i + 1] = jblas::kernel::ref::get_s8<S4_T>(tmp.y);
+    }
+    return JblasSuccess;
+  }
+  return JblasNotSupport;
+}
+
+static inline JBLAS_CODE quantize_f32_sign_int_rowblock_sym(const float* srcptr, int8_t* dstptr, int row, int col,
+                                                            int ld_src, int ld_dst, float* scales, int blocksize) {
+  int constexpr VLen = 16;
+  auto v127 = _mm512_set1_ps(127.f);
+  int col16 = utils::padto_le(col, 16);
+  int i = 0;
+  auto align_row = row / blocksize * blocksize;
+  for (; i < col16; i += VLen) {
+    int j = 0;
+    auto simd_process_block = [&](int size) {
+      __m512 vscale;
+      __m512 vmaxval = _mm512_set1_ps(0.f);
+      for (size_t ij = 0; ij < size; ij++) {
+        auto vsrc = _mm512_loadu_ps(&srcptr[(j + ij) * ld_src + i]);
+        vsrc = _mm512_abs_ps(vsrc);
+        vmaxval = _mm512_max_ps(vmaxval, vsrc);
+      }
+      vscale = _mm512_div_ps(vmaxval, v127);
+      auto vrscale = _mm512_div_ps(v127, vmaxval);
+      _mm512_storeu_ps(&scales[j / blocksize * ld_dst + i], vscale);
+      for (size_t ij = 0; ij < size; ij++) {
+        auto vsrc = _mm512_loadu_ps(&srcptr[(j + ij) * ld_src + i]);
+        vsrc = _mm512_mul_ps(vsrc, vrscale);
+        auto vdsrc = _mm512_cvtps_epi32(vsrc);
+        auto vbsrc = _mm512_cvtepi32_epi8(vdsrc);
+        _mm_storeu_si128(reinterpret_cast<__m128i*>(&dstptr[(j + ij) * ld_dst + i]), vbsrc);
+      }
+    };
+    for (; j < align_row; j += blocksize) simd_process_block(blocksize);
+    if (j < row) simd_process_block(row - align_row);
+  }
+  for (; i < col; i++) {
+    int j = 0;
+    auto scalar_process_block = [&](int size) {
+      float maxval = std::numeric_limits<float>::min();
+      for (size_t ij = 0; ij < size; ij++) {
+        maxval = std::max(maxval, std::abs(srcptr[(j + ij) * ld_src + i]));
+      }
+      float scale = maxval / 127;
+      float rscale = 1.f / scale;
+      scales[j / blocksize * ld_dst + i] = scale;
+      for (size_t ij = 0; ij < size; ij++) {
+        dstptr[(j + ij) * ld_dst + i] = utils::cast<float, int8_t>(srcptr[(j + ij) * ld_src + i] * rscale);
+      }
+    };
+    for (; j < align_row; j += blocksize) scalar_process_block(blocksize);
+    if (j < row) scalar_process_block(row - align_row);
+  }
+  return JblasSuccess;
+}
+
+static inline JBLAS_CODE quantize_f32_sign_int_rowblock_asym(const float* srcptr, int8_t* dstptr, int row, int col,
+                                                             int ld_src, int ld_dst, float* scales, int8_t* zero_points,
+                                                             int blocksize) {
+  int constexpr VLen = 16;
+  auto v255 = _mm512_set1_ps(255.f);
+  auto v2 = _mm512_set1_ps(2.f);
+  auto v0 = _mm512_set1_ps(0.f);
+  int col16 = utils::padto_le(col, 16);
+  int i = 0;
+  auto align_row = row / blocksize * blocksize;
+  for (; i < col16; i += VLen) {
+    int j = 0;
+    auto simd_process_block = [&](int size) {
+      __m512 vscale;
+      __m512 vzp;
+      __m512 vmaxval = v0;
+      __m512 vminval = vmaxval;
+      for (size_t ij = 0; ij < size; ij++) {
+        auto vsrc = _mm512_loadu_ps(&srcptr[(j + ij) * ld_src + i]);
+        vmaxval = _mm512_max_ps(vmaxval, vsrc);
+        vminval = _mm512_min_ps(vminval, vsrc);
+      }
+      auto vsub = _mm512_sub_ps(vmaxval, vminval);
+      vscale = _mm512_div_ps(vsub, v255);
+      auto vrscale = _mm512_div_ps(v255, vsub);
+      _mm512_storeu_ps(&scales[j / blocksize * ld_dst + i], vscale);
+      auto vsum = _mm512_add_ps(vmaxval, vminval);
+      auto vmedium = _mm512_div_ps(vsum, v2);
+      vzp = _mm512_mul_ps(_mm512_sub_ps(v0, vmedium), vrscale);
+      auto vbzp = _mm512_cvtsepi32_epi8(_mm512_cvtps_epi32(vzp));
+      _mm_storeu_si128(reinterpret_cast<__m128i*>(&zero_points[j / blocksize * ld_dst + i]), vbzp);
+      for (size_t ij = 0; ij < size; ij++) {
+        auto vsrc = _mm512_loadu_ps(&srcptr[(j + ij) * ld_src + i]);
+        vsrc = _mm512_mul_ps(_mm512_sub_ps(vsrc, vmedium), vrscale);
+        auto vdsrc = _mm512_cvtps_epi32(vsrc);
+        auto vbsrc = _mm512_cvtsepi32_epi8(vdsrc);
+        _mm_storeu_si128(reinterpret_cast<__m128i*>(&dstptr[(j + ij) * ld_dst + i]), vbsrc);
+      }
+    };
+    for (; j < align_row; j += blocksize) simd_process_block(blocksize);
+    if (j < row) simd_process_block(row - align_row);
+  }
+  for (; i < col; i++) {
+    int j = 0;
+    auto scalar_process_block = [&](int size) {
+      float maxval = 0;
+      float minval = 0;
+      for (size_t ij = 0; ij < size; ij++) {
+        maxval = std::max(maxval, srcptr[(j + ij) * ld_src + i]);
+        minval = std::min(maxval, srcptr[(j + ij) * ld_src + i]);
+      }
+      float scale = (maxval - minval) / 255.f;
+      float rscale = 1.f / scale;
+      scales[j / blocksize * ld_dst + i] = scale;
+      float fmedium = (maxval + minval) / 2.f;
+      int8_t bzp = utils::cast<float, int8_t>((0 - fmedium) * rscale);
+      zero_points[j / blocksize * ld_dst + i] = bzp;
+      for (size_t ij = 0; ij < size; ij++) {
+        dstptr[(j + ij) * ld_dst + i] = utils::cast<float, int8_t>((srcptr[(j + ij) * ld_src + i] - fmedium) * rscale);
+      }
+    };
+    for (; j < align_row; j += blocksize) scalar_process_block(blocksize);
+    if (j < row) scalar_process_block(row - align_row);
+  }
+  return JblasSuccess;
+}
+
+template <JBLAS_DTYPE S4_T>
+static inline JBLAS_CODE quantize_f32_sign_int_rowblock(const float* srcptr, int8_t* dstptr, int row, int col,
+                                                        int ld_src, int ld_dst, float* scales, int8_t* zero_points,
+                                                        int blocksize) {
+  if (zero_points == nullptr)
+    return quantize_f32_sign_int_rowblock_sym(srcptr, dstptr, row, col, ld_src, ld_dst, scales, blocksize);
+  else
+    return quantize_f32_sign_int_rowblock_asym(srcptr, dstptr, row, col, ld_src, ld_dst, scales, zero_points,
+                                               blocksize);
+}
+
+static float F4_NF4_quant_sub_helper[] = {0.f,         0.23746347f, 0.38810113f, 0.50841697f, 0.61348899f, 0.71018467f,
+                                          0.80257138f, 0.88788655f, 0.96835165f, 1.05161765f, 1.14011017f, 1.23740894f,
+                                          1.34975982f, 1.49088332f, 1.70957482f, 2.0f};
+static float F4_BNB_quant_sub_helper[] = {0.00260417f, 0.0859375f, 0.20833333f, 0.29166667f,
+                                          0.4166667f,  0.583333f,  0.8333333f,  1.01f};
+static float F4_E2M1_quant_sub_helper[] = {0.00520833f, 0.08854167f, 0.20833333f, 0.29166667f,
+                                           0.41666667f, 0.58333333f, 0.83333333f, 1.01f};
+constexpr static int8_t F4_NF4_simd_quant_v[] = {0b0111, 0b0001, 0b0010, 0b0011, 0b0100, 0b0101, 0b0110, 0b0000,
+                                                 0b1000, 0b1001, 0b1010, 0b1011, 0b1100, 0b1101, 0b1110, 0b1111};
+constexpr static int8_t F4_BNB_simd_quant_v[] = {0b0000, 0b0001, 0b0110, 0b0111, 0b0100, 0b0101, 0b0010, 0b0011};
+constexpr static int8_t F4_E2M1_simd_quant_v[] = {0b0000, 0b0001, 0b0010, 0b0011, 0b0100, 0b0101, 0b0110, 0b0111};
+
+template <std::size_t N, std::size_t... I>
+constexpr auto broadcast_N_2_Nx16(const int8_t* arr, std::index_sequence<I...>) {
+  return std::array<int8_t, N * 16>{(arr[I / 16])...};
+}
+
+template <std::size_t N>
+constexpr auto broadcast_N_2_Nx16(const int8_t* arr) {
+  return broadcast_N_2_Nx16<N>(arr, std::make_index_sequence<N * 16>{});
+}
+
+template <JBLAS_DTYPE F4_T>
+inline void f32_f4_quantize_4x16(const float* srcptr, int8_t* dstptr, int ld_src, int ld_dst,
+                                 const int8_t* broadcast_f4_v, float* scales, __mmask16 ls_mask) {
+  __m128i xmm0{}, xmm1{}, xmm2{}, xmm3{};
+  __m512 zmm0{}, zmm1{}, zmm2{}, zmm3{}, zmm4, zmm5, zmm6, zmm7, zmm_scale{};
+  __mmask16 mask0, mask1, mask2, mask3, mask4, mask5, mask6, mask7;
+  zmm_scale = _mm512_rcp14_ps(_mm512_mask_loadu_ps(zmm_scale, ls_mask, scales));
+  auto avoid_double_cmp = _mm512_set1_ps(100.f);
+  auto zmm_v0 = _mm512_set1_ps(0.f);
+  zmm0 = _mm512_mask_loadu_ps(zmm0, ls_mask, srcptr);
+  zmm1 = _mm512_mask_loadu_ps(zmm1, ls_mask, srcptr + 1 * ld_src);
+  zmm2 = _mm512_mask_loadu_ps(zmm2, ls_mask, srcptr + 2 * ld_src);
+  zmm3 = _mm512_mask_loadu_ps(zmm3, ls_mask, srcptr + 3 * ld_src);
+  zmm0 = _mm512_mul_ps(zmm0, zmm_scale);
+  zmm1 = _mm512_mul_ps(zmm1, zmm_scale);
+  zmm2 = _mm512_mul_ps(zmm2, zmm_scale);
+  zmm3 = _mm512_mul_ps(zmm3, zmm_scale);
+  if constexpr (F4_T == JBLAS_DTYPE::F4_NF4) {
+    auto zmm_zp = _mm512_set1_ps(0.8480964004993439f);
+    zmm0 = _mm512_add_ps(zmm0, zmm_zp);
+    zmm1 = _mm512_add_ps(zmm1, zmm_zp);
+    zmm2 = _mm512_add_ps(zmm2, zmm_zp);
+    zmm3 = _mm512_add_ps(zmm3, zmm_zp);
+  } else {
+    mask4 = _mm512_cmplt_ps_mask(zmm0, zmm_v0);
+    mask5 = _mm512_cmplt_ps_mask(zmm1, zmm_v0);
+    mask6 = _mm512_cmplt_ps_mask(zmm2, zmm_v0);
+    mask7 = _mm512_cmplt_ps_mask(zmm3, zmm_v0);
+
+    zmm0 = _mm512_abs_ps(zmm0);
+    zmm1 = _mm512_abs_ps(zmm1);
+    zmm2 = _mm512_abs_ps(zmm2);
+    zmm3 = _mm512_abs_ps(zmm3);
+  }
+  constexpr int loop_num = F4_T == JBLAS_DTYPE::F4_NF4 ? 16 : 8;
+  for (int i = 0; i < loop_num; i++) {
+    __m512 sub_v;
+    if constexpr (F4_T == JBLAS_DTYPE::F4_NF4) sub_v = _mm512_set1_ps(F4_NF4_quant_sub_helper[i]);
+    if constexpr (F4_T == JBLAS_DTYPE::F4_BNB) sub_v = _mm512_set1_ps(F4_BNB_quant_sub_helper[i]);
+    if constexpr (F4_T == JBLAS_DTYPE::F4_E2M1) sub_v = _mm512_set1_ps(F4_E2M1_quant_sub_helper[i]);
+    zmm4 = _mm512_sub_ps(zmm0, sub_v);
+    zmm5 = _mm512_sub_ps(zmm1, sub_v);
+    zmm6 = _mm512_sub_ps(zmm2, sub_v);
+    zmm7 = _mm512_sub_ps(zmm3, sub_v);
+    mask0 = _mm512_cmple_ps_mask(zmm4, zmm_v0);
+    mask1 = _mm512_cmple_ps_mask(zmm5, zmm_v0);
+    mask2 = _mm512_cmple_ps_mask(zmm6, zmm_v0);
+    mask3 = _mm512_cmple_ps_mask(zmm7, zmm_v0);
+    xmm0 = _mm_mask_blend_epi8(mask0, xmm0, _mm_loadu_si128(reinterpret_cast<const __m128i*>(broadcast_f4_v + i * 16)));
+    xmm1 = _mm_mask_blend_epi8(mask1, xmm1, _mm_loadu_si128(reinterpret_cast<const __m128i*>(broadcast_f4_v + i * 16)));
+    xmm2 = _mm_mask_blend_epi8(mask2, xmm2, _mm_loadu_si128(reinterpret_cast<const __m128i*>(broadcast_f4_v + i * 16)));
+    xmm3 = _mm_mask_blend_epi8(mask3, xmm3, _mm_loadu_si128(reinterpret_cast<const __m128i*>(broadcast_f4_v + i * 16)));
+    zmm0 = _mm512_mask_add_ps(zmm0, mask0, zmm0, avoid_double_cmp);
+    zmm1 = _mm512_mask_add_ps(zmm1, mask1, zmm1, avoid_double_cmp);
+    zmm2 = _mm512_mask_add_ps(zmm2, mask2, zmm2, avoid_double_cmp);
+    zmm3 = _mm512_mask_add_ps(zmm3, mask3, zmm3, avoid_double_cmp);
+  }
+  if constexpr (F4_T != JBLAS_DTYPE::F4_NF4) {
+    auto xmm_bias = _mm_set1_epi8(0x08);
+    xmm0 = _mm_mask_add_epi8(xmm0, mask4, xmm0, xmm_bias);
+    xmm1 = _mm_mask_add_epi8(xmm1, mask5, xmm1, xmm_bias);
+    xmm2 = _mm_mask_add_epi8(xmm2, mask6, xmm2, xmm_bias);
+    xmm3 = _mm_mask_add_epi8(xmm3, mask7, xmm3, xmm_bias);
+  }
+  _mm_mask_storeu_epi8(dstptr, ls_mask, xmm0);
+  _mm_mask_storeu_epi8(dstptr + 1 * ld_dst, ls_mask, xmm1);
+  _mm_mask_storeu_epi8(dstptr + 2 * ld_dst, ls_mask, xmm2);
+  _mm_mask_storeu_epi8(dstptr + 3 * ld_dst, ls_mask, xmm3);
+}
+
+template <JBLAS_DTYPE F4_T>
+inline void f32_f4_quantize_1x16(const float* srcptr, int8_t* dstptr, int ld_src, int ld_dst,
+                                 const int8_t* broadcast_f4_v, float* scales, __mmask16 ls_mask) {
+  __m512 zmm0{}, zmm1, zmm_scale{};
+  zmm_scale = _mm512_rcp14_ps(_mm512_mask_loadu_ps(zmm_scale, ls_mask, scales));
+  auto avoid_double_cmp = _mm512_set1_ps(100.f);
+  auto zmm_v0 = _mm512_set1_ps(0.f);
+  __m128i xmm0{};
+  __mmask16 mask0, mask1;
+  zmm0 = _mm512_mask_loadu_ps(zmm0, ls_mask, srcptr);
+  zmm0 = _mm512_mul_ps(zmm0, zmm_scale);
+  if constexpr (F4_T == JBLAS_DTYPE::F4_NF4) {
+    auto zp = _mm512_set1_ps(0.8480964004993439f);
+    zmm0 = _mm512_add_ps(zmm0, zp);
+  } else {
+    mask1 = _mm512_cmplt_ps_mask(zmm0, zmm_v0);
+    zmm0 = _mm512_abs_ps(zmm0);
+  }
+  constexpr int loop_num = F4_T == JBLAS_DTYPE::F4_NF4 ? 16 : 8;
+  for (int i = 0; i < loop_num; i++) {
+    __m512 sub_v;
+    if constexpr (F4_T == JBLAS_DTYPE::F4_NF4) sub_v = _mm512_set1_ps(F4_NF4_quant_sub_helper[i]);
+    if constexpr (F4_T == JBLAS_DTYPE::F4_BNB) sub_v = _mm512_set1_ps(F4_BNB_quant_sub_helper[i]);
+    if constexpr (F4_T == JBLAS_DTYPE::F4_E2M1) sub_v = _mm512_set1_ps(F4_E2M1_quant_sub_helper[i]);
+    zmm1 = _mm512_sub_ps(zmm0, sub_v);
+    mask0 = _mm512_cmple_ps_mask(zmm1, zmm_v0);
+    xmm0 = _mm_mask_blend_epi8(mask0, xmm0, _mm_loadu_si128(reinterpret_cast<const __m128i*>(broadcast_f4_v + i * 16)));
+    zmm0 = _mm512_mask_add_ps(zmm0, mask0, zmm0, avoid_double_cmp);
+  }
+  if constexpr (F4_T != JBLAS_DTYPE::F4_NF4) {
+    auto xmm_bias = _mm_set1_epi8(0x08);
+    xmm0 = _mm_mask_add_epi8(xmm0, mask1, xmm0, xmm_bias);
+  }
+  _mm_mask_storeu_epi8(dstptr, ls_mask, xmm0);
+}
+
+inline void calc_blkx16_scale(const float* srcptr, int blocksize, int ld_src, float* scales, __mmask16 ls_mask) {
+  auto absmax = _mm512_set1_ps(0.f);
+  __m512 tmp{};
+  for (int i = 0; i < blocksize; i++) {
+    absmax = _mm512_range_ps(absmax, _mm512_mask_loadu_ps(tmp, ls_mask, srcptr + i * ld_src), 7);
+  }
+  _mm512_mask_storeu_ps(scales, ls_mask, absmax);
+}
+
+constexpr auto broadcast_F4_NF4_quantv = broadcast_N_2_Nx16<16>(F4_NF4_simd_quant_v);
+constexpr auto broadcast_F4_BNB_quantv = broadcast_N_2_Nx16<8>(F4_BNB_simd_quant_v);
+constexpr auto broadcast_F4_E2M1_quantv = broadcast_N_2_Nx16<8>(F4_E2M1_simd_quant_v);
+
+template <JBLAS_DTYPE F4_T>
+inline JBLAS_CODE quantize_f32_f4_rowblock(const float* srcptr, int8_t* dstptr, int row, int col, int ld_src,
+                                           int ld_dst, float* scales, int8_t* zero_points, int blocksize) {
+  // assert(col % 16 == 0);
+  auto align_row = row / blocksize * blocksize;
+  auto align_blk = blocksize / 4 * 4;
+  int8_t* broadcast_f4_quantv;
+  if constexpr (F4_T == JBLAS_DTYPE::F4_NF4) broadcast_f4_quantv = const_cast<int8_t*>(broadcast_F4_NF4_quantv.data());
+  if constexpr (F4_T == JBLAS_DTYPE::F4_BNB) broadcast_f4_quantv = const_cast<int8_t*>(broadcast_F4_BNB_quantv.data());
+  if constexpr (F4_T == JBLAS_DTYPE::F4_E2M1)
+    broadcast_f4_quantv = const_cast<int8_t*>(broadcast_F4_E2M1_quantv.data());
+  int i = 0;
+  int align_col = col / 16 * 16;
+
+  auto process_row_blk = [&](int i, int col_size) {
+    int j = 0;
+    __mmask16 ls_mask = _cvtu32_mask16(0xffff >> (16 - col_size));
+    for (; j < align_row; j += blocksize) {
+      calc_blkx16_scale(srcptr + j * ld_src + i, blocksize, ld_src, scales + j / blocksize * ld_dst + i, ls_mask);
+      int k = 0;
+      for (; k < align_blk; k += 4) {
+        f32_f4_quantize_4x16<F4_T>(srcptr + (j + k) * ld_src + i, dstptr + (j + k) * ld_dst + i, ld_src, ld_dst,
+                                   broadcast_f4_quantv, scales + j / blocksize * ld_dst + i, ls_mask);
+      }
+      for (; k < blocksize; k++) {
+        f32_f4_quantize_1x16<F4_T>(srcptr + (j + k) * ld_src + i, dstptr + (j + k) * ld_dst + i, ld_src, ld_dst,
+                                   broadcast_f4_quantv, scales + j / blocksize * ld_dst + i, ls_mask);
+      }
+    }
+    if (j < row) {
+      auto fin_row = row - align_row;
+      calc_blkx16_scale(srcptr + j * ld_src + i, fin_row, ld_src, scales + j / blocksize * ld_dst + i, ls_mask);
+      int k = 0;
+      auto align_fin_blk = fin_row / 4 * 4;
+      for (; k < align_fin_blk; k += 4) {
+        f32_f4_quantize_4x16<F4_T>(srcptr + (j + k) * ld_src + i, dstptr + (j + k) * ld_dst + i, ld_src, ld_dst,
+                                   broadcast_f4_quantv, scales + j / blocksize * ld_dst + i, ls_mask);
+      }
+      for (; k < fin_row; k++) {
+        f32_f4_quantize_1x16<F4_T>(srcptr + (j + k) * ld_src + i, dstptr + (j + k) * ld_dst + i, ld_src, ld_dst,
+                                   broadcast_f4_quantv, scales + j / blocksize * ld_dst + i, ls_mask);
+      }
+    }
+  };
+
+  for (; i < align_col; i += 16) process_row_blk(i, 16);
+  if (i < col) process_row_blk(i, col - i);
+
+  return JblasSuccess;
+}
+
+template <typename SRC_T>
+static inline JBLAS_CODE quantize_fp_u8_colblock(int row, int col, const SRC_T* srcptr, int ld_src, uint8_t* dstptr,
+                                                 int ld_dst, float* scales, int ld_scale, uint8_t* zps, int blocksize,
+                                                 float* blkreduce) {
+  int constexpr VLen = 16;
+  auto vff = _mm512_set1_epi32(255);
+  auto v0 = _mm512_set1_epi32(0);
+  int vblocksize = utils::padto_le(blocksize, VLen);
+  int colblk = utils::padto_le(col, blocksize);
+  for (int i = 0; i < row; i += 1) {
+    size_t j = 0;
+    for (; j < colblk; j += blocksize) {
+      __m512 vmaxval = _mm512_set1_ps(0.f);
+      __m512 vminval = _mm512_set1_ps(0.f);
+      size_t ij = 0;
+      for (; ij < vblocksize; ij += VLen) {
+        __m512 vsrc;
+        if constexpr (std::is_same_v<SRC_T, float>) vsrc = _mm512_loadu_ps(&srcptr[(j + ij) + i * ld_src]);
+
+        if constexpr (std::is_same_v<SRC_T, utils::bf16>) {
+          auto tmp = _mm256_loadu_si256(reinterpret_cast<const __m256i*>(srcptr + j + ij + i * ld_src));
+          vsrc = zmm_cvt_bf16_fp32(tmp);
+        }
+        vmaxval = _mm512_max_ps(vmaxval, vsrc);
+        vminval = _mm512_min_ps(vminval, vsrc);
+      }
+      auto maxval = _mm512_reduce_max_ps(vmaxval);
+      auto minval = _mm512_reduce_min_ps(vminval);
+      if (ij < blocksize) {
+        for (; ij < blocksize; ij++) {
+          auto srcval = static_cast<float>(srcptr[(j + ij) + i * ld_src]);
+          maxval = std::max(maxval, srcval);
+          minval = std::min(minval, srcval);
+        }
+      }
+      float scale = (maxval - minval) / 255;
+      uint8_t zp = utils::cast<float, uint8_t>((0 - minval) / scale);
+      scales[j / blocksize + i * ld_scale] = scale;
+      zps[j / blocksize + i * ld_scale] = zp;
+      float rscale = 1.f / scale;
+      auto vrscale = _mm512_set1_ps(rscale);
+      auto vdzp = _mm512_set1_epi32(zp);
+      int sum = 0;
+      ij = 0;
+      for (; ij < vblocksize; ij += VLen) {
+        __m512 vsrc;
+        if constexpr (std::is_same_v<SRC_T, float>) vsrc = _mm512_loadu_ps(&srcptr[(j + ij) + i * ld_src]);
+        if constexpr (std::is_same_v<SRC_T, utils::bf16>) {
+          auto tmp = _mm256_loadu_si256(reinterpret_cast<const __m256i*>(srcptr + j + ij + i * ld_src));
+          vsrc = zmm_cvt_bf16_fp32(tmp);
+        }
+        vsrc = _mm512_mul_ps(vsrc, vrscale);
+        auto vdsrc = _mm512_cvtps_epi32(vsrc);
+        if (blkreduce) {
+          sum += _mm512_reduce_add_epi32(vdsrc);
+        }
+        vdsrc = _mm512_add_epi32(vdsrc, vdzp);
+        vdsrc = _mm512_min_epi32(vdsrc, vff);
+        vdsrc = _mm512_max_epi32(vdsrc, v0);
+        auto vbsrc = _mm512_cvtepi32_epi8(vdsrc);
+        _mm_storeu_si128(reinterpret_cast<__m128i*>(&dstptr[(j + ij) + i * ld_dst]), vbsrc);
+      }
+      for (; ij < blocksize; ij++) {
+        auto srcval = static_cast<float>(srcptr[(j + ij) + i * ld_src]);
+        srcval = srcval * rscale;
+        auto srcint = utils::cast<float, int>(srcval);
+        sum += srcint;
+        srcint += zp;
+        srcint = std::min(srcint, 0xff);
+        srcint = std::max(srcint, 0);
+        dstptr[(j + ij) + i * ld_dst] = static_cast<uint8_t>(srcint);
+      }
+      if (blkreduce) {
+        blkreduce[j / blocksize + i * ld_scale] = sum * scale;
+      }
+    }
+
+    if (j < col) {
+      float maxval = 0.f;
+      float minval = 0.f;
+      for (size_t ij = j; ij < col; ij++) {
+        auto fsrc = static_cast<float>(srcptr[ij + i * ld_src]);
+        maxval = std::max(fsrc, maxval);
+        minval = std::min(fsrc, minval);
+      }
+      float scale = (maxval - minval) / 255;
+      uint8_t zp = utils::cast<float, uint8_t>((0 - minval) / scale);
+      float rscale = 1.f / scale;
+      scales[j / blocksize + i * ld_scale] = scale;
+      zps[j / blocksize + i * ld_scale] = zp;
+      int sum = 0;
+      for (size_t ij = j; ij < col; ij++) {
+        auto fsrc = static_cast<float>(srcptr[ij + i * ld_src]);
+        auto srcint = utils::cast<float, int>(fsrc * rscale);
+        sum += srcint;
+        srcint += zp;
+        srcint = srcint <= 255 ? srcint : 255;
+        srcint = srcint >= 0 ? srcint : 0;
+        dstptr[ij + i * ld_dst] = srcint;
+      }
+      if (blkreduce) {
+        blkreduce[j / blocksize + i * ld_scale] = sum * scale;
+      }
+    }
+  }
+  return JblasSuccess;
+}
+
+template <typename SRC_T>
+static inline JBLAS_CODE quantize_fp_s8_colblock(int row, int col, const SRC_T* srcptr, int ld_src, int8_t* dstptr,
+                                                 int ld_dst, float* scales, int ld_scale, int blocksize,
+                                                 float* reduce) {
+  int constexpr VLen = 16;
+  auto vpos = _mm512_set1_epi32(127);
+  auto vneg = _mm512_set1_epi32(-128);
+  int VBlockSize = utils::padto_le(blocksize, VLen);
+  int colblk = utils::padto_le(col, blocksize);
+  for (int i = 0; i < row; i += 1) {
+    size_t j = 0;
+    for (; j < colblk; j += blocksize) {
+      __m512 vmaxval = _mm512_set1_ps(std::numeric_limits<float>::min());
+      size_t ij = 0;
+      for (; ij < VBlockSize; ij += VLen) {
+        __m512 vsrc;
+        if constexpr (std::is_same_v<SRC_T, float>) vsrc = _mm512_loadu_ps(&srcptr[(j + ij) + i * ld_src]);
+        if constexpr (std::is_same_v<SRC_T, utils::bf16>) {
+          auto tmp = _mm256_loadu_si256(reinterpret_cast<const __m256i*>(srcptr + j + ij + i * ld_src));
+          vsrc = zmm_cvt_bf16_fp32(tmp);
+        }
+        vsrc = _mm512_abs_ps(vsrc);
+        vmaxval = _mm512_max_ps(vmaxval, vsrc);
+      }
+      auto maxval = _mm512_reduce_max_ps(vmaxval);
+      if (ij < blocksize) {
+        for (; ij < blocksize; ij++) {
+          auto srcval = std::abs(static_cast<float>(srcptr[(j + ij) + i * ld_src]));
+          maxval = std::max(maxval, srcval);
+        }
+      }
+      float scale = maxval / 127;
+      scales[j / blocksize + i * ld_scale] = scale;
+      float rscale = 1.f / scale;
+      auto vrscale = _mm512_set1_ps(rscale);
+      ij = 0;
+      int sum = 0;
+
+      for (; ij < VBlockSize; ij += VLen) {
+        __m512 vsrc;
+        if constexpr (std::is_same_v<SRC_T, float>) vsrc = _mm512_loadu_ps(&srcptr[(j + ij) + i * ld_src]);
+        if constexpr (std::is_same_v<SRC_T, utils::bf16>) {
+          auto tmp = _mm256_loadu_si256(reinterpret_cast<const __m256i*>(srcptr + j + ij + i * ld_src));
+          vsrc = zmm_cvt_bf16_fp32(tmp);
+        }
+        vsrc = _mm512_mul_ps(vsrc, vrscale);
+        auto vdsrc = _mm512_cvtps_epi32(vsrc);
+        sum += _mm512_reduce_add_epi32(vdsrc);
+        vdsrc = _mm512_min_epi32(vdsrc, vpos);
+        vdsrc = _mm512_max_epi32(vdsrc, vneg);
+        auto vbsrc = _mm512_cvtepi32_epi8(vdsrc);
+        _mm_storeu_si128(reinterpret_cast<__m128i*>(&dstptr[(j + ij) + i * ld_dst]), vbsrc);
+      }
+      if (ij < blocksize) {
+        for (; ij < blocksize; ij++) {
+          auto srcval = static_cast<float>(srcptr[(j + ij) + i * ld_src]);
+          srcval = srcval * rscale;
+          auto srcint = int(roundf(srcval));
+          sum += srcint;
+          srcint = std::min(srcint, 127);
+          srcint = std::max(srcint, -127);
+          dstptr[(j + ij) + i * ld_dst] = static_cast<uint8_t>(srcint);
+        }
+      }
+      if (reduce) reduce[j / blocksize + i * ld_scale] = sum * scale;
+    }
+    if (j < col) {
+      float absmaxval = std::numeric_limits<float>::min();
+      for (size_t ij = j; ij < col; ij++) {
+        absmaxval = std::max(std::abs((float)srcptr[(j + ij) + i * ld_src]), absmaxval);
+      }
+      float scale = absmaxval / 127;
+      float rscale = 1.f / scale;
+      scales[j / blocksize + i * ld_scale] = scale;
+      int sum = 0;
+      for (size_t ij = j; ij < col; ij++) {
+        dstptr[(ij) + i * ld_dst] = utils::cast<float, int8_t>((float)srcptr[(ij) + i * ld_src] * rscale);
+        sum += dstptr[(ij) + i * ld_dst];
+      }
+      if (reduce) reduce[j / blocksize + i * ld_scale] = sum * scale;
+    }
+  }
+  return JblasSuccess;
+}
+
+static inline JBLAS_CODE alphabeta_f32_f32(const float alpha, const float* srcptr, const int srcstep, const float beta,
+                                           const float* src1ptr, const int src1step, float* dstptr, const int dststep,
+                                           const int M, const int N) {
+  int constexpr Vlen = 16;
+  auto vN = utils::padto_le(N, Vlen);
+  auto valpha = _mm512_set1_ps(alpha);
+  auto vbeta = _mm512_set1_ps(beta);
+
+  for (int i = 0; i < M; i++) {
+    int j = 0;
+    if (beta != 0.f) {
+      for (; j < vN; j += Vlen) {
+        auto vsrc = _mm512_loadu_ps(srcptr + i * srcstep + j);
+        auto vsrc1 = _mm512_loadu_ps(src1ptr + i * src1step + j);
+        auto vdst = _mm512_mul_ps(valpha, vsrc);
+        vdst = _mm512_fmadd_ps(vbeta, vsrc1, vdst);
+        _mm512_storeu_ps(dstptr + i * dststep + j, vdst);
+      }
+      for (; j < N; j += 1) {
+        dstptr[i * dststep + j] = alpha * srcptr[i * srcstep + j] + beta * src1ptr[i * src1step + j];
+      }
+    } else {
+      for (; j < vN; j += Vlen) {
+        auto vsrc = _mm512_loadu_ps(srcptr + i * srcstep + j);
+        auto vdst = _mm512_mul_ps(valpha, vsrc);
+        _mm512_storeu_ps(dstptr + i * dststep + j, vdst);
+      }
+      for (; j < N; j += 1) {
+        dstptr[i * dststep + j] = alpha * srcptr[i * srcstep + j];
+      }
+    }
+  }
+  return JblasSuccess;
+}
+
+template <JBLAS_DTYPE S4_T, typename _DST_T>
+inline JBLAS_CODE decompress_kblock_s4_s8fp(utils::int4x2* srcptr, _DST_T* dstptr, int row, int col, int ld_src,
+                                            int ld_dst, int8_t* tmp, size_t tmpsize) {
+  uint32_t mask = 0xf0f0f0f0;
+  auto zmm_mask = _mm512_set1_epi32(*reinterpret_cast<int*>(&mask));
+  if (col == ld_src) {
+    size_t elesize = (size_t)row * col;
+    size_t ele256 = utils::padto_le(elesize, 256);
+    size_t ele64 = utils::padto_le(elesize, 64);
+    assert(tmpsize >= 256);
+    size_t i = 0;
+    constexpr int LoadMask64 = (1 << (64 / 8)) - 1;
+    for (; i < ele256; i += 256) {
+      convert_s4_s8<S4_T>(tmp + 0, reinterpret_cast<int8_t*>(srcptr + i / 2 + 0), zmm_mask, LoadMask64);
+      convert_s4_s8<S4_T>(tmp + 64, reinterpret_cast<int8_t*>(srcptr + i / 2 + 32), zmm_mask, LoadMask64);
+      convert_s4_s8<S4_T>(tmp + 128, reinterpret_cast<int8_t*>(srcptr + i / 2 + 64), zmm_mask, LoadMask64);
+      convert_s4_s8<S4_T>(tmp + 192, reinterpret_cast<int8_t*>(srcptr + i / 2 + 96), zmm_mask, LoadMask64);
+      for (size_t j = 0; j < 256; j += 16) {
+        convert_s8_fp_v16(dstptr + i + j, tmp + j);
+      }
+    }
+    if (i + 64 <= ele64) {
+      for (; i < ele64; i += 64) {
+        convert_s4_s8<S4_T>(tmp, reinterpret_cast<int8_t*>(srcptr + i / 2), zmm_mask, LoadMask64);
+        for (size_t j = 0; j < 64; j += 16) {
+          convert_s8_fp_v16(dstptr + i + j, tmp + j);
+        }
+      }
+    }
+    for (; i < elesize; i += 2) {
+      auto tmp = srcptr[i / 2];
+      dstptr[i + 0] = static_cast<_DST_T>(static_cast<float>(jblas::kernel::ref::get_s8<S4_T>(tmp.x)));
+      dstptr[i + 1] = static_cast<_DST_T>(static_cast<float>(jblas::kernel::ref::get_s8<S4_T>(tmp.y)));
+    }
+    return JblasSuccess;
+  }
+  return JblasNotSupport;
+}
+
+template <typename DST_T>
+inline JBLAS_CODE decompress_kblock_s8_s8fp(int8_t* srcptr, DST_T* dstptr, int row, int col, int ld_src, int ld_dst) {
+  if (col == ld_src) {
+    size_t elesize = (size_t)row * col;
+    size_t ele64 = utils::padto_le(elesize, 64);
+    size_t i = 0;
+    if (i + 64 <= ele64) {
+      for (; i < ele64; i += 64) {
+        for (size_t j = 0; j < 64; j += 16) {
+          convert_s8_fp_v16(dstptr + i + j, srcptr + i + j);
+        }
+      }
+    }
+    for (; i < elesize; i += 1) {
+      auto tmp = srcptr[i];
+      dstptr[i] = static_cast<DST_T>(static_cast<float>(tmp));
+    }
+    return JblasSuccess;
+  }
+  return JblasNotSupport;
+}
+
+template <typename SCA_T>
+static inline JBLAS_CODE accum_alphaN_f32_f32(const SCA_T* alpha, const float* srcptr, const int srcstep, float* dstptr,
+                                              const int dststep, const int M, const int N) {
+  int constexpr Vlen = 16;
+  auto vN = utils::padto_le(N, Vlen);
+  int j = 0;
+  for (; j < vN; j += Vlen) {
+    __m512 valpha;
+    if constexpr (std::is_same_v<SCA_T, float>) {
+      valpha = _mm512_loadu_ps(alpha + j);
+    } else if constexpr (std::is_same_v<SCA_T, utils::bf16>) {
+      auto tmp = _mm256_loadu_si256(reinterpret_cast<const __m256i*>(alpha + j));
+      valpha = zmm_cvt_bf16_fp32(tmp);
+    }
+    for (size_t i = 0; i < M; i++) {
+      auto vsrc = _mm512_loadu_ps(srcptr + i * srcstep + j);
+      auto vsrc1 = _mm512_loadu_ps(dstptr + i * dststep + j);
+      auto vdst = _mm512_fmadd_ps(valpha, vsrc, vsrc1);
+      _mm512_storeu_ps(dstptr + i * dststep + j, vdst);
+    }
+  }
+  for (; j < N; j += 1) {
+    for (size_t i = 0; i < M; i++) {
+      dstptr[i * dststep + j] += static_cast<float>(alpha[j]) * srcptr[i * srcstep + j];
+    }
+  }
+  return JblasSuccess;
+}
+
+static inline JBLAS_CODE accum_f32_f32(const float* srcptr, const int srcstep, float* dstptr, const int dststep,
+                                       const int M, const int N) {
+  int constexpr Vlen = 16;
+  auto vN = utils::padto_le(N, Vlen);
+  int j = 0;
+  for (; j < vN; j += Vlen) {
+    for (size_t i = 0; i < M; i++) {
+      auto vsrc = _mm512_loadu_ps(srcptr + i * srcstep + j);
+      auto vsrc1 = _mm512_loadu_ps(dstptr + i * dststep + j);
+      auto vdst = _mm512_add_ps(vsrc, vsrc1);
+      _mm512_storeu_ps(dstptr + i * dststep + j, vdst);
+    }
+  }
+  for (; j < N; j += 1) {
+    for (size_t i = 0; i < M; i++) {
+      dstptr[i * dststep + j] += srcptr[i * srcstep + j];
+    }
+  }
+  return JblasSuccess;
+}
+
+static inline void vec_quanout_s32_u32_v16(const int32_t* srcptr, __m512& vfactor, __m512i& vzp, __m512i& vzeros,
+                                           __m512i& v255, uint8_t* dstptr) {
+  auto vsrcd = _mm512_loadu_si512(srcptr);
+  auto vsrcf = _mm512_mul_ps(vfactor, _mm512_cvtepi32_ps(vsrcd));
+  vsrcd = _mm512_cvtps_epi32(vsrcf);
+  vsrcd = _mm512_add_epi32(vsrcd, vzp);
+  vsrcd = _mm512_max_epi32(vsrcd, vzeros);
+  vsrcd = _mm512_min_epi32(vsrcd, v255);
+  auto vdstb = _mm512_cvtepi32_epi8(vsrcd);
+  _mm_storeu_si128(reinterpret_cast<__m128i*>(dstptr), vdstb);
+}
+
+static inline JBLAS_CODE quanout_s32_u32(const float alpha, const int32_t* srcptr, const int srcstep, uint8_t* dstptr,
+                                         const int dststep, const int M, const int N, float scaleSrc, float scaleDst,
+                                         int zpDst) {
+  float factor = alpha * scaleSrc / scaleDst;
+  auto vfactor = _mm512_set1_ps(factor);
+  auto vzp = _mm512_set1_epi32(zpDst);
+  auto vzeros = _mm512_set1_epi32(0);
+  auto v255 = _mm512_set1_epi32(255);
+  int N64 = utils::padto_le(N, 64);
+  int N48 = utils::padto_le(N, 48);
+  int N16 = utils::padto_le(N, 16);
+  for (int i = 0; i < M; i++) {
+    int j = 0;
+    for (; j < N64; j += 64) {
+      for (int iv = 0; iv < 4; iv++) {
+        vec_quanout_s32_u32_v16(&srcptr[i * srcstep + j + iv * 16], vfactor, vzp, vzeros, v255,
+                                &dstptr[i * dststep + j + iv * 16]);
+      }
+    }
+    if (N48 - j >= 48) {
+      for (; j < N48; j += 48) {
+        for (int iv = 0; iv < 3; iv++) {
+          vec_quanout_s32_u32_v16(&srcptr[i * srcstep + j + iv * 16], vfactor, vzp, vzeros, v255,
+                                  &dstptr[i * dststep + j + iv * 16]);
+        }
+      }
+    }
+    if (N16 - j >= 16) {
+      for (; j < N16; j += 16) {
+        vec_quanout_s32_u32_v16(&srcptr[i * srcstep + j], vfactor, vzp, vzeros, v255, &dstptr[i * dststep + j]);
+      }
+    }
+    for (; j < N; j++) {
+      float fsrc = static_cast<float>(srcptr[i * srcstep + j]) * factor;
+      dstptr[i * dststep + j] = utils::cast<float, uint8_t>(fsrc + static_cast<float>(zpDst));
+    }
+  }
+  return JblasSuccess;
+}
+
+static inline JBLAS_CODE accumulate_dequantize_s32_f32(const int32_t* srcptr, float* dstptr, float alpha, float beta,
+                                                       int row, int col, int ld_src, int ld_dst, float* ascales,
+                                                       int ldas, float* wscales) {
+  auto vbeta = _mm512_set1_ps(beta);
+  int col16 = utils::padto_le(col, 16);
+  for (int irow = 0; irow < row; irow++) {
+    auto scale = ascales[irow * ldas] * alpha;
+    auto valpha = _mm512_set1_ps(scale);
+    int icol = 0;
+    for (; icol < col16; icol += 16) {
+      auto vwscale = _mm512_loadu_ps(wscales + icol);
+      auto vscale = _mm512_mul_ps(valpha, vwscale);
+      auto vdst = _mm512_loadu_ps(dstptr + irow * ld_dst + icol);
+      vdst = _mm512_mul_ps(vdst, vbeta);
+      auto vsrcd = _mm512_loadu_si512(srcptr + irow * ld_src + icol);
+      auto vsrc = _mm512_cvtepi32_ps(vsrcd);
+      vsrc = _mm512_fmadd_ps(vsrc, vscale, vdst);
+      _mm512_storeu_ps(dstptr + irow * ld_dst + icol, vsrc);
+    }
+    for (; icol < col; icol += 1) {
+      dstptr[irow * ld_dst + icol] =
+          scale * wscales[icol] * srcptr[irow * ld_src + icol] + beta * dstptr[irow * ld_dst + icol];
+    }
+  }
+  return JblasSuccess;
+}
+
+template <typename SCAB_T>
+static inline JBLAS_CODE dequant_s32_fp32(const int32_t* srcptr, const int srcstep, float* dstptr, const int dststep,
+                                          const int row, const int col, const float* scaleA, const int ldsa,
+                                          const SCAB_T* scaleB) {
+  int col16 = utils::padto_le(col, 16);
+  int col64 = utils::padto_le(col, 64);
+  for (int irow = 0; irow < row; irow++) {
+    auto scale = scaleA[irow * ldsa];
+    auto valpha = _mm512_set1_ps(scale);
+    int icol = 0;
+    for (; icol < col64; icol += 64) {
+      for (int ic = 0; ic < 4; ic++) {
+        __m512 vwscale;
+        if constexpr (std::is_same_v<SCAB_T, float>) {
+          vwscale = _mm512_loadu_ps(scaleB + icol + ic * 16);
+        } else if constexpr (std::is_same_v<SCAB_T, utils::bf16>) {
+          auto tmp = _mm256_loadu_si256(reinterpret_cast<const __m256i*>(scaleB + icol + ic * 16));
+          vwscale = zmm_cvt_bf16_fp32(tmp);
+        }
+        auto vscale = _mm512_mul_ps(valpha, vwscale);
+        auto vsrcd = _mm512_loadu_si512(srcptr + irow * srcstep + icol + ic * 16);
+        auto vsrc = _mm512_cvtepi32_ps(vsrcd);
+        vsrc = _mm512_mul_ps(vsrc, vscale);
+        _mm512_storeu_ps(dstptr + irow * dststep + icol + ic * 16, vsrc);
+      }
+    }
+    if (icol + 16 <= col16) {
+      for (; icol < col16; icol += 16) {
+        __m512 vwscale;
+        if constexpr (std::is_same_v<SCAB_T, float>) {
+          vwscale = _mm512_loadu_ps(scaleB + icol);
+        } else if constexpr (std::is_same_v<SCAB_T, utils::bf16>) {
+          auto tmp = _mm256_loadu_si256(reinterpret_cast<const __m256i*>(scaleB + icol));
+          vwscale = zmm_cvt_bf16_fp32(tmp);
+        }
+        auto vscale = _mm512_mul_ps(valpha, vwscale);
+        auto vsrcd = _mm512_loadu_si512(srcptr + irow * srcstep + icol);
+        auto vsrc = _mm512_cvtepi32_ps(vsrcd);
+        vsrc = _mm512_mul_ps(vsrc, vscale);
+        _mm512_storeu_ps(dstptr + irow * dststep + icol, vsrc);
+      }
+    }
+    for (; icol < col; icol += 1) {
+      dstptr[irow * dststep + icol] = scale * scaleB[icol] * srcptr[irow * srcstep + icol];
+    }
+  }
+  return JblasSuccess;
+}
+
+static inline JBLAS_CODE broadcast_u8(int num, const uint8_t& srcval, uint8_t* dstptr) {
+  int i = 0;
+  int constexpr VN = 64 / sizeof(srcval);
+  int numv = utils::padto_le(num, VN);
+  auto vsrc = _mm512_set1_epi8(srcval);
+  for (; i < numv; i += VN) {
+    _mm512_storeu_si512(dstptr + i, vsrc);
+  }
+  int num32 = utils::padto_le(num, 32);
+  if (i + 32 <= num32) {
+    for (; i < num32; i += 32) {
+      _mm256_storeu_si256(reinterpret_cast<__m256i*>(dstptr + i), _mm512_castsi512_si256(vsrc));
+    }
+  }
+  for (; i < num; i++) {
+    dstptr[i] = srcval;
+  }
+  return JblasSuccess;
+}
+
+static inline JBLAS_CODE remove_act_zeropoint_bias(float* accptr, int ldacc, int row, int col, uint8_t* zps,
+                                                   float* scales, int lds, const float* reduce) {
+  int constexpr VLen = 16;
+  auto col16 = utils::padto_le(col, VLen);
+  for (int i = 0; i < row; i++) {
+    auto zpf = static_cast<float>(zps[i * lds]) * scales[i * lds];
+    int j = 0;
+    auto vzp = _mm512_set1_ps(-zpf);
+    for (; j < col16; j += VLen) {
+      auto vreduce = _mm512_loadu_ps(reduce + j);
+      auto vacc = _mm512_loadu_ps(&accptr[i * ldacc + j]);
+      vacc = _mm512_fmadd_ps(vzp, vreduce, vacc);
+      _mm512_storeu_ps(&accptr[i * ldacc + j], vacc);
+    }
+    if (j < col) {
+      for (; j < col; j++) {
+        accptr[i * ldacc + j] -= zpf * reduce[j];
+      }
+    }
+  }
+  return JblasSuccess;
+}
+
+static inline JBLAS_CODE remove_wei_zeropoint_bias(float* accptr, int ldacc, int row, int col, int8_t* zps,
+                                                   float* scales, int lds, const float* reduce) {
+  int constexpr VLen = 16;
+  auto col16 = utils::padto_le(col, VLen);
+  for (int i = 0; i < row; i++) {
+    auto vreduce = _mm512_set1_ps(-reduce[i * lds]);
+    int j = 0;
+    for (; j < col16; j += VLen) {
+      auto vzp_s32 = _mm512_cvtepi8_epi32(_mm_loadu_si128(reinterpret_cast<__m128i*>(zps + j)));
+      auto vzp_f32 = _mm512_cvtepi32_ps(vzp_s32);
+      auto vzp = _mm512_mul_ps(vzp_f32, _mm512_loadu_ps(scales + j));
+      auto vacc = _mm512_loadu_ps(&accptr[i * ldacc + j]);
+      vacc = _mm512_fmadd_ps(vzp, vreduce, vacc);
+      _mm512_storeu_ps(&accptr[i * ldacc + j], vacc);
+    }
+    if (j < col) {
+      for (; j < col; j++) {
+        accptr[i * ldacc + j] -= static_cast<float>(zps[j]) * scales[j] * reduce[i * lds];
+      }
+    }
+  }
+  return JblasSuccess;
+}
+
+static inline JBLAS_CODE remove_zeropoint_bias(float* accptr, int ldacc, int row, int col, uint8_t* zpa, int8_t* zpb,
+                                               float* scalea, float* scaleb, int lds, int k, const float* reducea,
+                                               const float* reduceb) {
+  int constexpr VLen = 16;
+  auto col16 = utils::padto_le(col, VLen);
+  auto vk = _mm512_set1_ps(static_cast<float>(k));
+  for (int i = 0; i < row; i++) {
+    auto vreducea = _mm512_set1_ps(-reducea[i * lds]);
+    auto zpaf = static_cast<float>(zpa[i * lds]) * scalea[i * lds];
+    auto vzpa = _mm512_set1_ps(-zpaf);
+    int j = 0;
+    for (; j < col16; j += VLen) {
+      auto vzp_s32 = _mm512_cvtepi8_epi32(_mm_loadu_si128(reinterpret_cast<__m128i*>(zpb + j)));
+      auto vzp_f32 = _mm512_cvtepi32_ps(vzp_s32);
+      auto vzpb = _mm512_mul_ps(vzp_f32, _mm512_loadu_ps(scaleb + j));
+      auto vreduceb = _mm512_loadu_ps(reduceb + j);
+      auto vacc = _mm512_loadu_ps(&accptr[i * ldacc + j]);
+      vacc = _mm512_fmadd_ps(vzpa, vreduceb, vacc);
+      vacc = _mm512_fmadd_ps(vzpb, vreducea, vacc);
+      vzpb = _mm512_mul_ps(vzpb, vk);
+      vacc = _mm512_fmadd_ps(vzpa, vzpb, vacc);
+      _mm512_storeu_ps(&accptr[i * ldacc + j], vacc);
+    }
+    if (j < col) {
+      for (; j < col; j++) {
+        float zpbf = static_cast<float>(zpb[j]) * scaleb[j];
+        accptr[i * ldacc + j] -= zpbf * reducea[i * lds];
+        accptr[i * ldacc + j] -= zpaf * reduceb[j];
+        accptr[i * ldacc + j] -= zpaf * zpbf * k;
+      }
+    }
+  }
+  return JblasSuccess;
+}
+
+static inline JBLAS_CODE fp32_cvt_bf16_2D_write_back(const void* raw_srcptr, void* raw_dstptr, int row, int col,
+                                                     int srcstride, int dststride, bool zeropadding) {
+  auto srcptr = reinterpret_cast<const char*>(raw_srcptr);
+  auto dstptr = reinterpret_cast<char*>(raw_dstptr);
+  constexpr int simd_proc_elt = 16;
+  auto col_body_loop = col / simd_proc_elt;
+  auto col_tail = col % simd_proc_elt;
+  auto tail_mask = _cvtu32_mask16(0xffff >> (16 - col_tail));
+  int npadding = dststride - col * sizeof(utils::bf16);
+  auto bf16_and_helper = _mm512_set1_epi32(0x00000001);
+  auto bf16_add_helper = _mm512_set1_epi32(0X00007FFF);
+  for (int i = 0; i < row; i++) {
+    auto src = srcptr + i * srcstride;
+    auto dst = dstptr + i * dststride;
+    int j = 0;
+    for (; j < col_body_loop; j++) {
+      auto round_bias = _mm512_loadu_si512(src + sizeof(float) * simd_proc_elt * j);
+      round_bias = _mm512_and_epi32(bf16_and_helper, _mm512_bsrli_epi128(round_bias, 2));
+      round_bias = _mm512_add_epi32(round_bias, bf16_add_helper);
+      auto round_fp32_v = _mm512_add_epi32(round_bias, _mm512_loadu_si512(src + sizeof(float) * simd_proc_elt * j));
+      auto pack_bf16_value = _mm512_cvtepi32_epi16(_mm512_srli_epi32(round_fp32_v, 16));
+      _mm256_storeu_si256(reinterpret_cast<__m256i*>(dst + (j * simd_proc_elt) * sizeof(jblas::utils::bf16)),
+                          pack_bf16_value);
+    }
+    if (col_tail > 0) {
+      auto round_bias = _mm512_maskz_loadu_epi32(tail_mask, src + sizeof(float) * simd_proc_elt * j);
+      round_bias = _mm512_and_epi32(bf16_and_helper, _mm512_bsrli_epi128(round_bias, 2));
+      round_bias = _mm512_add_epi32(round_bias, bf16_add_helper);
+      auto round_fp32_v =
+          _mm512_add_epi32(round_bias, _mm512_maskz_loadu_epi32(tail_mask, src + sizeof(float) * simd_proc_elt * j));
+      auto pack_bf16_tail = _mm512_cvtepi32_epi16(_mm512_srli_epi32(round_fp32_v, 16));
+      _mm256_mask_storeu_epi16(reinterpret_cast<__m256i*>(dst + (j * simd_proc_elt) * sizeof(jblas::utils::bf16)),
+                               tail_mask, pack_bf16_tail);
+    }
+    if (zeropadding && npadding) {
+      std::memset(dst + col * sizeof(utils::bf16), 0, npadding);
+    }
+  }
+  return JblasSuccess;
+}
+
+template <typename SRC_T>
+static inline JBLAS_CODE col_block_reduce_sum(const SRC_T* srcptr, int ldsrc, int row, int col, int blocksize,
+                                              float* reduce, int ldr) {
+  int constexpr VLen = 16;
+  auto vblock2_ = utils::padto_le(blocksize, VLen * 2);
+  auto vblock_ = utils::padto_le(blocksize, VLen);
+  for (int i = 0; i < row; i++) {
+    for (int j = 0; j < col; j += blocksize) {
+      auto tmp = 0.f;
+      auto vsum = _mm512_set1_ps(0.f);
+      int jj = 0;
+      auto vblock2 = j + vblock2_ <= col ? vblock2_ : 0;
+      auto vblock = j + vblock_ <= col ? vblock_ : 0;
+      for (; jj < vblock2; jj += VLen * 2) {
+        auto vtmp = _mm512_loadu_ps(srcptr + i * ldsrc + j + jj);
+        auto vtmp1 = _mm512_loadu_ps(srcptr + i * ldsrc + j + jj + VLen);
+        auto s0 = _mm512_reduce_add_ps(vtmp);
+        auto s1 = _mm512_reduce_add_ps(vtmp1);
+        tmp += s0;
+        tmp += s1;
+      }
+      if (jj + VLen <= vblock) {
+        for (; jj < vblock; jj += VLen) {
+          auto vtmp = _mm512_loadu_ps(srcptr + i * ldsrc + j + jj);
+          auto s0 = _mm512_reduce_add_ps(vtmp);
+          tmp += s0;
+        }
+      }
+      for (; jj < blocksize; jj++) {
+        tmp += *(srcptr + i * ldsrc + j + jj);
+      }
+      reduce[i * ldr + j / blocksize] = tmp;
+    }
+  }
+  return JblasSuccess;
+}
+
+static inline JBLAS_CODE fp32_cvt_fp16_2D_write_back(const float* src_ptr, utils::fp16* dst_ptr, int row, int col,
+                                                     int src_step, int dst_step, bool zeropadding) {
+#if CompileFP16()
+  const int npadding = (dst_step - col) * sizeof(utils::fp16);
+  constexpr int simd_proc_elt = 16;
+  auto col_body = col / simd_proc_elt * simd_proc_elt;
+  auto col_tail = col % simd_proc_elt;
+  const auto tail_mask = _cvtu32_mask16((1U << col_tail) - 1);
+  for (int i = 0; i < row; i++) {
+    const auto src = src_ptr + i * src_step;
+    const auto dst = dst_ptr + i * dst_step;
+    int j = 0;
+    for (; j < col_body; j += simd_proc_elt) {
+      _mm256_storeu_ph(dst + j, _mm512_cvtxps_ph(_mm512_loadu_ps(src + j)));
+    }
+    if (col_tail > 0) {
+      _mm256_mask_storeu_epi16(  //
+          dst + j, tail_mask, _mm256_castph_si256(_mm512_cvtxps_ph(_mm512_maskz_loadu_ps(tail_mask, src + j))));
+    }
+    if (zeropadding && npadding) std::memset(dst + col, 0, npadding);
+  }
+  return JblasSuccess;
+#else
+  return JblasNotSupport;
+#endif
+}
+
+static inline JBLAS_CODE fp16_cvt_fp32_2D_write_back(const utils::fp16* src_ptr, float* dst_ptr, int row, int col,
+                                                     int src_step, int dst_step, bool zeropadding) {
+#if CompileFP16()
+  const int npadding = (dst_step - col) * sizeof(float);
+  constexpr int simd_proc_elt = 16;
+  auto col_body = col / simd_proc_elt * simd_proc_elt;
+  auto col_tail = col % simd_proc_elt;
+  const auto tail_mask = _cvtu32_mask16((1U << col_tail) - 1);
+  for (int i = 0; i < row; i++) {
+    const auto src = src_ptr + i * src_step;
+    const auto dst = dst_ptr + i * dst_step;
+    int j = 0;
+    for (; j < col_body; j += simd_proc_elt) {
+      _mm512_storeu_ps(dst + j, _mm512_cvtxph_ps(_mm256_loadu_ph(src + j)));
+    }
+    if (col_tail > 0) {
+      _mm512_mask_storeu_ps(dst + j, tail_mask,
+                            _mm512_cvtxph_ps(_mm256_castsi256_ph(_mm256_maskz_loadu_epi16(tail_mask, src + j))));
+    }
+    if (zeropadding && npadding) std::memset(dst + col, 0, npadding);
+  }
+  return JblasSuccess;
+#else
+  return JblasNotSupport;
+#endif
+}
+
+static inline JBLAS_CODE bf16_cvt_fp32_2D_write_back(const utils::bf16* src_ptr, float* dst_ptr, int row, int col,
+                                                     int src_step, int dst_step, bool zeropadding) {
+  const int npadding = (dst_step - col) * sizeof(float);
+  constexpr int simd_proc_elt = 16;
+  auto col_body = col / simd_proc_elt * simd_proc_elt;
+  auto col_tail = col % simd_proc_elt;
+  const auto tail_mask = _cvtu32_mask16((1U << col_tail) - 1);
+  for (int i = 0; i < row; i++) {
+    auto src = const_cast<utils::bf16*>(src_ptr + i * src_step);
+    auto dst = dst_ptr + i * dst_step;
+    int j = 0;
+    for (; j < col_body; j += simd_proc_elt)
+      _mm512_storeu_ps(
+          dst + j,
+          _mm512_castsi512_ps(_mm512_bslli_epi128(
+              _mm512_cvtepu16_epi32(_mm256_castps_si256(_mm256_loadu_ps(reinterpret_cast<float*>(src + j)))), 2)));
+    if (col_tail > 0)
+      _mm512_mask_storeu_ps(
+          dst + j, tail_mask,
+          _mm512_castsi512_ps(_mm512_bslli_epi128(
+              _mm512_cvtepu16_epi32(_mm256_castps_si256(_mm256_loadu_ps(reinterpret_cast<float*>(src + j)))), 2)));
+    if (zeropadding && npadding) std::memset(dst + col, 0, npadding);
+  }
+  return JblasSuccess;
+}
+
+#ifdef __GNUC__
+#pragma GCC diagnostic push
+#pragma GCC diagnostic ignored "-Wignored-attributes"  // https://stackoverflow.com/a/49216021
+#endif
+// Interleave 2 bf16 zmm vectors inplace
+static inline void interleave_word(std::array<__m512i, 2>& dst) {  // NOLINT [runtime/references]
+  static constexpr uint32_t perm_idx_a[16]{
+      0 | 0,  1 | 0,  2 | 0,  3 | 0,   //
+      0 | 16, 1 | 16, 2 | 16, 3 | 16,  //
+      4 | 0,  5 | 0,  6 | 0,  7 | 0,   //
+      4 | 16, 5 | 16, 6 | 16, 7 | 16,  //
+  };
+  static constexpr uint32_t perm_idx_b[16]{
+      8 | 0,   9 | 0,   10 | 0,  11 | 0,   //
+      8 | 16,  9 | 16,  10 | 16, 11 | 16,  //
+      12 | 0,  13 | 0,  14 | 0,  15 | 0,   //
+      12 | 16, 13 | 16, 14 | 16, 15 | 16,  //
+  };
+  static const auto v_perm_idx_a = _mm512_loadu_si512(perm_idx_a);
+  static const auto v_perm_idx_b = _mm512_loadu_si512(perm_idx_b);
+
+  __m512i tmp[2];
+  tmp[0] = _mm512_unpacklo_epi16(dst[0], dst[1]);
+  tmp[1] = _mm512_unpackhi_epi16(dst[0], dst[1]);
+  dst[0] = _mm512_permutex2var_epi32(tmp[0], v_perm_idx_a, tmp[1]);
+  dst[1] = _mm512_permutex2var_epi32(tmp[0], v_perm_idx_b, tmp[1]);
+}
+
+// Interleave 16 zmm vectors of dwords inplace
+static inline void tr_x16_dword(std::array<__m512i, 16>& dst) {  // NOLINT [runtime/references]
+  __m512i tmp[16];
+
+#pragma unroll(8)
+  for (int i = 0; i < 8; ++i) {
+    tmp[2 * i] = _mm512_unpacklo_epi32(dst[2 * i], dst[2 * i + 1]);
+    tmp[2 * i + 1] = _mm512_unpackhi_epi32(dst[2 * i], dst[2 * i + 1]);
+  }
+
+#pragma unroll(4)
+  for (int i = 0; i < 4; ++i) {
+    dst[4 * i] = _mm512_unpacklo_epi64(tmp[4 * i], tmp[4 * i + 2]);
+    dst[4 * i + 1] = _mm512_unpackhi_epi64(tmp[4 * i], tmp[4 * i + 2]);
+    dst[4 * i + 2] = _mm512_unpacklo_epi64(tmp[4 * i + 1], tmp[4 * i + 3]);
+    dst[4 * i + 3] = _mm512_unpackhi_epi64(tmp[4 * i + 1], tmp[4 * i + 3]);
+  }
+
+#pragma unroll(2)
+  for (int i = 0; i < 2; ++i) {
+    tmp[8 * i + 0] = _mm512_shuffle_i32x4(dst[8 * i + 0], dst[8 * i + 4], 0x88);
+    tmp[8 * i + 1] = _mm512_shuffle_i32x4(dst[8 * i + 1], dst[8 * i + 5], 0x88);
+    tmp[8 * i + 2] = _mm512_shuffle_i32x4(dst[8 * i + 2], dst[8 * i + 6], 0x88);
+    tmp[8 * i + 3] = _mm512_shuffle_i32x4(dst[8 * i + 3], dst[8 * i + 7], 0x88);
+    tmp[8 * i + 4] = _mm512_shuffle_i32x4(dst[8 * i + 0], dst[8 * i + 4], 0xdd);
+    tmp[8 * i + 5] = _mm512_shuffle_i32x4(dst[8 * i + 1], dst[8 * i + 5], 0xdd);
+    tmp[8 * i + 6] = _mm512_shuffle_i32x4(dst[8 * i + 2], dst[8 * i + 6], 0xdd);
+    tmp[8 * i + 7] = _mm512_shuffle_i32x4(dst[8 * i + 3], dst[8 * i + 7], 0xdd);
+  }
+
+  dst[0] = _mm512_shuffle_i32x4(tmp[0], tmp[8], 0x88);
+  dst[1] = _mm512_shuffle_i32x4(tmp[1], tmp[9], 0x88);
+  dst[2] = _mm512_shuffle_i32x4(tmp[2], tmp[10], 0x88);
+  dst[3] = _mm512_shuffle_i32x4(tmp[3], tmp[11], 0x88);
+  dst[4] = _mm512_shuffle_i32x4(tmp[4], tmp[12], 0x88);
+  dst[5] = _mm512_shuffle_i32x4(tmp[5], tmp[13], 0x88);
+  dst[6] = _mm512_shuffle_i32x4(tmp[6], tmp[14], 0x88);
+  dst[7] = _mm512_shuffle_i32x4(tmp[7], tmp[15], 0x88);
+  dst[8] = _mm512_shuffle_i32x4(tmp[0], tmp[8], 0xdd);
+  dst[9] = _mm512_shuffle_i32x4(tmp[1], tmp[9], 0xdd);
+  dst[10] = _mm512_shuffle_i32x4(tmp[2], tmp[10], 0xdd);
+  dst[11] = _mm512_shuffle_i32x4(tmp[3], tmp[11], 0xdd);
+  dst[12] = _mm512_shuffle_i32x4(tmp[4], tmp[12], 0xdd);
+  dst[13] = _mm512_shuffle_i32x4(tmp[5], tmp[13], 0xdd);
+  dst[14] = _mm512_shuffle_i32x4(tmp[6], tmp[14], 0xdd);
+  dst[15] = _mm512_shuffle_i32x4(tmp[7], tmp[15], 0xdd);
+}
+
+#if CompileBF16() && CompileFP16()
+// Load 2 fp16 vectors; convert them to bf16 and interleave them
+template <int tail>
+static inline std::array<__m512i, 2> load_fp16_bf16_interleave_word(const utils::fp16* a, size_t lda) {
+  static_assert(tail > 0 && tail <= 2, "Unexpected tail value.");
+  std::array<__m512i, 2> dst;
+  for (int i = 0; i < tail; ++i) {
+    dst[i] = (__m512i)(_mm512_cvtne2ps_pbh(                     //
+        _mm512_cvtph_ps(_mm256_loadu_epi16(a + i * lda + 16)),  //
+        _mm512_cvtph_ps(_mm256_loadu_epi16(a + i * lda + 0))));
+  }
+  for (int i = tail; i < 2; ++i) dst[i] = _mm512_setzero_epi32();
+  interleave_word(dst);
+  return dst;
+}
+
+// load_fp16_bf16_interleave_word with maskz
+template <int tail>
+static inline std::array<__m512i, 2> load_maskz_fp16_bf16_interleave_word(const utils::fp16* a, size_t lda,
+                                                                          uint32_t mask) {
+  static_assert(tail > 0 && tail <= 2, "Unexpected tail value.");
+
+  const auto mask_lo = mask;
+  const auto mask_hi = mask >> 16;
+  std::array<__m512i, 2> dst;
+  for (int i = 0; i < tail; ++i) {
+    dst[i] = (__m512i)(_mm512_cvtne2ps_pbh(                                    //
+        _mm512_cvtph_ps(_mm256_maskz_loadu_epi16(mask_hi, a + i * lda + 16)),  //
+        _mm512_cvtph_ps(_mm256_maskz_loadu_epi16(mask_lo, a + i * lda + 0))));
+  }
+  for (int i = tail; i < 2; ++i) dst[i] = _mm512_setzero_epi32();
+  interleave_word(dst);
+  return dst;
+}
+
+template <int tail>
+static inline std::array<__m512i, 16> load_fp16_bf16_tr_x16_dword(const utils::fp16* a, size_t lda) {
+  static_assert(tail > 0 && tail <= 16, "Unexpected tail value.");
+  std::array<__m512i, 16> dst;
+  for (int i = 0; i < tail; ++i) {
+    dst[i] = (__m512i)(_mm512_cvtne2ps_pbh(                     //
+        _mm512_cvtph_ps(_mm256_loadu_epi16(a + i * lda + 16)),  //
+        _mm512_cvtph_ps(_mm256_loadu_epi16(a + i * lda + 0))));
+  }
+  for (int i = tail; i < 16; ++i) dst[i] = _mm512_setzero_epi32();
+  tr_x16_dword(dst);
+  return dst;
+}
+static constexpr decltype(load_fp16_bf16_tr_x16_dword<1>)* load_fp16_bf16_tr_x16_dword_tbl[17]{
+    load_fp16_bf16_tr_x16_dword<1>,  load_fp16_bf16_tr_x16_dword<1>,  load_fp16_bf16_tr_x16_dword<2>,
+    load_fp16_bf16_tr_x16_dword<3>,  load_fp16_bf16_tr_x16_dword<4>,  load_fp16_bf16_tr_x16_dword<5>,
+    load_fp16_bf16_tr_x16_dword<6>,  load_fp16_bf16_tr_x16_dword<7>,  load_fp16_bf16_tr_x16_dword<8>,
+    load_fp16_bf16_tr_x16_dword<9>,  load_fp16_bf16_tr_x16_dword<10>, load_fp16_bf16_tr_x16_dword<11>,
+    load_fp16_bf16_tr_x16_dword<12>, load_fp16_bf16_tr_x16_dword<13>, load_fp16_bf16_tr_x16_dword<14>,
+    load_fp16_bf16_tr_x16_dword<15>, load_fp16_bf16_tr_x16_dword<16>,
+};
+
+template <int tail>
+static inline std::array<__m512i, 16> load_maskz_fp16_bf16_tr_x16_dword(const utils::fp16* a, size_t lda,
+                                                                        uint32_t mask) {
+  static_assert(tail > 0 && tail <= 16, "Unexpected tail value.");
+  std::array<__m512i, 16> dst;
+
+  const auto mask_lo = mask;
+  const auto mask_hi = mask >> 16;
+  for (int i = 0; i < tail; ++i) {
+    dst[i] = (__m512i)(_mm512_cvtne2ps_pbh(                                    //
+        _mm512_cvtph_ps(_mm256_maskz_loadu_epi16(mask_hi, a + i * lda + 16)),  //
+        _mm512_cvtph_ps(_mm256_maskz_loadu_epi16(mask_lo, a + i * lda + 0))));
+  }
+  for (int i = tail; i < 16; ++i) dst[i] = _mm512_setzero_epi32();
+  tr_x16_dword(dst);
+  return dst;
+}
+static constexpr decltype(load_maskz_fp16_bf16_tr_x16_dword<1>)* load_maskz_fp16_bf16_tr_x16_dword_tbl[17]{
+    load_maskz_fp16_bf16_tr_x16_dword<1>,  load_maskz_fp16_bf16_tr_x16_dword<1>,  load_maskz_fp16_bf16_tr_x16_dword<2>,
+    load_maskz_fp16_bf16_tr_x16_dword<3>,  load_maskz_fp16_bf16_tr_x16_dword<4>,  load_maskz_fp16_bf16_tr_x16_dword<5>,
+    load_maskz_fp16_bf16_tr_x16_dword<6>,  load_maskz_fp16_bf16_tr_x16_dword<7>,  load_maskz_fp16_bf16_tr_x16_dword<8>,
+    load_maskz_fp16_bf16_tr_x16_dword<9>,  load_maskz_fp16_bf16_tr_x16_dword<10>, load_maskz_fp16_bf16_tr_x16_dword<11>,
+    load_maskz_fp16_bf16_tr_x16_dword<12>, load_maskz_fp16_bf16_tr_x16_dword<13>, load_maskz_fp16_bf16_tr_x16_dword<14>,
+    load_maskz_fp16_bf16_tr_x16_dword<15>, load_maskz_fp16_bf16_tr_x16_dword<16>,
+};
+#endif
+#ifdef __GNUC__
+#pragma GCC diagnostic pop
+#endif
+
+template <typename T_SRC, typename T_DST = T_SRC, int RowPack = 4 / sizeof(T_DST)>
+struct padding_interleave_cvt {
+  padding_interleave_cvt() = delete;
+  static JBLAS_CODE forward(const T_SRC* src, T_DST* dst, int NTile, int row, int col, int row_pad, int col_pad,
+                            int src_step, int dst_step) {
+    return JblasNotSupport;
+  }
+};
+#if CompileBF16() && CompileFP16()
+template <>
+struct padding_interleave_cvt<utils::fp16, utils::bf16, 2> {
+  static constexpr int RowPack = 2;
+  padding_interleave_cvt() = delete;
+
+  // M x N ===> N/NTile x M/RowPack x NTile x RowPack (leading dim stride = NTile * dststride)
+  static JBLAS_CODE forward(const utils::fp16* src, utils::bf16* dst, int NTile, int row, int col, int row_pad,
+                            int col_pad, int src_step, int dst_step) {
+    int i = 0;
+    for (; i < row / RowPack * RowPack; i += RowPack) {
+      int j = 0;
+      for (; j < col / NTile * NTile; j += NTile) {
+        assert(NTile % 32 == 0);
+        for (int jj = 0; jj < NTile; jj += 32) {
+          const auto xss = load_fp16_bf16_interleave_word<2>(src + i * src_step + j + jj, src_step);
+          _mm512_storeu_si512(dst + i * NTile + j * dst_step + (jj + 0) * RowPack, xss[0]);
+          _mm512_storeu_si512(dst + i * NTile + j * dst_step + (jj + 16) * RowPack, xss[1]);
+        }
+      }
+      if (j < col) {  // j: tail processing
+        int jj = 0;
+        for (; j + jj < col / 32 * 32; jj += 32) {
+          const auto xss = load_fp16_bf16_interleave_word<2>(src + i * src_step + j + jj, src_step);
+          _mm512_storeu_si512(dst + i * NTile + j * dst_step + (jj + 0) * RowPack, xss[0]);
+          _mm512_storeu_si512(dst + i * NTile + j * dst_step + (jj + 16) * RowPack, xss[1]);
+        }
+        if (j + jj < col) {  // jj: tail processing
+          const uint32_t mask = (1U << (col - j - jj)) - 1;
+          const auto xss = load_maskz_fp16_bf16_interleave_word<2>(src + i * src_step + j + jj, src_step, mask);
+          _mm512_storeu_si512(dst + i * NTile + j * dst_step + (jj + 0) * RowPack, xss[0]);
+          _mm512_storeu_si512(dst + i * NTile + j * dst_step + (jj + 16) * RowPack, xss[1]);
+          jj += 32;
+        }
+        for (; jj < NTile; jj += 32) {  // jj: padding zero
+          memset(dst + i * NTile + j * dst_step + jj * RowPack, 0, sizeof(utils::bf16) * 32 * RowPack);
+        }
+        j += NTile;
+      }
+      for (; j < col_pad; j += NTile) {  // j: padding zero
+        memset(dst + i * NTile + j * dst_step, 0, sizeof(utils::bf16) * NTile * RowPack);
+      }
+    }
+    if (i < row) {                      // i: tail processing
+      static constexpr int tail_m = 1;  // must be 1
+      int j = 0;
+      for (; j < col / NTile * NTile; j += NTile) {
+        assert(NTile % 32 == 0);
+        for (int jj = 0; jj < NTile; jj += 32) {
+          const auto xss = load_fp16_bf16_interleave_word<tail_m>(src + i * src_step + j + jj, src_step);
+          _mm512_storeu_si512(dst + i * NTile + j * dst_step + (jj + 0) * RowPack, xss[0]);
+          _mm512_storeu_si512(dst + i * NTile + j * dst_step + (jj + 16) * RowPack, xss[1]);
+        }
+      }
+      if (j < col) {  // j: tail processing
+        int jj = 0;
+        for (; j + jj < col / 32 * 32; jj += 32) {
+          const auto xss = load_fp16_bf16_interleave_word<tail_m>(src + i * src_step + j + jj, src_step);
+          _mm512_storeu_si512(dst + i * NTile + j * dst_step + (jj + 0) * RowPack, xss[0]);
+          _mm512_storeu_si512(dst + i * NTile + j * dst_step + (jj + 16) * RowPack, xss[1]);
+        }
+        if (j + jj < col) {  // jj: tail processing
+          const uint32_t mask = (1U << (col - j - jj)) - 1;
+          const auto xss = load_maskz_fp16_bf16_interleave_word<tail_m>(src + i * src_step + j + jj, src_step, mask);
+          _mm512_storeu_si512(dst + i * NTile + j * dst_step + (jj + 0) * RowPack, xss[0]);
+          _mm512_storeu_si512(dst + i * NTile + j * dst_step + (jj + 16) * RowPack, xss[1]);
+          jj += 32;
+        }
+        for (; jj < NTile; jj += 32) {  // jj: padding zero
+          memset(dst + i * NTile + j * dst_step + jj * RowPack, 0, sizeof(utils::bf16) * 32 * RowPack);
+        }
+        j += NTile;
+      }
+      for (; j < col_pad; j += NTile) {  // j: padding zero
+        memset(dst + i * NTile + j * dst_step, 0, sizeof(utils::bf16) * NTile * RowPack);
+      }
+      i += RowPack;
+    }
+    for (; i < row_pad; i += RowPack) {  // i: padding zero
+      for (int j = 0; j < col_pad; j += NTile) {
+        memset(dst + i * NTile + j * dst_step, 0, sizeof(utils::bf16) * NTile * RowPack);
+      }
+    }
+    return JblasSuccess;
+  }
+};
+#endif
+
+template <typename T_SRC, typename T_DST = T_SRC, int ColPack = 4 / sizeof(T_DST)>
+struct padding_trans_interleave_cvt {
+  padding_trans_interleave_cvt() = delete;
+  static JBLAS_CODE forward(const T_SRC* src, T_DST* dst, int MTile, int row, int col, int row_pad, int col_pad,
+                            int src_step, int dst_step) {
+    return JblasNotSupport;
+  }
+};
+#if CompileBF16() && CompileFP16()
+template <>
+struct padding_trans_interleave_cvt<utils::fp16, utils::bf16, 2> {
+  static constexpr int ColPack = 2;
+  padding_trans_interleave_cvt() = delete;
+
+  static JBLAS_CODE forward(const utils::fp16* src, utils::bf16* dst, int MTile, int row, int col, int row_pad,
+                            int col_pad, int src_step, int dst_step) {
+    assert(row_pad % 16 == 0 && col_pad % 32 == 0);
+    int i = 0;
+    for (; i < row / MTile * MTile; i += MTile) {
+      assert(MTile % 16 == 0);
+      int j = 0;
+      for (; j < col / 32 * 32; j += 32) {
+        for (int ii = 0; ii < MTile; ii += 16) {
+          assert(MTile % 16 == 0);
+          const auto xss = load_fp16_bf16_tr_x16_dword<16>(src + (i + ii) * src_step + j, src_step);
+          for (int jj = 0; jj < 32; jj += 2) {
+            _mm512_storeu_si512(dst + i * dst_step + ii * ColPack + (j + jj) * MTile, xss[jj / 2]);
+          }
+        }
+      }
+      if (j < col) {  // j: tail processing
+        for (int ii = 0; ii < MTile; ii += 16) {
+          assert(MTile % 16 == 0);
+          const uint32_t mask = (1U << (col - j)) - 1;
+          const auto xss = load_maskz_fp16_bf16_tr_x16_dword<16>(src + (i + ii) * src_step + j, src_step, mask);
+          for (int jj = 0; jj < 32; jj += 2) {
+            _mm512_storeu_si512(dst + i * dst_step + ii * ColPack + (j + jj) * MTile, xss[jj / 2]);
+          }
+        }
+        j += 32;
+      }
+      for (; j < col_pad; j += 2) {  // j: padding zero
+        memset(dst + i * dst_step + j * MTile, 0, 2 * sizeof(utils::bf16) * MTile);
+      }
+    }
+    if (i < row) {  // i: tail processing
+      int ii = 0;
+      for (; i + ii < row / 16 * 16; ii += 16) {
+        int j = 0;
+        for (; j < col / 32 * 32; j += 32) {
+          assert(MTile % 16 == 0);
+          const auto xss = load_fp16_bf16_tr_x16_dword<16>(src + (i + ii) * src_step + j, src_step);
+          for (int jj = 0; jj < 32; jj += 2) {
+            _mm512_storeu_si512(dst + i * dst_step + ii * ColPack + (j + jj) * MTile, xss[jj / 2]);
+          }
+        }
+        if (j < col) {  // j: tail processing
+          assert(MTile % 16 == 0);
+          const uint32_t mask = (1U << (col - j)) - 1;
+          const auto xss = load_maskz_fp16_bf16_tr_x16_dword<16>(src + (i + ii) * src_step + j, src_step, mask);
+          for (int jj = 0; jj < 32; jj += 2) {
+            _mm512_storeu_si512(dst + i * dst_step + ii * ColPack + (j + jj) * MTile, xss[jj / 2]);
+          }
+          j += 32;
+        }
+        for (; j < col_pad; j += 2) {  // j: padding zero
+          memset(dst + i * dst_step + ii * ColPack + j * MTile, 0, 2 * sizeof(utils::bf16) * 16);
+        }
+      }
+      if (i + ii < row) {  // ii: tail processing
+        const int tbl_idx = row - i - ii;
+        int j = 0;
+        for (; j < col / 32 * 32; j += 32) {
+          assert(MTile % 16 == 0);
+          const auto xss = load_fp16_bf16_tr_x16_dword_tbl[tbl_idx](src + (i + ii) * src_step + j, src_step);
+          for (int jj = 0; jj < 32; jj += 2) {
+            _mm512_storeu_si512(dst + i * dst_step + ii * ColPack + (j + jj) * MTile, xss[jj / 2]);
+          }
+        }
+        if (j < col) {  // j: tail processing
+          assert(MTile % 16 == 0);
+          const uint32_t mask = (1U << (col - j)) - 1;
+          const auto xss =
+              load_maskz_fp16_bf16_tr_x16_dword_tbl[tbl_idx](src + (i + ii) * src_step + j, src_step, mask);
+          for (int jj = 0; jj < 32; jj += 2) {
+            _mm512_storeu_si512(dst + i * dst_step + ii * ColPack + (j + jj) * MTile, xss[jj / 2]);
+          }
+          j += 32;
+        }
+        for (; j < col_pad; j += 2) {  // j: padding zero
+          memset(dst + i * dst_step + ii * ColPack + j * MTile, 0, 2 * sizeof(utils::bf16) * 16);
+        }
+        ii += 16;
+      }
+      for (; ii < MTile; ii += 16) {  // ii: padding zero
+        for (int j = 0; j < col_pad; j += 2) {
+          memset(dst + i * dst_step + ii * ColPack + j * MTile, 0, 2 * sizeof(utils::bf16) * 16);
+        }
+      }
+      assert(ii == MTile);
+      i += MTile;
+    }
+    assert(row_pad % MTile == 0);
+    for (; i < row_pad; i += MTile) {  // i: padding zero
+      for (int j = 0; j < col_pad; j += 2) {
+        memset(dst + i * dst_step + j * MTile, 0, 2 * sizeof(utils::bf16) * MTile);
+      }
+    }
+    return JblasSuccess;
+  }
+};
+#endif
+
+#ifdef __GNUC__
+#pragma GCC pop_options
+#else
+#endif
+#endif
+}  // namespace avx512f
+}  // namespace kernel
+}  // namespace jblas
diff --git a/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/kernel_jit.h b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/kernel_jit.h
new file mode 100644
index 0000000000000..245401876c91b
--- /dev/null
+++ b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/kernel_jit.h
@@ -0,0 +1,1375 @@
+//  Copyright (c) 2023 Intel Corporation
+//
+//  Licensed under the Apache License, Version 2.0 (the "License");
+//  you may not use this file except in compliance with the License.
+//  You may obtain a copy of the License at
+//
+//    http://www.apache.org/licenses/LICENSE-2.0
+//
+//  Unless required by applicable law or agreed to in writing, software
+//  distributed under the License is distributed on an "AS IS" BASIS,
+//  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+//  See the License for the specific language governing permissions and
+//  limitations under the License.
+#pragma once
+#include <algorithm>
+#include <functional>
+#include <memory>
+#include <unordered_map>
+#include <vector>
+
+#include "jit_base.h"
+#include "jit_blas_utils.h"
+#include "kernel_jit_injector.h"
+
+namespace jblas {
+namespace kernel {
+namespace jit {
+
+class DequanS8F32 {
+ public:
+  class MicroKernelAVX512F : protected jblas::xbyak::JitAvx512f {
+   public:
+    struct params {
+      void *srcptr, *dstptr;
+      int row, col;
+      int srcstride, dststride;
+      float* scales;
+      int8_t* zps;
+    };
+    typedef long long (*func_t)(params*);
+    static int constexpr VBytes = 64;
+    static int constexpr RegScale = 0;
+    static int constexpr RegZP = 4;
+    static int constexpr RegTmp = RegScale + 8;
+    MicroKernelAVX512F(bool is_sym_) {
+      is_sym = is_sym_;
+      generate();
+      this->ready();
+      mKernel = this->getCode<func_t>();
+    }
+
+    void generate() {
+      inLocalLabel();  // use local label for multiple instance
+      int SF_TmpSize = 64;
+      int SF_TmpPos = 16 * 14;
+      Xbyak::util::StackFrame st(this, 1, 13, SF_TmpPos + SF_TmpSize);
+      parambase = st.p[0];
+      reg_srcptr = st.t[0];
+      reg_dstptr = st.t[1];
+      reg_srcstride = st.t[2];
+      reg_dststride = st.t[3];
+      reg_rowsize = st.t[4];
+      reg_colsize = st.t[5];
+      reg_iterrow = st.t[6];
+      reg_itercol = st.t[7];
+      reg_tmp = st.t[8];
+      reg_scaleptr = st.t[9];
+      reg_tmpdst = st.t[10];
+      reg_tmp1 = st.t[12];
+      reg_ret = rax;
+
+      vreg_push(rsp);
+
+      mov(reg_srcptr, ptr[parambase + OFFSET(srcptr)]);
+      mov(reg_dstptr, ptr[parambase + OFFSET(dstptr)]);
+      mov(reg_scaleptr, ptr[parambase + OFFSET(scales)]);
+      xor_(reg_srcstride, reg_srcstride);
+      mov(reg_srcstride.cvt32(), ptr[parambase + OFFSET(srcstride)]);
+      xor_(reg_dststride, reg_dststride);
+      mov(reg_dststride.cvt32(), ptr[parambase + OFFSET(dststride)]);
+
+      load32(reg_colsize, ptr[parambase + OFFSET(col)]);
+      load32(reg_rowsize, ptr[parambase + OFFSET(row)]);
+      xor_(reg_itercol, reg_itercol);
+
+      // reuse parambase reg
+      if (!is_sym) {
+        mov(reg_tmp1, ptr[parambase + OFFSET(zps)]);
+        mov(reg_zpptr, reg_tmp1);
+        xor_(reg_tmp1, reg_tmp1);
+      }
+
+      L(".colloop");
+      mov(reg_tmp, reg_colsize);
+      sub(reg_tmp, reg_itercol);
+      cmp(reg_tmp, 64);
+      jl(".proc48", T_NEAR);
+      generateNTile(4);
+      add(reg_itercol, 64);
+      add(reg_srcptr, 1 * 64);
+      add(reg_dstptr, 4 * 64);
+      add(reg_scaleptr, 4 * 64);
+      if (!is_sym) add(reg_zpptr, 1 * 64);
+      jmp(".colend", T_NEAR);
+
+      L(".proc48");
+      cmp(reg_tmp, 48);
+      jl(".proc32", T_NEAR);
+      generateNTile(3);
+      add(reg_itercol, 48);
+      add(reg_srcptr, 1 * 48);
+      add(reg_dstptr, 4 * 48);
+      add(reg_scaleptr, 4 * 48);
+      if (!is_sym) add(reg_zpptr, 1 * 48);
+      jmp(".colend", T_NEAR);
+
+      L(".proc32");
+      generateNTile(2);
+      add(reg_itercol, 32);
+      add(reg_srcptr, 1 * 32);
+      add(reg_dstptr, 4 * 32);
+      add(reg_scaleptr, 4 * 32);
+      if (!is_sym) add(reg_zpptr, 1 * 32);
+
+      L(".colend");
+      cmp(reg_itercol, reg_colsize);
+      jb(".colloop");
+
+      mov(reg_ret, 0);
+      vreg_pop(rsp);
+      outLocalLabel();  // end of local label
+    }
+
+    void generateNTile(int N) {
+      for (int i = 0; i < N; i++) {
+        vmovups(Xbyak::Zmm(RegScale + i), ptr[reg_scaleptr + i * 64]);
+        if (!is_sym) {
+          vpmovsxbd(Xbyak::Zmm(RegZP + i), ptr[reg_zpptr + i * 16]);
+        }
+      }
+      inLocalLabel();
+      xor_(reg_iterrow, reg_iterrow);
+      mov(reg_tmp, reg_srcptr);
+      mov(reg_tmp1, reg_dstptr);
+      L(".rowloop");
+      for (int i = 0; i < N; i++) {
+        vpmovsxbd(Xbyak::Zmm(RegTmp), ptr[reg_tmp + i * 16]);
+        if (!is_sym) {
+          vpsubd(Xbyak::Zmm(RegTmp), Xbyak::Zmm(RegTmp), Xbyak::Zmm(RegZP + i));
+        }
+        vcvtdq2ps(Xbyak::Zmm(RegTmp), Xbyak::Zmm(RegTmp));
+        vmulps(Xbyak::Zmm(RegTmp), Xbyak::Zmm(RegScale + i));
+        vmovups(ptr[reg_tmp1 + i * 64], Xbyak::Zmm(RegTmp));
+      }
+      add(reg_tmp, reg_srcstride);
+      add(reg_tmp1, reg_dststride);
+      add(reg_iterrow, 1);
+      cmp(reg_iterrow, reg_rowsize);
+      jb(".rowloop");
+      outLocalLabel();
+    }
+    func_t mKernel = nullptr;
+
+   private:
+    Xbyak::Reg64 parambase;
+    Xbyak::Reg64 reg_srcptr;
+    Xbyak::Reg64 reg_dstptr;
+    Xbyak::Reg64 reg_srcstride;
+    Xbyak::Reg64 reg_dststride;
+    Xbyak::Reg64 reg_rowsize;
+    Xbyak::Reg64 reg_colsize;
+    Xbyak::Reg64 reg_iterrow;
+    Xbyak::Reg64 reg_itercol;
+    Xbyak::Reg64 reg_tmp;
+    Xbyak::Reg64 reg_scaleptr;
+    Xbyak::Reg64 reg_tmpdst;
+    Xbyak::Reg64 reg_tmp1;
+    Xbyak::Reg64 reg_ret;
+    Xbyak::Reg64 reg_zpptr = reg_ret;
+    bool is_sym;
+  };
+  static void forward_avx512f(int8_t* srcptr, float* dstptr, int row, int col, int ld_src, int ld_dst, float* scales,
+                              int8_t* zero_points) {
+    static MicroKernelAVX512F mAVX512FSym(true);
+    static MicroKernelAVX512F mAVX512FASym(false);
+    auto param = MicroKernelAVX512F::params{srcptr,
+                                            dstptr,
+                                            row,
+                                            col,
+                                            static_cast<int>(ld_src * sizeof(int8_t)),
+                                            static_cast<int>(ld_dst * sizeof(float)),
+                                            scales,
+                                            zero_points};
+    if (zero_points == nullptr) {
+      mAVX512FSym.mKernel(&param);
+    } else {
+      mAVX512FASym.mKernel(&param);
+    }
+  }
+};
+
+class DequanKBlockS8F32 {
+ public:
+  template <typename _ST>
+  static inline JBLAS_CODE forward_avx512f(int8_t* srcptr, float* dstptr, int row, int col, int ld_src, int ld_dst,
+                                           _ST* scales, int8_t* zero_points, int k_offset, int kblock, int NPad) {
+    int row0 = kblock - k_offset % kblock;
+    row0 = row0 == kblock ? 0 : row0;
+    row0 = row0 > row ? row : row0;
+    int row1 = row - row0;
+    int row1_blk = utils::padto_le(row1, kblock);
+    int row2 = row - row1_blk - row0;
+    auto sptr = scales + k_offset / kblock * NPad;
+    int8_t* zptr = nullptr;
+    if (zero_points != nullptr) zptr = zero_points + k_offset / kblock * NPad;
+    if (row0 > 0) {
+      DequanS8F32::forward_avx512f(srcptr, dstptr, row0, col, ld_src, ld_dst, sptr, zptr);
+      srcptr += row0 * ld_src;
+      dstptr += row0 * ld_dst;
+      sptr += NPad;
+      if (zero_points != nullptr) zptr += NPad;
+    }
+    for (int i = 0; i < row1_blk; i += kblock) {
+      DequanS8F32::forward_avx512f(srcptr, dstptr, kblock, col, ld_src, ld_dst, sptr, zptr);
+      srcptr += kblock * ld_src;
+      dstptr += kblock * ld_dst;
+      sptr += NPad;
+      if (zero_points != nullptr) zptr += NPad;
+    }
+    if (row2 > 0) {
+      DequanS8F32::forward_avx512f(srcptr, dstptr, row2, col, ld_src, ld_dst, sptr, zptr);
+    }
+    return JblasSuccess;
+  }
+};
+
+class JitMemcpy2DAvx2 : protected jblas::xbyak::JitAvx2 {
+ public:
+  struct params {
+    void *srcptr, *dstptr, *elt_const_v;
+    int row, col;
+    int srcstride, dststride;
+  };
+  typedef long long (*func_t)(params*);
+
+ public:
+  static int constexpr VBytes = 32;
+  JitMemcpy2DAvx2(int unroll_row, std::vector<kernel::jit_injector::eltwise_injector> injectors) {
+    generate(unroll_row, injectors);
+  }
+
+  template <typename _SRC_T, typename _DST_T, typename... Eltops>
+  static JBLAS_CODE forward(const _SRC_T* srcptr, _DST_T* dstptr, int row, int col, int srcstep, int dststep,
+                            void* elt_const_v = nullptr, const Eltops&... ops) {
+    if (col * sizeof(_SRC_T) % 4 != 0) {
+      return JblasNotSupport;
+    }
+    static std::vector<kernel::jit_injector::eltwise_injector> p = {static_cast<JBLAS_ELTWISEOP>(ops)...};
+    if constexpr (sizeof...(ops) != 0)
+      static_assert(std::is_same<_SRC_T, float>::value && std::is_same<_DST_T, float>::value);
+    static JitMemcpy2DAvx2 instance_withops(1, p);
+    static JitMemcpy2DAvx2 instance2_withops(2, p);
+    static_assert(sizeof(_SRC_T) == sizeof(_DST_T));  // TODO SRC_T DST_T conversion copy
+    auto param = params{reinterpret_cast<void*>(const_cast<_SRC_T*>(srcptr)),
+                        reinterpret_cast<void*>(dstptr),
+                        elt_const_v,
+                        row,
+                        static_cast<int>(col * sizeof(_SRC_T)),
+                        static_cast<int>(srcstep * sizeof(_SRC_T)),
+                        static_cast<int>(dststep * sizeof(_DST_T))};
+    int row2 = utils::padto_le(row, 2);
+    if (row2) {
+      param.row = row2;
+      instance2_withops.mKernel(&param);
+    }
+    int rowtail = row - row2;
+    if (rowtail) {
+      param.srcptr = reinterpret_cast<char*>(param.srcptr) + row2 * srcstep * sizeof(_SRC_T);
+      param.dstptr = reinterpret_cast<char*>(param.dstptr) + row2 * dststep * sizeof(_DST_T);
+      param.row = rowtail;
+      instance_withops.mKernel(&param);
+    }
+    return JblasSuccess;
+  }
+
+  template <typename _SRC_T, typename _DST_T, JBLAS_ELTWISEOP Op>
+  static JBLAS_CODE forward1(const _SRC_T* srcptr, _DST_T* dstptr, int row, int col, int srcstep, int dststep,
+                             void* elt_const_v = nullptr) {
+    if (col * sizeof(_SRC_T) % 4 != 0) {
+      return JblasNotSupport;
+    }
+    static JitMemcpy2DAvx2 instance_withops(1, {kernel::jit_injector::eltwise_injector(Op)});
+    static JitMemcpy2DAvx2 instance2_withops(2, {kernel::jit_injector::eltwise_injector(Op)});
+    static_assert(sizeof(_SRC_T) == sizeof(_DST_T));  // TODO SRC_T DST_T conversion copy
+    auto param = params{reinterpret_cast<void*>(const_cast<_SRC_T*>(srcptr)),
+                        reinterpret_cast<void*>(dstptr),
+                        elt_const_v,
+                        row,
+                        static_cast<int>(col * sizeof(_SRC_T)),
+                        static_cast<int>(srcstep * sizeof(_SRC_T)),
+                        static_cast<int>(dststep * sizeof(_DST_T))};
+    int row2 = utils::padto_le(row, 2);
+    if (row2) {
+      param.row = row2;
+      instance2_withops.mKernel(&param);
+    }
+    int rowtail = row - row2;
+    if (rowtail) {
+      param.srcptr = reinterpret_cast<char*>(param.srcptr) + row2 * srcstep * sizeof(_SRC_T);
+      param.dstptr = reinterpret_cast<char*>(param.dstptr) + row2 * dststep * sizeof(_DST_T);
+      param.row = rowtail;
+      instance_withops.mKernel(&param);
+    }
+    return JblasSuccess;
+  }
+
+ protected:
+  void generate(int unrollk, std::vector<kernel::jit_injector::eltwise_injector>& injectors) {
+    // unrollK=[1,2]
+    assert(unrollk == 1 || unrollk == 2);
+    Xbyak::Label data_label;
+    inLocalLabel();  // use local label for multiple instance
+    {
+      int SF_TmpSize = 64;
+      int SF_TmpPos = 16 * 10;
+      Xbyak::util::StackFrame st(this, 1, 13, 16 * 10 + SF_TmpSize);
+      const Xbyak::Reg64& parambase = st.p[0];
+      const Xbyak::Reg64& reg_srcptr = st.t[0];
+      const Xbyak::Reg64& reg_dstptr = st.t[1];
+      const Xbyak::Reg64& reg_srcstride = st.t[2];
+      const Xbyak::Reg64& reg_dststride = st.t[3];
+      const Xbyak::Reg64& reg_rowsize = st.t[4];
+      const Xbyak::Reg64& reg_colsize = st.t[5];
+      const Xbyak::Reg64& reg_iterrow = st.t[6];
+      const Xbyak::Reg64& reg_itercol = st.t[7];
+      const Xbyak::Reg64& reg_tmp = st.t[8];
+      const Xbyak::Reg64& reg_elt_constv = st.t[8];  // alias of reg_tmp.
+      const Xbyak::Reg64& reg_tmpsrc = st.t[9];
+      const Xbyak::Reg64& reg_tmpdst = st.t[10];
+      const Xbyak::Reg64& reg_tmp1 = st.t[12];
+      const Xbyak::Reg64& reg_tmp2 = st.t[11];
+      const Xbyak::Reg64& reg_ret = rax;
+
+      vreg_push(rsp);
+
+      mov(reg_srcptr, ptr[parambase + OFFSET(srcptr)]);
+      mov(reg_dstptr, ptr[parambase + OFFSET(dstptr)]);
+      xor_(reg_srcstride, reg_srcstride);
+      mov(reg_srcstride.cvt32(), ptr[parambase + OFFSET(srcstride)]);
+      xor_(reg_dststride, reg_dststride);
+      mov(reg_dststride.cvt32(), ptr[parambase + OFFSET(dststride)]);
+
+      load32(reg_colsize, ptr[parambase + OFFSET(col)]);
+      load32(reg_rowsize, ptr[parambase + OFFSET(row)]);
+      int const ColUnroll = 4;
+
+      for (int i = 0; i < unrollk * ColUnroll; i++) used_ymm_idx.insert(i);
+      for (auto&& injector : injectors) {
+        injector.assign_resources(this, used_ymm_idx, reg_ret);
+        injector.assign_reg_elt_constp(reg_elt_constv);
+      }
+
+      xor_(reg_iterrow, reg_iterrow);
+      L(".rowloop");
+      xor_(reg_itercol, reg_itercol);
+      mov(reg_tmpsrc, reg_srcptr);
+      mov(reg_tmpdst, reg_dstptr);
+
+      L(".colloop");
+      mov(reg_tmp, reg_colsize);
+      sub(reg_tmp, reg_itercol);
+      cmp(reg_tmp, ColUnroll * VBytes);
+      jl(".maskproc", T_NEAR);
+      mov(reg_elt_constv, ptr[parambase + OFFSET(elt_const_v)]);
+      if (unrollk > 1) {
+        for (int j = 0; j < unrollk; j++) {
+          for (int i = 0; i < ColUnroll; i++) {
+            vmovups(Xbyak::Ymm(i + j * ColUnroll), ptr[reg_tmpsrc + reg_srcstride * j + i * VBytes]);
+            for (int k = 0; k < injectors.size(); k++)
+              injectors[k].vector_compute(Xbyak::Ymm(i + j * ColUnroll), k * 3 * sizeof(float));
+            vmovups(ptr[reg_tmpdst + reg_dststride * j + i * VBytes], Xbyak::Ymm(i + j * ColUnroll));
+          }
+        }
+      } else {
+        for (int i = 0; i < ColUnroll; i++) {
+          vmovups(Xbyak::Ymm(i), ptr[reg_tmpsrc + i * VBytes]);
+          for (int k = 0; k < injectors.size(); k++) injectors[k].vector_compute(Xbyak::Ymm(i), k * 3 * sizeof(float));
+          vmovups(ptr[reg_tmpdst + i * VBytes], Xbyak::Ymm(i));
+        }
+      }
+      add(reg_tmpsrc, ColUnroll * VBytes);
+      add(reg_tmpdst, ColUnroll * VBytes);
+      add(reg_itercol, ColUnroll * VBytes);
+      jmp(".colend", T_NEAR);
+      L(".maskproc");
+      mov(reg_tmp2, reg_colsize);
+      sub(reg_tmp2, reg_itercol);
+      cmp(reg_tmp2, VBytes);
+      jb(".maskflag", T_NEAR);
+      cmp(reg_tmp2, 0);
+      jl(".maskend", T_NEAR);
+      mov(reg_elt_constv, ptr[parambase + OFFSET(elt_const_v)]);
+      if (unrollk > 1) {
+        for (int j = 0; j < unrollk; j++) {
+          vmovups(Xbyak::Ymm(0), ptr[reg_tmpsrc + reg_srcstride * j]);
+          for (int k = 0; k < injectors.size(); k++) injectors[k].vector_compute(Xbyak::Ymm(0), k * 3 * sizeof(float));
+          vmovups(ptr[reg_tmpdst + reg_dststride * j], Xbyak::Ymm(0));
+        }
+      } else {
+        vmovups(Xbyak::Ymm(0), ptr[reg_tmpsrc]);
+        for (int k = 0; k < injectors.size(); k++) injectors[k].vector_compute(Xbyak::Ymm(0), k * 3 * sizeof(float));
+        vmovups(ptr[reg_tmpdst], Xbyak::Ymm(0));
+      }
+      jmp(".maskend", T_NEAR);
+      L(".maskflag");
+      // 0<tail<8
+      mov(reg_tmp1.cvt32(), 1);
+      shlx(reg_tmp1.cvt32(), reg_tmp1.cvt32(), reg_tmp2.cvt32());
+      sub(reg_tmp1.cvt32(), 1);
+      vmovd(Xbyak::Xmm(1), reg_tmp1.cvt32());
+      vpbroadcastd(Xbyak::Ymm(1), Xbyak::Xmm(1));
+      vpsllvd(Xbyak::Ymm(1), Xbyak::Ymm(1), ptr[rip + data_label]);
+      mov(reg_elt_constv, ptr[parambase + OFFSET(elt_const_v)]);
+      if (unrollk > 1) {
+        for (int j = 0; j < unrollk; j++) {
+          vpmaskmovd(Xbyak::Ymm(0), Xbyak::Ymm(1), ptr[reg_tmpsrc + reg_srcstride * j]);
+          for (int k = 0; k < injectors.size(); k++) injectors[k].vector_compute(Xbyak::Ymm(0), k * 3 * sizeof(float));
+          vpmaskmovd(ptr[reg_tmpdst + reg_dststride * j], Xbyak::Ymm(1), Xbyak::Ymm(0));
+        }
+      } else {
+        vpmaskmovd(Xbyak::Ymm(0), Xbyak::Ymm(1), ptr[reg_tmpsrc]);
+        for (int k = 0; k < injectors.size(); k++) injectors[k].vector_compute(Xbyak::Ymm(0), k * 3 * sizeof(float));
+        vpmaskmovd(ptr[reg_tmpdst], Xbyak::Ymm(1), Xbyak::Ymm(0));
+      }
+      L(".maskend");
+      add(reg_tmpsrc, VBytes);
+      add(reg_tmpdst, VBytes);
+      add(reg_itercol, VBytes);
+      L(".colend");
+      cmp(reg_itercol, reg_colsize);
+      jb(".colloop");
+      add(reg_iterrow, unrollk);
+      lea(reg_srcptr, ptr[reg_srcptr + reg_srcstride * unrollk]);
+      lea(reg_dstptr, ptr[reg_dstptr + reg_dststride * unrollk]);
+      cmp(reg_iterrow, reg_rowsize);
+      jb(".rowloop");
+
+      mov(reg_ret, 0);
+      vreg_pop(rsp);
+    }
+    outLocalLabel();  // end of local label
+    L(data_label);
+    uint32_t mask_bias[8] = {28, 24, 20, 16, 12, 8, 4, 0};
+    db(reinterpret_cast<uint8_t*>(mask_bias), sizeof(mask_bias));
+    for (auto&& injector : injectors) injector.prepare_table();
+    this->ready();
+    mKernel = this->getCode<func_t>();
+  }
+
+  func_t mKernel = nullptr;
+  std::set<int> used_ymm_idx;
+};
+
+class JitMemcpy2DAvx512f : protected jblas::xbyak::JitAvx512f {
+ public:
+  struct params {
+    void *srcptr, *dstptr, *elt_const_v;
+    int row, col;
+    int srcstride, dststride;
+  };
+  typedef long long (*func_t)(params*);
+
+ public:
+  static int constexpr VBytes = 64;
+  JitMemcpy2DAvx512f(int unroll_row, std::vector<kernel::jit_injector::eltwise_injector> injectors) {
+    generate(unroll_row, injectors);
+  }
+
+  template <typename _SRC_T, typename _DST_T, typename... Eltops>
+  static JBLAS_CODE forward(const _SRC_T* srcptr, _DST_T* dstptr, int row, int col, int srcstep, int dststep,
+                            void* elt_const_v = nullptr, const Eltops&... ops) {
+    static std::vector<kernel::jit_injector::eltwise_injector> p = {static_cast<JBLAS_ELTWISEOP>(ops)...};
+    if constexpr (sizeof...(ops) != 0)
+      static_assert(std::is_same<_SRC_T, float>::value && std::is_same<_DST_T, float>::value);
+    static JitMemcpy2DAvx512f instance_withops(1, p);
+    static JitMemcpy2DAvx512f instance4_withops(4, p);
+    static_assert(sizeof(_SRC_T) == sizeof(_DST_T));  // TODO SRC_T DST_T conversion copy
+    auto param = params{reinterpret_cast<void*>(const_cast<_SRC_T*>(srcptr)),
+                        reinterpret_cast<void*>(dstptr),
+                        elt_const_v,
+                        row,
+                        static_cast<int>(col * sizeof(_SRC_T)),
+                        static_cast<int>(srcstep * sizeof(_SRC_T)),
+                        static_cast<int>(dststep * sizeof(_DST_T))};
+    int row4 = utils::padto_le(row, 4);
+    if (row4) {
+      param.row = row4;
+      instance4_withops.mKernel(&param);
+    }
+    int rowtail = row - row4;
+    if (rowtail) {
+      param.srcptr = reinterpret_cast<char*>(param.srcptr) + row4 * srcstep * sizeof(_SRC_T);
+      param.dstptr = reinterpret_cast<char*>(param.dstptr) + row4 * dststep * sizeof(_DST_T);
+      param.row = rowtail;
+      instance_withops.mKernel(&param);
+    }
+    return JblasSuccess;
+  }
+
+  template <typename _SRC_T, typename _DST_T, JBLAS_ELTWISEOP Op>
+  static JBLAS_CODE forward1(const _SRC_T* srcptr, _DST_T* dstptr, int row, int col, int srcstep, int dststep,
+                             void* elt_const_v = nullptr) {
+    static JitMemcpy2DAvx512f instance_withops(1, {kernel::jit_injector::eltwise_injector(Op)});
+    static JitMemcpy2DAvx512f instance4_withops(4, {kernel::jit_injector::eltwise_injector(Op)});
+    static_assert(sizeof(_SRC_T) == sizeof(_DST_T));  // TODO SRC_T DST_T conversion copy
+    auto param = params{reinterpret_cast<void*>(const_cast<_SRC_T*>(srcptr)),
+                        reinterpret_cast<void*>(dstptr),
+                        elt_const_v,
+                        row,
+                        static_cast<int>(col * sizeof(_SRC_T)),
+                        static_cast<int>(srcstep * sizeof(_SRC_T)),
+                        static_cast<int>(dststep * sizeof(_DST_T))};
+    int row4 = utils::padto_le(row, 4);
+    if (row4) {
+      param.row = row4;
+      instance4_withops.mKernel(&param);
+    }
+    int rowtail = row - row4;
+    if (rowtail) {
+      param.srcptr = reinterpret_cast<char*>(param.srcptr) + row4 * srcstep * sizeof(_SRC_T);
+      param.dstptr = reinterpret_cast<char*>(param.dstptr) + row4 * dststep * sizeof(_DST_T);
+      param.row = rowtail;
+      instance_withops.mKernel(&param);
+    }
+    return JblasSuccess;
+  }
+
+ protected:
+  void generate(int unrollk, std::vector<kernel::jit_injector::eltwise_injector>& injectors) {  // unrollK=[1,2,4]
+    if (unrollk != 1 && unrollk != 2 && unrollk != 4) {
+      assert(false);
+      return;
+    }
+    inLocalLabel();  // use local label for multiple instance
+    {
+      int SF_TmpSize = 64;
+      Xbyak::util::StackFrame st(this, 1, 13, 16 * 10 + SF_TmpSize);
+      const Xbyak::Reg64& parambase = st.p[0];
+      const Xbyak::Reg64& reg_srcptr = st.t[0];
+      const Xbyak::Reg64& reg_dstptr = st.t[1];
+      const Xbyak::Reg64& reg_srcstride = st.t[2];
+      const Xbyak::Reg64& reg_dststride = st.t[3];
+      const Xbyak::Reg64& reg_rowsize = st.t[4];
+      const Xbyak::Reg64& reg_colsize = st.t[5];
+      const Xbyak::Reg64& reg_iterrow = st.t[6];
+      const Xbyak::Reg64& reg_itercol = st.t[7];
+      const Xbyak::Reg64& reg_tmp = st.t[8];
+      const Xbyak::Reg64& reg_elt_constv = st.t[8];  // alias of reg_tmp.
+      const Xbyak::Reg64& reg_tmpsrc = st.t[9];
+      const Xbyak::Reg64& reg_tmpdst = st.t[10];
+      const Xbyak::Reg64& reg_tmp1 = st.t[12];
+      const Xbyak::Reg64& reg_tmp2 = st.t[11];
+      const Xbyak::Reg64& reg_ret = rax;
+
+      vreg_push(rsp);
+
+      mov(reg_srcptr, ptr[parambase + OFFSET(srcptr)]);
+      mov(reg_dstptr, ptr[parambase + OFFSET(dstptr)]);
+      xor_(reg_srcstride, reg_srcstride);
+      mov(reg_srcstride.cvt32(), ptr[parambase + OFFSET(srcstride)]);
+      xor_(reg_dststride, reg_dststride);
+      mov(reg_dststride.cvt32(), ptr[parambase + OFFSET(dststride)]);
+
+      load32(reg_colsize, ptr[parambase + OFFSET(col)]);
+      load32(reg_rowsize, ptr[parambase + OFFSET(row)]);
+      if (unrollk == 4) {
+        imul(reg_tmp1, reg_srcstride, 3);
+        imul(reg_tmp2, reg_dststride, 3);
+      }
+      int const ColUnroll = 4;
+
+      for (int i = 0; i < unrollk * ColUnroll; i++) used_zmm_idx.insert(i);
+      for (auto&& injector : injectors) {
+        injector.assign_resources(this, used_zmm_idx, reg_ret, k2);
+        injector.assign_reg_elt_constp(reg_elt_constv);
+      }
+
+      xor_(reg_iterrow, reg_iterrow);
+      L(".rowloop");
+      xor_(reg_itercol, reg_itercol);
+      mov(reg_tmpsrc, reg_srcptr);
+      mov(reg_tmpdst, reg_dstptr);
+
+      L(".colloop");
+      mov(reg_tmp, reg_colsize);
+      sub(reg_tmp, reg_itercol);
+      cmp(reg_tmp, ColUnroll * VBytes);
+      jl(".maskproc", T_NEAR);
+      mov(reg_elt_constv, ptr[parambase + OFFSET(elt_const_v)]);
+      if (unrollk > 1) {
+        for (int j = 0; j < unrollk; j++) {
+          for (int i = 0; i < ColUnroll; i++) {
+            if (j == 3) {
+              vmovups(Xbyak::Zmm(i + j * ColUnroll), ptr[reg_tmpsrc + reg_tmp1 + i * VBytes]);
+              for (int k = 0; k < injectors.size(); k++)
+                injectors[k].vector_compute(Xbyak::Zmm(i + j * ColUnroll), k * 3 * sizeof(float));
+              vmovups(ptr[reg_tmpdst + reg_tmp2 + i * VBytes], Xbyak::Zmm(i + j * ColUnroll));
+            } else {
+              vmovups(Xbyak::Zmm(i + j * ColUnroll), ptr[reg_tmpsrc + reg_srcstride * j + i * VBytes]);
+              for (int k = 0; k < injectors.size(); k++)
+                injectors[k].vector_compute(Xbyak::Zmm(i + j * ColUnroll), k * 3 * sizeof(float));
+              vmovups(ptr[reg_tmpdst + reg_dststride * j + i * VBytes], Xbyak::Zmm(i + j * ColUnroll));
+            }
+          }
+        }
+      } else {
+        for (int i = 0; i < ColUnroll; i++) {
+          vmovups(Xbyak::Zmm(i), ptr[reg_tmpsrc + i * VBytes]);
+          for (int k = 0; k < injectors.size(); k++) injectors[k].vector_compute(Xbyak::Zmm(i), k * 3 * sizeof(float));
+          vmovups(ptr[reg_tmpdst + i * VBytes], Xbyak::Zmm(i));
+        }
+      }
+      add(reg_tmpsrc, ColUnroll * VBytes);
+      add(reg_tmpdst, ColUnroll * VBytes);
+      add(reg_itercol, ColUnroll * VBytes);
+      jmp(".colend", T_NEAR);
+      L(".maskproc");
+      push(reg_tmp1);
+      generate_Nbitsmask(k1, reg_itercol, reg_colsize, reg_tmp, reg_tmp1, VBytes);
+      pop(reg_tmp1);
+      mov(reg_elt_constv, ptr[parambase + OFFSET(elt_const_v)]);
+      if (unrollk > 1) {
+        for (int j = 0; j < unrollk; j++) {
+          if (j == 3) {
+            vmovdqu8(Xbyak::Zmm(0) | k1, ptr[reg_tmpsrc + reg_tmp1]);
+            for (int k = 0; k < injectors.size(); k++)
+              injectors[k].vector_compute(Xbyak::Zmm(0), k * 3 * sizeof(float));
+            vmovdqu8(ptr[reg_tmpdst + reg_tmp2], Xbyak::Zmm(0) | k1);
+          } else {
+            vmovdqu8(Xbyak::Zmm(0) | k1, ptr[reg_tmpsrc + reg_srcstride * j]);
+            for (int k = 0; k < injectors.size(); k++)
+              injectors[k].vector_compute(Xbyak::Zmm(0), k * 3 * sizeof(float));
+            vmovdqu8(ptr[reg_tmpdst + reg_dststride * j], Xbyak::Zmm(0) | k1);
+          }
+        }
+      } else {
+        vmovdqu8(Xbyak::Zmm(0) | k1, ptr[reg_tmpsrc]);
+        for (int k = 0; k < injectors.size(); k++) injectors[k].vector_compute(Xbyak::Zmm(0), k * 3 * sizeof(float));
+        vmovdqu8(ptr[reg_tmpdst], Xbyak::Zmm(0) | k1);
+      }
+      add(reg_tmpsrc, VBytes);
+      add(reg_tmpdst, VBytes);
+      add(reg_itercol, VBytes);
+      L(".colend");
+      cmp(reg_itercol, reg_colsize);
+      jb(".colloop");
+      add(reg_iterrow, unrollk);
+      lea(reg_srcptr, ptr[reg_srcptr + reg_srcstride * unrollk]);
+      lea(reg_dstptr, ptr[reg_dstptr + reg_dststride * unrollk]);
+      cmp(reg_iterrow, reg_rowsize);
+      jb(".rowloop");
+
+      mov(reg_ret, 0);
+      vreg_pop(rsp);
+    }
+    outLocalLabel();  // end of local label
+    for (auto&& injector : injectors) injector.prepare_table();
+    this->ready();
+    mKernel = this->getCode<func_t>();
+  }
+
+  func_t mKernel = nullptr;
+  std::set<int> used_zmm_idx;
+};
+
+static inline Xbyak::Zmm unpack_4bit(Xbyak::CodeGenerator* jit, Xbyak::Ymm v4bits, Xbyak::Zmm zmm, Xbyak::Zmm zmm1,
+                                     Xbyak::Zmm vmask, Xbyak::Opmask unpack_mask) {
+  Xbyak::Ymm ymm1(zmm1.getIdx());
+  jit->vpmovsxbw(zmm, v4bits);
+  jit->vpslld(ymm1, v4bits, 4);
+  jit->vpmovsxbw(zmm1, ymm1);
+  jit->vpsllw(zmm, zmm, 8);
+  jit->vmovdqu8(zmm1 | unpack_mask, zmm);
+  jit->vpandd(zmm1, vmask, zmm1);
+  return zmm1;
+}
+
+static inline Xbyak::Zmm unpack_4bit_2regs(Xbyak::CodeGenerator* jit, Xbyak::Ymm v4bits, Xbyak::Zmm tmp,
+                                           Xbyak::Zmm vmask, Xbyak::Opmask unpack_mask) {
+  Xbyak::Zmm dst(v4bits.getIdx());
+  jit->vpmovsxbw(tmp, v4bits);
+  jit->vpslld(v4bits, v4bits, 4);
+  jit->vpmovsxbw(dst, v4bits);
+  jit->vpsllw(tmp, tmp, 8);
+  jit->vmovdqu8(dst | unpack_mask, tmp);
+  jit->vpandd(dst, vmask, dst);
+  return dst;
+}
+
+class DecompressS4S8_AVX512F : protected jblas::xbyak::JitAvx512f {
+ public:
+  struct params {
+    void *srcptr, *dstptr;
+    size_t size;
+  };
+  typedef long long (*func_t)(params*);
+
+ public:
+  static int constexpr VBytes = 64;
+  DecompressS4S8_AVX512F() {
+    inLocalLabel();  // use local label for multiple instance
+    int SF_TmpSize = 64;
+    Xbyak::util::StackFrame st(this, 1, 13, 16 * 10 + SF_TmpSize);
+    const Xbyak::Reg64& parambase = st.p[0];
+    const Xbyak::Reg64& reg_srcptr = st.t[0];
+    const Xbyak::Reg64& reg_dstptr = st.t[1];
+    const Xbyak::Reg64& reg_size = st.t[5];
+    const Xbyak::Reg64& reg_iterrow = st.t[6];
+    const Xbyak::Reg64& reg_itercol = st.t[7];
+    const Xbyak::Reg64& reg_tmp = st.t[8];
+    const Xbyak::Reg64& reg_tmp1 = st.t[12];
+    const Xbyak::Reg64& reg_ret = rax;
+
+    vreg_push(rsp);
+
+    mov(reg_srcptr, ptr[parambase + OFFSET(srcptr)]);
+    mov(reg_dstptr, ptr[parambase + OFFSET(dstptr)]);
+    mov(reg_size, ptr[parambase + OFFSET(size)]);
+    Xbyak::Opmask unpack_mask(4);
+    Xbyak::Zmm zmm_mask(31);
+    mov(reg_tmp.cvt32(), uint32_t(0xf0f0f0f0));
+    vpbroadcastd(zmm_mask, reg_tmp.cvt32());
+    mov(reg_tmp, 0xaaaaaaaaaaaaaaaa);
+    kmovq(unpack_mask, reg_tmp);
+    int const ColUnroll = 4;
+    xor_(reg_iterrow, reg_iterrow);
+    xor_(reg_itercol, reg_itercol);
+    L(".colloop");
+    mov(reg_tmp, reg_size);
+    sub(reg_tmp, reg_itercol);
+    cmp(reg_tmp, ColUnroll * VBytes);
+    jl(".maskproc", T_NEAR);
+    mov(reg_tmp, reg_itercol);
+    shr(reg_tmp, 1);
+    for (int i = 0; i < ColUnroll; i++) {
+      vmovups(Xbyak::Ymm(i), ptr[reg_srcptr + reg_tmp + i * VBytes / 2]);
+      unpack_4bit_2regs(this, Xbyak::Ymm(i), Xbyak::Zmm(ColUnroll), zmm_mask, unpack_mask);
+      vmovups(ptr[reg_dstptr + reg_itercol + i * VBytes], Xbyak::Zmm(i));
+    }
+    add(reg_itercol, ColUnroll * VBytes);
+    jmp(".colend");
+    L(".maskproc");
+    generate_Nbitsmask(k1, reg_itercol, reg_size, reg_tmp, reg_tmp1, VBytes);
+    mov(reg_tmp, reg_itercol);
+    shr(reg_tmp, 1);
+    vmovdqu8(Xbyak::Zmm(0) | k1, ptr[reg_srcptr + reg_tmp]);
+    unpack_4bit_2regs(this, Xbyak::Ymm(0), Xbyak::Zmm(ColUnroll), zmm_mask, unpack_mask);
+    vmovdqu8(ptr[reg_dstptr + reg_itercol], Xbyak::Zmm(0) | k1);
+    add(reg_itercol, VBytes);
+    L(".colend");
+    cmp(reg_itercol, reg_size);
+    jb(".colloop");
+
+    mov(reg_ret, 0);
+    vreg_pop(rsp);
+    outLocalLabel();  // end of local label
+
+    this->ready();
+    mKernel = this->getCode<func_t>();
+  }
+
+  static JBLAS_CODE forward(void* srcptr, void* dstptr, size_t size) {
+    static DecompressS4S8_AVX512F instance;
+    auto param = params{srcptr, dstptr, size};
+    instance.mKernel(&param);
+    return JblasSuccess;
+  }
+
+ private:
+  func_t mKernel = nullptr;
+};
+
+static inline JBLAS_CODE decompress_s4_s8(utils::int4x2* srcptr, int8_t* dstptr, int row, int col, int ld_src,
+                                          int ld_dst) {
+  if (col != ld_src) {  // memory is not continuous
+    return JblasNotSupport;
+  }
+  DecompressS4S8_AVX512F::forward(srcptr, dstptr, (size_t)row * col);
+  return JblasSuccess;
+}
+
+// src: row x col => dst: ⌈col/n_tile⌉ x ⌈row/row_pack⌉ x n_tile x row_pack (zeor-padded)
+// Extra padding can be applied with memset calls in `static void forward(...)`
+class PaddingInterleaveCvt : protected xbyak::JitAvx512f {
+ public:
+  struct params {
+    const void* srcptr;
+    void* dstptr;
+    int row, col;
+    int srcstride, dststride;  // dst = dst_base + dststride * n_idx, where n_idx % n_tile == 0
+  };
+  typedef void (*func_t)(params* p);
+  void operator()(params* p) const { mKernel(p); }
+
+ private:
+  static inline const uint16_t idx_interleave_self[32] = {
+      0,  16, 1,  17, 2,  18, 3,  19,  //
+      4,  20, 5,  21, 6,  22, 7,  23,  //
+      8,  24, 9,  25, 10, 26, 11, 27,  //
+      12, 28, 13, 29, 14, 30, 15, 31,  //
+  };
+
+  PaddingInterleaveCvt(int n_tile, JBLAS_DTYPE dst_t) : PaddingInterleaveCvt(n_tile, dst_t, dst_t) {}
+  PaddingInterleaveCvt(int n_tile, JBLAS_DTYPE dst_t, JBLAS_DTYPE src_t, int row_pack = 0) : xbyak::JitAvx512f() {
+    inLocalLabel();  // use local label for multiple instance
+    const auto src_bytes = static_cast<int>(utils::jblas_dtype_size(src_t));
+    const auto dst_bytes = static_cast<int>(utils::jblas_dtype_size(dst_t));
+    if (row_pack == 0) row_pack = 4 / dst_bytes;  // default value
+    const auto ne_zmm = 64 / std::max(src_bytes, dst_bytes);
+    const auto src_bytes_vmm = ne_zmm * src_bytes;
+
+    assert(n_tile % ne_zmm == 0);
+    assert(row_pack > 0 && row_pack < 3);  // TODO(yi): int8 interleave not implemented
+
+    int SF_TmpSize = 64;
+    Xbyak::Label l_idx_interleave_self;
+    std::shared_ptr<void> epilogue{
+        // generate code at the very end
+        nullptr, [&](void*) {
+          align(64);
+          L(l_idx_interleave_self);
+          db(reinterpret_cast<const uint8_t*>(idx_interleave_self), sizeof(idx_interleave_self));
+          outLocalLabel();  // end of local label
+
+          this->ready();
+          this->mKernel = this->getCode<func_t>();
+        }};
+    Xbyak::util::StackFrame st(this, 1, 13, 16 * 10 + SF_TmpSize);
+    const Xbyak::Reg64& parambase = st.p[0];
+    const Xbyak::Reg64& reg_srcptr = st.t[0];
+    const Xbyak::Reg64& reg_dstptr = st.t[1];
+    const Xbyak::Reg64& reg_srcstride = st.t[2];
+    const Xbyak::Reg64& reg_dststride = st.t[3];
+    const Xbyak::Reg64& reg_colsize = st.t[5];
+    const Xbyak::Reg64& reg_iterrow = st.t[6];
+    const Xbyak::Reg64& reg_itercol = st.t[7];
+    const Xbyak::Reg64& reg_tmp = st.t[8];
+    const Xbyak::Reg64& reg_tmp1 = st.t[9];
+    const Xbyak::Reg64& reg_tmp2 = st.t[12];
+    const Xbyak::Reg64& reg_tmp3 = st.t[10];
+
+    const Xbyak::Reg64& reg_ret = rax;
+    auto& mask_rd = k1;
+    const Xbyak::Zmm& vreg_idx0 = zmm31;
+
+    vreg_push(rsp);
+    vmovups(vreg_idx0, zword[rip + l_idx_interleave_self]);
+    mov(reg_srcptr, ptr[parambase + OFFSET(srcptr)]);
+    mov(reg_dstptr, ptr[parambase + OFFSET(dstptr)]);
+    mov(reg_srcstride.cvt32(), ptr[parambase + OFFSET(srcstride)]);
+    mov(reg_dststride.cvt32(), ptr[parambase + OFFSET(dststride)]);
+    mov(reg_colsize.cvt32(), ptr[parambase + OFFSET(col)]);
+
+    std::vector<Xbyak::Zmm> reg_srcs(row_pack), reg_tmps(row_pack);
+    const int ZIDX_TranSrc = 0;
+    const int ZIDX_TransTmp = row_pack;
+    for (int i = 0; i < row_pack; i++) reg_srcs[i] = Xbyak::Zmm(ZIDX_TranSrc + i);
+    for (int i = 0; i < row_pack; i++) reg_tmps[i] = Xbyak::Zmm(ZIDX_TransTmp + i);
+
+    xor_(reg_iterrow, reg_iterrow);
+    L(".rowloop");
+    xor_(reg_itercol, reg_itercol);
+    mov(reg_tmp2.cvt32(), ptr[parambase + OFFSET(row)]);
+    sub(reg_tmp2, reg_iterrow);
+    cmp(reg_tmp2, row_pack);
+    jb(".tailrowloop", T_NEAR);
+
+    L(".colloop");
+    mov(reg_tmp1, reg_itercol);
+    imul(reg_tmp1, reg_dststride);
+    lea(reg_tmp, ptr[reg_dstptr + reg_tmp1]);
+    lea(reg_tmp1, ptr[reg_srcptr + reg_itercol * src_bytes]);
+    for (int jj = 0; jj < n_tile; jj += ne_zmm) {
+      generate_Nbitsmask(mask_rd, reg_itercol, ptr[reg_colsize - jj], reg_tmp2, reg_tmp3, ne_zmm);
+      for (int ii = 0; ii < row_pack; ii++) {
+        const Xbyak::Xmm reg_srcs_ii = src_bytes_vmm == 64   ? Xbyak::Zmm(reg_srcs[ii].getIdx())
+                                       : src_bytes_vmm == 32 ? Xbyak::Ymm(reg_srcs[ii].getIdx())
+                                       : src_bytes_vmm == 16 ? Xbyak::Xmm(reg_srcs[ii].getIdx())
+                                                             : (assert(false), reg_srcs[ii]);
+        if (src_bytes == 1) {
+          vmovdqu8(reg_srcs_ii | mask_rd | T_z, ptr[reg_tmp1 + ii * reg_srcstride + jj * src_bytes]);
+        } else if (src_bytes == 2) {
+          vmovdqu16(reg_srcs_ii | mask_rd | T_z, ptr[reg_tmp1 + ii * reg_srcstride + jj * src_bytes]);
+        } else if (src_bytes == 4) {
+          vmovdqu32(reg_srcs_ii | mask_rd | T_z, ptr[reg_tmp1 + ii * reg_srcstride + jj * src_bytes]);
+        }
+      }
+      if (src_t == JBLAS_DTYPE::F32 && dst_t == JBLAS_DTYPE::BF16) {
+        vcvtne2ps2bf16(reg_tmps[0], reg_srcs[1], reg_srcs[0]);
+        vpermt2w(reg_tmps[0], vreg_idx0, reg_tmps[0]);
+        vmovups(ptr[reg_tmp + jj * row_pack * dst_bytes], reg_tmps[0]);
+      } else {
+        // interleave_2rows_4regs(reg_srcs.data(), reg_tmps.data());
+        assert(false);  // Not implemented
+      }
+    }
+    add(reg_itercol, n_tile);
+    cmp(reg_itercol.cvt32(), ptr[parambase + OFFSET(col)]);
+    jb(".colloop");
+    lea(reg_srcptr, ptr[reg_srcptr + row_pack * reg_srcstride]);
+    lea(reg_dstptr, ptr[reg_dstptr + row_pack * n_tile * dst_bytes]);
+
+    add(reg_iterrow, row_pack);
+    cmp(reg_iterrow.cvt32(), ptr[parambase + OFFSET(row)]);
+    jb(".rowloop");
+    jmp(".aftercolloop", T_NEAR);
+
+    L(".tailrowloop");
+    L(".tailcolloop");
+    mov(reg_tmp1, reg_itercol);
+    imul(reg_tmp1, reg_dststride);
+    lea(reg_tmp, ptr[reg_dstptr + reg_tmp1]);
+    lea(reg_tmp1, ptr[reg_srcptr + reg_itercol * src_bytes]);
+    for (int jj = 0; jj < n_tile; jj += ne_zmm) {
+      generate_Nbitsmask(mask_rd, reg_itercol, ptr[reg_colsize - jj], reg_tmp2, reg_tmp3, ne_zmm);
+      if (row_pack == 2) {
+        const Xbyak::Xmm reg_srcs_0 = src_bytes_vmm == 64   ? Xbyak::Zmm(reg_srcs[0].getIdx())
+                                      : src_bytes_vmm == 32 ? Xbyak::Ymm(reg_srcs[0].getIdx())
+                                      : src_bytes_vmm == 16 ? Xbyak::Xmm(reg_srcs[0].getIdx())
+                                                            : (assert(false), reg_srcs[0]);
+        if (src_bytes == 1) {
+          vmovdqu8(reg_srcs_0 | mask_rd | T_z, ptr[reg_tmp1 + jj * src_bytes]);
+        } else if (src_bytes == 2) {
+          vmovdqu16(reg_srcs_0 | mask_rd | T_z, ptr[reg_tmp1 + jj * src_bytes]);
+        } else if (src_bytes == 4) {
+          vmovdqu32(reg_srcs_0 | mask_rd | T_z, ptr[reg_tmp1 + jj * src_bytes]);
+        }
+        vxorps(reg_srcs[1], reg_srcs[1]);
+      } else {
+        assert(false);
+      }
+      if (src_t == JBLAS_DTYPE::F32 && dst_t == JBLAS_DTYPE::BF16) {
+        vcvtne2ps2bf16(reg_tmps[0], reg_srcs[1], reg_srcs[0]);
+        vpermt2w(reg_tmps[0], vreg_idx0, reg_tmps[0]);
+        vmovups(ptr[reg_tmp + jj * row_pack * dst_bytes], reg_tmps[0]);
+      } else {
+        assert(false);
+      }
+    }
+    add(reg_itercol, n_tile);
+    cmp(reg_itercol.cvt32(), ptr[parambase + OFFSET(col)]);
+    jb(".tailcolloop");
+    L(".aftercolloop");
+    mov(reg_ret, 0);
+    vreg_pop(rsp);
+  }
+
+  func_t mKernel = nullptr;
+
+ public:
+  template <int NTile, typename T_SRC, typename T_DST = T_SRC, int RowPack = 4 / sizeof(T_DST)>
+  static void forward(const T_SRC* src, T_DST* dst, int row, int col, int row_pad, int col_pad, int src_step,
+                      int dst_step) {
+    const auto kern_col_pad = utils::padto(col, NTile);
+    const auto kern_row_pad = utils::padto(row, RowPack);
+    assert(kern_col_pad <= col_pad && col_pad % NTile == 0);
+    assert(kern_row_pad <= row_pad && row_pad % RowPack == 0);
+    const auto src_stride = static_cast<int>(sizeof(T_SRC)) * src_step;
+    const auto dst_stride = static_cast<int>(sizeof(T_DST)) * dst_step;
+    params param = {src, dst, row, col, src_stride, dst_stride};
+    static const PaddingInterleaveCvt kern(NTile, utils::jblas_dtype<T_DST>, utils::jblas_dtype<T_SRC>, RowPack);
+    kern(&param);
+
+    // extra row and col pad
+    const auto row_pad_size_memset = sizeof(T_DST) * (row_pad - kern_row_pad) * NTile;
+    if (row_pad_size_memset) {
+      for (int j = 0; j < kern_col_pad; j += NTile)
+        memset(dst + j * dst_step + kern_row_pad * NTile, 0, row_pad_size_memset);
+    }
+    for (int j = kern_col_pad; j < col_pad; j += NTile)  //
+      memset(dst + j * dst_step, 0, sizeof(T_DST) * NTile * row_pad);
+  }
+
+  template <int NTile, typename T_SRC, typename T_DST = T_SRC, int RowPack = 4 / sizeof(T_DST)>
+  static void reference(const T_SRC* src, T_DST* dst, int row, int col, int row_pad, int col_pad, int src_step,
+                        int dst_step) {
+    assert(utils::padto(col, NTile) <= col_pad && col_pad % NTile == 0);
+    assert(utils::padto(row, RowPack) <= row_pad && row_pad % RowPack == 0);
+    for (int i = 0; i < row_pad; i += RowPack)
+      for (int j = 0; j < col_pad; j += NTile)
+        for (int ii = 0; ii < RowPack; ++ii)
+          for (int jj = 0; jj < NTile; ++jj)
+            dst[i * NTile + j * dst_step + ii + jj * RowPack] =
+                static_cast<T_DST>((i + ii < row && j + jj < col) ? src[(i + ii) * src_step + j + jj] : 0);
+  }
+};
+
+// src: row x col => dst: ⌈row/m_tile⌉ x ⌈col/(trans_cell*col_pack==64/sizeof(t_dst))⌉ x m_tile x col_pack (zeor-padded)
+// Note1: the extra padding on the dimension of col due to the implementation limitation
+// Note2: dst will only be zero-padded to a multiple of trans_cell in the dimension of m_tile
+// Extra padding can be applied with memset calls in `static void forward(...)`
+class PaddingTransInterleaveCvt : protected xbyak::JitAvx512f {
+ public:
+  struct params {
+    const void* srcptr;
+    void* dstptr;
+    int row, col;
+    int srcstride;  // src = src_base + srcstride * m_idx
+    int dststride;  // dst = dst_base + dststride * m_idx, where m_idx % m_tile == 0
+  };
+  typedef void (*func_t)(params* p);
+  void operator()(params* p) const { mKernel(p); }
+  const int trans_cell;  // transpose matrices of size trans_cellxtrans_cell (in terms of #elements or #packs)
+
+ private:
+  PaddingTransInterleaveCvt(int m_tile, JBLAS_DTYPE dst_t) : PaddingTransInterleaveCvt(m_tile, dst_t, dst_t) {}
+  PaddingTransInterleaveCvt(int m_tile, JBLAS_DTYPE dst_t, JBLAS_DTYPE src_t, int col_pack = 0)
+      : xbyak::JitAvx512f(), trans_cell(64 / col_pack / int(utils::jblas_dtype_size(dst_t))) {
+    const auto src_bytes = static_cast<int>(utils::jblas_dtype_size(src_t));
+    const auto dst_bytes = static_cast<int>(utils::jblas_dtype_size(dst_t));
+    if (col_pack == 0) col_pack = 4 / dst_bytes;  // default value
+    // const auto src_bytes_vmm = ne_zmm * src_bytes;
+    // const auto dst_bytes_vmm = ne_zmm * dst_bytes;
+
+    assert(m_tile % trans_cell == 0);
+    assert(col_pack > 0 && col_pack < 3);  // TODO(yi): int8 interleave not implemented
+
+    inLocalLabel();                // use local label for multiple instance
+    std::shared_ptr<void> epilogue{// generate code at the very end
+                                   nullptr, [&](void*) {
+                                     outLocalLabel();  // end of local label
+
+                                     this->ready();
+                                     this->mKernel = this->getCode<func_t>();
+                                   }};
+    Xbyak::util::StackFrame st(this, 1, 11 | Xbyak::util::UseRDX, 16 * 10);
+    const Xbyak::Reg64& parambase = st.p[0];
+    const Xbyak::Reg64& reg_srcptr = st.t[0];
+    const Xbyak::Reg64& reg_dstptr = st.t[1];
+    const Xbyak::Reg64& reg_srcstride = st.t[2];
+    const Xbyak::Reg64& reg_dststride = st.t[3];
+    const Xbyak::Reg64& reg_colsize = st.t[4];
+    const Xbyak::Reg64& reg_iterrow = st.t[5];
+    const Xbyak::Reg64& reg_itercol = st.t[6];
+    const Xbyak::Reg64& reg_tmp = st.t[7];
+    const Xbyak::Reg64& reg_tmp2 = st.t[9];
+    const Xbyak::Reg64& reg_tmp3 = st.t[10];
+
+    const Xbyak::Reg64& reg_ret = rax;
+    const auto& mask_rd = k1;
+    const auto& mask_rd2 = k2;
+
+    vreg_push(rsp);
+    mov(reg_srcptr, ptr[parambase + OFFSET(srcptr)]);
+    mov(reg_srcstride.cvt32(), ptr[parambase + OFFSET(srcstride)]);
+    mov(reg_dststride.cvt32(), ptr[parambase + OFFSET(dststride)]);
+    mov(reg_colsize.cvt32(), ptr[parambase + OFFSET(col)]);
+
+    std::vector<Xbyak::Zmm> reg_srcs(trans_cell), reg_tmps(trans_cell);
+    const int ZIDX_TranSrc = 0;
+    const int ZIDX_TransTmp = trans_cell;
+    for (int i = 0; i < trans_cell; i++) reg_srcs[i] = Xbyak::Zmm(ZIDX_TranSrc + i);
+    for (int i = 0; i < trans_cell; i++) reg_tmps[i] = Xbyak::Zmm(ZIDX_TransTmp + i);
+
+    xor_(reg_iterrow, reg_iterrow);
+    L(".rowloop");
+    xor_(rdx, rdx);
+    mov(rax, reg_iterrow);
+    mov(reg_tmp, m_tile);
+    div(reg_tmp);                                 // reg_iterrow `div` m_tile
+    imul(reg_dstptr, rdx, col_pack * dst_bytes);  // ii * col_pack
+    add(reg_dstptr, ptr[parambase + OFFSET(dstptr)]);
+    imul(reg_tmp, rax, m_tile);
+    imul(reg_tmp, reg_dststride);
+    lea(reg_dstptr, ptr[reg_dstptr + reg_tmp]);  // dst = dst_base + i * dst_step + ii * col_pack
+    xor_(reg_itercol, reg_itercol);
+
+    mov(reg_tmp2.cvt32(), ptr[parambase + OFFSET(row)]);
+    sub(reg_tmp2, reg_iterrow);
+    cmp(reg_tmp2, trans_cell);
+    jb(".tailrowloop", T_NEAR);
+
+    L(".colloop");
+    generate_Nbitsmask(mask_rd, reg_itercol, ptr[reg_colsize], reg_tmp2, reg_tmp3, 64 / dst_bytes);
+    if (src_t == JBLAS_DTYPE::F32 && dst_t == JBLAS_DTYPE::BF16) {
+      kshiftrq(mask_rd2, mask_rd, 16);
+      assert(trans_cell == 16);
+      for (int ii = 0; ii < trans_cell; ++ii) {
+        lea(reg_tmp, (ii == 0) ? ptr[reg_srcptr + reg_itercol * src_bytes] : ptr[reg_tmp + reg_srcstride]);
+        vmovups(reg_srcs[ii] | mask_rd | T_z, zword[reg_tmp]);
+        vmovups(reg_tmps[ii] | mask_rd2 | T_z, zword[reg_tmp + 64]);
+        vcvtne2ps2bf16(reg_srcs[ii], reg_tmps[ii], reg_srcs[ii]);
+      }
+      transpose16x16_4B(reg_srcs.data(), reg_tmps.data());
+      for (int jj = 0; jj < trans_cell; ++jj) {
+        vmovups(ptr[reg_dstptr + jj * m_tile * col_pack * dst_bytes], reg_srcs[jj]);
+      }
+    } else {
+      assert(false);  // Not implemented
+    }
+    lea(reg_dstptr, ptr[reg_dstptr + col_pack * trans_cell * dst_bytes * m_tile]);
+    lea(reg_itercol, ptr[reg_itercol + col_pack * trans_cell]);
+    cmp(reg_itercol.cvt32(), ptr[parambase + OFFSET(col)]);
+    jb(".colloop");
+
+    imul(reg_tmp, reg_srcstride, trans_cell);
+    lea(reg_srcptr, ptr[reg_srcptr + reg_tmp]);  // srcptr += trans_cell * srcstride
+    lea(reg_iterrow, ptr[reg_iterrow + trans_cell]);
+    cmp(reg_iterrow.cvt32(), ptr[parambase + OFFSET(row)]);
+    jb(".rowloop");
+    jmp(".aftercolloop", T_NEAR);
+
+    L(".tailrowloop");
+    // reg_itercol, reg_dstptr should have been set in the non-tail section
+    Xbyak::Label l_tail_tbl;
+    std::vector<Xbyak::Label> l_tail_case(trans_cell);
+    mov(reg_tmp, l_tail_tbl);                              // TODO(Yi): rip + l + offset?
+    jmp(ptr[reg_tmp + reg_tmp2 * sizeof(void*)], T_NEAR);  // switch(rows-iterrow) ...
+    align(sizeof(intptr_t));
+    L(l_tail_tbl);
+    db(reinterpret_cast<uintptr_t>(nullptr), sizeof(intptr_t));  // case 0 should never occur
+    for (int i = 1; i < trans_cell; ++i) putL(l_tail_case[i]);
+
+    for (int m_tail = 1; m_tail < trans_cell; ++m_tail) {  // case (m_tail):
+      auto& tailcolloop = l_tail_case[m_tail];
+      L(tailcolloop);
+      generate_Nbitsmask(mask_rd, reg_itercol, ptr[reg_colsize], reg_tmp2, reg_tmp3, 64 / dst_bytes);
+      if (src_t == JBLAS_DTYPE::F32 && dst_t == JBLAS_DTYPE::BF16) {
+        kshiftrq(mask_rd2, mask_rd, 16);
+        assert(trans_cell == 16);
+        for (int ii = 0; ii < trans_cell; ++ii) {
+          if (ii < m_tail) {
+            lea(reg_tmp, (ii == 0) ? ptr[reg_srcptr + reg_itercol * src_bytes] : ptr[reg_tmp + reg_srcstride]);
+            vmovups(reg_srcs[ii] | mask_rd | T_z, zword[reg_tmp]);
+            vmovups(reg_tmps[ii] | mask_rd2 | T_z, zword[reg_tmp + 64]);
+            vcvtne2ps2bf16(reg_srcs[ii], reg_tmps[ii], reg_srcs[ii]);
+          } else if (ii == m_tail) {
+            vxorps(reg_srcs[ii], reg_srcs[ii], reg_srcs[ii]);
+          } else {
+            vmovaps(reg_srcs[ii], reg_srcs[m_tail]);
+          }
+        }
+        transpose16x16_4B(reg_srcs.data(), reg_tmps.data());
+        for (int jj = 0; jj < trans_cell; ++jj) {
+          vmovups(ptr[reg_dstptr + jj * m_tile * col_pack * dst_bytes], reg_srcs[jj]);
+        }
+      } else {
+        assert(false);  // Not implemented
+      }
+      lea(reg_dstptr, ptr[reg_dstptr + col_pack * trans_cell * dst_bytes * m_tile]);
+      lea(reg_itercol, ptr[reg_itercol + col_pack * trans_cell]);
+      cmp(reg_itercol.cvt32(), ptr[parambase + OFFSET(col)]);
+      jb(tailcolloop);
+      jmp(".aftercolloop", T_NEAR);
+    }
+
+    L(".aftercolloop");
+    mov(reg_ret, 0);
+    vreg_pop(rsp);
+  }
+
+  func_t mKernel = nullptr;
+
+ public:
+  template <int MTile, typename T_SRC, typename T_DST = T_SRC, int ColPack = 4 / sizeof(T_DST)>
+  static void forward(const T_SRC* src, T_DST* dst, int row, int col, int row_pad, int col_pad, int src_step,
+                      int dst_step) {
+    assert(utils::padto(row, MTile) <= row_pad && row_pad % MTile == 0);
+    assert(utils::padto(col, ColPack) <= col_pad && col_pad % ColPack == 0);
+    static const PaddingTransInterleaveCvt kern(MTile, utils::jblas_dtype<T_DST>, utils::jblas_dtype<T_SRC>, ColPack);
+    // 0-padded guarantee by jit kern
+    const auto kern_row_pad = utils::padto(row, kern.trans_cell),
+               kern_col_pad = utils::padto(col, kern.trans_cell * ColPack);
+    assert(kern_row_pad <= row_pad && row_pad % MTile == 0);
+    assert(kern_col_pad <= col_pad && col_pad % ColPack == 0);
+    const auto src_stride = static_cast<int>(sizeof(T_SRC)) * src_step;
+    const auto dst_stride = static_cast<int>(sizeof(T_DST)) * dst_step;
+    params param = {src, dst, row, col, src_stride, dst_stride};
+    kern(&param);
+
+    // extra row and col pad
+    const auto col_pad_size_memset = sizeof(T_DST) * (col_pad - kern_col_pad) * MTile;
+    if (col_pad_size_memset) {
+      for (int i = 0; i < kern_row_pad; i += MTile)
+        memset(dst + i * dst_step + kern_col_pad * MTile, 0, col_pad_size_memset);
+    }
+    const auto row_tail_pad_size_memset = sizeof(T_DST) * (utils::padto(row, MTile) - kern_row_pad) * ColPack;
+    if (row_tail_pad_size_memset) {  // row tail due to kernel limitation: kern_row_pad < next_multiple_of_MTile
+      const auto kern_row_pad_le_mtile = utils::padto_le(kern_row_pad, MTile);
+      const auto tail_dst_base = dst + kern_row_pad_le_mtile * dst_step + kern_row_pad % MTile * ColPack;
+      for (int j = 0; j < kern_col_pad; j += ColPack) memset(tail_dst_base + j * MTile, 0, row_tail_pad_size_memset);
+    }
+    for (int j = utils::padto(row, MTile); j < row_pad; j += MTile)
+      memset(dst + kern_row_pad * dst_step, 0, sizeof(T_DST) * MTile * col_pad);
+  }
+
+  template <int MTile, typename T_SRC, typename T_DST = T_SRC, int ColPack = 4 / sizeof(T_DST)>
+  static void reference(const T_SRC* src, T_DST* dst, int row, int col, int row_pad, int col_pad, int src_step,
+                        int dst_step) {
+    assert(utils::padto(row, MTile) <= row_pad && row_pad % MTile == 0);
+    assert(utils::padto(col, ColPack) <= col_pad && col_pad % ColPack == 0);
+    for (int i = 0; i < row_pad; i += MTile)
+      for (int j = 0; j < col_pad; j += ColPack)
+        for (int ii = 0; ii < MTile; ++ii)
+          for (int jj = 0; jj < ColPack; ++jj)
+            dst[j * MTile + i * dst_step + jj + ii * ColPack] =
+                static_cast<T_DST>((j + jj < col && i + ii < row) ? src[(i + ii) * src_step + j + jj] : 0);
+  }
+};
+
+// Complex number matrix(interleaved) - vector(as diagonal matrix) multiplication; Typically used for
+// shift-RoPE
+//
+// vector: fp16 values; view every adjacent 2 values on colunm as a complex num
+// src: bf16 ⌈row/row_pack⌉ x n_tile x row_pack; view every adjacent 2 values on colunm as a complex num
+// dst: same as src
+class CScaleInterleavedBF16FP16 : protected xbyak::JitAvx512_fp16 {
+ public:
+  struct params {
+    void* srcptr;
+    const void* scaleptr;
+    int row;
+  };
+  typedef void (*func_t)(params* p);
+  void operator()(params* p) const { mKernel(p); }
+
+ private:
+  explicit CScaleInterleavedBF16FP16(int n_tile, int n_off, int row_pack = 2, int unroll = 2)
+      : xbyak::JitAvx512_fp16() {
+    inLocalLabel();  // use local label for multiple instance
+    assert(("n_tile must be a multiple of 16", n_tile % 16 == 0));
+    assert(row_pack > 0 && row_pack < 3);  // TODO(yi): int8 interleave not implemented
+    int SF_TmpSize = 64;
+    std::shared_ptr<void> epilogue{// generate code at the very end
+                                   nullptr, [&](void*) {
+                                     outLocalLabel();  // end of local label
+                                     this->ready();
+                                     this->mKernel = this->getCode<func_t>();
+                                   }};
+    Xbyak::util::StackFrame st(this, 1, 4, 16 * 10 + SF_TmpSize);
+    const Xbyak::Reg64& parambase = st.p[0];
+    const Xbyak::Reg64& reg_src = st.t[0];
+    const Xbyak::Reg64& reg_scale = st.t[1];
+    const Xbyak::Reg64& reg_rowsize = st.t[2];
+    const Xbyak::Reg64& reg_iterrow = st.t[3];
+    const Xbyak::Zmm& vreg_scale = zmm31;
+    const auto& mask = k1;
+    const auto masked_off = n_off % 16;
+    if (masked_off != 0) {
+      mov(reg_src, ((1ULL << (16 - masked_off)) - 1) << masked_off);
+      kmovw(mask, reg_src.cvt32());
+    }
+
+    vreg_push(rsp);
+    mov(reg_rowsize.cvt32(), ptr[parambase + OFFSET(row)]);
+    mov(reg_src, qword[parambase + OFFSET(srcptr)]);
+    mov(reg_scale, qword[parambase + OFFSET(scaleptr)]);
+
+    std::vector<Xbyak::Zmm> vreg_src(4 * n_tile / 16);
+    const int ZIDX_TranSrc = 0;
+    for (int i = 0; i < 4 * n_tile / 16; i++) vreg_src[i] = Xbyak::Zmm(ZIDX_TranSrc + i);
+
+    xor_(reg_iterrow, reg_iterrow);
+    Xbyak::Label rowloop;
+    L(rowloop);
+    {
+      assert(("only implement for pack2 bf16", row_pack == 2));
+      for (int i = 0; i < unroll * row_pack; i += row_pack) {
+        vpbroadcastd(vreg_scale, dword[reg_scale + reg_iterrow * sizeof(utils::fp16) + i * sizeof(utils::fp16)]);
+
+        if (masked_off != 0) {
+          int j = utils::padto_le(n_off, 16);
+
+          const auto& vreg0 = vreg_src[j / 16 * 4 + 0];
+          const auto& vreg1 = vreg_src[j / 16 * 4 + 1];
+          const auto& vreg2 = vreg_src[j / 16 * 4 + 2];
+          const auto& vreg3 = vreg_src[j / 16 * 4 + 3];
+          vpmovzxwd(vreg0, yword[reg_src + (i * n_tile + j * row_pack) * sizeof(utils::bf16) + 0]);
+          vpmovzxwd(vreg1, yword[reg_src + (i * n_tile + j * row_pack) * sizeof(utils::bf16) + 32]);
+          vpslldq(vreg0, vreg0, 2);
+          vpslldq(vreg1, vreg1, 2);
+          vcvtps2phx(Xbyak::Ymm(vreg0.getIdx()), vreg0);
+          vcvtps2phx(Xbyak::Ymm(vreg1.getIdx()), vreg1);
+          // #UD If (dest_reg == src1_reg) or (dest_reg == src2_reg)
+          vfmulcph(Xbyak::Ymm(vreg2.getIdx()), Xbyak::Ymm(vreg0.getIdx()), Xbyak::Ymm(vreg_scale.getIdx()));
+          vfmulcph(Xbyak::Ymm(vreg3.getIdx()), Xbyak::Ymm(vreg1.getIdx()), Xbyak::Ymm(vreg_scale.getIdx()));
+          vcvtph2psx(vreg0, Xbyak::Ymm(vreg2.getIdx()));
+          vcvtph2psx(vreg1, Xbyak::Ymm(vreg3.getIdx()));
+          vcvtne2ps2bf16(vreg0, vreg1, vreg0);
+          vmovups(zword[reg_src + (i * n_tile + j * row_pack) * sizeof(utils::bf16)] | mask, vreg0);
+        }
+
+        for (int j = utils::padto(n_off, 16); j < n_tile; j += 16) {
+          const auto& vreg0 = vreg_src[j / 16 * 4 + 0];
+          const auto& vreg1 = vreg_src[j / 16 * 4 + 1];
+          const auto& vreg2 = vreg_src[j / 16 * 4 + 2];
+          const auto& vreg3 = vreg_src[j / 16 * 4 + 3];
+          vpmovzxwd(vreg0, yword[reg_src + (i * n_tile + j * row_pack) * sizeof(utils::bf16) + 0]);
+          vpmovzxwd(vreg1, yword[reg_src + (i * n_tile + j * row_pack) * sizeof(utils::bf16) + 32]);
+          vpslldq(vreg0, vreg0, 2);
+          vpslldq(vreg1, vreg1, 2);
+          vcvtps2phx(Xbyak::Ymm(vreg0.getIdx()), vreg0);
+          vcvtps2phx(Xbyak::Ymm(vreg1.getIdx()), vreg1);
+          // #UD If (dest_reg == src1_reg) or (dest_reg == src2_reg)
+          vfmulcph(Xbyak::Ymm(vreg2.getIdx()), Xbyak::Ymm(vreg0.getIdx()), Xbyak::Ymm(vreg_scale.getIdx()));
+          vfmulcph(Xbyak::Ymm(vreg3.getIdx()), Xbyak::Ymm(vreg1.getIdx()), Xbyak::Ymm(vreg_scale.getIdx()));
+          vcvtph2psx(vreg0, Xbyak::Ymm(vreg2.getIdx()));
+          vcvtph2psx(vreg1, Xbyak::Ymm(vreg3.getIdx()));
+          vcvtne2ps2bf16(vreg0, vreg1, vreg0);
+          vmovups(zword[reg_src + (i * n_tile + j * row_pack) * sizeof(utils::bf16)], vreg0);
+        }
+      }
+    }
+    lea(reg_iterrow, ptr[reg_iterrow + unroll * row_pack]);
+    lea(reg_src, ptr[reg_src + unroll * row_pack * n_tile * sizeof(utils::bf16)]);
+    cmp(reg_iterrow, reg_rowsize);
+    jb(rowloop);
+
+    vreg_pop(rsp);
+  }
+
+  func_t mKernel = nullptr;
+
+ public:
+  template <int NTile, int RowPack = 2>
+  static void forward(utils::bf16* src, const utils::fp16* scale, int row, int col, int src_step, int n_offset) {
+    static_assert(RowPack == 2, "Only implement rowpack2 bf16");
+    static_assert(NTile % 16 == 0, "NTile must be a multiple of 16");
+    constexpr auto unroll = 2;
+    assert(("row should be paded", row % (RowPack * unroll) == 0));
+    assert(("cow should be paded", col % NTile == 0));
+    assert(("can not skip more than col", n_offset < col));
+    int j = utils::padto_le(n_offset, NTile);
+    if (n_offset % NTile != 0) {
+      static const CScaleInterleavedBF16FP16 kern_off(NTile, n_offset % NTile, RowPack, unroll);
+      params param = {src + j * src_step, scale, row};
+      kern_off(&param);
+      j += NTile;
+    }
+
+    for (; j < col; j += NTile) {
+      static const CScaleInterleavedBF16FP16 kern(NTile, 0, RowPack, unroll);
+      params param = {src + j * src_step, scale, row};
+      kern(&param);
+    }
+  }
+
+  template <int NTile, int RowPack = 2>
+  static void reference(utils::bf16* src, const utils::fp16* scale, int row, int col, int src_step, int n_offset) {
+    static_assert(RowPack == 2, "Only implement rowpack2 bf16");
+    static_assert(NTile % 16 == 0, "NTile must be a multiple of 16");
+    assert(("row should be paded", row % RowPack == 0));
+    assert(("cow should be paded", col % NTile == 0));
+    assert(("can not skip more than col", n_offset < col));
+    for (int j = 0; j < col; j += NTile) {
+      for (int i = 0; i < row; i += RowPack) {
+        for (int jj = 0; jj < NTile; ++jj) {
+          if (j + jj < n_offset) continue;
+          auto& rel = (src + j * src_step)[i * NTile + jj * RowPack + 0];
+          auto& img = (src + j * src_step)[i * NTile + jj * RowPack + 1];
+          const auto rel_f32 = static_cast<float>(rel);
+          const auto img_f32 = static_cast<float>(img);
+          const auto rel_scale = static_cast<float>(scale[i + 0]);
+          const auto img_scale = static_cast<float>(scale[i + 1]);
+          rel = static_cast<utils::bf16>(rel_f32 * rel_scale - img_f32 * img_scale);
+          img = static_cast<utils::bf16>(rel_f32 * img_scale + img_f32 * rel_scale);
+        }
+      }
+    }
+  }
+};
+
+}  // namespace jit
+}  // namespace kernel
+}  // namespace jblas
diff --git a/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/kernel_jit_injector.h b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/kernel_jit_injector.h
new file mode 100644
index 0000000000000..d3e49eecd6b4e
--- /dev/null
+++ b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/kernel_jit_injector.h
@@ -0,0 +1,930 @@
+//  Copyright (c) 2022 Intel Corporation
+//
+//  Licensed under the Apache License, Version 2.0 (the "License");
+//  you may not use this file except in compliance with the License.
+//  You may obtain a copy of the License at
+//
+//    http://www.apache.org/licenses/LICENSE-2.0
+//
+//  Unless required by applicable law or agreed to in writing, software
+//  distributed under the License is distributed on an "AS IS" BASIS,
+//  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+//  See the License for the specific language governing permissions and
+//  limitations under the License.
+
+#pragma once
+
+#include <utility>
+#include <string>
+#include <vector>
+#include <unordered_map>
+#include <map>
+#include <set>
+#include <array>
+
+#include "jit_blas.h"
+#include "jit_blas_utils.h"
+#include "xbyak/xbyak.h"
+
+namespace jblas {
+namespace kernel {
+namespace jit_injector {
+using Zmm = Xbyak::Zmm;
+using Ymm = Xbyak::Ymm;
+using Xmm = Xbyak::Xmm;
+class eltwise_injector {
+ public:
+  eltwise_injector(JBLAS_ELTWISEOP eltwiseop) : elt_op(eltwiseop) { reigster_table_entries(); }
+  virtual ~eltwise_injector() {}
+
+  void assign_resources(Xbyak::CodeGenerator* ptr, const std::set<int>& used_zmm_idx, const Xbyak::Reg64& table_reg,
+                        const Xbyak::Opmask& mask_reg) {
+    h = ptr;
+    k_mask = mask_reg;
+    p_table = table_reg;
+    assert(used_zmm_idx.size() <= 26);
+    assign_zmm(used_zmm_idx, &zmm_mask);
+    assign_zmm(used_zmm_idx, &zmm_aux0);
+    assign_zmm(used_zmm_idx, &zmm_aux1);
+    assign_zmm(used_zmm_idx, &zmm_aux2);
+    assign_zmm(used_zmm_idx, &zmm_aux3);
+    assign_zmm(used_zmm_idx, &zmm_aux4);
+  }
+  void assign_resources(Xbyak::CodeGenerator* ptr, const std::set<int>& used_ymm_idx, const Xbyak::Reg64& table_reg) {
+    h = ptr;
+    p_table = table_reg;
+    assert(used_ymm_idx.size() <= 10);
+    assign_ymm(used_ymm_idx, &ymm_mask);
+    assign_ymm(used_ymm_idx, &ymm_aux0);
+    assign_ymm(used_ymm_idx, &ymm_aux1);
+    assign_ymm(used_ymm_idx, &ymm_aux2);
+    assign_ymm(used_ymm_idx, &ymm_aux3);
+    assign_ymm(used_ymm_idx, &ymm_aux4);
+  }
+  void assign_reg_elt_constp(const Xbyak::Reg64& reg) { reg_rt_const_p = reg; }
+  void vector_compute(const Xbyak::Zmm& zmm_src, int const_p_offset = 0) {
+    load_table_addr();
+    switch (elt_op) {
+      case EXP:
+        exp_compute_vector_fwd(zmm_src);
+        break;
+      case TANH:
+        tanh_compute_vector_fwd(zmm_src);
+        break;
+      case GELU:
+        gelu_compute_vector_fwd(zmm_src);
+        break;
+      case RELU:
+        relu_compute_vector_fwd(zmm_src, const_p_offset);
+        break;
+      case LINEAR:
+        linear_compute_vector_fwd(zmm_src, const_p_offset);
+        break;
+      case LOW_PRECISION_EXP:
+        low_precision_exp_compute_vector_fwd(zmm_src);
+        break;
+      case SWISH:
+        swish_compute_vector_fwd(zmm_src, const_p_offset);
+        break;
+      default:
+        assert(false);
+        break;
+    }
+  }
+  void vector_compute(const Xbyak::Ymm& ymm_src, int const_p_offset = 0) {
+    load_table_addr();
+    switch (elt_op) {
+      case EXP:
+        exp_compute_vector_fwd(ymm_src);
+        break;
+      case TANH:
+        tanh_compute_vector_fwd(ymm_src);
+        break;
+      case GELU:
+        gelu_compute_vector_fwd(ymm_src);
+        break;
+      case LOW_PRECISION_EXP:
+        low_precision_exp_compute_vector_fwd(ymm_src);
+        break;
+      case SWISH:
+        swish_compute_vector_fwd(ymm_src, const_p_offset);
+        break;
+      default:
+        assert(false);
+        break;
+    }
+  }
+  void prepare_table() {
+    h->align(64);
+    h->L(l_table);
+    assert(sizeof(table_entry_val_t) == 4);  // sizeof(table_entry_val_t) should be 4
+    for (auto it = entry_map.begin(); it != entry_map.end(); it++) {
+      const auto& te = (*it).second;
+      const auto len = te.bcast ? 64u : sizeof(table_entry_val_t);
+      for (size_t d = 0; d < len; d += sizeof(table_entry_val_t)) h->dd(te.val);
+    }
+  }
+
+ private:
+  void reigster_table_entries() {
+    static const table_t common_values{
+        {zero, {0x00000000, true}},      {half, {0x3f000000, true}},          {one, {0x3f800000, true}},
+        {two, {0x40000000, true}},       {minus_one, {0xbf800000, true}},     {minus_two, {0xc0000000, true}},
+        {ln2f, {0x3f317218, true}},      {one_epi32, {0x00000001, true}},     {positive_mask, {0x7fffffff, true}},
+        {sign_mask, {0x80000000, true}}, {exponent_bias, {0x0000007f, true}},
+    };
+
+    static constexpr std::array<float, 3> exp_approx_f32_coeff{0.35815147f, 0.96963238f, 1.f};
+    static const table_t low_precision_exp_consts{
+        {low_precision_exp_const_v0, {jblas::utils::bit_cast<uint32_t>(exp_approx_f32_coeff[0]), true}},
+        {low_precision_exp_const_v1, {jblas::utils::bit_cast<uint32_t>(exp_approx_f32_coeff[1]), true}},
+        {low_precision_exp_const_v2, {jblas::utils::bit_cast<uint32_t>(exp_approx_f32_coeff[2]), true}},
+    };
+
+    static const table_t exp_consts{{exp_log2ef, {0x3fb8aa3b, true}},
+                                    {exp_ln_flt_max_f, {0x42b17218, true}},
+                                    {exp_ln_flt_min_f, {0xc2aeac50, true}}};
+
+    static const table_t exp_polynomial{
+        // p0 = 1.0f
+        {exp_pol, {0x3f7ffffb, true}},  // p1 = 0.999999701f
+        {exp_pol, {0x3efffee3, true}},  // p2 = 0.499991506f
+        {exp_pol, {0x3e2aad40, true}},  // p3 = 0.166676521f
+        {exp_pol, {0x3d2b9d0d, true}},  // p4 = 0.0418978221f
+        {exp_pol, {0x3c07cfce, true}}   // p5 = 0.00828929059f
+    };
+
+    static const table_t gelu_tanh_const{{gelu_tanh_fitting_const, {0x3d372713, true}},
+                                         {gelu_tanh_fitting_const_times_three, {0x3e095d4f, true}},
+                                         {gelu_tanh_sqrt_two_over_pi, {0x3f4c422a, true}},
+                                         {gelu_tanh_flt_max_x, {0x4154C480, true}},
+                                         {gelu_tanh_flt_min_x, {0xC154C480, true}}};
+
+    // tanh(x) constants for four interval approximation
+    static const table_t tanh_consts{{tanh_idx_bias, {0x39800000, true}},
+                                     {tanh_idx_mask, {0xffc00000, true}},
+                                     {tanh_linear_ubound, {0x39ddb3d7, true}},
+                                     {tanh_saturation_lbound, {0x41102cb3, true}}};
+
+    // tanh(x) polynomial approximation
+    // For each coefficient, there is 32 entries
+    static const table_t tanh_polynomial_table{
+        // coefficients of degree 0
+        {tanh_pol_table, {0x00000000, false}},
+        {tanh_pol_table, {0x39bfffff, false}},
+        {tanh_pol_table, {0x39ffffff, false}},
+        {tanh_pol_table, {0x3a3ffffe, false}},
+        {tanh_pol_table, {0x3a7ffffb, false}},
+        {tanh_pol_table, {0x3abffff7, false}},
+        {tanh_pol_table, {0x3affffeb, false}},
+        {tanh_pol_table, {0x3b3fffdc, false}},
+        {tanh_pol_table, {0x3b7fffab, false}},
+        {tanh_pol_table, {0x3bbfff70, false}},
+        {tanh_pol_table, {0x3bfffeab, false}},
+        {tanh_pol_table, {0x3c3ffdc0, false}},
+        {tanh_pol_table, {0x3c7ffaab, false}},
+        {tanh_pol_table, {0x3cbff701, false}},
+        {tanh_pol_table, {0x3cffeaad, false}},
+        {tanh_pol_table, {0x3d3fdc08, false}},
+        {tanh_pol_table, {0x3d7faacd, false}},
+        {tanh_pol_table, {0x3dbf7081, false}},
+        {tanh_pol_table, {0x3dfeacc9, false}},
+        {tanh_pol_table, {0x3e3dc7fd, false}},
+        {tanh_pol_table, {0x3e7acbf5, false}},
+        {tanh_pol_table, {0x3eb77a9f, false}},
+        {tanh_pol_table, {0x3eec9a9f, false}},
+        {tanh_pol_table, {0x3f22991f, false}},
+        {tanh_pol_table, {0x3f42f7d6, false}},
+        {tanh_pol_table, {0x3f67b7cc, false}},
+        {tanh_pol_table, {0x3f76ca83, false}},
+        {tanh_pol_table, {0x3f7ebbe9, false}},
+        {tanh_pol_table, {0x3f7fd40c, false}},
+        {tanh_pol_table, {0x3f7fff32, false}},
+        {tanh_pol_table, {0x3f7ffffc, false}},
+        {tanh_pol_table, {0x3f800000, false}},
+        // coefficients of degree 1
+        {tanh_pol_table, {0x3f800000, false}},
+        {tanh_pol_table, {0x3f800018, false}},
+        {tanh_pol_table, {0x3f7fffe8, false}},
+        {tanh_pol_table, {0x3f7fffda, false}},
+        {tanh_pol_table, {0x3f7fffdc, false}},
+        {tanh_pol_table, {0x3f7fffdc, false}},
+        {tanh_pol_table, {0x3f7fffac, false}},
+        {tanh_pol_table, {0x3f7fff70, false}},
+        {tanh_pol_table, {0x3f7ffeec, false}},
+        {tanh_pol_table, {0x3f7ffdc0, false}},
+        {tanh_pol_table, {0x3f7ffbed, false}},
+        {tanh_pol_table, {0x3f7ff704, false}},
+        {tanh_pol_table, {0x3f7feff5, false}},
+        {tanh_pol_table, {0x3f7fdbca, false}},
+        {tanh_pol_table, {0x3f7fbfff, false}},
+        {tanh_pol_table, {0x3f7f7041, false}},
+        {tanh_pol_table, {0x3f7f009b, false}},
+        {tanh_pol_table, {0x3f7dc36c, false}},
+        {tanh_pol_table, {0x3f7c0aa8, false}},
+        {tanh_pol_table, {0x3f7734b8, false}},
+        {tanh_pol_table, {0x3f70a4de, false}},
+        {tanh_pol_table, {0x3f5f1fd8, false}},
+        {tanh_pol_table, {0x3f495493, false}},
+        {tanh_pol_table, {0x3f18b9ec, false}},
+        {tanh_pol_table, {0x3ed706cb, false}},
+        {tanh_pol_table, {0x3e390b06, false}},
+        {tanh_pol_table, {0x3d90b11f, false}},
+        {tanh_pol_table, {0x3c21a053, false}},
+        {tanh_pol_table, {0x3aaf7fdb, false}},
+        {tanh_pol_table, {0x37ccc1a3, false}},
+        {tanh_pol_table, {0x355c6733, false}},
+        {tanh_pol_table, {0x00000000, false}},
+        // coefficients of degree 2
+        {tanh_pol_table, {0x00000000, false}},
+        {tanh_pol_table, {0xbe4e0ff1, false}},
+        {tanh_pol_table, {0x3d25b1b1, false}},
+        {tanh_pol_table, {0x3d6b6dab, false}},
+        {tanh_pol_table, {0x3c9fb1d5, false}},
+        {tanh_pol_table, {0xbabff06f, false}},
+        {tanh_pol_table, {0x3c07b3f6, false}},
+        {tanh_pol_table, {0xbb3fc1bc, false}},
+        {tanh_pol_table, {0x3a9f5921, false}},
+        {tanh_pol_table, {0xbbbf06f2, false}},
+        {tanh_pol_table, {0xbbb0f402, false}},
+        {tanh_pol_table, {0xbc47db9e, false}},
+        {tanh_pol_table, {0xbc73d5e7, false}},
+        {tanh_pol_table, {0xbca25bda, false}},
+        {tanh_pol_table, {0xbcfca780, false}},
+        {tanh_pol_table, {0xbd40e07c, false}},
+        {tanh_pol_table, {0xbd7dab03, false}},
+        {tanh_pol_table, {0xbdbe4a0f, false}},
+        {tanh_pol_table, {0xbdfb14a5, false}},
+        {tanh_pol_table, {0xbe36cc8d, false}},
+        {tanh_pol_table, {0xbe6bd102, false}},
+        {tanh_pol_table, {0xbe9fe7c5, false}},
+        {tanh_pol_table, {0xbeba0f10, false}},
+        {tanh_pol_table, {0xbec206a8, false}},
+        {tanh_pol_table, {0xbea3c388, false}},
+        {tanh_pol_table, {0xbe277d62, false}},
+        {tanh_pol_table, {0xbd8b7960, false}},
+        {tanh_pol_table, {0xbc209f49, false}},
+        {tanh_pol_table, {0xbaad44ca, false}},
+        {tanh_pol_table, {0xb7c6eeac, false}},
+        {tanh_pol_table, {0xb663aa41, false}},
+        {tanh_pol_table, {0x00000000, false}},
+        // coefficients of degree 3
+        {tanh_pol_table, {0x00000000, false}},
+        {tanh_pol_table, {0x45b3ae96, false}},
+        {tanh_pol_table, {0xc414eb20, false}},
+        {tanh_pol_table, {0xc450e02e, false}},
+        {tanh_pol_table, {0xc3152b4e, false}},
+        {tanh_pol_table, {0xbead2f56, false}},
+        {tanh_pol_table, {0xc2162e02, false}},
+        {tanh_pol_table, {0xbeb4bd5a, false}},
+        {tanh_pol_table, {0xc11a59a4, false}},
+        {tanh_pol_table, {0xbed2f507, false}},
+        {tanh_pol_table, {0xc020d32c, false}},
+        {tanh_pol_table, {0x3dd0f506, false}},
+        {tanh_pol_table, {0xbf2a75e2, false}},
+        {tanh_pol_table, {0xbff950e3, false}},
+        {tanh_pol_table, {0xbed47334, false}},
+        {tanh_pol_table, {0xbe809b8c, false}},
+        {tanh_pol_table, {0xbeb64532, false}},
+        {tanh_pol_table, {0xbe961a5b, false}},
+        {tanh_pol_table, {0xbe9b63ac, false}},
+        {tanh_pol_table, {0xbea0d4b2, false}},
+        {tanh_pol_table, {0xbe828a77, false}},
+        {tanh_pol_table, {0xbe378612, false}},
+        {tanh_pol_table, {0xbdc20908, false}},
+        {tanh_pol_table, {0x3d2d3957, false}},
+        {tanh_pol_table, {0x3dd46e89, false}},
+        {tanh_pol_table, {0x3db3f629, false}},
+        {tanh_pol_table, {0x3d2c5e7b, false}},
+        {tanh_pol_table, {0x3bd20403, false}},
+        {tanh_pol_table, {0x3a59dfae, false}},
+        {tanh_pol_table, {0x3770af45, false}},
+        {tanh_pol_table, {0x372cc014, false}},
+        {tanh_pol_table, {0x00000000, false}},
+        // coefficients of degree 4
+        {tanh_pol_table, {0x00000000, false}},
+        {tanh_pol_table, {0xcc981a1b, false}},
+        {tanh_pol_table, {0x4a7edd3d, false}},
+        {tanh_pol_table, {0x4ab1007c, false}},
+        {tanh_pol_table, {0x48fedd9c, false}},
+        {tanh_pol_table, {0x41a557b5, false}},
+        {tanh_pol_table, {0x477ee32a, false}},
+        {tanh_pol_table, {0x422557f5, false}},
+        {tanh_pol_table, {0x45ff3ce4, false}},
+        {tanh_pol_table, {0x42a55641, false}},
+        {tanh_pol_table, {0x446e0867, false}},
+        {tanh_pol_table, {0xc33dc19a, false}},
+        {tanh_pol_table, {0x42915214, false}},
+        {tanh_pol_table, {0x43af4fad, false}},
+        {tanh_pol_table, {0x4110fe88, false}},
+        {tanh_pol_table, {0xc1099b75, false}},
+        {tanh_pol_table, {0x3fc8a8dc, false}},
+        {tanh_pol_table, {0xbfbeaef5, false}},
+        {tanh_pol_table, {0xbe365aad, false}},
+        {tanh_pol_table, {0x3f4d9652, false}},
+        {tanh_pol_table, {0x3ddfa08f, false}},
+        {tanh_pol_table, {0x3e34e9b8, false}},
+        {tanh_pol_table, {0x3e2d07a6, false}},
+        {tanh_pol_table, {0x3dc63567, false}},
+        {tanh_pol_table, {0x3cdaeb78, false}},
+        {tanh_pol_table, {0xbcd17537, false}},
+        {tanh_pol_table, {0xbc92829c, false}},
+        {tanh_pol_table, {0xbb43ab99, false}},
+        {tanh_pol_table, {0xb9b471dd, false}},
+        {tanh_pol_table, {0xb6baad5a, false}},
+        {tanh_pol_table, {0xb78bafc7, false}},
+        {tanh_pol_table, {0x00000000, false}},
+        // coefficients of degree 5
+        {tanh_pol_table, {0x00000000, false}},
+        {tanh_pol_table, {0x52f688d5, false}},
+        {tanh_pol_table, {0xd0505c72, false}},
+        {tanh_pol_table, {0xd08f98e3, false}},
+        {tanh_pol_table, {0xce505cc9, false}},
+        {tanh_pol_table, {0xc7162b8a, false}},
+        {tanh_pol_table, {0xcc5061d6, false}},
+        {tanh_pol_table, {0xc7162bdf, false}},
+        {tanh_pol_table, {0xca50b37f, false}},
+        {tanh_pol_table, {0xc7162a3a, false}},
+        {tanh_pol_table, {0xc8422086, false}},
+        {tanh_pol_table, {0x471a714e, false}},
+        {tanh_pol_table, {0xc5ece1f1, false}},
+        {tanh_pol_table, {0xc70e3d90, false}},
+        {tanh_pol_table, {0xc3eba94a, false}},
+        {tanh_pol_table, {0x43e0c424, false}},
+        {tanh_pol_table, {0xc21f4552, false}},
+        {tanh_pol_table, {0x42217cc8, false}},
+        {tanh_pol_table, {0x405e7dc4, false}},
+        {tanh_pol_table, {0xc10dd401, false}},
+        {tanh_pol_table, {0x3e96b602, false}},
+        {tanh_pol_table, {0xbd1a6d2f, false}},
+        {tanh_pol_table, {0xbd393883, false}},
+        {tanh_pol_table, {0xbd674682, false}},
+        {tanh_pol_table, {0xbd310016, false}},
+        {tanh_pol_table, {0xb961e269, false}},
+        {tanh_pol_table, {0x3ba32495, false}},
+        {tanh_pol_table, {0x3a7680d5, false}},
+        {tanh_pol_table, {0x38b3173c, false}},
+        {tanh_pol_table, {0x35a9deea, false}},
+        {tanh_pol_table, {0x375c3f2a, false}},
+        {tanh_pol_table, {0x00000000, false}},
+        // coefficients of degree 6
+        {tanh_pol_table, {0x00000000, false}},
+        {tanh_pol_table, {0xd8995ed1, false}},
+        {tanh_pol_table, {0x558285ea, false}},
+        {tanh_pol_table, {0x55b2cd69, false}},
+        {tanh_pol_table, {0x53028625, false}},
+        {tanh_pol_table, {0x4bc9991f, false}},
+        {tanh_pol_table, {0x5082898a, false}},
+        {tanh_pol_table, {0x4b4999b3, false}},
+        {tanh_pol_table, {0x4e02c07c, false}},
+        {tanh_pol_table, {0x4ac99764, false}},
+        {tanh_pol_table, {0x4b72c822, false}},
+        {tanh_pol_table, {0xca40c0e1, false}},
+        {tanh_pol_table, {0x489413e4, false}},
+        {tanh_pol_table, {0x49b12224, false}},
+        {tanh_pol_table, {0x46134c4e, false}},
+        {tanh_pol_table, {0xc60c2d57, false}},
+        {tanh_pol_table, {0x43c83910, false}},
+        {tanh_pol_table, {0xc3c872d1, false}},
+        {tanh_pol_table, {0xc186bc9e, false}},
+        {tanh_pol_table, {0x42325bc3, false}},
+        {tanh_pol_table, {0xbf2ffa4a, false}},
+        {tanh_pol_table, {0x3d9a203c, false}},
+        {tanh_pol_table, {0xbc545a43, false}},
+        {tanh_pol_table, {0xbae08fee, false}},
+        {tanh_pol_table, {0x3c80225d, false}},
+        {tanh_pol_table, {0x3b1fd1df, false}},
+        {tanh_pol_table, {0xba36b9d1, false}},
+        {tanh_pol_table, {0xb91de544, false}},
+        {tanh_pol_table, {0xb71f100f, false}},
+        {tanh_pol_table, {0xb408e2ed, false}},
+        {tanh_pol_table, {0xb685fec8, false}},
+        {tanh_pol_table, {0x00000000, false}},
+    };
+
+    auto push_arg_entry_of = [&](const key_t key, const table_entry_val_t val, const bool broadcast) {
+      mapped_table_entry_t te{0, val, broadcast};
+      entry_map.insert(std::make_pair(key, te));
+    };
+
+    auto push_entries_of = [&](const table_t& t) {
+      for (auto it = t.begin(); it != t.end(); it++) {
+        auto key = it->first;
+        auto te = it->second;
+        push_arg_entry_of(key, te.val, te.bcast);
+      }
+    };
+
+    auto set_table_term_offset = [&]() {
+      size_t off = 0;
+      for (auto it = entry_map.begin(); it != entry_map.end(); it++) {
+        auto& te = (*it).second;
+        te.off = off;
+        off += te.bcast ? 64u : sizeof(table_entry_val_t);
+      }
+    };
+
+    struct need_t {
+      explicit need_t(JBLAS_ELTWISEOP& op) {
+        if (op == EXP) exp_ = true;
+        if (op == TANH) tanh_ = true;
+        if (op == GELU) gelu_ = true;
+        if (op == SWISH) swish_ = true;
+        if (op == LOW_PRECISION_EXP) low_precision_exp_ = true;
+      }
+      bool bf16_ = false;
+      bool exp_ = false;
+      bool tanh_ = false;
+      bool gelu_ = false;
+      bool low_precision_exp_ = false;
+      bool swish_ = false;
+
+      bool bf16() const { return bf16_; }
+      bool exp() const { return exp_; }
+      bool tanh() const { return tanh_; }
+      bool gelu() const { return gelu_; }
+      bool low_precision_exp() { return low_precision_exp_; }
+      bool swish() const { return swish_; }
+    };
+
+    need_t need(elt_op);
+    push_entries_of(common_values);
+    if (need.exp()) {
+      push_entries_of(exp_consts);
+      push_entries_of(exp_polynomial);
+    }
+    if (need.low_precision_exp() || need.swish()) {
+      push_entries_of(exp_polynomial);
+      push_entries_of(exp_consts);
+      push_entries_of(low_precision_exp_consts);
+    }
+    if (need.tanh() || need.gelu()) {
+      push_entries_of(tanh_consts);
+      push_entries_of(tanh_polynomial_table);
+    }
+    if (need.gelu()) push_entries_of(gelu_tanh_const);
+
+    set_table_term_offset();
+  }
+  void exp_compute_vector_fwd(const Xbyak::Ymm& ymm_src) {
+    /* exp code */
+    h->vcmpps(ymm_mask, ymm_src, table_val(exp_ln_flt_min_f), _cmp_lt_os);
+    h->vminps(ymm_src, ymm_src, table_val(exp_ln_flt_max_f));
+    h->vmaxps(ymm_src, ymm_src, table_val(exp_ln_flt_min_f));
+    h->vmovups(ymm_aux1, ymm_src);
+    h->vmulps(ymm_src, ymm_src, table_val(exp_log2ef));
+    h->vaddps(ymm_src, ymm_src, table_val(half));
+    h->vroundps(ymm_aux2, ymm_src, _op_floor);
+
+    // keep ymm_src = fx for further computations
+    h->vmovups(ymm_src, ymm_aux2);
+
+    // x = x - fx * ln2
+    h->vfnmadd231ps(ymm_aux1, ymm_aux2, table_val(ln2f));
+
+    // We do not count 2^n here, because n can reach 128 and 2^128 is not
+    // representable by fp32, so to get around this problem, instead of
+    // computing 2^n * exp(r) will be counted 2*2^(n-1)*exp(r), because 2^127
+    // and 2 are numbers representable in fp32.
+
+    // compute 2^(n-1)
+    h->vsubps(ymm_src, ymm_src, table_val(one));
+    h->vcvtps2dq(ymm_aux2, ymm_src);
+    h->vpaddd(ymm_aux2, ymm_aux2, table_val(exponent_bias));
+    h->vpslld(ymm_aux2, ymm_aux2, n_mantissa_bits);
+
+    // use ymm_src as tmp ymm_zero when applying mask
+    h->vxorps(ymm_src, ymm_src, ymm_src);
+
+    // set zeroes at those points which were < log(FLT_MIN)
+    h->vblendvps(ymm_aux2, ymm_aux2, ymm_src, ymm_mask);
+
+    // compute polynomial
+    h->vmovups(ymm_src, table_val(exp_pol, 4));
+    h->vfmadd213ps(ymm_src, ymm_aux1, table_val(exp_pol, 3));
+    h->vfmadd213ps(ymm_src, ymm_aux1, table_val(exp_pol, 2));
+    h->vfmadd213ps(ymm_src, ymm_aux1, table_val(exp_pol, 1));
+    h->vfmadd213ps(ymm_src, ymm_aux1, table_val(exp_pol, 0));
+    h->vfmadd213ps(ymm_src, ymm_aux1, table_val(one));
+
+    // y = y * 2^n
+
+    h->vmulps(ymm_src, ymm_src, ymm_aux2);
+    h->vmulps(ymm_src, ymm_src, table_val(two));
+  }
+  void exp_compute_vector_fwd(const Xbyak::Zmm& zmm_src) {
+    /* exp code */
+    h->vcmpps(k_mask, zmm_src, table_val(exp_ln_flt_min_f), _cmp_lt_os);
+    h->vminps(zmm_src, zmm_src, table_val(exp_ln_flt_max_f));
+    h->vmaxps(zmm_src, zmm_src, table_val(exp_ln_flt_min_f));
+    h->vmovups(zmm_aux1, zmm_src);
+    h->vmulps(zmm_src, zmm_src, table_val(exp_log2ef));
+    h->vaddps(zmm_src, zmm_src, table_val(half));
+    h->vrndscaleps(zmm_aux2, zmm_src, _op_floor & 0x3);
+
+    // keep zmm_src = fx for further computations
+    h->vmovups(zmm_src, zmm_aux2);
+
+    // x = x - fx * ln2
+    h->vfnmadd231ps(zmm_aux1, zmm_aux2, table_val(ln2f));
+
+    // We do not count 2^n here, because n can reach 128 and 2^128 is not
+    // representable by fp32, so to get around this problem, instead of computing
+    // 2^n * exp(r) will be counted 2*2^(n-1)*exp(r), because 2^127
+    // and 2 are numbers representable in fp32.
+
+    // compute 2^(n-1)
+    h->vsubps(zmm_src, zmm_src, table_val(one));
+    h->vcvtps2dq(zmm_aux2, zmm_src);
+    h->vpaddd(zmm_aux2, zmm_aux2, table_val(exponent_bias));
+    h->vpslld(zmm_aux2, zmm_aux2, n_mantissa_bits);
+
+    // use zmm_src as tmp zmm_zero when applying mask
+    h->vxorps(zmm_src, zmm_src, zmm_src);
+
+    // set zeroes at those points which were < log(FLT_MIN)
+    h->vblendmps(zmm_aux2 | k_mask, zmm_aux2, zmm_src);
+
+    // compute polynomial
+    h->vmovups(zmm_src, table_val(exp_pol, 4));
+    h->vfmadd213ps(zmm_src, zmm_aux1, table_val(exp_pol, 3));
+    h->vfmadd213ps(zmm_src, zmm_aux1, table_val(exp_pol, 2));
+    h->vfmadd213ps(zmm_src, zmm_aux1, table_val(exp_pol, 1));
+    h->vfmadd213ps(zmm_src, zmm_aux1, table_val(exp_pol, 0));
+    h->vfmadd213ps(zmm_src, zmm_aux1, table_val(one));
+
+    // y = y * 2^n
+
+    h->vmulps(zmm_src, zmm_src, zmm_aux2);
+    h->vmulps(zmm_src, zmm_src, table_val(two));
+  }
+  void low_precision_exp_compute_vector_fwd(const Xbyak::Ymm& ymm_src) {
+    // support abs(x)<23
+    auto code = [&](Xbyak::CodeGenerator* h, const Ymm& dst, const Ymm& src, const Xbyak::Operand& log2e,
+                    const Xbyak::Operand& ln2, const Xbyak::Operand& coeff0, const Xbyak::Operand& coeff1,
+                    const Xbyak::Operand& coeff2, const std::array<Ymm, 4>& tmp) {
+      h->vmulps(tmp[0], src, log2e);      // x / ln2
+      h->vroundps(tmp[0], tmp[0], 0x0A);  // round up
+      const auto& z = tmp[0];
+      h->vmulps(tmp[1], tmp[0], ln2);
+      h->vsubps(tmp[1], src, tmp[1]);  // x mod ln2 (can we use fmsub?)
+      h->vmovaps(dst, coeff1);
+      h->vfmadd231ps(dst, tmp[1], coeff0);  // dst = f * c0 + c1
+      h->vfmadd213ps(dst, tmp[1], coeff2);  // dst = (f * c0 + c1) * f + c2
+
+      const auto& z_sign = tmp[2];
+      const auto& z_abs = tmp[3];
+      h->vcmpps(z_sign, z, table_val(zero), _cmp_lt_os);
+      h->vcvtps2dq(z, z);
+      h->vpabsd(z_abs, z);
+      h->vmovdqu(tmp[1], table_val(one_epi32));
+      h->vpsllvd(z_abs, tmp[1], z_abs);  // 2^z
+      h->vcvtdq2ps(z_abs, z_abs);
+      h->vrcpps(z, z_abs);
+      h->vblendvps(z, z_abs, z, z_sign);
+      h->vmulps(dst, dst, z);  // dst = exp(f) * 2^z
+    };
+    code(h, ymm_src, ymm_src, table_val(exp_log2ef), table_val(ln2f),  //
+         table_val(low_precision_exp_const_v0), table_val(low_precision_exp_const_v1),
+         table_val(low_precision_exp_const_v2), {ymm_aux1, ymm_aux2, ymm_aux3, ymm_aux4});
+  }
+  void low_precision_exp_compute_vector_fwd(const Xbyak::Zmm& zmm_src) {
+    auto code = [&](Xbyak::CodeGenerator* h, const Zmm& dst, const Zmm& src, const Xbyak::Operand& log2e,
+                    const Xbyak::Operand& ln2, const Xbyak::Operand& coeff0, const Xbyak::Operand& coeff1,
+                    const Xbyak::Operand& coeff2, const std::array<Zmm, 2>& tmp) {
+      h->vmovups(tmp[0], log2e);
+      h->vmulps(tmp[0] | h->T_ru_sae, src, tmp[0]);  // round up(x / ln2)
+      const auto& z = tmp[0];
+      h->vmulps(tmp[1], tmp[0], ln2);
+      h->vsubps(tmp[1], src, tmp[1]);  // x mod ln2 (can we use fmsub?)
+      h->vmovaps(dst, coeff1);
+      h->vfmadd231ps(dst, tmp[1], coeff0);  // dst = f * c0 + c1
+      h->vfmadd213ps(dst, tmp[1], coeff2);  // dst = (f * c0 + c1) * f + c2
+      h->vscalefps(dst, dst, z);            // dst = exp(f) * 2^z
+    };
+    code(h, zmm_src, zmm_src, table_val(exp_log2ef), table_val(ln2f),  //
+         table_val(low_precision_exp_const_v0), table_val(low_precision_exp_const_v1),
+         table_val(low_precision_exp_const_v2), {zmm_aux1, zmm_aux2});
+  }
+  void swish_compute_vector_fwd(const Xbyak::Ymm& ymm_src, int const_p_offset) {
+    h->vbroadcastss(ymm_aux0, h->ptr[reg_rt_const_p + const_p_offset]);
+    h->vmulps(ymm_aux0, ymm_aux0, ymm_src);
+    exp_compute_vector_fwd(ymm_aux0);
+    h->vaddps(ymm_aux0, ymm_aux0, table_val(one));
+    h->vrcpps(ymm_aux0, ymm_aux0);
+    h->vmulps(ymm_src, ymm_src, ymm_aux0);
+  }
+  void swish_compute_vector_fwd(const Xbyak::Zmm& zmm_src, int const_p_offset) {
+    h->vmovups(zmm_aux0, zmm_src);
+    h->vmulps(zmm_aux0, zmm_aux0, h->zword_b[reg_rt_const_p + const_p_offset]);
+    low_precision_exp_compute_vector_fwd(zmm_aux0);
+    h->vaddps(zmm_aux0, zmm_aux0, table_val(one));
+    h->vrcp14ps(zmm_aux0, zmm_aux0);
+    h->vmulps(zmm_src, zmm_src, zmm_aux0);
+  }
+  void tanh_compute_vector_fwd(const Xbyak::Ymm& ymm_src) {
+    // register mapping
+    Ymm ymm_dst = ymm_aux1, ymm_src_shift = ymm_aux1, ymm_coeff = ymm_aux1, ymm_pol = ymm_aux2, ymm_indices = ymm_aux3,
+        ymm_src_original = ymm_aux4, ymm_sign = ymm_aux4;
+
+    const int tanh_n_polynomials = 32;
+
+    // We split the positive domain in 33 intervals:
+    // a) [0; linear_ubound]: in this interval tanh(x) = x
+    // b) [linear_ubound; 0x1.8p-12]: This interval spans part of a
+    //    half binade
+    // c) [0x1.8p-12; 0x1.0p-11], ..., [0x1.8p2; 0x1.0p3]:
+    //    one interval for each half binade, there are 29 of those
+    // d) [0x1.0p3; saturation_ubound]:
+    //    This interval spans part of a half binade
+    // e) [0x1.205966p3; saturation_ubound]: in this interval, tanh(x) = 1
+    // For b-d, we need 31 polynomials and will do a table lookup for those.
+    // To simplify the logic, we will also put a) in the table.
+    auto coeffs_address = [&](int coeff_off, int off = 0) {
+      return table_val(tanh_pol_table, coeff_off * tanh_n_polynomials + off);
+    };
+    auto gather_coefficient = [&](Ymm vmm_coeff, int coeff_idx, Ymm vmm_pol_idx) {
+      Ymm ymm_coeff(vmm_coeff.getIdx());
+      Ymm ymm_pol_idx(vmm_pol_idx.getIdx());
+      Xbyak::Address idx_addr =
+          h->ptr[p_table + table_off(tanh_pol_table, coeff_idx * tanh_n_polynomials) + ymm_pol_idx * sizeof(float)];
+      h->vcmpps(ymm_mask, ymm_mask, ymm_mask, _cmp_eq_oq);
+      h->vgatherdps(vmm_coeff, idx_addr, ymm_mask);
+    };
+
+    // because tanh(x) = -tanh(-x), we extract sign to make x positive
+    // and reapply sign at the end
+    h->vmovups(ymm_src_original, ymm_src);
+    h->vandps(ymm_src, ymm_src, table_val(positive_mask));
+
+    // We compute the indices for the table lookup
+    h->vmovups(ymm_indices, ymm_src);
+    h->vpsubd(ymm_indices, ymm_indices, table_val(tanh_idx_bias));
+    h->vandps(ymm_indices, ymm_indices, table_val(tanh_idx_mask));
+    h->vpsrld(ymm_indices, ymm_indices, 22);
+
+    // we do the argument reduction
+    h->vmovups(ymm_src_shift, ymm_src);
+    h->vandps(ymm_src_shift, ymm_src_shift, table_val(tanh_idx_mask));
+    h->vsubps(ymm_src, ymm_src, ymm_src_shift);
+
+    // we gather and evaluate the polynonials
+    gather_coefficient(ymm_pol, 6, ymm_indices);
+    for (int deg = 5; deg >= 0; --deg) {
+      gather_coefficient(ymm_coeff, deg, ymm_indices);
+      h->vfmadd213ps(ymm_pol, ymm_src, ymm_coeff);
+    }
+
+    // we restore src with cleared sign, and keep sign
+    h->vmovups(ymm_src, ymm_src_original);
+    h->vandps(ymm_sign, ymm_sign, table_val(sign_mask));
+    h->vandps(ymm_src, ymm_src, table_val(positive_mask));
+
+    // Now we blend the results
+    // [saturation_ubound; +inf[ : we return +/- 1
+    h->vmovups(ymm_dst, table_val(one));
+    // [linear_ubound; saturation_lbound] : we return +/- P(x)
+    h->vmovups(ymm_mask, table_val(tanh_saturation_lbound));
+    h->vcmpps(ymm_mask, ymm_mask, ymm_src, _cmp_nle_us);
+    h->vblendvps(ymm_dst, ymm_dst, ymm_pol, ymm_mask);
+    // [0; linear_ubound]  : we return x
+    h->vmovups(ymm_mask, table_val(tanh_linear_ubound));
+    h->vcmpps(ymm_mask, ymm_mask, ymm_src, _cmp_nle_us);
+    h->vblendvps(ymm_dst, ymm_dst, ymm_src, ymm_mask);
+
+    // We reapply the sign and return
+    h->vxorps(ymm_dst, ymm_dst, ymm_sign);
+    h->vmovups(ymm_src, ymm_dst);
+  }
+  void tanh_compute_vector_fwd(const Xbyak::Zmm& zmm_src) {
+    // register mapping
+    Zmm zmm_dst = zmm_aux1, zmm_src_shift = zmm_aux1, zmm_coeff = zmm_aux1, zmm_pol = zmm_aux2, zmm_indices = zmm_aux3,
+        zmm_src_original = zmm_aux4, zmm_sign = zmm_aux4;
+
+    const int tanh_n_polynomials = 32;
+
+    // We split the positive domain in 33 intervals:
+    // a) [0; linear_ubound]: in this interval tanh(x) = x
+    // b) [linear_ubound; 0x1.8p-12]: This interval spans part of a
+    //    half binade
+    // c) [0x1.8p-12; 0x1.0p-11], ..., [0x1.8p2; 0x1.0p3]:
+    //    one interval for each half binade, there are 29 of those
+    // d) [0x1.0p3; saturation_ubound]:
+    //    This interval spans part of a half binade
+    // e) [0x1.205966p3; saturation_ubound]: in this interval, tanh(x) = 1
+    // For b-d, we need 31 polynomials and will do a table lookup for those.
+    // To simplify the logic, we will also put a) in the table.
+    auto coeffs_address = [&](int coeff_off, int off = 0) {
+      return table_val(tanh_pol_table, (size_t)coeff_off * tanh_n_polynomials + off);
+    };
+    auto gather_coefficient = [&](Zmm vmm_coeff, int coeff_idx, Zmm vmm_pol_idx) {
+      Zmm zmm_coeff(vmm_coeff.getIdx());
+      Zmm zmm_pol_idx(vmm_pol_idx.getIdx());
+      h->vmovups(zmm_coeff, coeffs_address(coeff_idx, 0));
+      h->vpermt2ps(zmm_coeff, zmm_pol_idx, coeffs_address(coeff_idx, 16));
+    };
+
+    // because tanh(x) = -tanh(-x), we extract sign to make x positive
+    // and reapply sign at the end
+    h->vmovups(zmm_src_original, zmm_src);
+    h->vpandd(zmm_src, zmm_src, table_val(positive_mask));
+
+    // We compute the indices for the table lookup
+    h->vmovups(zmm_indices, zmm_src);
+    h->vpsubd(zmm_indices, zmm_indices, table_val(tanh_idx_bias));
+    h->vpandd(zmm_indices, zmm_indices, table_val(tanh_idx_mask));
+    h->vpsrld(zmm_indices, zmm_indices, 22);
+
+    // we do the argument reduction
+    h->vmovups(zmm_src_shift, zmm_src);
+    h->vpandd(zmm_src_shift, zmm_src_shift, table_val(tanh_idx_mask));
+    h->vsubps(zmm_src, zmm_src, zmm_src_shift);
+
+    // we gather and evaluate the polynonials
+    gather_coefficient(zmm_pol, 6, zmm_indices);
+    for (int deg = 5; deg >= 0; --deg) {
+      gather_coefficient(zmm_coeff, deg, zmm_indices);
+      h->vfmadd213ps(zmm_pol, zmm_src, zmm_coeff);
+    }
+
+    // we restore src with cleared sign, and keep sign
+    h->vmovups(zmm_src, zmm_src_original);
+    h->vpandd(zmm_sign, zmm_sign, table_val(sign_mask));
+    h->vpandd(zmm_src, zmm_src, table_val(positive_mask));
+
+    // Now we blend the results
+    // [saturation_ubound; +inf[ : we return +/- 1
+    h->vmovups(zmm_dst, table_val(one));
+    // [linear_ubound; saturation_lbound] : we return +/- P(x)
+    h->vmovups(zmm_mask, table_val(tanh_saturation_lbound));
+    h->vcmpps(k_mask, zmm_mask, zmm_src, _cmp_nle_us);
+    h->vblendmps(zmm_dst | k_mask, zmm_dst, zmm_pol);
+    // [0; linear_ubound]  : we return x
+    h->vmovups(zmm_mask, table_val(tanh_linear_ubound));
+    h->vcmpps(k_mask, zmm_mask, zmm_src, _cmp_nle_us);
+    h->vblendmps(zmm_dst | k_mask, zmm_dst, zmm_src);
+
+    // We reapply the sign and return
+    h->vpxord(zmm_dst, zmm_dst, zmm_sign);
+    h->vmovups(zmm_src, zmm_dst);
+  }
+  void gelu_compute_vector_fwd(const Xbyak::Ymm& ymm_src) {
+    h->vmovups(ymm_aux0, ymm_src);
+    // compute G(x) = sqrt_root_two_over_pi * x * (1 + fitting_const * x * x)
+    h->vmulps(ymm_src, ymm_src, ymm_src);
+    h->vmovups(ymm_aux1, table_val(gelu_tanh_fitting_const));
+    h->vfmadd213ps(ymm_src, ymm_aux1, table_val(one));
+    h->vmulps(ymm_src, ymm_src, ymm_aux0);
+    h->vmulps(ymm_src, ymm_src, table_val(gelu_tanh_sqrt_two_over_pi));
+
+    // compute tanh(G(x))
+    tanh_compute_vector_fwd(ymm_src);
+
+    // compute 0.5 * x * (1 + tanh(G(x)))
+    h->vaddps(ymm_src, ymm_src, table_val(one));
+    h->vmulps(ymm_src, ymm_src, table_val(half));
+    h->vmulps(ymm_src, ymm_src, ymm_aux0);
+  }
+  void gelu_compute_vector_fwd(const Xbyak::Zmm& zmm_src) {
+    h->vmovups(zmm_aux0, zmm_src);
+    // compute G(x) = sqrt_root_two_over_pi * x * (1 + fitting_const * x * x)
+    h->vmulps(zmm_src, zmm_src, zmm_src);
+    h->vmovups(zmm_aux1, table_val(gelu_tanh_fitting_const));
+    h->vfmadd213ps(zmm_src, zmm_aux1, table_val(one));
+    h->vmulps(zmm_src, zmm_src, zmm_aux0);
+    h->vmulps(zmm_src, zmm_src, table_val(gelu_tanh_sqrt_two_over_pi));
+
+    // compute tanh(G(x))
+    tanh_compute_vector_fwd(zmm_src);
+
+    // compute 0.5 * x * (1 + tanh(G(x)))
+    h->vaddps(zmm_src, zmm_src, table_val(one));
+    h->vmulps(zmm_src, zmm_src, table_val(half));
+    h->vmulps(zmm_src, zmm_src, zmm_aux0);
+  }
+  void relu_compute_vector_fwd(const Xbyak::Zmm& zmm_src, int const_p_offset) {
+    h->vmovups(zmm_aux1, zmm_src);
+    h->vcmpps(k_mask, zmm_src, table_val(zero), _cmp_nle_us);
+    h->vmulps(zmm_src, zmm_src, h->zword_b[reg_rt_const_p + const_p_offset]);
+    h->vblendmps(zmm_src | k_mask, zmm_src, zmm_aux1);
+  }
+  void linear_compute_vector_fwd(const Xbyak::Zmm& zmm_src, int const_p_offset) {
+    h->vbroadcastss(zmm_aux0, h->dword[reg_rt_const_p + const_p_offset]);
+    h->vfmadd213ps(zmm_src, zmm_aux0, h->zword_b[reg_rt_const_p + const_p_offset + 1 * sizeof(float)]);
+  }
+  void load_table_addr() { h->mov(p_table, l_table); }
+  void assign_zmm(const std::set<int>& used_zmm_idx, Zmm* zmm) {
+    constexpr int max_zmm_idx = 32;
+    for (int idx = 0; idx < max_zmm_idx; idx++) {
+      if (used_zmm_idx.count(idx) == 0 && assign_vmm_idx.count(idx) == 0) {
+        *zmm = Zmm(idx);
+        assign_vmm_idx.insert(idx);
+        break;
+      }
+    }
+  }
+  void assign_ymm(const std::set<int>& used_ymm_idx, Ymm* ymm) {
+    constexpr int max_ymm_idx = 16;
+    for (int idx = 0; idx < max_ymm_idx; idx++) {
+      if (used_ymm_idx.count(idx) == 0 && assign_vmm_idx.count(idx) == 0) {
+        *ymm = Ymm(idx);
+        assign_vmm_idx.insert(idx);
+        break;
+      }
+    }
+  }
+
+ private:
+  JBLAS_ELTWISEOP elt_op;
+  Xbyak::CodeGenerator* h = nullptr;
+
+  /*labels*/
+  Xbyak::Label l_table;
+
+  /*register for fwd*/
+  Xbyak::Reg64 p_table;
+  Xbyak::Reg64 reg_rt_const_p;
+  std::set<int> assign_vmm_idx;  // use for zmm (in avx512) or ymm (in avx2)
+  Zmm zmm_mask, zmm_aux0, zmm_aux1, zmm_aux2, zmm_aux3, zmm_aux4;
+  Ymm ymm_mask, ymm_aux0, ymm_aux1, ymm_aux2, ymm_aux3, ymm_aux4;
+  Xbyak::Opmask k_mask;
+  static constexpr int n_mantissa_bits = 23;
+
+  enum {
+    _cmp_eq_oq = 0u,
+    _cmp_lt_os = 1u,
+    _cmp_le_os = 2u,
+    _cmp_neq_uq = 4u,
+    _cmp_nlt_us = 5u,
+    _cmp_nle_us = 6u,
+
+    _op_floor = 1u,
+    _op_mxcsr = 4u,
+  };
+
+  enum key_t {
+    zero = 0,                             // 0.f
+    half,                                 // 0.5f
+    one,                                  // 1.f  or  mask for exponent bits
+    two,                                  // 2.f
+    three,                                // 3.f
+    six,                                  // 6.f
+    minus_one,                            // -1.f  or  changes sign to opposite
+    minus_two,                            // -2.f
+    minus_three,                          // -3.f
+    ln2f,                                 // 0.69314718f
+    one_epi32,                            // 1 in int32
+    positive_mask,                        // changes sign to positive
+    sign_mask,                            // gets sign value
+    exponent_bias,                        // (127 = 2^7 - 1), gets exponent bits
+    exp_log2ef,                           // 1.44269502f - formula-based for approx
+    exp_ln_flt_max_f,                     // logf(FLT_MAX) - max normal value
+    exp_ln_flt_min_f,                     // logf(FLT_MIN) - min normal value
+    exp_pol,                              // see correspondent table for float values
+    gelu_tanh_fitting_const,              // 0.044715f
+    gelu_tanh_fitting_const_times_three,  // 0.134145f
+    gelu_tanh_sqrt_two_over_pi,           // sqrtf(2.f/pi) = 0.797884f
+    gelu_tanh_flt_max_x,
+    gelu_tanh_flt_min_x,
+    tanh_idx_bias,
+    tanh_idx_mask,
+    tanh_linear_ubound,
+    tanh_saturation_lbound,
+    tanh_pol_table,
+    low_precision_exp_const_v0,
+    low_precision_exp_const_v1,
+    low_precision_exp_const_v2,
+    undef_key,
+  };
+
+  size_t table_off(key_t key, size_t key_off_val_shift = 0) {
+    const auto it = entry_map.find(key);
+    assert(it != entry_map.end());  // "key is not in entry_map"
+    const auto& te = (*it).second;
+    const auto scale = te.bcast ? 64u : sizeof(table_entry_val_t);
+    return te.off + key_off_val_shift * scale;
+  }
+  Xbyak::Address table_val(key_t key, size_t key_off_val_shift = 0) {
+    auto off = table_off(key, key_off_val_shift);
+    return h->ptr[p_table + off];
+  }
+  using table_entry_val_t = uint32_t;
+  using table_entry_offset_t = size_t;  // offsets are in bytes wrt p_table
+  using table_entry_bcast_t = bool;
+
+  struct table_entry_t {
+    table_entry_val_t val;
+    table_entry_bcast_t bcast;
+  };
+  struct mapped_table_entry_t {
+    table_entry_offset_t off;
+    table_entry_val_t val;
+    table_entry_bcast_t bcast;
+  };
+  using table_t = std::multimap<key_t, table_entry_t>;
+  using mapped_table_t = std::multimap<key_t, mapped_table_entry_t>;
+  mapped_table_t entry_map = {};
+};
+}  // namespace jit_injector
+}  // namespace kernel
+}  // namespace jblas
diff --git a/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/kernel_ref.h b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/kernel_ref.h
new file mode 100644
index 0000000000000..6e00704395ed3
--- /dev/null
+++ b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/kernel_ref.h
@@ -0,0 +1,1039 @@
+//  Copyright (c) 2023 Intel Corporation
+//
+//  Licensed under the Apache License, Version 2.0 (the "License");
+//  you may not use this file except in compliance with the License.
+//  You may obtain a copy of the License at
+//
+//    http://www.apache.org/licenses/LICENSE-2.0
+//
+//  Unless required by applicable law or agreed to in writing, software
+//  distributed under the License is distributed on an "AS IS" BASIS,
+//  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+//  See the License for the specific language governing permissions and
+//  limitations under the License.
+#pragma once
+#include <vector>
+#include <algorithm>
+#include <limits>
+#include "jit_blas_utils.h"
+
+namespace jblas {
+namespace kernel {
+namespace ref {
+template <typename T_SRC, typename T_DST = T_SRC>
+static inline JBLAS_CODE padding_interleave(const T_SRC* src_ptr, T_DST* dst_ptr, int row, int col, int rowpad,
+                                            int colpad, int src_step, int dst_step, int NTile, int RowPack) {
+  const T_DST dst_0(0);
+  static_assert(sizeof(T_SRC) == sizeof(T_DST), "SRC & DST size should be the same");
+  for (int i = 0; i < rowpad; i += RowPack) {
+    for (int j = 0; j < colpad; j += NTile) {
+      for (int jj = 0; jj < NTile; jj++) {
+        for (int ii = 0; ii < RowPack; ii++) {
+          dst_ptr[i * NTile + j * dst_step + jj * RowPack + ii] =
+              (i + ii) < row && (j + jj) < col  //
+                  ? static_cast<T_DST>(src_ptr[(i + ii) * src_step + (j + jj)])
+                  : dst_0;
+        }
+      }
+    }
+  }
+  return JblasSuccess;
+}
+
+// revert padding and interleave
+// row*col <= colpad/NTile*rowpad*NTile
+template <typename T_SRC, typename T_DST = T_SRC>
+static inline JBLAS_CODE revert_padding_interleave(const T_SRC* src_ptr, T_DST* dst_ptr, int row, int col, int rowpad,
+                                                   int colpad, int src_step, int dst_step, int NTile, int RowPack) {
+  static_assert(sizeof(T_SRC) == sizeof(T_DST), "SRC & DST size should be the same");
+  for (int i = 0; i < rowpad; i += RowPack) {
+    for (int j = 0; j < colpad; j += NTile) {
+      for (int jj = 0; jj < NTile; jj++) {
+        if ((j + jj) < col) {
+          for (int ii = 0; ii < RowPack; ii++) {
+            if ((i + ii) < row) {
+              dst_ptr[(i + ii) * dst_step + (j + jj)] =
+                  static_cast<T_DST>(src_ptr[i * NTile + j * src_step + jj * RowPack + ii]);
+            }
+          }
+        }
+      }
+    }
+  }
+  return JblasSuccess;
+}
+
+// M x N ===> M/MTile x N/colPack x MTile x colPack (leading dim stride = MTile * dst_stride)
+template <typename T_SRC, typename T_DST = T_SRC>
+static inline JBLAS_CODE padding_trans_interleave(const T_SRC* src, T_DST* dst, int row, int col, int rowpad,
+                                                  int colpad, int src_step, int dst_step, int MTile, int ColPack) {
+  // Note: rows/cols and i/j are in terms of src
+  static_assert(sizeof(T_SRC) == sizeof(T_DST), "SRC & DST size should be the same");
+  const T_DST dst_0(0);
+  for (int i = 0; i < rowpad; i += MTile) {
+    for (int j = 0; j < colpad; j += ColPack) {
+      for (int ii = 0; ii < MTile; ii++) {
+        for (int jj = 0; jj < ColPack; jj++) {
+          dst[i * dst_step + j * MTile + ii * ColPack + jj] =
+              (i + ii) < row && (j + jj) < col  //
+                  ? static_cast<T_DST>(src[(i + ii) * src_step + (j + jj)])
+                  : dst_0;
+        }
+      }
+    }
+  }
+  return JblasSuccess;
+}
+
+template <typename SRC_DT, typename DST_DT>
+static inline JBLAS_CODE dt_cvt_2D_write_back(const void* raw_srcptr, void* raw_dstptr, int row, int col, int srcstride,
+                                              int dststride, bool zeropadding) {
+  for (int i = 0; i < row; i++) {
+    int j = 0;
+    for (; j < col; j++) {
+      const auto src = reinterpret_cast<const SRC_DT*>(reinterpret_cast<const char*>(raw_srcptr) + i * srcstride);
+      const auto dst = reinterpret_cast<DST_DT*>(reinterpret_cast<char*>(raw_dstptr) + i * dststride);
+      dst[j] = static_cast<DST_DT>(src[j]);
+    }
+    if (zeropadding) {
+      for (int bj = j * sizeof(DST_DT); bj < dststride; bj++) {
+        (reinterpret_cast<char*>(raw_dstptr) + i * dststride)[bj] = 0;
+      }
+    }
+  }
+  return JblasSuccess;
+}
+
+static inline JBLAS_CODE dequan_s8_f32(int8_t* srcptr, float* dstptr, int row, int col, int ld_src, int ld_dst,
+                                       float* scales) {
+  for (int i = 0; i < row; i++) {
+    for (int j = 0; j < col; j++) {
+      dstptr[i * ld_dst + j] = static_cast<float>(srcptr[i * ld_src + j]) * scales[j];
+    }
+  }
+  return JblasSuccess;
+}
+
+static inline JBLAS_CODE dequan_s8_bf16(int8_t* srcptr, uint16_t* dstptr, int row, int col, int ld_src, int ld_dst,
+                                        float* scales) {
+  for (int i = 0; i < row; i++) {
+    for (int j = 0; j < col; j++) {
+      dstptr[i * ld_dst + j] =
+          jblas::utils::cast<float, jblas::utils::bf16>(static_cast<float>(srcptr[i * ld_src + j]) * scales[j]).x;
+    }
+  }
+  return JblasSuccess;
+}
+
+template <typename _T>
+static inline JBLAS_CODE transpose2d(const _T* srcptr, _T* dstptr, int row, int col, int ld_src, int ld_dst) {
+  for (int i = 0; i < col; i++) {
+    for (size_t j = 0; j < row; j++) {
+      dstptr[j + i * ld_dst] = srcptr[j * ld_src + i];
+    }
+  }
+  return JblasSuccess;
+}
+
+template <int NTile>
+static inline JBLAS_CODE compress_s8_s4(const int8_t* srcptr, jblas::utils::int4x2* dstptr, int row, int col,
+                                        int ld_src, int ld_dst) {
+  for (int j = 0; j < row; j++) {
+    for (int ii = 0; ii < col; ii += 2) {
+      jblas::utils::int4x2 tmp;
+      tmp.x = jblas::utils::int4x2::convert(srcptr[j * ld_src + ii + 0]);
+      tmp.y = jblas::utils::int4x2::convert(srcptr[j * ld_src + ii + 1]);
+      dstptr[j * ld_dst / 2 + ii / 2] = tmp;
+    }
+  }
+  return JblasSuccess;
+}
+
+template <int NTile>
+static inline JBLAS_CODE compress_f4(const int8_t* srcptr, jblas::utils::f4x2* dstptr, int row, int col, int ld_src,
+                                     int ld_dst) {
+  for (int j = 0; j < row; j++) {
+    for (int ii = 0; ii < col; ii += 2) {
+      jblas::utils::f4x2 tmp;
+      tmp.x = srcptr[j * ld_src + ii + 0];
+      tmp.y = srcptr[j * ld_src + ii + 1];
+      dstptr[j * ld_dst / 2 + ii / 2] = tmp;
+    }
+  }
+  return JblasSuccess;
+}
+
+template <int NTile>
+static inline JBLAS_CODE decompress_s4_f32(jblas::utils::int4x2* srcptr, float* dstptr, int row, int col, int ld_src,
+                                           int ld_dst, float* scales) {
+  for (int i = 0; i < row; i++) {
+    for (int j = 0; j < col; j += 2) {
+      auto tmp = srcptr[i * ld_src / 2 + j / 2];
+      auto noffset = i * NTile + j % NTile;
+      dstptr[i * ld_dst + j + 0] = static_cast<float>(static_cast<int8_t>(tmp.x) << 4) * scales[noffset + 0];
+      dstptr[i * ld_dst + j + 1] = static_cast<float>(static_cast<int8_t>(tmp.y) << 4) * scales[noffset + 1];
+    }
+  }
+  return JblasSuccess;
+}
+
+template <JBLAS_DTYPE S4_T>
+inline int8_t get_s8(int8_t v) {
+  switch (S4_T) {
+    case JBLAS_DTYPE::S4_CLIP:
+      return v << 4;
+    case JBLAS_DTYPE::S4_FULLRANGE:
+      v &= 0x0f;
+      return v - 8;
+    default:
+      assert(false);
+      break;
+  }
+  return static_cast<int8_t>(0);
+}
+
+template <JBLAS_DTYPE S4_T>
+inline JBLAS_CODE decompress_s4_s8(utils::int4x2* srcptr, int8_t* dstptr, int row, int col, int ld_src, int ld_dst) {
+  for (int i = 0; i < row; i++) {
+    for (int j = 0; j < col; j += 2) {
+      auto tmp = srcptr[i * ld_src / 2 + j / 2];
+      dstptr[i * ld_dst + j + 0] = get_s8<S4_T>(tmp.x);
+      dstptr[i * ld_dst + j + 1] = get_s8<S4_T>(tmp.y);
+    }
+  }
+  return JblasSuccess;
+}
+
+template <typename _DST_T, int _PACK_ROW, typename _S_T>
+inline JBLAS_CODE decompress_kblock_s8_f32(int8_t* srcptr, _DST_T* dstptr, int row, int col, int ld_src, int ld_dst,
+                                           _S_T* scales, int8_t* zero_points, int k_offset, int kblock, int NPad) {
+  for (int i = 0; i < row; i++) {
+    int kpos = (k_offset + i) / kblock;
+    auto sptr = scales + kpos * NPad;
+    for (int j = 0; j < col; j += 1) {
+      float tmp = static_cast<float>(srcptr[i * ld_src + j]);
+      if (zero_points != nullptr) tmp -= static_cast<float>(zero_points[kpos * NPad + j]);
+      dstptr[i * ld_dst + j] = static_cast<_DST_T>(tmp * sptr[j / _PACK_ROW]);
+    }
+  }
+  return JblasSuccess;
+}
+
+template <JBLAS_DTYPE S4_T, typename _DST_T, int _PACK_ROW, typename _S_T>
+inline JBLAS_CODE decompress_kblock_s4_fp(utils::int4x2* srcptr, _DST_T* dstptr, int row, int col, int ld_src,
+                                          int ld_dst, _S_T* scales, int8_t* zero_points, int k_offset, int kblock,
+                                          int NPad, int8_t* tmp, size_t tmpsize) {
+  for (int i = 0; i < row; i++) {
+    int kpos = (k_offset + i) / kblock;
+    auto sptr = scales + kpos * NPad;
+    for (int j = 0; j < col; j += 2) {
+      auto tmp = srcptr[i * ld_src / 2 + j / 2];
+      float scale0, scale1, dst0, dst1;
+      int s0_idx, s1_idx;
+      s0_idx = j / _PACK_ROW;
+      s1_idx = (j + 1) / _PACK_ROW;
+      scale0 = static_cast<float>(sptr[s0_idx]);
+      scale1 = static_cast<float>(sptr[s1_idx]);
+      if (zero_points != nullptr) {
+        dst0 = (static_cast<float>(get_s8<S4_T>(tmp.x)) - static_cast<float>((zero_points + kpos * NPad)[s0_idx])) *
+               scale0;
+        dst1 = (static_cast<float>(get_s8<S4_T>(tmp.y)) - static_cast<float>((zero_points + kpos * NPad)[s1_idx])) *
+               scale1;
+      } else {
+        dst0 = static_cast<float>(get_s8<S4_T>(tmp.x)) * scale0;
+        dst1 = static_cast<float>(get_s8<S4_T>(tmp.y)) * scale1;
+      }
+      dstptr[i * ld_dst + j + 0] = static_cast<_DST_T>(dst0);
+      dstptr[i * ld_dst + j + 1] = static_cast<_DST_T>(dst1);
+    }
+  }
+  return JblasSuccess;
+}
+
+template <JBLAS_DTYPE S4_T, typename _DST_T>
+inline JBLAS_CODE decompress_kblock_s4_s8fp(utils::int4x2* srcptr, _DST_T* dstptr, int row, int col, int ld_src,
+                                            int ld_dst, int8_t* tmp, size_t tmpsize) {
+  for (int i = 0; i < row; i++) {
+    for (int j = 0; j < col; j += 2) {
+      auto tmp = srcptr[i * ld_src / 2 + j / 2];
+      dstptr[i * ld_dst + j + 0] = static_cast<_DST_T>(static_cast<float>(get_s8<S4_T>(tmp.x)));
+      dstptr[i * ld_dst + j + 1] = static_cast<_DST_T>(static_cast<float>(get_s8<S4_T>(tmp.y)));
+    }
+  }
+  return JblasSuccess;
+}
+
+template <typename DST_T>
+inline JBLAS_CODE decompress_kblock_s8_s8fp(int8_t* srcptr, DST_T* dstptr, int row, int col, int ld_src, int ld_dst) {
+  for (int i = 0; i < row; i++) {
+    for (int j = 0; j < col; j += 1) {
+      auto tmp = srcptr[i * ld_src + j];
+      dstptr[i * ld_dst + j] = static_cast<DST_T>(static_cast<float>(tmp));
+    }
+  }
+  return JblasSuccess;
+}
+
+inline float fp4_bnb_unpack(uint8_t val) {
+  float sign = (val & 0b1000) == 8 ? -1.0f : 1.0f;
+  if ((val & 0b0100) == 4)          // 0
+    if ((val & 0b0010) == 2)        // 01
+      if ((val & 0b0001) == 1)      // 111
+        return 0.25000000f * sign;  // 1111
+      else
+        return 0.16666667f * sign;  // 1110
+    else if ((val & 0b0001) == 1)   // 110
+      return 0.50000000f * sign;    // 1101
+    else
+      return 0.33333333f * sign;  // 1100
+  else if ((val & 0b0010) == 2)   // 10
+    if ((val & 0b0001) == 1)      // 101
+      return 1.00000000f * sign;  // 1011
+    else
+      return 0.66666667f * sign;     // 1010
+  else if ((val & 0b0001) == 1)      // 100
+    return 5.208333333e-03f * sign;  // 1001
+  else
+    return 0.00000000f * sign;  // 1000
+}
+
+inline float fp4_bnb_dequantize(uint8_t val, float absmax) { return fp4_bnb_unpack(val) * absmax; }
+
+inline int8_t fp4_bnb_quantize(float x) {
+  int sign = x < 0 ? 0b1000 : 0b0000;
+  x = fabsf(x);
+  if (x > 0.29166667f)
+    if (x > 0.583333f)
+      if (x > 0.8333333f)
+        return static_cast<int8_t>(0b0011 + sign);
+      else
+        return static_cast<int8_t>(0b0010 + sign);
+    else if (x > 0.4166667f)
+      return static_cast<int8_t>(0b101 + sign);
+    else
+      return static_cast<int8_t>(0b100 + sign);
+  else if (x > 0.0859375f)
+    if (x > 0.20833333f)
+      return static_cast<int8_t>(0b0111 + sign);
+    else
+      return static_cast<int8_t>(0b0110 + sign);
+  else if (x > 0.00260417f)
+    return static_cast<int8_t>(0b0001 + sign);
+  else
+    return static_cast<int8_t>(0b0000 + sign);
+}
+
+inline int8_t fp4_e2m1_quantize(float x) {
+  // FP4 with bias of 1
+  // first bit is a sign
+  // subnormals
+  // 0b000 = 0
+  // 0b001 = 0.0625
+  // 0b010 = 1
+  // 0b011 = 1.5
+  // 0b100 = 2
+  // 0b101 = 3
+  // 0b110 = 4
+  // 0b111 = 6
+
+  int sign = x < 0 ? 0b1000 : 0b0000;
+  x = fabsf(x);
+  if (x > 1.75f / 6) {
+    if (x > 3.5f / 6) {
+      if (x > 5.f / 6)
+        return static_cast<int8_t>(0b111 + sign);  // 6
+      else
+        return static_cast<int8_t>(0b110 + sign);  // 4
+    } else {
+      if (x > 2.5f / 6)
+        return static_cast<int8_t>(0b101 + sign);  // 3
+      else
+        return static_cast<int8_t>(0b100 + sign);  // 2
+    }
+  } else {
+    if (x > 0.53125f / 6) {
+      if (x > 1.25f / 6)
+        return static_cast<int8_t>(0b011 + sign);  // 1.5
+      else
+        return static_cast<int8_t>(0b010 + sign);  // 1
+    } else {
+      if (x > 0.03125f / 6)
+        return static_cast<int8_t>(0b0001 + sign);  // 0.0625
+      else
+        return static_cast<int8_t>(0b0000 + sign);  // 0
+    }
+  }
+}
+
+inline float fp4_e2m1_unpack(uint8_t val) {
+  float sign = (val & 0b1000) == 8 ? -1.0f : 1.0f;
+  if ((val & 0b0100) == 4)      // 0
+    if ((val & 0b0010) == 2)    // 01
+      if ((val & 0b0001) == 1)  // 111
+        return 1.f * sign;      // 1111
+      else
+        return 0.6666666666666666f * sign;  // 1110
+    else if ((val & 0b0001) == 1)           // 110
+      return 0.5f * sign;                   // 1101
+    else
+      return 0.3333333333333333f * sign;  // 1100
+  else if ((val & 0b0010) == 2)           // 10
+    if ((val & 0b0001) == 1)              // 101
+      return 0.25f * sign;                // 1011
+    else
+      return 0.16666666666666666f * sign;  // 1010
+  else if ((val & 0b0001) == 1)            // 100
+    return 0.010416666666666666f * sign;   // 1001
+  else
+    return 0.00000000f * sign;  // 1000
+}
+
+inline float fp4_e2m1_dequantize(uint8_t val, float absmax) { return fp4_e2m1_unpack(val) * absmax; }
+
+inline float nf4_unpack(int8_t val) {
+  if ((val & 0b1000) == 8)
+    if ((val & 0b0100) == 4)      // 1
+      if ((val & 0b0010) == 2)    // 11
+        if ((val & 0b0001) == 1)  // 111
+          return 1.0f;
+        else
+          return 0.7229568362236023f;
+      else if ((val & 0b0001) == 1)  // 110
+        return 0.5626170039176941f;
+      else
+        return 0.44070982933044434f;
+    else if ((val & 0b0010) == 2)  // 10
+      if ((val & 0b0001) == 1)     // 101
+        return 0.33791524171829224f;
+      else
+        return 0.24611230194568634f;
+    else if ((val & 0b0001) == 1)  // 100
+      return 0.16093020141124725f;
+    else
+      return 0.07958029955625534f;
+
+  else if ((val & 0b0100) == 4)  // 0
+    if ((val & 0b0010) == 2)     // 01
+      if ((val & 0b0001) == 1)   // 011
+        return -1.f;
+      else
+        return -0.09105003625154495f;
+    else if ((val & 0b0001) == 1)  // 010
+      return -0.18477343022823334f;
+    else
+      return -0.28444138169288635f;
+  else if ((val & 0b0010) == 2)  // 00
+    if ((val & 0b0001) == 1)     // 001
+      return -0.39491748809814453f;
+    else
+      return -0.5250730514526367f;
+  else if ((val & 0b0001) == 1)  // 000
+    return -0.6961928009986877f;
+  else
+    return 0.f;
+}
+
+inline float nf4_dequantize(int8_t val, float absmax) { return nf4_unpack(val) * absmax; }
+
+// Note: In the BNB Nf4 definition, 0 has a non-zero value after dequantization, but Jblas uses 0 for padding, which
+// leads to calculation errors. We ultimately choose to swap the binary bits of -1 and 0 in Nf4 to avoid this
+// conflict.
+inline int8_t nf4_quantize(float x) {
+  if (x > 0.03979014977812767f)
+    if (x > 0.3893125355243683f)      // 1
+      if (x > 0.6427869200706482f)    // 11
+        if (x > 0.8614784181118011f)  // 111
+          return 0b1111;
+        else
+          return 0b1110;
+      else if (x > 0.5016634166240692f)  // 110
+        return 0b1101;
+      else
+        return 0b1100;
+    else if (x > 0.2035212516784668f)  // 10
+      if (x > 0.2920137718319893f)     // 101
+        return 0b1011;
+      else
+        return 0b1010;
+    else if (x > 0.1202552504837513f)  // 100
+      return 0b1001;
+    else
+      return 0b1000;
+  else if (x > -0.33967943489551544f)  // 0
+    if (x > -0.13791173323988914f)     // 01
+      if (x > -0.045525018125772476f)  // 011
+        return 0b0000;
+      else
+        return 0b0110;
+    else if (x > -0.23460740596055984f)  // 010
+      return 0b0101;
+    else
+      return 0b0100;
+  else if (x > -0.6106329262256622f)  // 00
+    if (x > -0.4599952697753906f)     // 001
+      return 0b0011;
+    else
+      return 0b0010;
+  else if (x > -0.8480964004993439f)  // 000
+    return 0b0001;
+  else
+    return 0b0111;
+}
+
+template <JBLAS_DTYPE F4_T>
+inline float f4_unpack(int8_t v) {
+  static_assert(F4_T == JBLAS_DTYPE::F4_BNB || F4_T == JBLAS_DTYPE::F4_NF4 || F4_T == JBLAS_DTYPE::F4_E2M1,
+                "Unsupported F4 type");
+  switch (F4_T) {
+    case JBLAS_DTYPE::F4_BNB:
+      return fp4_bnb_unpack(v);
+    case JBLAS_DTYPE::F4_NF4:
+      return nf4_unpack(v);
+    case JBLAS_DTYPE::F4_E2M1:
+      return fp4_e2m1_unpack(v);
+    default:
+      break;
+  }
+  return std::numeric_limits<float>::quiet_NaN();
+}
+
+template <JBLAS_DTYPE F4_T>
+inline float f4_dequantize(int8_t v, float scale) {
+  static_assert(F4_T == JBLAS_DTYPE::F4_BNB || F4_T == JBLAS_DTYPE::F4_NF4 || F4_T == JBLAS_DTYPE::F4_E2M1,
+                "Unsupported F4 type");
+  return f4_unpack<F4_T>(v) * scale;
+}
+
+template <JBLAS_DTYPE F4_T>
+inline int8_t f4_quantize(float x) {
+  static_assert(F4_T == JBLAS_DTYPE::F4_BNB || F4_T == JBLAS_DTYPE::F4_NF4 || F4_T == JBLAS_DTYPE::F4_E2M1,
+                "Unsupported F4 type");
+  switch (F4_T) {
+    case JBLAS_DTYPE::F4_BNB:
+      return fp4_bnb_quantize(x);
+    case JBLAS_DTYPE::F4_NF4:
+      return nf4_quantize(x);
+    case JBLAS_DTYPE::F4_E2M1:
+      return fp4_e2m1_quantize(x);
+    default:
+      break;
+  }
+  return static_cast<int8_t>(0);
+}
+
+template <JBLAS_DTYPE F4_T, typename _DST_T, int _PACK_ROW, typename _S_T>
+inline JBLAS_CODE decompress_kblock_f4_fp(utils::f4x2* srcptr, _DST_T* dstptr, int row, int col, int ld_src, int ld_dst,
+                                          _S_T* scales, int k_offset, int kblock, int NPad, int8_t* tmp,
+                                          size_t tmpsize) {
+  for (int i = 0; i < row; i++) {
+    int kpos = (k_offset + i) / kblock;
+    auto sptr = scales + kpos * NPad;
+    for (int j = 0; j < col; j += 2) {
+      auto tmp = srcptr[i * ld_src / 2 + j / 2];
+      float scale0, scale1, dst0, dst1;
+      int s0_idx, s1_idx;
+      s0_idx = j / _PACK_ROW;
+      s1_idx = (j + 1) / _PACK_ROW;
+      scale0 = static_cast<float>(sptr[s0_idx]);
+      scale1 = static_cast<float>(sptr[s1_idx]);
+      dst0 = f4_dequantize<F4_T>(tmp.x, scale0);
+      dst1 = f4_dequantize<F4_T>(tmp.y, scale1);
+      dstptr[i * ld_dst + j + 0] = static_cast<_DST_T>(dst0);
+      dstptr[i * ld_dst + j + 1] = static_cast<_DST_T>(dst1);
+    }
+  }
+  return JblasSuccess;
+}
+
+template <JBLAS_DTYPE F4_T, typename _DST_T>
+inline JBLAS_CODE decompress_kblock_f4_fp_noscale(utils::f4x2* srcptr, _DST_T* dstptr, int row, int col, int ld_src,
+                                                  int ld_dst, int8_t* tmp, size_t tmpsize) {
+  for (int i = 0; i < row; i++) {
+    for (int j = 0; j < col; j += 2) {
+      auto tmp = srcptr[i * ld_src / 2 + j / 2];
+      dstptr[i * ld_dst + j + 0] = static_cast<_DST_T>(f4_unpack<F4_T>(tmp.x));
+      dstptr[i * ld_dst + j + 1] = static_cast<_DST_T>(f4_unpack<F4_T>(tmp.y));
+    }
+  }
+  return JblasSuccess;
+}
+
+static inline JBLAS_CODE memcpy2d_dw2highw(const void* srcptr, void* dstptr, int row, int col, int srcstride,
+                                           int dststride) {
+  auto bsrcptr = (char*)srcptr;
+  auto bdstptr = (char*)dstptr;
+  for (int i = 0; i < row; i++) {
+    for (int j = 0; j < col; j++) {
+      std::memcpy(bdstptr + i * dststride + j * sizeof(jblas::utils::bf16),
+                  bsrcptr + i * srcstride + j * sizeof(float) + 2, sizeof(jblas::utils::bf16));
+    }
+  }
+  return JblasSuccess;
+}
+
+static inline JBLAS_CODE memcpy2d(const void* srcptr, void* dstptr, int row, int col, int srcstride, int dststride) {
+  auto bsrcptr = (const char*)srcptr;
+  auto bdstptr = (char*)dstptr;
+  for (int i = 0; i < row; i++) {
+    std::memcpy(bdstptr + i * dststride, bsrcptr + i * srcstride, col);
+  }
+  return JblasSuccess;
+}
+
+template <JBLAS_DTYPE S4_T>
+inline JBLAS_CODE quantize_f32_sign_int_rowblock(const float* srcptr, int8_t* dstptr, int row, int col, int ld_src,
+                                                 int ld_dst, float* scales, int8_t* zero_points, int blocksize) {
+  int raw_blocksize = blocksize;
+  for (int i = 0; i < col; i++) {
+    int align_row_loop = row / blocksize * blocksize;
+    int j = 0;
+    auto s8_calc_store_scale_and_quantv_sym = [&](int blocksize) {
+      float maxval = std::numeric_limits<float>::min();
+      for (size_t ij = 0; ij < blocksize; ij++) {
+        maxval = std::max(maxval, std::abs(srcptr[(j + ij) * ld_src + i]));
+      }
+      float scale = maxval / 127;
+      float rscale = 1.f / scale;
+      scales[j / raw_blocksize * ld_dst + i] = scale;
+      for (size_t ij = 0; ij < blocksize; ij++) {
+        dstptr[(j + ij) * ld_dst + i] = utils::cast<float, int8_t>(srcptr[(j + ij) * ld_src + i] * rscale);
+      }
+    };
+    auto s4_fullrange_calc_store_scale_and_quantv_sym = [&](int blocksize) {
+      float amax = 0.f, max = 0.f;
+      for (size_t ij = 0; ij < blocksize; ij++) {
+        auto v = srcptr[(j + ij) * ld_src + i];
+        if (amax < std::abs(v)) {
+          amax = std::abs(v);
+          max = v;
+        }
+      }
+      float scale = max / -8.f;
+      float rscale = scale != 0.f ? 1.f / scale : 0.f;
+      scales[j / raw_blocksize * ld_dst + i] = scale;
+      for (size_t ij = 0; ij < blocksize; ij++) {
+        auto quant_v = srcptr[(j + ij) * ld_src + i] * rscale;
+        int8_t x = std::min(static_cast<int8_t>(15), static_cast<int8_t>(quant_v + 8.5f));
+        dstptr[(j + ij) * ld_dst + i] = x << 4;
+      }
+    };
+    auto s8_calc_store_scale_and_quantv_asym = [&](int blocksize) {
+      float maxval = 0.f;
+      float minval = 0.f;
+      for (size_t ij = 0; ij < blocksize; ij++) {
+        maxval = std::max(maxval, srcptr[(j + ij) * ld_src + i]);
+        minval = std::min(minval, srcptr[(j + ij) * ld_src + i]);
+      }
+      float scale = (maxval - minval) / 255;
+      float rscale = 1.f / scale;
+      scales[j / raw_blocksize * ld_dst + i] = scale;
+      float fmedium = (maxval + minval) / 2;
+      int8_t bzp = utils::cast<float, int8_t>((0 - fmedium) * rscale);
+      zero_points[j / raw_blocksize * ld_dst + i] = bzp;
+      for (size_t ij = 0; ij < blocksize; ij++) {
+        dstptr[(j + ij) * ld_dst + i] = utils::cast<float, int8_t>((srcptr[(j + ij) * ld_src + i] - fmedium) * rscale);
+      }
+    };
+    auto s4_fullrange_calc_store_scale_and_quantv_asym = [&](int blocksize) {
+      float maxval = 0.f;
+      float minval = 0.f;
+      for (size_t ij = 0; ij < blocksize; ij++) {
+        auto v = srcptr[(j + ij) * ld_src + i];
+        maxval = std::max(maxval, v);
+        minval = std::min(minval, v);
+      }
+      float max = std::abs(maxval) < std::abs(minval) ? minval - maxval : maxval - minval;
+      float scale = max / -16.f;
+      float rscale = scale != 0.f ? 1.f / scale : 0.f;
+      scales[j / raw_blocksize * ld_dst + i] = scale;
+      float fmedium = (maxval + minval) / 2;
+      ;
+      int8_t bzp = utils::cast<float, int8_t>((0.f - fmedium) * rscale);
+      zero_points[j / raw_blocksize * ld_dst + i] = bzp;
+      for (size_t ij = 0; ij < blocksize; ij++) {
+        auto quant_v = (srcptr[(j + ij) * ld_src + i] - fmedium) * rscale;
+        int8_t x = std::min(static_cast<int8_t>(15), static_cast<int8_t>(quant_v + 8.5f));
+        dstptr[(j + ij) * ld_dst + i] = x << 4;
+      }
+    };
+
+    auto dispatch_calc = [&](int blocksize) {
+      switch (S4_T) {
+        case JBLAS_DTYPE::S8:
+        case JBLAS_DTYPE::S4_CLIP:
+          if (zero_points == nullptr) {
+            s8_calc_store_scale_and_quantv_sym(blocksize);
+          } else {
+            s8_calc_store_scale_and_quantv_asym(blocksize);
+          }
+          break;
+        case JBLAS_DTYPE::S4_FULLRANGE:
+          if (zero_points == nullptr) {
+            s4_fullrange_calc_store_scale_and_quantv_sym(blocksize);
+          } else {
+            s4_fullrange_calc_store_scale_and_quantv_asym(blocksize);
+          }
+          break;
+        default:
+          assert(false);
+          break;
+      }
+    };
+
+    for (; j < align_row_loop; j += blocksize) dispatch_calc(blocksize);
+    if (j < row) dispatch_calc(row - align_row_loop);
+  }
+  return JblasSuccess;
+}
+template <JBLAS_DTYPE F4_T>
+inline JBLAS_CODE quantize_f32_f4_rowblock(const float* srcptr, int8_t* dstptr, int row, int col, int ld_src,
+                                           int ld_dst, float* scales, int8_t* zero_points, int blocksize) {
+  int raw_blocksize = blocksize;
+  for (int i = 0; i < col; i++) {
+    int align_row_loop = row / blocksize * blocksize;
+    int j = 0;
+    auto calc_store_scale_and_quantv_sym = [&](int blocksize) {
+      float absmax = std::numeric_limits<float>::min();
+      for (size_t ij = 0; ij < blocksize; ij++) {
+        absmax = std::max(absmax, std::abs(srcptr[(j + ij) * ld_src + i]));
+      }
+      scales[j / raw_blocksize * ld_dst + i] = absmax;
+      for (size_t ij = 0; ij < blocksize; ij++) {
+        dstptr[(j + ij) * ld_dst + i] = f4_quantize<F4_T>(srcptr[(j + ij) * ld_src + i] * (1.f / absmax));
+      }
+    };
+    auto calc_store_scale_and_quantv_asym = [&](int blocksize) {
+      float amax = 0;
+      float amin = 0;
+      for (size_t ij = 0; ij < blocksize; ij++) {
+        amax = std::max(amax, srcptr[(j + ij) * ld_src + i]);
+        amin = std::max(amax, srcptr[(j + ij) * ld_src + i]);
+      }
+      float scale = (amax - amin) / 2;
+      scales[j / raw_blocksize * ld_dst + i] = scale;
+      float fmedium = (amax + amin) / 2;
+      zero_points[j / raw_blocksize * ld_dst + i] = f4_quantize<F4_T>((0 - fmedium) * (1.f / scale));
+      for (size_t ij = 0; ij < blocksize; ij++) {
+        dstptr[(j + ij) * ld_dst + i] = f4_quantize<F4_T>((srcptr[(j + ij) * ld_src + i] - fmedium) * (1.f / scale));
+      }
+    };
+    auto dispatch_calc = [&](int blocksize) {
+      if (zero_points == nullptr) {
+        calc_store_scale_and_quantv_sym(blocksize);
+      } else {
+        calc_store_scale_and_quantv_asym(blocksize);
+      }
+    };
+    for (; j < align_row_loop; j += blocksize) dispatch_calc(blocksize);
+    if (j < row) dispatch_calc(row - align_row_loop);
+  }
+  return JblasSuccess;
+}
+
+template <typename SRC_T>
+inline JBLAS_CODE quantize_fp_u8_colblock(int row, int col, const SRC_T* srcptr, int ld_src, uint8_t* dstptr,
+                                          int ld_dst, float* scales, int ld_scale, uint8_t* zps, int blocksize,
+                                          float* blkreduce) {
+  int colblk = utils::padto_le(col, blocksize);
+  for (int i = 0; i < row; i++) {
+    size_t j = 0;
+    for (; j < colblk; j += blocksize) {
+      float maxval = std::numeric_limits<float>::min();
+      float minval = 0.f;
+      for (size_t ij = 0; ij < blocksize; ij++) {
+        auto fsrc = static_cast<float>(srcptr[(j + ij) + i * ld_src]);
+        maxval = std::max(fsrc, maxval);
+        minval = std::min(fsrc, minval);
+      }
+      float scale = (maxval - minval) / 255;
+      uint8_t zp = utils::cast<float, uint8_t>((0 - minval) / scale);
+      float rscale = 1.f / scale;
+      scales[j / blocksize + i * ld_scale] = scale;
+      zps[j / blocksize + i * ld_scale] = zp;
+      int sum = 0;
+      auto zpf = static_cast<float>(zp);
+      for (size_t ij = 0; ij < blocksize; ij++) {
+        auto fsrc = static_cast<float>(srcptr[(j + ij) + i * ld_src]);
+        auto qtmp = utils::cast<float, int>(fsrc * rscale);
+        sum += qtmp;
+        dstptr[(j + ij) + i * ld_dst] = utils::cast<float, uint8_t>(zpf + qtmp);
+      }
+      if (blkreduce) {
+        blkreduce[j / blocksize + i * ld_scale] = sum * scale;
+      }
+    }
+    if (j < col) {
+      float maxval = 0.f;
+      float minval = 0.f;
+      for (size_t ij = j; ij < col; ij++) {
+        auto fsrc = static_cast<float>(srcptr[(j + ij) + i * ld_src]);
+        maxval = std::max(fsrc, maxval);
+        minval = std::min(fsrc, minval);
+      }
+      float scale = (maxval - minval) / 255;
+      uint8_t zp = utils::cast<float, uint8_t>((0 - minval) / scale);
+      float rscale = 1.f / scale;
+      scales[j / blocksize + i * ld_scale] = scale;
+      zps[j / blocksize + i * ld_scale] = zp;
+      int sum = 0;
+      auto zpf = float(zp);
+      for (size_t ij = j; ij < col; ij++) {
+        auto fsrc = static_cast<float>(srcptr[(j + ij) + i * ld_src]);
+        auto qtmp = utils::cast<float, int>(fsrc * rscale);
+        sum += qtmp;
+        dstptr[(j + ij) + i * ld_dst] = utils::cast<float, uint8_t>(zpf + qtmp);
+      }
+      if (blkreduce) {
+        blkreduce[j / blocksize + i * ld_scale] = sum * scale;
+      }
+    }
+  }
+  return JblasSuccess;
+}
+
+template <typename SRC_T>
+inline JBLAS_CODE quantize_fp_s8_colblock(int row, int col, const SRC_T* srcptr, int ld_src, int8_t* dstptr, int ld_dst,
+                                          float* scales, int ld_scale, int blocksize, float* reduce) {
+  int colblk = utils::padto_le(col, blocksize);
+  for (int i = 0; i < row; i++) {
+    size_t j = 0;
+    for (; j < colblk; j += blocksize) {
+      float absmaxval = std::numeric_limits<float>::min();
+      for (size_t ij = 0; ij < blocksize; ij++) {
+        auto fsrc = static_cast<float>(srcptr[(j + ij) + i * ld_src]);
+        absmaxval = std::max(std::abs(fsrc), absmaxval);
+      }
+      float scale = absmaxval / 127;
+      float rscale = 1.f / scale;
+      int sum = 0;
+      scales[j / blocksize + i * ld_scale] = scale;
+      for (size_t ij = 0; ij < blocksize; ij++) {
+        auto fsrc = static_cast<float>(srcptr[(j + ij) + i * ld_src]);
+        auto tmp = utils::cast<float, int8_t>(fsrc * rscale);
+        dstptr[(j + ij) + i * ld_dst] = tmp;
+        sum += tmp;
+      }
+      if (reduce) reduce[j / blocksize + i * ld_scale] = sum * scale;
+    }
+    if (j < col) {
+      float absmaxval = std::numeric_limits<float>::min();
+      for (size_t ij = j; ij < col; ij++) {
+        auto fsrc = static_cast<float>(srcptr[(j + ij) + i * ld_src]);
+        absmaxval = std::max(std::abs(fsrc), absmaxval);
+      }
+      float scale = absmaxval / 127;
+      float rscale = 1.f / scale;
+      scales[j / blocksize + i * ld_scale] = scale;
+      int sum = 0;
+      for (size_t ij = j; ij < col; ij++) {
+        auto fsrc = static_cast<float>(srcptr[(j + ij) + i * ld_src]);
+        dstptr[(ij) + i * ld_dst] = utils::cast<float, int8_t>(fsrc * rscale);
+        sum += dstptr[(ij) + i * ld_dst];
+      }
+      if (reduce) reduce[j / blocksize + i * ld_scale] = sum * scale;
+    }
+  }
+  return JblasSuccess;
+}
+
+static inline JBLAS_CODE alphabeta_f32_f32(const float alpha, const float* srcptr, const int srcstep, const float beta,
+                                           const float* src1ptr, const int src1step, float* dstptr, const int dststep,
+                                           const int M, const int N) {
+  if (beta != 0.f) {
+    for (int i = 0; i < M; i++) {
+      for (int j = 0; j < N; j++) {
+        dstptr[i * dststep + j] = alpha * srcptr[i * srcstep + j] + beta * src1ptr[i * src1step + j];
+      }
+    }
+    return JblasSuccess;
+  }
+  for (int i = 0; i < M; i++) {
+    for (int j = 0; j < N; j++) {
+      dstptr[i * dststep + j] = alpha * srcptr[i * srcstep + j];
+    }
+  }
+  return JblasSuccess;
+}
+template <typename SCA_T>
+static inline JBLAS_CODE accum_alphaN_f32_f32(const SCA_T* alpha, const float* srcptr, const int srcstep, float* dstptr,
+                                              const int dststep, const int M, const int N) {
+  for (size_t i = 0; i < M; i++) {
+    for (size_t j = 0; j < N; j++) {
+      dstptr[i * dststep + j] = static_cast<float>(alpha[j]) * srcptr[i * srcstep + j] + dstptr[i * dststep + j];
+    }
+  }
+  return JblasSuccess;
+}
+
+static inline JBLAS_CODE accum_f32_f32(const float* srcptr, const int srcstep, float* dstptr, const int dststep,
+                                       const int M, const int N) {
+  for (size_t i = 0; i < M; i++) {
+    for (size_t j = 0; j < N; j++) {
+      dstptr[i * dststep + j] = srcptr[i * srcstep + j] + dstptr[i * dststep + j];
+    }
+  }
+  return JblasSuccess;
+}
+
+static inline JBLAS_CODE quanout_s32_u32(const float alpha, const int32_t* srcptr, const int srcstep, uint8_t* dstptr,
+                                         const int dststep, const int M, const int N, float scaleSrc, float scaleDst,
+                                         int zpDst) {
+  float factor = alpha * scaleSrc / scaleDst;
+  for (int i = 0; i < M; i++) {
+    for (int j = 0; j < N; j++) {
+      float fsrc = static_cast<float>(srcptr[i * srcstep + j]) * factor;
+      dstptr[i * dststep + j] = utils::cast<float, uint8_t>(fsrc + static_cast<float>(zpDst));
+    }
+  }
+  return JblasSuccess;
+}
+
+template <typename SCAB_T>
+static inline JBLAS_CODE dequant_s32_fp32(const int32_t* srcptr, const int srcstep, float* dstptr, const int dststep,
+                                          const int M, const int N, const float* scaleA, const int ldsa,
+                                          const SCAB_T* scaleB) {
+  for (int i = 0; i < M; i++) {
+    float scale = scaleA[i * ldsa];
+    for (int j = 0; j < N; j++) {
+      float fsrc = static_cast<float>(srcptr[i * srcstep + j]) * static_cast<float>(scaleB[j]) * scale;
+      dstptr[i * dststep + j] = fsrc;
+    }
+  }
+  return JblasSuccess;
+}
+
+inline JBLAS_CODE minmax_f32_kblock(const float* srcptr, int row, int col, int ld_src, float* minmaxptr, int ld_minmax,
+                                    int fsize_minmax, int blocksize) {
+  for (int i = 0; i < row; i++) {
+    if (col >= blocksize) {
+      for (int icol = 0; icol < col; icol += blocksize) {
+        float maxval = std::numeric_limits<float>::min();
+        float minval = std::numeric_limits<float>::max();
+        for (int ii = 0; ii < blocksize; ii++) {
+          maxval = std::max(srcptr[i * ld_src + icol + ii], maxval);
+          minval = std::min(srcptr[i * ld_src + icol + ii], minval);
+        }
+        auto colptr = &minmaxptr[i * ld_minmax + icol / blocksize * fsize_minmax];
+        colptr[0] = minval;
+        colptr[1] = maxval;
+      }
+    } else {
+      float maxval = std::numeric_limits<float>::min();
+      float minval = std::numeric_limits<float>::max();
+      for (int icol = 0; icol < col; icol++) {
+        maxval = std::max(srcptr[i * ld_src + icol], maxval);
+        minval = std::min(srcptr[i * ld_src + icol], minval);
+      }
+      minmaxptr[i * ld_minmax + 0] = minval;
+      minmaxptr[i * ld_minmax + 1] = maxval;
+    }
+  }
+  return JblasSuccess;
+}
+
+static inline JBLAS_CODE accumulate_dequantize_s32_f32(const int32_t* srcptr, float* dstptr, float alpha, float beta,
+                                                       int row, int col, int ld_src, int ld_dst, float* ascales,
+                                                       int ldas, float* wscales) {
+  for (int irow = 0; irow < row; irow++) {
+    for (int icol = 0; icol < col; icol++) {
+      float scale = ascales[irow * ldas] * wscales[icol] * alpha;
+      dstptr[irow * ld_dst + icol] = scale * srcptr[irow * ld_src + icol] + beta * dstptr[irow * ld_dst + icol];
+    }
+  }
+  return JblasSuccess;
+}
+
+static inline JBLAS_CODE broadcast_u8(int num, const uint8_t& srcval, uint8_t* dstptr) {
+  int i = 0;
+  for (; i < num; i++) {
+    dstptr[i] = srcval;
+  }
+  return JblasSuccess;
+}
+
+template <typename _RT>
+static inline JBLAS_CODE quant_s8_row_reduce_sum(const int8_t* srcptr, int ldsrc, const float* scales,
+                                                 const int8_t* zero_points, int row, int col, _RT* reduce) {
+  std::memset(reduce, 0, sizeof(reduce[0]) * col);
+  for (int i = 0; i < row; i++) {
+    for (int j = 0; j < col; j++) {
+      if (zero_points != nullptr) {
+        reduce[j] += static_cast<_RT>((static_cast<float>(srcptr[i * ldsrc + j]) - static_cast<float>(zero_points[j])) *
+                                      static_cast<float>(scales[j]));
+      } else {
+        reduce[j] += static_cast<_RT>(srcptr[i * ldsrc + j] * scales[j]);
+      }
+    }
+  }
+  return JblasSuccess;
+}
+
+template <typename _RT>
+static inline JBLAS_CODE row_reduce_sum(const float* srcptr, int ldsrc, int row, int col, _RT* reduce) {
+  for (int j = 0; j < col; j++) {
+    float tmp = 0.f;
+    for (int i = 0; i < row; i++) {
+      tmp += srcptr[i * ldsrc + j];
+    }
+    reduce[j] = static_cast<_RT>(tmp);
+  }
+  return JblasSuccess;
+}
+
+template <typename SRC_T>
+static inline JBLAS_CODE col_block_reduce_sum(const SRC_T* srcptr, int ldsrc, int row, int col, int blocksize,
+                                              float* reduce, int ldr) {
+  for (int i = 0; i < row; i++) {
+    for (int j = 0; j < col; j += blocksize) {
+      auto tmp = 0.f;
+      for (size_t jj = 0; jj < blocksize; jj++) {
+        if (j + jj < col) {
+          tmp += srcptr[i * ldsrc + j + jj];
+        }
+      }
+      reduce[i * ldr + j / blocksize] = tmp;
+    }
+  }
+  return JblasSuccess;
+}
+
+static inline JBLAS_CODE remove_act_zeropoint_bias(float* accptr, int ldacc, int row, int col, uint8_t* zps,
+                                                   float* scales, int lds, const float* reduce) {
+  for (int i = 0; i < row; i++) {
+    auto zpf = static_cast<float>(zps[i * lds]) * scales[i * lds];
+    for (int j = 0; j < col; j++) {
+      accptr[i * ldacc + j] -= zpf * reduce[j];
+    }
+  }
+  return JblasSuccess;
+}
+
+static inline JBLAS_CODE remove_wei_zeropoint_bias(float* accptr, int ldacc, int row, int col, int8_t* zps,
+                                                   float* scales, int lds, const float* reduce) {
+  for (int i = 0; i < row; i++) {
+    auto reducef = reduce[i * lds];
+    for (int j = 0; j < col; j++) {
+      accptr[i * ldacc + j] -= static_cast<float>(zps[j]) * scales[j] * reducef;
+    }
+  }
+  return JblasSuccess;
+}
+
+static inline JBLAS_CODE remove_zeropoint_bias(float* accptr, int ldacc, int row, int col, uint8_t* zpa, int8_t* zpb,
+                                               float* scalea, float* scaleb, int lds, int k, const float* reducea,
+                                               const float* reduceb) {
+  for (int i = 0; i < row; i++) {
+    auto reduceaf = reducea[i * lds];
+    auto zpaf = static_cast<float>(zpa[i * lds]) * scalea[i * lds];
+    for (int j = 0; j < col; j++) {
+      auto zpbf = static_cast<float>(zpb[j]) * scaleb[j];
+      accptr[i * ldacc + j] -= zpbf * reduceaf;
+      accptr[i * ldacc + j] -= zpaf * reduceb[j];
+      accptr[i * ldacc + j] -= zpaf * zpbf * k;
+    }
+  }
+  return JblasSuccess;
+}
+}  // namespace ref
+}  // namespace kernel
+}  // namespace jblas
diff --git a/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/kernel_wrapper.h b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/kernel_wrapper.h
new file mode 100644
index 0000000000000..d25b72ee2fa4d
--- /dev/null
+++ b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/kernel_wrapper.h
@@ -0,0 +1,702 @@
+//  Copyright (c) 2023 Intel Corporation
+//
+//  Licensed under the Apache License, Version 2.0 (the "License");
+//  you may not use this file except in compliance with the License.
+//  You may obtain a copy of the License at
+//
+//    http://www.apache.org/licenses/LICENSE-2.0
+//
+//  Unless required by applicable law or agreed to in writing, software
+//  distributed under the License is distributed on an "AS IS" BASIS,
+//  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+//  See the License for the specific language governing permissions and
+//  limitations under the License.
+#pragma once
+#include <array>
+#include <cassert>
+#include <type_traits>
+
+#include "jblas/jit_blas.h"
+#include "jit_blas_utils.h"
+#include "kernel_avx2.h"
+#include "kernel_avx512f.h"
+#include "kernel_avx512_bf16.h"
+#include "kernel_jit.h"
+#include "kernel_ref.h"
+
+namespace jblas {
+namespace kernel {
+namespace wrapper {
+template <int NTile, int RowPack>
+class PaddingInterleaveMN {
+  // M x N ===> N/NTile x M/RowPack x NTile x RowPack (leading dim stride = NTile * dststride)
+ public:
+  template <JBLAS_ISA ISA_T, typename T_SRC, typename T_DST = T_SRC>
+  static JBLAS_CODE forward(const T_SRC* src, T_DST* dst, int row, int col, int row_pad, int col_pad, int src_step,
+                            int dst_step) {
+    if constexpr (utils::isa_base<ISA_T>::avx512f) {
+      const auto kern_ret = kernel::avx512f::padding_interleave_cvt<T_SRC, T_DST, RowPack>::forward(
+          src, dst, NTile, row, col, row_pad, col_pad, src_step, dst_step);
+      if (kern_ret != JblasNotSupport) return kern_ret;
+    }
+    return ref::padding_interleave(src, dst, row, col, row_pad, col_pad, src_step, dst_step, NTile, RowPack);
+  }
+};
+
+template <int NTile, int RowPack>
+class RevertPaddingInterleaveMN {
+  // M x N ===> N/NTile x M/RowPack x NTile x RowPack (leading dim stride = NTile * dststride)
+ public:
+  template <JBLAS_ISA ISA_T, typename T_SRC, typename T_DST = T_SRC>
+  static JBLAS_CODE forward(const T_SRC* src, T_DST* dst, int row, int col, int row_pad, int col_pad, int src_step,
+                            int dst_step) {
+    return ref::revert_padding_interleave(src, dst, row, col, row_pad, col_pad, src_step, dst_step, NTile, RowPack);
+  }
+};
+
+template <int MTile, int ColPack>
+class PaddingTransInterleaveMN {
+  // row and cols are in terms of src
+  // M x N ===> M/MTile x N/ColPack x MTile x ColPack (leading dim stride = MTile * dststride)
+ public:
+  template <JBLAS_ISA ISA_T, typename T_SRC, typename T_DST = T_SRC>
+  static JBLAS_CODE forward(const T_SRC* src, T_DST* dst, int row, int col, int row_pad, int col_pad, int src_step,
+                            int dst_step) {
+    // Note: rows/cols and i/j are in terms of src
+    if constexpr (utils::isa_base<ISA_T>::avx512f) {
+      const auto kern_ret = kernel::avx512f::padding_trans_interleave_cvt<T_SRC, T_DST, ColPack>::forward(
+          src, dst, MTile, row, col, row_pad, col_pad, src_step, dst_step);
+      if (kern_ret != JblasNotSupport) return kern_ret;
+    }
+    return ref::padding_trans_interleave(src, dst, row, col, row_pad, col_pad, src_step, dst_step, MTile, ColPack);
+  }
+};
+
+class Memcpy2D {
+ public:
+  template <JBLAS_ISA ISA_T, typename _SRC_T, typename _DST_T, typename... Eltops>
+  static JBLAS_CODE forward(const _SRC_T* srcptr, _DST_T* dstptr, int row, int col, int srcstep, int dststep,
+                            void* const_elt_v = nullptr, Eltops... ops) {
+    auto ret = JblasNotSupport;
+    if constexpr (utils::isa_base<ISA_T>::avx512f) {
+      ret = kernel::jit::JitMemcpy2DAvx512f::forward<_SRC_T, _DST_T>(srcptr, dstptr, row, col, srcstep, dststep,
+                                                                     const_elt_v, ops...);
+      if (ret == JblasSuccess) {
+        return ret;
+      }
+    }
+#if CompileAVX2()
+    if constexpr (utils::isa_base<ISA_T>::avx2) {
+      ret = kernel::jit::JitMemcpy2DAvx2::forward<_SRC_T, _DST_T>(srcptr, dstptr, row, col, srcstep, dststep,
+                                                                  const_elt_v, ops...);
+      if (ret == JblasSuccess) {
+        return ret;
+      }
+    }
+#endif
+    assert(sizeof...(ops) == 0);                      // no post ops
+    static_assert(sizeof(_SRC_T) == sizeof(_DST_T));  // no conversion
+    return kernel::ref::memcpy2d(srcptr, dstptr, row, col * sizeof(_SRC_T), srcstep * sizeof(_SRC_T),
+                                 dststep * sizeof(_DST_T));
+  }
+
+  template <JBLAS_ISA ISA_T, typename _SRC_T, typename _DST_T, JBLAS_ELTWISEOP OP_T>
+  static JBLAS_CODE forward1(const _SRC_T* srcptr, _DST_T* dstptr, int row, int col, int srcstep, int dststep,
+                             void* const_elt_v = nullptr) {
+    auto ret = JblasNotSupport;
+#if CompileAVX512F()
+    if constexpr (utils::isa_base<ISA_T>::avx512f) {
+      ret = kernel::jit::JitMemcpy2DAvx512f::forward1<_SRC_T, _DST_T, OP_T>(srcptr, dstptr, row, col, srcstep, dststep,
+                                                                            const_elt_v);
+      if (ret == JblasSuccess) {
+        return ret;
+      }
+    }
+#endif
+#if CompileAVX2()
+    if constexpr (utils::isa_base<ISA_T>::avx2) {
+      ret = kernel::jit::JitMemcpy2DAvx2::forward1<_SRC_T, _DST_T, OP_T>(srcptr, dstptr, row, col, srcstep, dststep,
+                                                                         const_elt_v);
+      if (ret == JblasSuccess) {
+        return ret;
+      }
+    }
+#endif
+    assert(false);  // no ref implementation
+    return JblasNotSupport;
+  }
+};
+
+class Memcpy2DFp32CvtBf16 {
+ public:
+  template <JBLAS_ISA ISA_T>
+  static JBLAS_CODE forward(const void* srcptr, void* dstptr, int row, int col, int srcstride, int dststride,
+                            bool zeropadding) {
+#if CompileBF16()
+    if constexpr (utils::isa_base<ISA_T>::amx_bf16) {
+      return kernel::avx512_bf16::fp32_cvt_bf16_2D_write_back(srcptr, dstptr, row, col, srcstride, dststride,
+                                                              zeropadding);
+    }
+#endif
+#if CompileAVX512F()
+    if constexpr (utils::isa_base<ISA_T>::avx512f) {
+      return kernel::avx512f::fp32_cvt_bf16_2D_write_back(srcptr, dstptr, row, col, srcstride, dststride, zeropadding);
+    }
+#endif
+#if CompileAVX2()
+    if constexpr (utils::isa_base<ISA_T>::avx2) {
+      return kernel::avx2::fp32_cvt_bf16_2D_write_back(srcptr, dstptr, row, col, srcstride, dststride, zeropadding);
+    }
+#endif
+    return kernel::ref::dt_cvt_2D_write_back<float, utils::bf16>(srcptr, dstptr, row, col, srcstride, dststride,
+                                                                 zeropadding);
+  }
+};
+
+class Memcpy2DFp32CvtFp16 {
+ public:
+  template <JBLAS_ISA ISA_T>
+  static JBLAS_CODE forward(void* srcptr, void* dstptr, int row, int col, int srcstride, int dststride,
+                            bool zeropadding) {
+#if CompileFP16()
+    if constexpr (utils::isa_base<ISA_T>::avx512_fp16) {
+      return kernel::avx512f::fp32_cvt_fp16_2D_write_back(
+          reinterpret_cast<const float*>(srcptr), reinterpret_cast<utils::fp16*>(dstptr), row, col,
+          srcstride / sizeof(float), dststride / sizeof(utils::fp16), zeropadding);
+    }
+#endif
+    return JblasNotSupport;
+  }
+};
+
+class Memcpy2DFp16CvtFp32 {
+ public:
+  template <JBLAS_ISA ISA_T>
+  static JBLAS_CODE forward(void* srcptr, void* dstptr, int row, int col, int srcstride, int dststride,
+                            bool zeropadding) {
+#if CompileFP16()
+    if constexpr (utils::isa_base<ISA_T>::avx512_fp16) {
+      return kernel::avx512f::fp16_cvt_fp32_2D_write_back(  //
+          reinterpret_cast<const utils::fp16*>(srcptr), reinterpret_cast<float*>(dstptr), row, col,
+          srcstride / sizeof(utils::fp16), dststride / sizeof(float), zeropadding);
+    }
+#endif
+    return JblasNotSupport;
+  }
+};
+
+class Memcpy2DBf16CvtFp32 {
+ public:
+  template <JBLAS_ISA ISA_T>
+  static JBLAS_CODE forward(void* srcptr, void* dstptr, int row, int col, int srcstride, int dststride,
+                            bool zeropadding) {
+#if CompileBF16()
+    if constexpr (ISA_T >= JblasAMX_BF16) {
+      return kernel::avx512_bf16::bf16_cvt_fp32_2D_write_back(  //
+          reinterpret_cast<const utils::bf16*>(srcptr), reinterpret_cast<float*>(dstptr), row, col,
+          srcstride / sizeof(utils::bf16), dststride / sizeof(float), zeropadding);
+    }
+#endif
+#if CompileAVX512F()
+    if constexpr (ISA_T >= JblasAVX512F) {
+      return kernel::avx512f::bf16_cvt_fp32_2D_write_back(  //
+          reinterpret_cast<const utils::bf16*>(srcptr), reinterpret_cast<float*>(dstptr), row, col,
+          srcstride / sizeof(utils::bf16), dststride / sizeof(float), zeropadding);
+    }
+#endif
+#if CompileAVX2()
+    if constexpr (ISA_T >= JblasAVX2) {
+      return kernel::avx2::bf16_cvt_fp32_2D_write_back(
+          reinterpret_cast<const utils::bf16*>(srcptr), reinterpret_cast<float*>(dstptr), row, col,
+          srcstride / sizeof(utils::bf16), dststride / sizeof(float), zeropadding);
+    }
+#endif
+    return kernel::ref::dt_cvt_2D_write_back<utils::bf16, float>(srcptr, dstptr, row, col, srcstride, dststride,
+                                                                 zeropadding);
+  }
+};
+
+template <int NTILE>
+class CompressS8S4 {
+ public:
+  template <JBLAS_ISA ISA_T>
+  static inline JBLAS_CODE forward(const int8_t* srcptr, jblas::utils::int4x2* dstptr, int row, int col, int ld_src,
+                                   int ld_dst) {
+    return ref::compress_s8_s4<NTILE>(srcptr, dstptr, row, col, ld_src, ld_dst);
+  }
+};
+
+template <int NTILE>
+class CompressFp4 {
+ public:
+  template <JBLAS_ISA ISA_T>
+  static inline JBLAS_CODE forward(const int8_t* srcptr, jblas::utils::f4x2* dstptr, int row, int col, int ld_src,
+                                   int ld_dst) {
+    return ref::compress_f4<NTILE>(srcptr, dstptr, row, col, ld_src, ld_dst);
+  }
+};
+
+template <typename _T>
+class Transpose2D {
+ public:
+  template <JBLAS_ISA ISA_T>
+  static inline JBLAS_CODE forward(const _T* srcptr, _T* dstptr, int row, int col, int ld_src, int ld_dst) {
+    return ref::transpose2d(srcptr, dstptr, row, col, ld_src, ld_dst);
+  }
+};
+
+class QuantizeSignIntRowBlock {
+ public:
+  template <JBLAS_ISA ISA_T, JBLAS_DTYPE S4_T>
+  static inline JBLAS_CODE forward(const float* srcptr, int8_t* dstptr, int row, int col, int ld_src, int ld_dst,
+                                   float* scales, int8_t* zero_points, int blocksize) {
+#if CompileAVX512F()
+    if constexpr (utils::isa_base<ISA_T>::avx512f &&
+                  S4_T != JBLAS_DTYPE::S4_FULLRANGE) {  // TODO(zhe): support simd version s4_fullrange quantization.
+      return avx512f::quantize_f32_sign_int_rowblock<S4_T>(srcptr, dstptr, row, col, ld_src, ld_dst, scales,
+                                                           zero_points, blocksize);
+    }
+#endif
+    return ref::quantize_f32_sign_int_rowblock<S4_T>(srcptr, dstptr, row, col, ld_src, ld_dst, scales, zero_points,
+                                                     blocksize);
+  }
+};
+
+class QuantizeF4RowBlock {
+ public:
+  template <JBLAS_ISA ISA_T, JBLAS_DTYPE F4_T>
+  static inline JBLAS_CODE forward(const float* srcptr, int8_t* dstptr, int row, int col, int ld_src, int ld_dst,
+                                   float* scales, int8_t* zero_points, int blocksize) {
+#if CompileAVX512F()
+    if constexpr (utils::isa_base<ISA_T>::avx512f) {
+      return avx512f::quantize_f32_f4_rowblock<F4_T>(srcptr, dstptr, row, col, ld_src, ld_dst, scales, zero_points,
+                                                     blocksize);
+    }
+#endif
+    return ref::quantize_f32_f4_rowblock<F4_T>(srcptr, dstptr, row, col, ld_src, ld_dst, scales, zero_points,
+                                               blocksize);
+  }
+};
+
+class QuantizeU8ColBlock {
+ public:
+  template <JBLAS_ISA ISA_T, typename SRC_T>
+  static inline JBLAS_CODE forward(int row, int col, const SRC_T* srcptr, int ld_src, uint8_t* dstptr, int ld_dst,
+                                   float* scales, int ld_scale, uint8_t* zps, int blocksize, float* blkreduce) {
+#if CompileAVX512F()
+    if constexpr (utils::isa_base<ISA_T>::avx512f) {
+      return avx512f::quantize_fp_u8_colblock<SRC_T>(row, col, srcptr, ld_src, dstptr, ld_dst, scales, ld_scale, zps,
+                                                     blocksize, blkreduce);
+    }
+#endif
+#if CompileAVX2()
+    if constexpr (utils::isa_base<ISA_T>::avx2) {
+      return avx2::quantize_fp_u8_colblock<SRC_T>(row, col, srcptr, ld_src, dstptr, ld_dst, scales, ld_scale, zps,
+                                                  blocksize, blkreduce);
+    }
+#endif
+    return ref::quantize_fp_u8_colblock(row, col, srcptr, ld_src, dstptr, ld_dst, scales, ld_scale, zps, blocksize,
+                                        blkreduce);
+  }
+};
+
+class QuantizeS8ColBlock {
+ public:
+  template <JBLAS_ISA ISA_T, typename SRC_T>
+  static inline JBLAS_CODE forward(int row, int col, const SRC_T* srcptr, int ld_src, int8_t* dstptr, int ld_dst,
+                                   float* scales, int ld_scale, int blocksize, float* reduce) {
+#if CompileAVX512F()
+    if constexpr (utils::isa_base<ISA_T>::avx512f) {
+      return avx512f::quantize_fp_s8_colblock<SRC_T>(row, col, srcptr, ld_src, dstptr, ld_dst, scales, ld_scale,
+                                                     blocksize, reduce);
+    }
+#endif
+    return ref::quantize_fp_s8_colblock(row, col, srcptr, ld_src, dstptr, ld_dst, scales, ld_scale, blocksize, reduce);
+  }
+};
+
+class Broadcast {
+ public:
+  template <JBLAS_ISA ISA_T>
+  static inline JBLAS_CODE forward(int num, const uint8_t& srcval, uint8_t* dstptr) {
+#if CompileAVX512F()
+    if constexpr (utils::isa_base<ISA_T>::avx512f) {
+      return avx512f::broadcast_u8(num, srcval, dstptr);
+    }
+#endif
+    return ref::broadcast_u8(num, srcval, dstptr);
+  }
+};
+
+class AccumulateDequantizeS32F32 {
+ public:
+  template <JBLAS_ISA ISA_T>
+  static inline JBLAS_CODE forward(const int32_t* srcptr, float* dstptr, float alpha, float beta, int row, int col,
+                                   int ld_src, int ld_dst, float* ascales, int ldas, float* wscales) {
+#if CompileAVX512F()
+    if constexpr (utils::isa_base<ISA_T>::avx512f) {
+      return avx512f::accumulate_dequantize_s32_f32(srcptr, dstptr, alpha, beta, row, col, ld_src, ld_dst, ascales,
+                                                    ldas, wscales);
+    }
+#endif
+    return ref::accumulate_dequantize_s32_f32(srcptr, dstptr, alpha, beta, row, col, ld_src, ld_dst, ascales, ldas,
+                                              wscales);
+  }
+};
+
+template <typename _DST_T, int _PACK_ROW, typename _Z_T = int8_t>  // zero points always be int8_t, not compressed
+class DecompressKBlockS4Fp {
+ public:
+  template <JBLAS_ISA ISA_T, typename _SCA_T, JBLAS_DTYPE S4_T>
+  static inline JBLAS_CODE forward(utils::int4x2* srcptr, _DST_T* dstptr, int row, int col, int ld_src, int ld_dst,
+                                   _SCA_T* scales, int8_t* zero_points, int k_offset, int kblock, int NPad, void* tmp,
+                                   size_t tmpsize) {
+    JBLAS_CODE ret = JblasNotSupport;
+#if CompileAVX512F()
+    if constexpr (utils::isa_base<ISA_T>::avx512f) {
+      ret = avx512f::decompress_kblock_s4_fp<S4_T, _DST_T, _PACK_ROW, _SCA_T>(
+          srcptr, dstptr, row, col, ld_src, ld_dst, scales, zero_points, k_offset, kblock, NPad,
+          reinterpret_cast<int8_t*>(tmp), tmpsize);
+      if (ret == JblasSuccess) return ret;
+    }
+#endif
+#if CompileAVX2()
+    // AVX2 device only focus on fp32 data and layout
+    if constexpr (utils::isa_base<ISA_T>::avx2 && std::is_same_v<_SCA_T, float> && std::is_same_v<_DST_T, float> &&
+                  _PACK_ROW == 1) {
+      if (zero_points == nullptr) {
+        ret = avx2::decompress_kblock_bit4_packrow1<true>(srcptr, dstptr, row, col, ld_src, ld_dst, scales, zero_points,
+                                                          k_offset, kblock, NPad, &avx2::dequant_s8_N_avx2<48, true>,
+                                                          &avx2::convert_s4_s8_16_sse<S4_T>,
+                                                          reinterpret_cast<int8_t*>(tmp), tmpsize);
+      } else {
+        ret = avx2::decompress_kblock_bit4_packrow1<false>(
+            srcptr, dstptr, row, col, ld_src, ld_dst, scales, zero_points, k_offset, kblock, NPad,
+            &avx2::dequant_s8_N_avx2<48, false>, &avx2::convert_s4_s8_16_sse<S4_T>, reinterpret_cast<int8_t*>(tmp),
+            tmpsize);
+      }
+
+      if (ret == JblasSuccess) return ret;
+    }
+#endif
+    ret = ref::decompress_kblock_s4_fp<S4_T, _DST_T, _PACK_ROW, _SCA_T>(srcptr, dstptr, row, col, ld_src, ld_dst,
+                                                                        scales, zero_points, k_offset, kblock, NPad,
+                                                                        reinterpret_cast<int8_t*>(tmp), tmpsize);
+    return ret;
+  }
+};
+
+template <typename _DST_T>  // zero points always be int8_t, not compressed
+class DecompressKBlockS4S8Fp {
+ public:
+  template <JBLAS_ISA ISA_T, JBLAS_DTYPE S4_T>
+  static inline JBLAS_CODE forward(utils::int4x2* srcptr, _DST_T* dstptr, int row, int col, int ld_src, int ld_dst,
+                                   void* tmp, size_t tmpsize) {
+    JBLAS_CODE ret = JblasNotSupport;
+#if CompileAVX512F()
+    if constexpr (utils::isa_base<ISA_T>::avx512f) {
+      return avx512f::decompress_kblock_s4_s8fp<S4_T, _DST_T>(srcptr, dstptr, row, col, ld_src, ld_dst,
+                                                              reinterpret_cast<int8_t*>(tmp), tmpsize);
+    }
+#endif
+    if constexpr (utils::isa_base<ISA_T>::avx2) {
+      return avx2::decompress_kblock_s4_s8fp<S4_T, _DST_T>(srcptr, dstptr, row, col, ld_src, ld_dst,
+                                                           reinterpret_cast<int8_t*>(tmp), tmpsize);
+    }
+    return ref::decompress_kblock_s4_s8fp<S4_T, _DST_T>(srcptr, dstptr, row, col, ld_src, ld_dst,
+                                                        reinterpret_cast<int8_t*>(tmp), tmpsize);
+  }
+};
+
+template <typename _DST_T, int _PACK_ROW>
+class DecompressKBlockF4Fp {
+ public:
+  template <JBLAS_ISA ISA_T, typename SCA_T, JBLAS_DTYPE F4_T>
+  static inline JBLAS_CODE forward(utils::f4x2* srcptr, _DST_T* dstptr, int row, int col, int ld_src, int ld_dst,
+                                   SCA_T* scales, int k_offset, int kblock, int NPad, void* tmp, size_t tmpsize) {
+    JBLAS_CODE ret = JblasNotSupport;
+#if CompileAVX512F()
+    if constexpr (utils::isa_base<ISA_T>::avx512f) {
+      ret = avx512f::decompress_kblock_f4_fp<F4_T, _DST_T, _PACK_ROW, SCA_T>(srcptr, dstptr, row, col, ld_src, ld_dst,
+                                                                             scales, k_offset, kblock, NPad,
+                                                                             reinterpret_cast<int8_t*>(tmp), tmpsize);
+      if (ret == JblasSuccess) return ret;
+    }
+#endif
+#if CompileAVX2()
+    if constexpr (utils::isa_base<ISA_T>::avx2 && std::is_same_v<SCA_T, float>) {
+      ret = avx2::decompress_kblock_f4_fp<F4_T, _DST_T, _PACK_ROW, SCA_T>(srcptr, dstptr, row, col, ld_src, ld_dst,
+                                                                          scales, k_offset, kblock, NPad,
+                                                                          reinterpret_cast<int8_t*>(tmp), tmpsize);
+      if (ret == JblasSuccess) return ret;
+    }
+#endif
+    return ref::decompress_kblock_f4_fp<F4_T, _DST_T, _PACK_ROW, SCA_T>(srcptr, dstptr, row, col, ld_src, ld_dst,
+                                                                        scales, k_offset, kblock, NPad,
+                                                                        reinterpret_cast<int8_t*>(tmp), tmpsize);
+  }
+};
+
+template <typename _DST_T>
+class DecompressKBlockF4FpNoscale {
+ public:
+  template <JBLAS_ISA ISA_T, JBLAS_DTYPE F4_T>
+  static inline JBLAS_CODE forward(utils::f4x2* srcptr, _DST_T* dstptr, int row, int col, int ld_src, int ld_dst,
+                                   void* tmp, size_t tmpsize) {
+    JBLAS_CODE ret = JblasNotSupport;
+    if constexpr (utils::isa_base<ISA_T>::avx512f) {
+      return avx512f::decompress_kblock_f4_fp_noscale<F4_T, _DST_T>(srcptr, dstptr, row, col, ld_src, ld_dst,
+                                                                    reinterpret_cast<int8_t*>(tmp), tmpsize);
+    }
+    if constexpr (utils::isa_base<ISA_T>::avx2) {
+      return avx2::decompress_kblock_f4_fp_noscale<F4_T, _DST_T>(srcptr, dstptr, row, col, ld_src, ld_dst,
+                                                                 reinterpret_cast<int8_t*>(tmp), tmpsize);
+    }
+    return ref::decompress_kblock_f4_fp_noscale<F4_T, _DST_T>(srcptr, dstptr, row, col, ld_src, ld_dst,
+                                                              reinterpret_cast<int8_t*>(tmp), tmpsize);
+  }
+};
+
+class DecompressKBlockS4S8 {
+ public:
+  template <JBLAS_ISA ISA_T, JBLAS_DTYPE S4_T>
+  static inline JBLAS_CODE forward(utils::int4x2* srcptr, int8_t* dstptr, int row, int col, int ld_src, int ld_dst) {
+    if constexpr (utils::isa_base<ISA_T>::avx512f && S4_T == JBLAS_DTYPE::S4_CLIP) {
+      return jit::decompress_s4_s8(srcptr, dstptr, row, col, ld_src, ld_dst);
+    }
+#if CompileAVX512F()
+    if constexpr (utils::isa_base<ISA_T>::avx512f) {
+      return avx512f::decompress_s4_s8<S4_T>(srcptr, dstptr, row, col, ld_src, ld_dst);
+    }
+#endif
+#if CompileAVX2()
+    if constexpr (utils::isa_base<ISA_T>::avx2) {
+      return avx2::decompress_s4_s8<S4_T>(srcptr, dstptr, row, col, ld_src, ld_dst);
+    }
+#endif
+    return ref::decompress_s4_s8<S4_T>(srcptr, dstptr, row, col, ld_src, ld_dst);
+  }
+};
+
+template <int PACK_ROW>
+class DecompressKBlockS8F32 {
+ public:
+  template <JBLAS_ISA ISA_T, typename SCA_T>
+  static inline JBLAS_CODE forward(int8_t* srcptr, float* dstptr, int row, int col, int ld_src, int ld_dst,
+                                   SCA_T* scales, int8_t* zero_points, int k_offset, int kblock, int NPad) {
+#if CompileAVX512F()
+    if constexpr (utils::isa_base<ISA_T>::avx512f && std::is_same_v<SCA_T, float> &&
+                  PACK_ROW == 1) {  // TODO Scale type support
+      return jit::DequanKBlockS8F32::forward_avx512f(srcptr, dstptr, row, col, ld_src, ld_dst, scales, zero_points,
+                                                     k_offset, kblock, NPad);
+    }
+#endif
+#if CompileAVX2()
+    if constexpr (utils::isa_base<ISA_T>::avx2 && std::is_same_v<SCA_T, float> &&
+                  PACK_ROW == 1) {  // TODO Scale type support
+      return avx2::dequant_kblock_s8_f32(srcptr, dstptr, row, col, ld_src, ld_dst, scales, zero_points, k_offset,
+                                         kblock, NPad);
+    }
+#endif
+    return ref::decompress_kblock_s8_f32<float, PACK_ROW, SCA_T>(srcptr, dstptr, row, col, ld_src, ld_dst, scales,
+                                                                 zero_points, k_offset, kblock, NPad);
+  }
+};
+
+class DecompressKBlockS8S8Fp {
+ public:
+  template <JBLAS_ISA ISA_T, typename T>
+  static inline JBLAS_CODE forward(int8_t* srcptr, T* dstptr, int row, int col, int ld_src, int ld_dst) {
+    if constexpr (utils::isa_base<ISA_T>::avx512f) {  // TODO Scale type support
+      return avx512f::decompress_kblock_s8_s8fp<T>(srcptr, dstptr, row, col, ld_src, ld_dst);
+    }
+    if constexpr (utils::isa_base<ISA_T>::avx2) {  // TODO Scale type support
+      return avx2::decompress_kblock_s8_s8fp<T>(srcptr, dstptr, row, col, ld_src, ld_dst);
+    }
+    return ref::decompress_kblock_s8_s8fp<T>(srcptr, dstptr, row, col, ld_src, ld_dst);
+  }
+};
+
+class AlphaBetaF32F32 {
+ public:
+  template <JBLAS_ISA ISA_T>
+  static JBLAS_CODE forward(const float alpha, const float* srcptr, const int srcstep, const float beta,
+                            const float* src1ptr, const int src1step, float* dstptr, const int dststep, const int M,
+                            const int N) {
+#if CompileAVX512F()
+    if constexpr (utils::isa_base<ISA_T>::avx512f) {
+      return avx512f::alphabeta_f32_f32(alpha, srcptr, srcstep, beta, src1ptr, src1step, dstptr, dststep, M, N);
+    }
+#endif
+#if CompileAVX2()
+    if (utils::isa_base<ISA_T>::avx2) {
+      return avx2::alphabeta_f32_f32(alpha, srcptr, srcstep, beta, src1ptr, src1step, dstptr, dststep, M, N);
+    }
+#endif
+    return ref::alphabeta_f32_f32(alpha, srcptr, srcstep, beta, src1ptr, src1step, dstptr, dststep, M, N);
+  }
+};
+
+class CompFp32BlockScale {
+ public:
+  template <JBLAS_ISA ISA_T, typename SCA_T>
+  static JBLAS_CODE forward(const SCA_T* alpha, const float* srcptr, const int srcstep, float* dstptr,
+                            const int dststep, const int M, const int N) {
+#if CompileAVX512F()
+    if constexpr (utils::isa_base<ISA_T>::avx512f) {
+      return avx512f::accum_alphaN_f32_f32(alpha, srcptr, srcstep, dstptr, dststep, M, N);
+    }
+#endif
+    if constexpr (utils::isa_base<ISA_T>::avx2) {
+      return avx2::accum_alphaN_f32_f32(alpha, srcptr, srcstep, dstptr, dststep, M, N);
+    }
+    return ref::accum_alphaN_f32_f32(alpha, srcptr, srcstep, dstptr, dststep, M, N);
+  }
+};
+
+class AccumulateFp32 {
+ public:
+  template <JBLAS_ISA ISA_T>
+  static JBLAS_CODE forward(const float* srcptr, const int srcstep, float* dstptr, const int dststep, const int M,
+                            const int N) {
+#if CompileAVX512F()
+    if constexpr (utils::isa_base<ISA_T>::avx512f) {
+      return avx512f::accum_f32_f32(srcptr, srcstep, dstptr, dststep, M, N);
+    }
+#endif
+    return ref::accum_f32_f32(srcptr, srcstep, dstptr, dststep, M, N);
+  }
+};
+
+class QuanOutS32U32 {
+ public:
+  template <JBLAS_ISA ISA_T>
+  static JBLAS_CODE forward(const float alpha, const int32_t* srcptr, const int srcstep, uint8_t* dstptr,
+                            const int dststep, const int M, const int N, float scaleSrc, float scaleDst, int zpDst) {
+#if CompileAVX512F()
+    if constexpr (utils::isa_base<ISA_T>::avx512f) {
+      return avx512f::quanout_s32_u32(alpha, srcptr, srcstep, dstptr, dststep, M, N, scaleSrc, scaleDst, zpDst);
+    }
+#endif
+    return ref::quanout_s32_u32(alpha, srcptr, srcstep, dstptr, dststep, M, N, scaleSrc, scaleDst, zpDst);
+  }
+};
+
+// scaleA ldsa==0 per tensor, ldsa!=0 per M
+// scaleB per channel(N)
+class DequanS32Fp32 {
+ public:
+  template <JBLAS_ISA ISA_T, typename SCAB_T>
+  static JBLAS_CODE forward(const int32_t* srcptr, const int srcstep, float* dstptr, const int dststep, const int M,
+                            const int N, const float* scaleA, const int ldsa, const SCAB_T* scaleB) {
+#if CompileAVX512F()
+    if constexpr (utils::isa_base<ISA_T>::avx512f) {
+      return avx512f::dequant_s32_fp32(srcptr, srcstep, dstptr, dststep, M, N, scaleA, ldsa, scaleB);
+    }
+#endif
+#if CompileAVX2()
+    if constexpr (utils::isa_base<ISA_T>::avx2) {
+      return avx2::dequant_s32_fp32(srcptr, srcstep, dstptr, dststep, M, N, scaleA, ldsa, scaleB);
+    }
+#endif
+    return ref::dequant_s32_fp32(srcptr, srcstep, dstptr, dststep, M, N, scaleA, ldsa, scaleB);
+  }
+};
+
+class MinMaxKBlock {
+ public:
+  template <JBLAS_ISA ISA_T>
+  static inline JBLAS_CODE forward(const float* srcptr, int row, int col, int ld_src, float* minmaxptr, int ld_minmax,
+                                   int fsize_minmax, int blocksize) {
+    return ref::minmax_f32_kblock(srcptr, row, col, ld_src, minmaxptr, ld_minmax, fsize_minmax, blocksize);
+  }
+};
+
+template <typename _RT>
+class QuantS8RowReduceSum {
+ public:
+  template <JBLAS_ISA ISA_T>
+  static inline JBLAS_CODE forward(const int8_t* srcptr, int ldsrc, const float* scales, const int8_t* zero_points,
+                                   int row, int col, _RT* reduce) {
+    return ref::quant_s8_row_reduce_sum(srcptr, ldsrc, scales, zero_points, row, col, reduce);
+  }
+};
+
+template <typename _RT>
+class RowReduceSum {
+ public:
+  template <JBLAS_ISA ISA_T>
+  static inline JBLAS_CODE forward(const float* srcptr, int ldsrc, int row, int col, _RT* reduce) {
+    return ref::row_reduce_sum<_RT>(srcptr, ldsrc, row, col, reduce);
+  }
+};
+
+class ColBlockReduceSum {
+ public:
+  template <JBLAS_ISA ISA_T, typename SRC_T>
+  static inline JBLAS_CODE forward(const SRC_T* srcptr, int ldsrc, int row, int col, int blocksize, float* reduce,
+                                   int ldr) {
+    if constexpr (utils::isa_base<ISA_T>::avx512f) {
+      return avx512f::col_block_reduce_sum<SRC_T>(srcptr, ldsrc, row, col, blocksize, reduce, ldr);
+    }
+    if constexpr (utils::isa_base<ISA_T>::avx2) {
+      return avx2::col_block_reduce_sum<SRC_T>(srcptr, ldsrc, row, col, blocksize, reduce, ldr);
+    }
+    return ref::col_block_reduce_sum<SRC_T>(srcptr, ldsrc, row, col, blocksize, reduce, ldr);
+  }
+};
+
+class RemoveZeroPointBias {
+ public:
+  template <JBLAS_ISA ISA_T>
+  static inline JBLAS_CODE forward_wei(float* accptr, int ldacc, int row, int col, int8_t* zps, float* scales, int lds,
+                                       const float* reduce) {
+#if CompileAVX512F()
+    if constexpr (utils::isa_base<ISA_T>::avx512f) {
+      return avx512f::remove_wei_zeropoint_bias(accptr, ldacc, row, col, zps, scales, lds, reduce);
+    }
+#endif
+#if CompileAVX2()
+    if constexpr (utils::isa_base<ISA_T>::avx2) {
+      return avx2::remove_wei_zeropoint_bias(accptr, ldacc, row, col, zps, scales, lds, reduce);
+    }
+#endif
+    return ref::remove_wei_zeropoint_bias(accptr, ldacc, row, col, zps, scales, lds, reduce);
+  }
+  template <JBLAS_ISA ISA_T>
+  static inline JBLAS_CODE forward_act(float* accptr, int ldacc, int row, int col, uint8_t* zps, float* scales, int lds,
+                                       const float* reduce) {
+#if CompileAVX512F()
+    if constexpr (utils::isa_base<ISA_T>::avx512f) {
+      return avx512f::remove_act_zeropoint_bias(accptr, ldacc, row, col, zps, scales, lds, reduce);
+    }
+#endif
+#if CompileAVX2()
+    if constexpr (utils::isa_base<ISA_T>::avx2) {
+      return avx2::remove_act_zeropoint_bias(accptr, ldacc, row, col, zps, scales, lds, reduce);
+    }
+#endif
+    return ref::remove_act_zeropoint_bias(accptr, ldacc, row, col, zps, scales, lds, reduce);
+  }
+  template <JBLAS_ISA ISA_T>
+  static inline JBLAS_CODE forward_both(float* accptr, int ldacc, int row, int col, uint8_t* zpa, int8_t* zpb,
+                                        float* scalea, float* scaleb, int lds, int k, const float* reducea,
+                                        const float* reduceb) {
+#if CompileAVX512F()
+    if constexpr (utils::isa_base<ISA_T>::avx512f) {
+      return avx512f::remove_zeropoint_bias(accptr, ldacc, row, col, zpa, zpb, scalea, scaleb, lds, k, reducea,
+                                            reduceb);
+    }
+#endif
+#if CompileAVX2()
+    if constexpr (utils::isa_base<ISA_T>::avx2) {
+      return avx2::remove_zeropoint_bias(accptr, ldacc, row, col, zpa, zpb, scalea, scaleb, lds, k, reducea, reduceb);
+    }
+#endif
+    return ref::remove_zeropoint_bias(accptr, ldacc, row, col, zpa, zpb, scalea, scaleb, lds, k, reducea, reduceb);
+  }
+};
+
+}  // namespace wrapper
+}  // namespace kernel
+}  // namespace jblas
diff --git a/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/xbyak/xbyak.h b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/xbyak/xbyak.h
new file mode 100644
index 0000000000000..320593150fca2
--- /dev/null
+++ b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/xbyak/xbyak.h
@@ -0,0 +1,3313 @@
+//  Copyright (c) 2023 Intel Corporation
+//
+//  Licensed under the Apache License, Version 2.0 (the "License");
+//  you may not use this file except in compliance with the License.
+//  You may obtain a copy of the License at
+//
+//    http://www.apache.org/licenses/LICENSE-2.0
+//
+//  Unless required by applicable law or agreed to in writing, software
+//  distributed under the License is distributed on an "AS IS" BASIS,
+//  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+//  See the License for the specific language governing permissions and
+//  limitations under the License.
+#pragma once
+#ifndef XBYAK_XBYAK_H_
+#define XBYAK_XBYAK_H_
+/*!
+        @file xbyak.h
+        @brief Xbyak ; JIT assembler for x86(IA32)/x64 by C++
+        @author herumi
+        @url https://github.com/herumi/xbyak
+        @note modified new BSD license
+        http://opensource.org/licenses/BSD-3-Clause
+*/
+#if (not +0) && !defined(XBYAK_NO_OP_NAMES)  // trick to detect whether 'not' is operator or not
+#define XBYAK_NO_OP_NAMES
+#endif
+
+#include <stdio.h>  // for debug print
+#include <assert.h>
+#include <list>
+#include <string>
+#include <algorithm>
+#ifndef NDEBUG
+#include <iostream>
+#endif
+
+// #define XBYAK_DISABLE_AVX512
+
+#if !defined(XBYAK_USE_MMAP_ALLOCATOR) && !defined(XBYAK_DONT_USE_MMAP_ALLOCATOR)
+#define XBYAK_USE_MMAP_ALLOCATOR
+#endif
+#if !defined(__GNUC__) || defined(__MINGW32__)
+#undef XBYAK_USE_MMAP_ALLOCATOR
+#endif
+
+#ifdef __GNUC__
+#define XBYAK_GNUC_PREREQ(major, minor) ((__GNUC__)*100 + (__GNUC_MINOR__) >= (major)*100 + (minor))
+#else
+#define XBYAK_GNUC_PREREQ(major, minor) 0
+#endif
+
+// This covers -std=(gnu|c)++(0x|11|1y), -stdlib=libc++, and modern Microsoft.
+#if ((defined(_MSC_VER) && (_MSC_VER >= 1600)) || defined(_LIBCPP_VERSION) || \
+     ((__cplusplus >= 201103) || defined(__GXX_EXPERIMENTAL_CXX0X__)))
+#include <unordered_set>
+#define XBYAK_STD_UNORDERED_SET std::unordered_set
+#include <unordered_map>
+#define XBYAK_STD_UNORDERED_MAP std::unordered_map
+#define XBYAK_STD_UNORDERED_MULTIMAP std::unordered_multimap
+
+/*
+        Clang/llvm-gcc and ICC-EDG in 'GCC-mode' always claim to be GCC 4.2, using
+        libstdcxx 20070719 (from GCC 4.2.1, the last GPL 2 version).
+*/
+#elif XBYAK_GNUC_PREREQ(4, 5) || (XBYAK_GNUC_PREREQ(4, 2) && __GLIBCXX__ >= 20070719) || defined(__INTEL_COMPILER) || \
+    defined(__llvm__)
+#include <tr1/unordered_set>
+#define XBYAK_STD_UNORDERED_SET std::tr1::unordered_set
+#include <tr1/unordered_map>
+#define XBYAK_STD_UNORDERED_MAP std::tr1::unordered_map
+#define XBYAK_STD_UNORDERED_MULTIMAP std::tr1::unordered_multimap
+
+#elif defined(_MSC_VER) && (_MSC_VER >= 1500) && (_MSC_VER < 1600)
+#include <unordered_set>
+#define XBYAK_STD_UNORDERED_SET std::tr1::unordered_set
+#include <unordered_map>
+#define XBYAK_STD_UNORDERED_MAP std::tr1::unordered_map
+#define XBYAK_STD_UNORDERED_MULTIMAP std::tr1::unordered_multimap
+
+#else
+#include <set>
+#define XBYAK_STD_UNORDERED_SET std::set
+#include <map>
+#define XBYAK_STD_UNORDERED_MAP std::map
+#define XBYAK_STD_UNORDERED_MULTIMAP std::multimap
+#endif
+#ifdef _WIN32
+#ifndef WIN32_LEAN_AND_MEAN
+#define WIN32_LEAN_AND_MEAN
+#endif
+#include <windows.h>
+#include <malloc.h>
+#ifdef _MSC_VER
+#define XBYAK_TLS __declspec(thread)
+#else
+#define XBYAK_TLS __thread
+#endif
+#elif defined(__GNUC__)
+#include <unistd.h>
+#include <sys/mman.h>
+#include <stdlib.h>
+#define XBYAK_TLS __thread
+#endif
+#if defined(__APPLE__) && !defined(XBYAK_DONT_USE_MAP_JIT)
+#define XBYAK_USE_MAP_JIT
+#include <sys/sysctl.h>
+#ifndef MAP_JIT
+#define MAP_JIT 0x800
+#endif
+#endif
+#if !defined(_MSC_VER) || (_MSC_VER >= 1600)
+#include <stdint.h>
+#endif
+
+// MFD_CLOEXEC defined only linux 3.17 or later.
+// Android wraps the memfd_create syscall from API version 30.
+#if !defined(MFD_CLOEXEC) || (defined(__ANDROID__) && __ANDROID_API__ < 30)
+#undef XBYAK_USE_MEMFD
+#endif
+
+#if defined(_WIN64) || defined(__MINGW64__) || (defined(__CYGWIN__) && defined(__x86_64__))
+#define XBYAK64_WIN
+#elif defined(__x86_64__)
+#define XBYAK64_GCC
+#endif
+#if !defined(XBYAK64) && !defined(XBYAK32)
+#if defined(XBYAK64_GCC) || defined(XBYAK64_WIN)
+#define XBYAK64
+#else
+#define XBYAK32
+#endif
+#endif
+
+#if (__cplusplus >= 201103) || (defined(_MSC_VER) && _MSC_VER >= 1900)
+#undef XBYAK_TLS
+#define XBYAK_TLS thread_local
+#define XBYAK_VARIADIC_TEMPLATE
+#define XBYAK_NOEXCEPT noexcept
+#else
+#define XBYAK_NOEXCEPT throw()
+#endif
+
+// require c++14 or later
+// Visual Studio 2017 version 15.0 or later
+// g++-6 or later
+#if ((__cplusplus >= 201402L) && !(!defined(__clang__) && defined(__GNUC__) && (__GNUC__ <= 5))) || \
+    (defined(_MSC_VER) && _MSC_VER >= 1910)
+#define XBYAK_CONSTEXPR constexpr
+#else
+#define XBYAK_CONSTEXPR
+#endif
+
+#ifdef _MSC_VER
+#pragma warning(push)
+#pragma warning(disable : 4514) /* remove inline function */
+#pragma warning(disable : 4786) /* identifier is too long */
+#pragma warning(disable : 4503) /* name is too long */
+#pragma warning(disable : 4127) /* constant expresison */
+#endif
+
+// disable -Warray-bounds because it may be a bug of gcc. https://gcc.gnu.org/bugzilla/show_bug.cgi?id=104603
+#if defined(__GNUC__) && !defined(__clang__)
+#define XBYAK_DISABLE_WARNING_ARRAY_BOUNDS
+#pragma GCC diagnostic push
+#pragma GCC diagnostic ignored "-Warray-bounds"
+#endif
+
+namespace Xbyak {
+
+enum {
+  DEFAULT_MAX_CODE_SIZE = 4096,
+  VERSION = 0x6730 /* 0xABCD = A.BC(.D) */
+};
+
+#ifndef MIE_INTEGER_TYPE_DEFINED
+#define MIE_INTEGER_TYPE_DEFINED
+// for backward compatibility
+typedef uint64_t uint64;
+typedef int64_t sint64;
+typedef uint32_t uint32;
+typedef uint16_t uint16;
+typedef uint8_t uint8;
+#endif
+
+#ifndef MIE_ALIGN
+#ifdef _MSC_VER
+#define MIE_ALIGN(x) __declspec(align(x))
+#else
+#define MIE_ALIGN(x) __attribute__((aligned(x)))
+#endif
+#endif
+#ifndef MIE_PACK  // for shufps
+#define MIE_PACK(x, y, z, w) ((x)*64 + (y)*16 + (z)*4 + (w))
+#endif
+
+enum {
+  ERR_NONE = 0,
+  ERR_BAD_ADDRESSING,
+  ERR_CODE_IS_TOO_BIG,
+  ERR_BAD_SCALE,
+  ERR_ESP_CANT_BE_INDEX,
+  ERR_BAD_COMBINATION,
+  ERR_BAD_SIZE_OF_REGISTER,
+  ERR_IMM_IS_TOO_BIG,
+  ERR_BAD_ALIGN,
+  ERR_LABEL_IS_REDEFINED,
+  ERR_LABEL_IS_TOO_FAR,
+  ERR_LABEL_IS_NOT_FOUND,
+  ERR_CODE_ISNOT_COPYABLE,
+  ERR_BAD_PARAMETER,
+  ERR_CANT_PROTECT,
+  ERR_CANT_USE_64BIT_DISP,
+  ERR_OFFSET_IS_TOO_BIG,
+  ERR_MEM_SIZE_IS_NOT_SPECIFIED,
+  ERR_BAD_MEM_SIZE,
+  ERR_BAD_ST_COMBINATION,
+  ERR_OVER_LOCAL_LABEL,  // not used
+  ERR_UNDER_LOCAL_LABEL,
+  ERR_CANT_ALLOC,
+  ERR_ONLY_T_NEAR_IS_SUPPORTED_IN_AUTO_GROW,
+  ERR_BAD_PROTECT_MODE,
+  ERR_BAD_PNUM,
+  ERR_BAD_TNUM,
+  ERR_BAD_VSIB_ADDRESSING,
+  ERR_CANT_CONVERT,
+  ERR_LABEL_ISNOT_SET_BY_L,
+  ERR_LABEL_IS_ALREADY_SET_BY_L,
+  ERR_BAD_LABEL_STR,
+  ERR_MUNMAP,
+  ERR_OPMASK_IS_ALREADY_SET,
+  ERR_ROUNDING_IS_ALREADY_SET,
+  ERR_K0_IS_INVALID,
+  ERR_EVEX_IS_INVALID,
+  ERR_SAE_IS_INVALID,
+  ERR_ER_IS_INVALID,
+  ERR_INVALID_BROADCAST,
+  ERR_INVALID_OPMASK_WITH_MEMORY,
+  ERR_INVALID_ZERO,
+  ERR_INVALID_RIP_IN_AUTO_GROW,
+  ERR_INVALID_MIB_ADDRESS,
+  ERR_X2APIC_IS_NOT_SUPPORTED,
+  ERR_NOT_SUPPORTED,
+  ERR_SAME_REGS_ARE_INVALID,
+  ERR_INTERNAL  // Put it at last.
+};
+
+inline const char* ConvertErrorToString(int err) {
+  static const char* errTbl[] = {"none",
+                                 "bad addressing",
+                                 "code is too big",
+                                 "bad scale",
+                                 "esp can't be index",
+                                 "bad combination",
+                                 "bad size of register",
+                                 "imm is too big",
+                                 "bad align",
+                                 "label is redefined",
+                                 "label is too far",
+                                 "label is not found",
+                                 "code is not copyable",
+                                 "bad parameter",
+                                 "can't protect",
+                                 "can't use 64bit disp(use (void*))",
+                                 "offset is too big",
+                                 "MEM size is not specified",
+                                 "bad mem size",
+                                 "bad st combination",
+                                 "over local label",
+                                 "under local label",
+                                 "can't alloc",
+                                 "T_SHORT is not supported in AutoGrow",
+                                 "bad protect mode",
+                                 "bad pNum",
+                                 "bad tNum",
+                                 "bad vsib addressing",
+                                 "can't convert",
+                                 "label is not set by L()",
+                                 "label is already set by L()",
+                                 "bad label string",
+                                 "err munmap",
+                                 "opmask is already set",
+                                 "rounding is already set",
+                                 "k0 is invalid",
+                                 "evex is invalid",
+                                 "sae(suppress all exceptions) is invalid",
+                                 "er(embedded rounding) is invalid",
+                                 "invalid broadcast",
+                                 "invalid opmask with memory",
+                                 "invalid zero",
+                                 "invalid rip in AutoGrow",
+                                 "invalid mib address",
+                                 "x2APIC is not supported",
+                                 "not supported",
+                                 "same regs are invalid",
+                                 "internal error"};
+  assert(ERR_INTERNAL + 1 == sizeof(errTbl) / sizeof(*errTbl));
+  return err <= ERR_INTERNAL ? errTbl[err] : "unknown err";
+}
+
+#ifdef XBYAK_NO_EXCEPTION
+namespace local {
+
+inline int& GetErrorRef() {
+  static XBYAK_TLS int err = 0;
+  return err;
+}
+
+inline void SetError(int err) {
+  if (local::GetErrorRef()) return;  // keep the first err code
+  local::GetErrorRef() = err;
+}
+
+}  // namespace local
+
+inline void ClearError() { local::GetErrorRef() = 0; }
+inline int GetError() { return Xbyak::local::GetErrorRef(); }
+
+#define XBYAK_THROW(err)         \
+  {                              \
+    Xbyak::local::SetError(err); \
+    return;                      \
+  }
+#define XBYAK_THROW_RET(err, r)  \
+  {                              \
+    Xbyak::local::SetError(err); \
+    return r;                    \
+  }
+
+#else
+class Error : public std::exception {
+  int err_;
+
+ public:
+  explicit Error(int err) : err_(err) {
+    if (err_ < 0 || err_ > ERR_INTERNAL) {
+      err_ = ERR_INTERNAL;
+    }
+  }
+  operator int() const { return err_; }
+  const char* what() const XBYAK_NOEXCEPT { return ConvertErrorToString(err_); }
+};
+
+// dummy functions
+inline void ClearError() {}
+inline int GetError() { return 0; }
+
+inline const char* ConvertErrorToString(const Error& err) { return err.what(); }
+
+#define XBYAK_THROW(err) \
+  { throw Error(err); }
+#define XBYAK_THROW_RET(err, r) \
+  { throw Error(err); }
+
+#endif
+
+inline void* AlignedMalloc(size_t size, size_t alignment) {
+#ifdef __MINGW32__
+  return __mingw_aligned_malloc(size, alignment);
+#elif defined(_WIN32)
+  return _aligned_malloc(size, alignment);
+#else
+  void* p;
+  int ret = posix_memalign(&p, alignment, size);
+  return (ret == 0) ? p : 0;
+#endif
+}
+
+inline void AlignedFree(void* p) {
+#ifdef __MINGW32__
+  __mingw_aligned_free(p);
+#elif defined(_MSC_VER)
+  _aligned_free(p);
+#else
+  free(p);
+#endif
+}
+
+template <class To, class From>
+inline const To CastTo(From p) XBYAK_NOEXCEPT {
+  return (const To)(size_t)(p);
+}
+namespace inner {
+
+#ifdef _WIN32
+struct SystemInfo {
+  SYSTEM_INFO info;
+  SystemInfo() { GetSystemInfo(&info); }
+};
+#endif
+// static const size_t ALIGN_PAGE_SIZE = 4096;
+inline size_t getPageSize() {
+#ifdef _WIN32
+  static const SystemInfo si;
+  return si.info.dwPageSize;
+#elif defined(__GNUC__)
+  static const long pageSize = sysconf(_SC_PAGESIZE);
+  if (pageSize > 0) {
+    return (size_t)pageSize;
+  }
+#endif
+  return 4096;
+}
+
+inline bool IsInDisp8(uint32_t x) { return 0xFFFFFF80 <= x || x <= 0x7F; }
+inline bool IsInInt32(uint64_t x) { return ~uint64_t(0x7fffffffu) <= x || x <= 0x7FFFFFFFU; }
+
+inline uint32_t VerifyInInt32(uint64_t x) {
+#if defined(XBYAK64) && !defined(__ILP32__)
+  if (!IsInInt32(x)) XBYAK_THROW_RET(ERR_OFFSET_IS_TOO_BIG, 0)
+#endif
+  return static_cast<uint32_t>(x);
+}
+
+enum LabelMode {
+  LasIs,   // as is
+  Labs,    // absolute
+  LaddTop  // (addr + top) for mov(reg, label) with AutoGrow
+};
+
+}  // namespace inner
+
+/*
+        custom allocator
+*/
+struct Allocator {
+  explicit Allocator(const std::string& = "") {}  // same interface with MmapAllocator
+  virtual uint8_t* alloc(size_t size) { return reinterpret_cast<uint8_t*>(AlignedMalloc(size, inner::getPageSize())); }
+  virtual void free(uint8_t* p) { AlignedFree(p); }
+  virtual ~Allocator() {}
+  /* override to return false if you call protect() manually */
+  virtual bool useProtect() const { return true; }
+};
+
+#ifdef XBYAK_USE_MMAP_ALLOCATOR
+#ifdef XBYAK_USE_MAP_JIT
+namespace util {
+
+inline int getMacOsVersionPure() {
+  char buf[64];
+  size_t size = sizeof(buf);
+  int err = sysctlbyname("kern.osrelease", buf, &size, NULL, 0);
+  if (err != 0) return 0;
+  char* endp;
+  int major = strtol(buf, &endp, 10);
+  if (*endp != '.') return 0;
+  return major;
+}
+
+inline int getMacOsVersion() {
+  static const int version = getMacOsVersionPure();
+  return version;
+}
+
+}  // namespace util
+#endif
+class MmapAllocator : public Allocator {
+  struct Allocation {
+    size_t size;
+#if defined(XBYAK_USE_MEMFD)
+    // fd_ is only used with XBYAK_USE_MEMFD. We keep the file open
+    // during the lifetime of each allocation in order to support
+    // checkpoint/restore by unprivileged users.
+    int fd;
+#endif
+  };
+  const std::string name_;  // only used with XBYAK_USE_MEMFD
+  typedef XBYAK_STD_UNORDERED_MAP<uintptr_t, Allocation> AllocationList;
+  AllocationList allocList_;
+
+ public:
+  explicit MmapAllocator(const std::string& name = "xbyak") : name_(name) {}
+  uint8_t* alloc(size_t size) {
+    const size_t alignedSizeM1 = inner::getPageSize() - 1;
+    size = (size + alignedSizeM1) & ~alignedSizeM1;
+#if defined(MAP_ANONYMOUS)
+    int mode = MAP_PRIVATE | MAP_ANONYMOUS;
+#elif defined(MAP_ANON)
+    int mode = MAP_PRIVATE | MAP_ANON;
+#else
+#error "not supported"
+#endif
+#if defined(XBYAK_USE_MAP_JIT)
+    const int mojaveVersion = 18;
+    if (util::getMacOsVersion() >= mojaveVersion) mode |= MAP_JIT;
+#endif
+    int fd = -1;
+#if defined(XBYAK_USE_MEMFD)
+    fd = memfd_create(name_.c_str(), MFD_CLOEXEC);
+    if (fd != -1) {
+      mode = MAP_SHARED;
+      if (ftruncate(fd, size) != 0) {
+        close(fd);
+        XBYAK_THROW_RET(ERR_CANT_ALLOC, 0)
+      }
+    }
+#endif
+    void* p = mmap(NULL, size, PROT_READ | PROT_WRITE, mode, fd, 0);
+    if (p == MAP_FAILED) {
+      if (fd != -1) close(fd);
+      XBYAK_THROW_RET(ERR_CANT_ALLOC, 0)
+    }
+    assert(p);
+    Allocation& alloc = allocList_[(uintptr_t)p];
+    alloc.size = size;
+#if defined(XBYAK_USE_MEMFD)
+    alloc.fd = fd;
+#endif
+    return (uint8_t*)p;
+  }
+  void free(uint8_t* p) {
+    if (p == 0) return;
+    AllocationList::iterator i = allocList_.find((uintptr_t)p);
+    if (i == allocList_.end()) XBYAK_THROW(ERR_BAD_PARAMETER)
+    if (munmap((void*)i->first, i->second.size) < 0) XBYAK_THROW(ERR_MUNMAP)
+#if defined(XBYAK_USE_MEMFD)
+    if (i->second.fd != -1) close(i->second.fd);
+#endif
+    allocList_.erase(i);
+  }
+};
+#else
+typedef Allocator MmapAllocator;
+#endif
+
+class Address;
+class Reg;
+
+class Operand {
+  static const uint8_t EXT8BIT = 0x20;
+  unsigned int idx_ : 6;  // 0..31 + EXT8BIT = 1 if spl/bpl/sil/dil
+  unsigned int kind_ : 10;
+  unsigned int bit_ : 14;
+
+ protected:
+  unsigned int zero_ : 1;
+  unsigned int mask_ : 3;
+  unsigned int rounding_ : 3;
+  void setIdx(int idx) { idx_ = idx; }
+
+ public:
+  enum Kind {
+    NONE = 0,
+    MEM = 1 << 0,
+    REG = 1 << 1,
+    MMX = 1 << 2,
+    FPU = 1 << 3,
+    XMM = 1 << 4,
+    YMM = 1 << 5,
+    ZMM = 1 << 6,
+    OPMASK = 1 << 7,
+    BNDREG = 1 << 8,
+    TMM = 1 << 9
+  };
+  enum Code {
+#ifdef XBYAK64
+    RAX = 0,
+    RCX,
+    RDX,
+    RBX,
+    RSP,
+    RBP,
+    RSI,
+    RDI,
+    R8,
+    R9,
+    R10,
+    R11,
+    R12,
+    R13,
+    R14,
+    R15,
+    R8D = 8,
+    R9D,
+    R10D,
+    R11D,
+    R12D,
+    R13D,
+    R14D,
+    R15D,
+    R8W = 8,
+    R9W,
+    R10W,
+    R11W,
+    R12W,
+    R13W,
+    R14W,
+    R15W,
+    R8B = 8,
+    R9B,
+    R10B,
+    R11B,
+    R12B,
+    R13B,
+    R14B,
+    R15B,
+    SPL = 4,
+    BPL,
+    SIL,
+    DIL,
+#endif
+    EAX = 0,
+    ECX,
+    EDX,
+    EBX,
+    ESP,
+    EBP,
+    ESI,
+    EDI,
+    AX = 0,
+    CX,
+    DX,
+    BX,
+    SP,
+    BP,
+    SI,
+    DI,
+    AL = 0,
+    CL,
+    DL,
+    BL,
+    AH,
+    CH,
+    DH,
+    BH
+  };
+  XBYAK_CONSTEXPR Operand() : idx_(0), kind_(0), bit_(0), zero_(0), mask_(0), rounding_(0) {}
+  XBYAK_CONSTEXPR Operand(int idx, Kind kind, int bit, bool ext8bit = 0)
+      : idx_(static_cast<uint8_t>(idx | (ext8bit ? EXT8BIT : 0))),
+        kind_(kind),
+        bit_(bit),
+        zero_(0),
+        mask_(0),
+        rounding_(0) {
+    assert((bit_ & (bit_ - 1)) == 0);  // bit must be power of two
+  }
+  XBYAK_CONSTEXPR Kind getKind() const { return static_cast<Kind>(kind_); }
+  XBYAK_CONSTEXPR int getIdx() const { return idx_ & (EXT8BIT - 1); }
+  XBYAK_CONSTEXPR bool isNone() const { return kind_ == 0; }
+  XBYAK_CONSTEXPR bool isMMX() const { return is(MMX); }
+  XBYAK_CONSTEXPR bool isXMM() const { return is(XMM); }
+  XBYAK_CONSTEXPR bool isYMM() const { return is(YMM); }
+  XBYAK_CONSTEXPR bool isZMM() const { return is(ZMM); }
+  XBYAK_CONSTEXPR bool isTMM() const { return is(TMM); }
+  XBYAK_CONSTEXPR bool isXMEM() const { return is(XMM | MEM); }
+  XBYAK_CONSTEXPR bool isYMEM() const { return is(YMM | MEM); }
+  XBYAK_CONSTEXPR bool isZMEM() const { return is(ZMM | MEM); }
+  XBYAK_CONSTEXPR bool isOPMASK() const { return is(OPMASK); }
+  XBYAK_CONSTEXPR bool isBNDREG() const { return is(BNDREG); }
+  XBYAK_CONSTEXPR bool isREG(int bit = 0) const { return is(REG, bit); }
+  XBYAK_CONSTEXPR bool isMEM(int bit = 0) const { return is(MEM, bit); }
+  XBYAK_CONSTEXPR bool isFPU() const { return is(FPU); }
+  XBYAK_CONSTEXPR bool isExt8bit() const { return (idx_ & EXT8BIT) != 0; }
+  XBYAK_CONSTEXPR bool isExtIdx() const { return (getIdx() & 8) != 0; }
+  XBYAK_CONSTEXPR bool isExtIdx2() const { return (getIdx() & 16) != 0; }
+  XBYAK_CONSTEXPR bool hasEvex() const { return isZMM() || isExtIdx2() || getOpmaskIdx() || getRounding(); }
+  XBYAK_CONSTEXPR bool hasRex() const { return isExt8bit() || isREG(64) || isExtIdx(); }
+  XBYAK_CONSTEXPR bool hasZero() const { return zero_; }
+  XBYAK_CONSTEXPR int getOpmaskIdx() const { return mask_; }
+  XBYAK_CONSTEXPR int getRounding() const { return rounding_; }
+  void setKind(Kind kind) {
+    if ((kind & (XMM | YMM | ZMM | TMM)) == 0) return;
+    kind_ = kind;
+    bit_ = kind == XMM ? 128 : kind == YMM ? 256 : kind == ZMM ? 512 : 8192;
+  }
+  // err if MMX/FPU/OPMASK/BNDREG
+  void setBit(int bit);
+  void setOpmaskIdx(int idx, bool /*ignore_idx0*/ = true) {
+    if (mask_) XBYAK_THROW(ERR_OPMASK_IS_ALREADY_SET)
+    mask_ = idx;
+  }
+  void setRounding(int idx) {
+    if (rounding_) XBYAK_THROW(ERR_ROUNDING_IS_ALREADY_SET)
+    rounding_ = idx;
+  }
+  void setZero() { zero_ = true; }
+  // ah, ch, dh, bh?
+  bool isHigh8bit() const {
+    if (!isBit(8)) return false;
+    if (isExt8bit()) return false;
+    const int idx = getIdx();
+    return AH <= idx && idx <= BH;
+  }
+  // any bit is accetable if bit == 0
+  XBYAK_CONSTEXPR bool is(int kind, uint32_t bit = 0) const {
+    return (kind == 0 || (kind_ & kind)) && (bit == 0 || (bit_ & bit));  // cf. you can set (8|16)
+  }
+  XBYAK_CONSTEXPR bool isBit(uint32_t bit) const { return (bit_ & bit) != 0; }
+  XBYAK_CONSTEXPR uint32_t getBit() const { return bit_; }
+  const char* toString() const {
+    const int idx = getIdx();
+    if (kind_ == REG) {
+      if (isExt8bit()) {
+        static const char* tbl[4] = {"spl", "bpl", "sil", "dil"};
+        return tbl[idx - 4];
+      }
+      static const char* tbl[4][16] = {
+          {"al", "cl", "dl", "bl", "ah", "ch", "dh", "bh", "r8b", "r9b", "r10b", "r11b", "r12b", "r13b", "r14b",
+           "r15b"},
+          {"ax", "cx", "dx", "bx", "sp", "bp", "si", "di", "r8w", "r9w", "r10w", "r11w", "r12w", "r13w", "r14w",
+           "r15w"},
+          {"eax", "ecx", "edx", "ebx", "esp", "ebp", "esi", "edi", "r8d", "r9d", "r10d", "r11d", "r12d", "r13d", "r14d",
+           "r15d"},
+          {"rax", "rcx", "rdx", "rbx", "rsp", "rbp", "rsi", "rdi", "r8", "r9", "r10", "r11", "r12", "r13", "r14",
+           "r15"},
+      };
+      return tbl[bit_ == 8 ? 0 : bit_ == 16 ? 1 : bit_ == 32 ? 2 : 3][idx];
+    } else if (isOPMASK()) {
+      static const char* tbl[8] = {"k0", "k1", "k2", "k3", "k4", "k5", "k6", "k7"};
+      return tbl[idx];
+    } else if (isTMM()) {
+      static const char* tbl[8] = {"tmm0", "tmm1", "tmm2", "tmm3", "tmm4", "tmm5", "tmm6", "tmm7"};
+      return tbl[idx];
+    } else if (isZMM()) {
+      static const char* tbl[32] = {"zmm0",  "zmm1",  "zmm2",  "zmm3",  "zmm4",  "zmm5",  "zmm6",  "zmm7",
+                                    "zmm8",  "zmm9",  "zmm10", "zmm11", "zmm12", "zmm13", "zmm14", "zmm15",
+                                    "zmm16", "zmm17", "zmm18", "zmm19", "zmm20", "zmm21", "zmm22", "zmm23",
+                                    "zmm24", "zmm25", "zmm26", "zmm27", "zmm28", "zmm29", "zmm30", "zmm31"};
+      return tbl[idx];
+    } else if (isYMM()) {
+      static const char* tbl[32] = {"ymm0",  "ymm1",  "ymm2",  "ymm3",  "ymm4",  "ymm5",  "ymm6",  "ymm7",
+                                    "ymm8",  "ymm9",  "ymm10", "ymm11", "ymm12", "ymm13", "ymm14", "ymm15",
+                                    "ymm16", "ymm17", "ymm18", "ymm19", "ymm20", "ymm21", "ymm22", "ymm23",
+                                    "ymm24", "ymm25", "ymm26", "ymm27", "ymm28", "ymm29", "ymm30", "ymm31"};
+      return tbl[idx];
+    } else if (isXMM()) {
+      static const char* tbl[32] = {"xmm0",  "xmm1",  "xmm2",  "xmm3",  "xmm4",  "xmm5",  "xmm6",  "xmm7",
+                                    "xmm8",  "xmm9",  "xmm10", "xmm11", "xmm12", "xmm13", "xmm14", "xmm15",
+                                    "xmm16", "xmm17", "xmm18", "xmm19", "xmm20", "xmm21", "xmm22", "xmm23",
+                                    "xmm24", "xmm25", "xmm26", "xmm27", "xmm28", "xmm29", "xmm30", "xmm31"};
+      return tbl[idx];
+    } else if (isMMX()) {
+      static const char* tbl[8] = {"mm0", "mm1", "mm2", "mm3", "mm4", "mm5", "mm6", "mm7"};
+      return tbl[idx];
+    } else if (isFPU()) {
+      static const char* tbl[8] = {"st0", "st1", "st2", "st3", "st4", "st5", "st6", "st7"};
+      return tbl[idx];
+    } else if (isBNDREG()) {
+      static const char* tbl[4] = {"bnd0", "bnd1", "bnd2", "bnd3"};
+      return tbl[idx];
+    }
+    XBYAK_THROW_RET(ERR_INTERNAL, 0);
+  }
+  bool isEqualIfNotInherited(const Operand& rhs) const {
+    return idx_ == rhs.idx_ && kind_ == rhs.kind_ && bit_ == rhs.bit_ && zero_ == rhs.zero_ && mask_ == rhs.mask_ &&
+           rounding_ == rhs.rounding_;
+  }
+  bool operator==(const Operand& rhs) const;
+  bool operator!=(const Operand& rhs) const { return !operator==(rhs); }
+  const Address& getAddress() const;
+  const Reg& getReg() const;
+};
+
+inline void Operand::setBit(int bit) {
+  if (bit != 8 && bit != 16 && bit != 32 && bit != 64 && bit != 128 && bit != 256 && bit != 512 && bit != 8192)
+    goto ERR;
+  if (isBit(bit)) return;
+  if (is(MEM | OPMASK)) {
+    bit_ = bit;
+    return;
+  }
+  if (is(REG | XMM | YMM | ZMM | TMM)) {
+    int idx = getIdx();
+    // err if converting ah, bh, ch, dh
+    if (isREG(8) && (4 <= idx && idx < 8) && !isExt8bit()) goto ERR;
+    Kind kind = REG;
+    switch (bit) {
+      case 8:
+        if (idx >= 16) goto ERR;
+#ifdef XBYAK32
+        if (idx >= 4) goto ERR;
+#else
+        if (4 <= idx && idx < 8) idx |= EXT8BIT;
+#endif
+        break;
+      case 16:
+      case 32:
+      case 64:
+        if (idx >= 16) goto ERR;
+        break;
+      case 128:
+        kind = XMM;
+        break;
+      case 256:
+        kind = YMM;
+        break;
+      case 512:
+        kind = ZMM;
+        break;
+      case 8192:
+        kind = TMM;
+        break;
+    }
+    idx_ = idx;
+    kind_ = kind;
+    bit_ = bit;
+    if (bit >= 128) return;  // keep mask_ and rounding_
+    mask_ = 0;
+    rounding_ = 0;
+    return;
+  }
+ERR:
+  XBYAK_THROW(ERR_CANT_CONVERT)
+}
+
+class Label;
+
+struct Reg8;
+struct Reg16;
+struct Reg32;
+#ifdef XBYAK64
+struct Reg64;
+#endif
+class Reg : public Operand {
+ public:
+  XBYAK_CONSTEXPR Reg() {}
+  XBYAK_CONSTEXPR Reg(int idx, Kind kind, int bit = 0, bool ext8bit = false) : Operand(idx, kind, bit, ext8bit) {}
+  // convert to Reg8/Reg16/Reg32/Reg64/XMM/YMM/ZMM
+  Reg changeBit(int bit) const {
+    Reg r(*this);
+    r.setBit(bit);
+    return r;
+  }
+  uint8_t getRexW() const { return isREG(64) ? 8 : 0; }
+  uint8_t getRexR() const { return isExtIdx() ? 4 : 0; }
+  uint8_t getRexX() const { return isExtIdx() ? 2 : 0; }
+  uint8_t getRexB() const { return isExtIdx() ? 1 : 0; }
+  uint8_t getRex(const Reg& base = Reg()) const {
+    uint8_t rex = getRexW() | getRexR() | base.getRexW() | base.getRexB();
+    if (rex || isExt8bit() || base.isExt8bit()) rex |= 0x40;
+    return rex;
+  }
+  Reg8 cvt8() const;
+  Reg16 cvt16() const;
+  Reg32 cvt32() const;
+#ifdef XBYAK64
+  Reg64 cvt64() const;
+#endif
+};
+
+inline const Reg& Operand::getReg() const {
+  assert(!isMEM());
+  return static_cast<const Reg&>(*this);
+}
+
+struct Reg8 : public Reg {
+  explicit XBYAK_CONSTEXPR Reg8(int idx = 0, bool ext8bit = false) : Reg(idx, Operand::REG, 8, ext8bit) {}
+};
+
+struct Reg16 : public Reg {
+  explicit XBYAK_CONSTEXPR Reg16(int idx = 0) : Reg(idx, Operand::REG, 16) {}
+};
+
+struct Mmx : public Reg {
+  explicit XBYAK_CONSTEXPR Mmx(int idx = 0, Kind kind = Operand::MMX, int bit = 64) : Reg(idx, kind, bit) {}
+};
+
+struct EvexModifierRounding {
+  enum { T_RN_SAE = 1, T_RD_SAE = 2, T_RU_SAE = 3, T_RZ_SAE = 4, T_SAE = 5 };
+  explicit XBYAK_CONSTEXPR EvexModifierRounding(int rounding) : rounding(rounding) {}
+  int rounding;
+};
+struct EvexModifierZero {
+  XBYAK_CONSTEXPR EvexModifierZero() {}
+};
+
+struct Xmm : public Mmx {
+  explicit XBYAK_CONSTEXPR Xmm(int idx = 0, Kind kind = Operand::XMM, int bit = 128) : Mmx(idx, kind, bit) {}
+  XBYAK_CONSTEXPR Xmm(Kind kind, int idx) : Mmx(idx, kind, kind == XMM ? 128 : kind == YMM ? 256 : 512) {}
+  Xmm operator|(const EvexModifierRounding& emr) const {
+    Xmm r(*this);
+    r.setRounding(emr.rounding);
+    return r;
+  }
+  Xmm copyAndSetIdx(int idx) const {
+    Xmm ret(*this);
+    ret.setIdx(idx);
+    return ret;
+  }
+  Xmm copyAndSetKind(Operand::Kind kind) const {
+    Xmm ret(*this);
+    ret.setKind(kind);
+    return ret;
+  }
+};
+
+struct Ymm : public Xmm {
+  explicit XBYAK_CONSTEXPR Ymm(int idx = 0, Kind kind = Operand::YMM, int bit = 256) : Xmm(idx, kind, bit) {}
+  Ymm operator|(const EvexModifierRounding& emr) const {
+    Ymm r(*this);
+    r.setRounding(emr.rounding);
+    return r;
+  }
+};
+
+struct Zmm : public Ymm {
+  explicit XBYAK_CONSTEXPR Zmm(int idx = 0) : Ymm(idx, Operand::ZMM, 512) {}
+  Zmm operator|(const EvexModifierRounding& emr) const {
+    Zmm r(*this);
+    r.setRounding(emr.rounding);
+    return r;
+  }
+};
+
+#ifdef XBYAK64
+struct Tmm : public Reg {
+  explicit XBYAK_CONSTEXPR Tmm(int idx = 0, Kind kind = Operand::TMM, int bit = 8192) : Reg(idx, kind, bit) {}
+};
+#endif
+
+struct Opmask : public Reg {
+  explicit XBYAK_CONSTEXPR Opmask(int idx = 0) : Reg(idx, Operand::OPMASK, 64) {}
+};
+
+struct BoundsReg : public Reg {
+  explicit XBYAK_CONSTEXPR BoundsReg(int idx = 0) : Reg(idx, Operand::BNDREG, 128) {}
+};
+
+template <class T>
+T operator|(const T& x, const Opmask& k) {
+  T r(x);
+  r.setOpmaskIdx(k.getIdx());
+  return r;
+}
+template <class T>
+T operator|(const T& x, const EvexModifierZero&) {
+  T r(x);
+  r.setZero();
+  return r;
+}
+template <class T>
+T operator|(const T& x, const EvexModifierRounding& emr) {
+  T r(x);
+  r.setRounding(emr.rounding);
+  return r;
+}
+
+struct Fpu : public Reg {
+  explicit XBYAK_CONSTEXPR Fpu(int idx = 0) : Reg(idx, Operand::FPU, 32) {}
+};
+
+struct Reg32e : public Reg {
+  explicit XBYAK_CONSTEXPR Reg32e(int idx, int bit) : Reg(idx, Operand::REG, bit) {}
+};
+struct Reg32 : public Reg32e {
+  explicit XBYAK_CONSTEXPR Reg32(int idx = 0) : Reg32e(idx, 32) {}
+};
+#ifdef XBYAK64
+struct Reg64 : public Reg32e {
+  explicit XBYAK_CONSTEXPR Reg64(int idx = 0) : Reg32e(idx, 64) {}
+};
+struct RegRip {
+  int64_t disp_;
+  const Label* label_;
+  bool isAddr_;
+  explicit XBYAK_CONSTEXPR RegRip(int64_t disp = 0, const Label* label = 0, bool isAddr = false)
+      : disp_(disp), label_(label), isAddr_(isAddr) {}
+  friend const RegRip operator+(const RegRip& r, int disp) { return RegRip(r.disp_ + disp, r.label_, r.isAddr_); }
+  friend const RegRip operator-(const RegRip& r, int disp) { return RegRip(r.disp_ - disp, r.label_, r.isAddr_); }
+  friend const RegRip operator+(const RegRip& r, int64_t disp) { return RegRip(r.disp_ + disp, r.label_, r.isAddr_); }
+  friend const RegRip operator-(const RegRip& r, int64_t disp) { return RegRip(r.disp_ - disp, r.label_, r.isAddr_); }
+  friend const RegRip operator+(const RegRip& r, const Label& label) {
+    if (r.label_ || r.isAddr_) XBYAK_THROW_RET(ERR_BAD_ADDRESSING, RegRip());
+    return RegRip(r.disp_, &label);
+  }
+  friend const RegRip operator+(const RegRip& r, const void* addr) {
+    if (r.label_ || r.isAddr_) XBYAK_THROW_RET(ERR_BAD_ADDRESSING, RegRip());
+    return RegRip(r.disp_ + (int64_t)addr, 0, true);
+  }
+};
+#endif
+
+inline Reg8 Reg::cvt8() const {
+  Reg r = changeBit(8);
+  return Reg8(r.getIdx(), r.isExt8bit());
+}
+
+inline Reg16 Reg::cvt16() const { return Reg16(changeBit(16).getIdx()); }
+
+inline Reg32 Reg::cvt32() const { return Reg32(changeBit(32).getIdx()); }
+
+#ifdef XBYAK64
+inline Reg64 Reg::cvt64() const { return Reg64(changeBit(64).getIdx()); }
+#endif
+
+#ifndef XBYAK_DISABLE_SEGMENT
+// not derived from Reg
+class Segment {
+  int idx_;
+
+ public:
+  enum { es, cs, ss, ds, fs, gs };
+  explicit XBYAK_CONSTEXPR Segment(int idx) : idx_(idx) { assert(0 <= idx_ && idx_ < 6); }
+  int getIdx() const { return idx_; }
+  const char* toString() const {
+    static const char tbl[][3] = {"es", "cs", "ss", "ds", "fs", "gs"};
+    return tbl[idx_];
+  }
+};
+#endif
+
+class RegExp {
+ public:
+#ifdef XBYAK64
+  enum { i32e = 32 | 64 };
+#else
+  enum { i32e = 32 };
+#endif
+  XBYAK_CONSTEXPR RegExp(size_t disp = 0) : scale_(0), disp_(disp) {}
+  XBYAK_CONSTEXPR RegExp(const Reg& r, int scale = 1) : scale_(scale), disp_(0) {
+    if (!r.isREG(i32e) && !r.is(Reg::XMM | Reg::YMM | Reg::ZMM | Reg::TMM)) XBYAK_THROW(ERR_BAD_SIZE_OF_REGISTER)
+    if (scale == 0) return;
+    if (scale != 1 && scale != 2 && scale != 4 && scale != 8) XBYAK_THROW(ERR_BAD_SCALE)
+    if (r.getBit() >= 128 || scale != 1) {  // xmm/ymm is always index
+      index_ = r;
+    } else {
+      base_ = r;
+    }
+  }
+  bool isVsib(int bit = 128 | 256 | 512) const { return index_.isBit(bit); }
+  RegExp optimize() const {
+    RegExp exp = *this;
+    // [reg * 2] => [reg + reg]
+    if (index_.isBit(i32e) && !base_.getBit() && scale_ == 2) {
+      exp.base_ = index_;
+      exp.scale_ = 1;
+    }
+    return exp;
+  }
+  bool operator==(const RegExp& rhs) const {
+    return base_ == rhs.base_ && index_ == rhs.index_ && disp_ == rhs.disp_ && scale_ == rhs.scale_;
+  }
+  const Reg& getBase() const { return base_; }
+  const Reg& getIndex() const { return index_; }
+  int getScale() const { return scale_; }
+  size_t getDisp() const { return disp_; }
+  XBYAK_CONSTEXPR void verify() const {
+    if (base_.getBit() >= 128) XBYAK_THROW(ERR_BAD_SIZE_OF_REGISTER)
+    if (index_.getBit() && index_.getBit() <= 64) {
+      if (index_.getIdx() == Operand::ESP) XBYAK_THROW(ERR_ESP_CANT_BE_INDEX)
+      if (base_.getBit() && base_.getBit() != index_.getBit()) XBYAK_THROW(ERR_BAD_SIZE_OF_REGISTER)
+    }
+  }
+  friend RegExp operator+(const RegExp& a, const RegExp& b);
+  friend RegExp operator-(const RegExp& e, size_t disp);
+  uint8_t getRex() const {
+    uint8_t rex = index_.getRexX() | base_.getRexB();
+    return rex ? uint8_t(rex | 0x40) : 0;
+  }
+
+ private:
+  /*
+          [base_ + index_ * scale_ + disp_]
+          base : Reg32e, index : Reg32e(w/o esp), Xmm, Ymm
+  */
+  Reg base_;
+  Reg index_;
+  int scale_;
+  size_t disp_;
+};
+
+inline RegExp operator+(const RegExp& a, const RegExp& b) {
+  if (a.index_.getBit() && b.index_.getBit()) XBYAK_THROW_RET(ERR_BAD_ADDRESSING, RegExp())
+  RegExp ret = a;
+  if (!ret.index_.getBit()) {
+    ret.index_ = b.index_;
+    ret.scale_ = b.scale_;
+  }
+  if (b.base_.getBit()) {
+    if (ret.base_.getBit()) {
+      if (ret.index_.getBit()) XBYAK_THROW_RET(ERR_BAD_ADDRESSING, RegExp())
+      // base + base => base + index * 1
+      ret.index_ = b.base_;
+      // [reg + esp] => [esp + reg]
+      if (ret.index_.getIdx() == Operand::ESP) std::swap(ret.base_, ret.index_);
+      ret.scale_ = 1;
+    } else {
+      ret.base_ = b.base_;
+    }
+  }
+  ret.disp_ += b.disp_;
+  return ret;
+}
+inline RegExp operator*(const Reg& r, int scale) { return RegExp(r, scale); }
+inline RegExp operator*(int scale, const Reg& r) { return r * scale; }
+inline RegExp operator-(const RegExp& e, size_t disp) {
+  RegExp ret = e;
+  ret.disp_ -= disp;
+  return ret;
+}
+
+// 2nd parameter for constructor of CodeArray(maxSize, userPtr, alloc)
+void* const AutoGrow = (void*)1;           //-V566
+void* const DontSetProtectRWE = (void*)2;  //-V566
+
+class CodeArray {
+  enum Type {
+    USER_BUF = 1,  // use userPtr(non alignment, non protect)
+    ALLOC_BUF,     // use new(alignment, protect)
+    AUTO_GROW      // automatically move and grow memory if necessary
+  };
+  CodeArray(const CodeArray& rhs);
+  void operator=(const CodeArray&);
+  bool isAllocType() const { return type_ == ALLOC_BUF || type_ == AUTO_GROW; }
+  struct AddrInfo {
+    size_t codeOffset;  // position to write
+    size_t jmpAddr;     // value to write
+    int jmpSize;        // size of jmpAddr
+    inner::LabelMode mode;
+    AddrInfo(size_t _codeOffset, size_t _jmpAddr, int _jmpSize, inner::LabelMode _mode)
+        : codeOffset(_codeOffset), jmpAddr(_jmpAddr), jmpSize(_jmpSize), mode(_mode) {}
+    uint64_t getVal(const uint8_t* top) const {
+      uint64_t disp = (mode == inner::LaddTop) ? jmpAddr + size_t(top)
+                      : (mode == inner::LasIs) ? jmpAddr
+                                               : jmpAddr - size_t(top);
+      if (jmpSize == 4) disp = inner::VerifyInInt32(disp);
+      return disp;
+    }
+  };
+  typedef std::list<AddrInfo> AddrInfoList;
+  AddrInfoList addrInfoList_;
+  const Type type_;
+#ifdef XBYAK_USE_MMAP_ALLOCATOR
+  MmapAllocator defaultAllocator_;
+#else
+  Allocator defaultAllocator_;
+#endif
+  Allocator* alloc_;
+
+ protected:
+  size_t maxSize_;
+  uint8_t* top_;
+  size_t size_;
+  bool isCalledCalcJmpAddress_;
+
+  bool useProtect() const { return alloc_->useProtect(); }
+  /*
+          allocate new memory and copy old data to the new area
+  */
+  void growMemory() {
+    const size_t newSize = (std::max<size_t>)(DEFAULT_MAX_CODE_SIZE, maxSize_ * 2);
+    uint8_t* newTop = alloc_->alloc(newSize);
+    if (newTop == 0) XBYAK_THROW(ERR_CANT_ALLOC)
+    for (size_t i = 0; i < size_; i++) newTop[i] = top_[i];
+    alloc_->free(top_);
+    top_ = newTop;
+    maxSize_ = newSize;
+  }
+  /*
+          calc jmp address for AutoGrow mode
+  */
+  void calcJmpAddress() {
+    if (isCalledCalcJmpAddress_) return;
+    for (AddrInfoList::const_iterator i = addrInfoList_.begin(), ie = addrInfoList_.end(); i != ie; ++i) {
+      uint64_t disp = i->getVal(top_);
+      rewrite(i->codeOffset, disp, i->jmpSize);
+    }
+    isCalledCalcJmpAddress_ = true;
+  }
+
+ public:
+  enum ProtectMode {
+    PROTECT_RW = 0,   // read/write
+    PROTECT_RWE = 1,  // read/write/exec
+    PROTECT_RE = 2    // read/exec
+  };
+  explicit CodeArray(size_t maxSize, void* userPtr = 0, Allocator* allocator = 0)
+      : type_(userPtr == AutoGrow                              ? AUTO_GROW
+              : (userPtr == 0 || userPtr == DontSetProtectRWE) ? ALLOC_BUF
+                                                               : USER_BUF),
+        alloc_(allocator ? allocator : (Allocator*)&defaultAllocator_),
+        maxSize_(maxSize),
+        top_(type_ == USER_BUF ? reinterpret_cast<uint8_t*>(userPtr) : alloc_->alloc((std::max<size_t>)(maxSize, 1))),
+        size_(0),
+        isCalledCalcJmpAddress_(false) {
+    if (maxSize_ > 0 && top_ == 0) XBYAK_THROW(ERR_CANT_ALLOC)
+    if ((type_ == ALLOC_BUF && userPtr != DontSetProtectRWE && useProtect()) && !setProtectMode(PROTECT_RWE, false)) {
+      alloc_->free(top_);
+      XBYAK_THROW(ERR_CANT_PROTECT)
+    }
+  }
+  virtual ~CodeArray() {
+    if (isAllocType()) {
+      if (useProtect()) setProtectModeRW(false);
+      alloc_->free(top_);
+    }
+  }
+  bool setProtectMode(ProtectMode mode, bool throwException = true) {
+    bool isOK = protect(top_, maxSize_, mode);
+    if (isOK) return true;
+    if (throwException) XBYAK_THROW_RET(ERR_CANT_PROTECT, false)
+    return false;
+  }
+  bool setProtectModeRE(bool throwException = true) { return setProtectMode(PROTECT_RE, throwException); }
+  bool setProtectModeRW(bool throwException = true) { return setProtectMode(PROTECT_RW, throwException); }
+  void resetSize() {
+    size_ = 0;
+    addrInfoList_.clear();
+    isCalledCalcJmpAddress_ = false;
+  }
+  void db(int code) {
+    if (size_ >= maxSize_) {
+      if (type_ == AUTO_GROW) {
+        growMemory();
+      } else {
+        XBYAK_THROW(ERR_CODE_IS_TOO_BIG)
+      }
+    }
+    top_[size_++] = static_cast<uint8_t>(code);
+  }
+  void db(const uint8_t* code, size_t codeSize) {
+    for (size_t i = 0; i < codeSize; i++) db(code[i]);
+  }
+  void db(uint64_t code, size_t codeSize) {
+    if (codeSize > 8) XBYAK_THROW(ERR_BAD_PARAMETER)
+    for (size_t i = 0; i < codeSize; i++) db(static_cast<uint8_t>(code >> (i * 8)));
+  }
+  void dw(uint32_t code) { db(code, 2); }
+  void dd(uint32_t code) { db(code, 4); }
+  void dq(uint64_t code) { db(code, 8); }
+  const uint8_t* getCode() const { return top_; }
+  template <class F>
+  const F getCode() const {
+    return reinterpret_cast<F>(top_);
+  }
+  const uint8_t* getCurr() const { return &top_[size_]; }
+  template <class F>
+  const F getCurr() const {
+    return reinterpret_cast<F>(&top_[size_]);
+  }
+  size_t getSize() const { return size_; }
+  void setSize(size_t size) {
+    if (size > maxSize_) XBYAK_THROW(ERR_OFFSET_IS_TOO_BIG)
+    size_ = size;
+  }
+  void dump() const {
+    const uint8_t* p = getCode();
+    size_t bufSize = getSize();
+    size_t remain = bufSize;
+    for (int i = 0; i < 4; i++) {
+      size_t disp = 16;
+      if (remain < 16) {
+        disp = remain;
+      }
+      for (size_t j = 0; j < 16; j++) {
+        if (j < disp) {
+          printf("%02X", p[i * 16 + j]);
+        }
+      }
+      putchar('\n');
+      remain -= disp;
+      if (remain == 0) {
+        break;
+      }
+    }
+  }
+  /*
+          @param offset [in] offset from top
+          @param disp [in] offset from the next of jmp
+          @param size [in] write size(1, 2, 4, 8)
+  */
+  void rewrite(size_t offset, uint64_t disp, size_t size) {
+    assert(offset < maxSize_);
+    if (size != 1 && size != 2 && size != 4 && size != 8) XBYAK_THROW(ERR_BAD_PARAMETER)
+    uint8_t* const data = top_ + offset;
+    for (size_t i = 0; i < size; i++) {
+      data[i] = static_cast<uint8_t>(disp >> (i * 8));
+    }
+  }
+  void save(size_t offset, size_t val, int size, inner::LabelMode mode) {
+    addrInfoList_.push_back(AddrInfo(offset, val, size, mode));
+  }
+  bool isAutoGrow() const { return type_ == AUTO_GROW; }
+  bool isCalledCalcJmpAddress() const { return isCalledCalcJmpAddress_; }
+  /**
+          change exec permission of memory
+          @param addr [in] buffer address
+          @param size [in] buffer size
+          @param protectMode [in] mode(RW/RWE/RE)
+          @return true(success), false(failure)
+  */
+  static inline bool protect(const void* addr, size_t size, int protectMode) {
+#if defined(_WIN32)
+    const DWORD c_rw = PAGE_READWRITE;
+    const DWORD c_rwe = PAGE_EXECUTE_READWRITE;
+    const DWORD c_re = PAGE_EXECUTE_READ;
+    DWORD mode;
+#else
+    const int c_rw = PROT_READ | PROT_WRITE;
+    const int c_rwe = PROT_READ | PROT_WRITE | PROT_EXEC;
+    const int c_re = PROT_READ | PROT_EXEC;
+    int mode;
+#endif
+    switch (protectMode) {
+      case PROTECT_RW:
+        mode = c_rw;
+        break;
+      case PROTECT_RWE:
+        mode = c_rwe;
+        break;
+      case PROTECT_RE:
+        mode = c_re;
+        break;
+      default:
+        return false;
+    }
+#if defined(_WIN32)
+    DWORD oldProtect;
+    return VirtualProtect(const_cast<void*>(addr), size, mode, &oldProtect) != 0;
+#elif defined(__GNUC__)
+    size_t pageSize = sysconf(_SC_PAGESIZE);
+    size_t iaddr = reinterpret_cast<size_t>(addr);
+    size_t roundAddr = iaddr & ~(pageSize - static_cast<size_t>(1));
+    return mprotect(reinterpret_cast<void*>(roundAddr), size + (iaddr - roundAddr), mode) == 0;
+#else
+    return true;
+#endif
+  }
+  /**
+          get aligned memory pointer
+          @param addr [in] address
+          @param alignedSize [in] power of two
+          @return aligned addr by alingedSize
+  */
+  static inline uint8_t* getAlignedAddress(uint8_t* addr, size_t alignedSize = 16) {
+    return reinterpret_cast<uint8_t*>((reinterpret_cast<size_t>(addr) + alignedSize - 1) &
+                                      ~(alignedSize - static_cast<size_t>(1)));
+  }
+};
+
+class Address : public Operand {
+ public:
+  enum Mode { M_ModRM, M_64bitDisp, M_rip, M_ripAddr };
+  XBYAK_CONSTEXPR Address(uint32_t sizeBit, bool broadcast, const RegExp& e)
+      : Operand(0, MEM, sizeBit), e_(e), label_(0), mode_(M_ModRM), broadcast_(broadcast) {
+    e_.verify();
+  }
+#ifdef XBYAK64
+  explicit XBYAK_CONSTEXPR Address(size_t disp)
+      : Operand(0, MEM, 64), e_(disp), label_(0), mode_(M_64bitDisp), broadcast_(false) {}
+  XBYAK_CONSTEXPR Address(uint32_t sizeBit, bool broadcast, const RegRip& addr)
+      : Operand(0, MEM, sizeBit),
+        e_(addr.disp_),
+        label_(addr.label_),
+        mode_(addr.isAddr_ ? M_ripAddr : M_rip),
+        broadcast_(broadcast) {}
+#endif
+  RegExp getRegExp(bool optimize = true) const { return optimize ? e_.optimize() : e_; }
+  Mode getMode() const { return mode_; }
+  bool is32bit() const { return e_.getBase().getBit() == 32 || e_.getIndex().getBit() == 32; }
+  bool isOnlyDisp() const { return !e_.getBase().getBit() && !e_.getIndex().getBit(); }  // for mov eax
+  size_t getDisp() const { return e_.getDisp(); }
+  uint8_t getRex() const {
+    if (mode_ != M_ModRM) return 0;
+    return getRegExp().getRex();
+  }
+  bool is64bitDisp() const { return mode_ == M_64bitDisp; }  // for moffset
+  bool isBroadcast() const { return broadcast_; }
+  const Label* getLabel() const { return label_; }
+  bool operator==(const Address& rhs) const {
+    return getBit() == rhs.getBit() && e_ == rhs.e_ && label_ == rhs.label_ && mode_ == rhs.mode_ &&
+           broadcast_ == rhs.broadcast_;
+  }
+  bool operator!=(const Address& rhs) const { return !operator==(rhs); }
+  bool isVsib() const { return e_.isVsib(); }
+
+ private:
+  RegExp e_;
+  const Label* label_;
+  Mode mode_;
+  bool broadcast_;
+};
+
+inline const Address& Operand::getAddress() const {
+  assert(isMEM());
+  return static_cast<const Address&>(*this);
+}
+
+inline bool Operand::operator==(const Operand& rhs) const {
+  if (isMEM() && rhs.isMEM()) return this->getAddress() == rhs.getAddress();
+  return isEqualIfNotInherited(rhs);
+}
+
+class AddressFrame {
+  void operator=(const AddressFrame&);
+  AddressFrame(const AddressFrame&);
+
+ public:
+  const uint32_t bit_;
+  const bool broadcast_;
+  explicit XBYAK_CONSTEXPR AddressFrame(uint32_t bit, bool broadcast = false) : bit_(bit), broadcast_(broadcast) {}
+  Address operator[](const RegExp& e) const { return Address(bit_, broadcast_, e); }
+  Address operator[](const void* disp) const {
+    return Address(bit_, broadcast_, RegExp(reinterpret_cast<size_t>(disp)));
+  }
+#ifdef XBYAK64
+  Address operator[](uint64_t disp) const { return Address(disp); }
+  Address operator[](const RegRip& addr) const { return Address(bit_, broadcast_, addr); }
+#endif
+};
+
+struct JmpLabel {
+  size_t endOfJmp; /* offset from top to the end address of jmp */
+  int jmpSize;
+  inner::LabelMode mode;
+  size_t disp;  // disp for [rip + disp]
+  explicit JmpLabel(size_t endOfJmp = 0, int jmpSize = 0, inner::LabelMode mode = inner::LasIs, size_t disp = 0)
+      : endOfJmp(endOfJmp), jmpSize(jmpSize), mode(mode), disp(disp) {}
+};
+
+class LabelManager;
+
+class Label {
+  mutable LabelManager* mgr;
+  mutable int id;
+  friend class LabelManager;
+
+ public:
+  Label() : mgr(0), id(0) {}
+  Label(const Label& rhs);
+  Label& operator=(const Label& rhs);
+  ~Label();
+  void clear() {
+    mgr = 0;
+    id = 0;
+  }
+  int getId() const { return id; }
+  const uint8_t* getAddress() const;
+
+  // backward compatibility
+  static inline std::string toStr(int num) {
+    char buf[16];
+#if defined(_MSC_VER) && (_MSC_VER < 1900)
+    _snprintf_s
+#else
+    snprintf
+#endif
+        (buf, sizeof(buf), ".%08x", num);
+    return buf;
+  }
+};
+
+class LabelManager {
+  // for string label
+  struct SlabelVal {
+    size_t offset;
+    SlabelVal(size_t offset) : offset(offset) {}
+  };
+  typedef XBYAK_STD_UNORDERED_MAP<std::string, SlabelVal> SlabelDefList;
+  typedef XBYAK_STD_UNORDERED_MULTIMAP<std::string, const JmpLabel> SlabelUndefList;
+  struct SlabelState {
+    SlabelDefList defList;
+    SlabelUndefList undefList;
+  };
+  typedef std::list<SlabelState> StateList;
+  // for Label class
+  struct ClabelVal {
+    ClabelVal(size_t offset = 0) : offset(offset), refCount(1) {}
+    size_t offset;
+    int refCount;
+  };
+  typedef XBYAK_STD_UNORDERED_MAP<int, ClabelVal> ClabelDefList;
+  typedef XBYAK_STD_UNORDERED_MULTIMAP<int, const JmpLabel> ClabelUndefList;
+  typedef XBYAK_STD_UNORDERED_SET<Label*> LabelPtrList;
+
+  CodeArray* base_;
+  // global : stateList_.front(), local : stateList_.back()
+  StateList stateList_;
+  mutable int labelId_;
+  ClabelDefList clabelDefList_;
+  ClabelUndefList clabelUndefList_;
+  LabelPtrList labelPtrList_;
+
+  int getId(const Label& label) const {
+    if (label.id == 0) label.id = labelId_++;
+    return label.id;
+  }
+  template <class DefList, class UndefList, class T>
+  void define_inner(DefList& defList, UndefList& undefList, const T& labelId, size_t addrOffset) {
+    // add label
+    typename DefList::value_type item(labelId, addrOffset);
+    std::pair<typename DefList::iterator, bool> ret = defList.insert(item);
+    if (!ret.second) XBYAK_THROW(ERR_LABEL_IS_REDEFINED)
+    // search undefined label
+    for (;;) {
+      typename UndefList::iterator itr = undefList.find(labelId);
+      if (itr == undefList.end()) break;
+      const JmpLabel* jmp = &itr->second;
+      const size_t offset = jmp->endOfJmp - jmp->jmpSize;
+      size_t disp;
+      if (jmp->mode == inner::LaddTop) {
+        disp = addrOffset;
+      } else if (jmp->mode == inner::Labs) {
+        disp = size_t(base_->getCurr());
+      } else {
+        disp = addrOffset - jmp->endOfJmp + jmp->disp;
+#ifdef XBYAK64
+        if (jmp->jmpSize <= 4 && !inner::IsInInt32(disp)) XBYAK_THROW(ERR_OFFSET_IS_TOO_BIG)
+#endif
+        if (jmp->jmpSize == 1 && !inner::IsInDisp8((uint32_t)disp)) XBYAK_THROW(ERR_LABEL_IS_TOO_FAR)
+      }
+      if (base_->isAutoGrow()) {
+        base_->save(offset, disp, jmp->jmpSize, jmp->mode);
+      } else {
+        base_->rewrite(offset, disp, jmp->jmpSize);
+      }
+      undefList.erase(itr);
+    }
+  }
+  template <class DefList, class T>
+  bool getOffset_inner(const DefList& defList, size_t* offset, const T& label) const {
+    typename DefList::const_iterator i = defList.find(label);
+    if (i == defList.end()) return false;
+    *offset = i->second.offset;
+    return true;
+  }
+  friend class Label;
+  void incRefCount(int id, Label* label) {
+    clabelDefList_[id].refCount++;
+    labelPtrList_.insert(label);
+  }
+  void decRefCount(int id, Label* label) {
+    labelPtrList_.erase(label);
+    ClabelDefList::iterator i = clabelDefList_.find(id);
+    if (i == clabelDefList_.end()) return;
+    if (i->second.refCount == 1) {
+      clabelDefList_.erase(id);
+    } else {
+      --i->second.refCount;
+    }
+  }
+  template <class T>
+  bool hasUndefinedLabel_inner(const T& list) const {
+#ifndef NDEBUG
+    for (typename T::const_iterator i = list.begin(); i != list.end(); ++i) {
+      std::cerr << "undefined label:" << i->first << std::endl;
+    }
+#endif
+    return !list.empty();
+  }
+  // detach all labels linked to LabelManager
+  void resetLabelPtrList() {
+    for (LabelPtrList::iterator i = labelPtrList_.begin(), ie = labelPtrList_.end(); i != ie; ++i) {
+      (*i)->clear();
+    }
+    labelPtrList_.clear();
+  }
+
+ public:
+  LabelManager() { reset(); }
+  ~LabelManager() { resetLabelPtrList(); }
+  void reset() {
+    base_ = 0;
+    labelId_ = 1;
+    stateList_.clear();
+    stateList_.push_back(SlabelState());
+    stateList_.push_back(SlabelState());
+    clabelDefList_.clear();
+    clabelUndefList_.clear();
+    resetLabelPtrList();
+  }
+  void enterLocal() { stateList_.push_back(SlabelState()); }
+  void leaveLocal() {
+    if (stateList_.size() <= 2) XBYAK_THROW(ERR_UNDER_LOCAL_LABEL)
+    if (hasUndefinedLabel_inner(stateList_.back().undefList)) XBYAK_THROW(ERR_LABEL_IS_NOT_FOUND)
+    stateList_.pop_back();
+  }
+  void set(CodeArray* base) { base_ = base; }
+  void defineSlabel(std::string label) {
+    if (label == "@b" || label == "@f") XBYAK_THROW(ERR_BAD_LABEL_STR)
+    if (label == "@@") {
+      SlabelDefList& defList = stateList_.front().defList;
+      SlabelDefList::iterator i = defList.find("@f");
+      if (i != defList.end()) {
+        defList.erase(i);
+        label = "@b";
+      } else {
+        i = defList.find("@b");
+        if (i != defList.end()) {
+          defList.erase(i);
+        }
+        label = "@f";
+      }
+    }
+    SlabelState& st = *label.c_str() == '.' ? stateList_.back() : stateList_.front();
+    define_inner(st.defList, st.undefList, label, base_->getSize());
+  }
+  void defineClabel(Label& label) {
+    define_inner(clabelDefList_, clabelUndefList_, getId(label), base_->getSize());
+    label.mgr = this;
+    labelPtrList_.insert(&label);
+  }
+  void assign(Label& dst, const Label& src) {
+    ClabelDefList::const_iterator i = clabelDefList_.find(src.id);
+    if (i == clabelDefList_.end()) XBYAK_THROW(ERR_LABEL_ISNOT_SET_BY_L)
+    define_inner(clabelDefList_, clabelUndefList_, dst.id, i->second.offset);
+    dst.mgr = this;
+    labelPtrList_.insert(&dst);
+  }
+  bool getOffset(size_t* offset, std::string& label) const {
+    const SlabelDefList& defList = stateList_.front().defList;
+    if (label == "@b") {
+      if (defList.find("@f") != defList.end()) {
+        label = "@f";
+      } else if (defList.find("@b") == defList.end()) {
+        XBYAK_THROW_RET(ERR_LABEL_IS_NOT_FOUND, false)
+      }
+    } else if (label == "@f") {
+      if (defList.find("@f") != defList.end()) {
+        label = "@b";
+      }
+    }
+    const SlabelState& st = *label.c_str() == '.' ? stateList_.back() : stateList_.front();
+    return getOffset_inner(st.defList, offset, label);
+  }
+  bool getOffset(size_t* offset, const Label& label) const {
+    return getOffset_inner(clabelDefList_, offset, getId(label));
+  }
+  void addUndefinedLabel(const std::string& label, const JmpLabel& jmp) {
+    SlabelState& st = *label.c_str() == '.' ? stateList_.back() : stateList_.front();
+    st.undefList.insert(SlabelUndefList::value_type(label, jmp));
+  }
+  void addUndefinedLabel(const Label& label, const JmpLabel& jmp) {
+    clabelUndefList_.insert(ClabelUndefList::value_type(label.id, jmp));
+  }
+  bool hasUndefSlabel() const {
+    for (StateList::const_iterator i = stateList_.begin(), ie = stateList_.end(); i != ie; ++i) {
+      if (hasUndefinedLabel_inner(i->undefList)) return true;
+    }
+    return false;
+  }
+  bool hasUndefClabel() const { return hasUndefinedLabel_inner(clabelUndefList_); }
+  const uint8_t* getCode() const { return base_->getCode(); }
+  bool isReady() const { return !base_->isAutoGrow() || base_->isCalledCalcJmpAddress(); }
+};
+
+inline Label::Label(const Label& rhs) {
+  id = rhs.id;
+  mgr = rhs.mgr;
+  if (mgr) mgr->incRefCount(id, this);
+}
+inline Label& Label::operator=(const Label& rhs) {
+  if (id) XBYAK_THROW_RET(ERR_LABEL_IS_ALREADY_SET_BY_L, *this)
+  id = rhs.id;
+  mgr = rhs.mgr;
+  if (mgr) mgr->incRefCount(id, this);
+  return *this;
+}
+inline Label::~Label() {
+  if (id && mgr) mgr->decRefCount(id, this);
+}
+inline const uint8_t* Label::getAddress() const {
+  if (mgr == 0 || !mgr->isReady()) return 0;
+  size_t offset;
+  if (!mgr->getOffset(&offset, *this)) return 0;
+  return mgr->getCode() + offset;
+}
+
+typedef enum { DefaultEncoding, VexEncoding, EvexEncoding } PreferredEncoding;
+
+class CodeGenerator : public CodeArray {
+ public:
+  enum LabelType {
+    T_SHORT,
+    T_NEAR,
+    T_FAR,  // far jump
+    T_AUTO  // T_SHORT if possible
+  };
+
+ private:
+  CodeGenerator operator=(const CodeGenerator&);  // don't call
+#ifdef XBYAK64
+  enum {i32e = 32 | 64, BIT = 64};
+  static const uint64_t dummyAddr = uint64_t(0x1122334455667788ull);
+  typedef Reg64 NativeReg;
+#else
+  enum {i32e = 32, BIT = 32};
+  static const size_t dummyAddr = 0x12345678;
+  typedef Reg32 NativeReg;
+#endif
+  // (XMM, XMM|MEM)
+  static inline bool isXMM_XMMorMEM(const Operand& op1, const Operand& op2) {
+    return op1.isXMM() && (op2.isXMM() || op2.isMEM());
+  }
+  // (MMX, MMX|MEM) or (XMM, XMM|MEM)
+  static inline bool isXMMorMMX_MEM(const Operand& op1, const Operand& op2) {
+    return (op1.isMMX() && (op2.isMMX() || op2.isMEM())) || isXMM_XMMorMEM(op1, op2);
+  }
+  // (XMM, MMX|MEM)
+  static inline bool isXMM_MMXorMEM(const Operand& op1, const Operand& op2) {
+    return op1.isXMM() && (op2.isMMX() || op2.isMEM());
+  }
+  // (MMX, XMM|MEM)
+  static inline bool isMMX_XMMorMEM(const Operand& op1, const Operand& op2) {
+    return op1.isMMX() && (op2.isXMM() || op2.isMEM());
+  }
+  // (XMM, REG32|MEM)
+  static inline bool isXMM_REG32orMEM(const Operand& op1, const Operand& op2) {
+    return op1.isXMM() && (op2.isREG(i32e) || op2.isMEM());
+  }
+  // (REG32, XMM|MEM)
+  static inline bool isREG32_XMMorMEM(const Operand& op1, const Operand& op2) {
+    return op1.isREG(i32e) && (op2.isXMM() || op2.isMEM());
+  }
+  // (REG32, REG32|MEM)
+  static inline bool isREG32_REG32orMEM(const Operand& op1, const Operand& op2) {
+    return op1.isREG(i32e) && ((op2.isREG(i32e) && op1.getBit() == op2.getBit()) || op2.isMEM());
+  }
+  static inline bool isValidSSE(const Operand& op1) {
+    // SSE instructions do not support XMM16 - XMM31
+    return !(op1.isXMM() && op1.getIdx() >= 16);
+  }
+  void rex(const Operand& op1, const Operand& op2 = Operand()) {
+    uint8_t rex = 0;
+    const Operand *p1 = &op1, *p2 = &op2;
+    if (p1->isMEM()) std::swap(p1, p2);
+    if (p1->isMEM()) XBYAK_THROW(ERR_BAD_COMBINATION)
+    if (p2->isMEM()) {
+      const Address& addr = p2->getAddress();
+      if (BIT == 64 && addr.is32bit()) db(0x67);
+      rex = addr.getRex() | p1->getReg().getRex();
+    } else {
+      // ModRM(reg, base);
+      rex = op2.getReg().getRex(op1.getReg());
+    }
+    // except movsx(16bit, 32/64bit)
+    if ((op1.isBit(16) && !op2.isBit(i32e)) || (op2.isBit(16) && !op1.isBit(i32e))) db(0x66);
+    if (rex) db(rex);
+  }
+  enum AVXtype {
+    // low 3 bit
+    T_N1 = 1,
+    T_N2 = 2,
+    T_N4 = 3,
+    T_N8 = 4,
+    T_N16 = 5,
+    T_N32 = 6,
+    T_NX_MASK = 7,
+    //
+    T_N_VL = 1 << 3,     // N * (1, 2, 4) for VL
+    T_DUP = 1 << 4,      // N = (8, 32, 64)
+    T_66 = 1 << 5,       // pp = 1
+    T_F3 = 1 << 6,       // pp = 2
+    T_F2 = T_66 | T_F3,  // pp = 3
+    T_ER_R = 1 << 7,     // reg{er}
+    T_0F = 1 << 8,
+    T_0F38 = 1 << 9,
+    T_0F3A = 1 << 10,
+    T_L0 = 1 << 11,
+    T_L1 = 1 << 12,
+    T_W0 = 1 << 13,
+    T_W1 = 1 << 14,
+    T_EW0 = 1 << 15,
+    T_EW1 = 1 << 16,
+    T_YMM = 1 << 17,  // support YMM, ZMM
+    T_EVEX = 1 << 18,
+    T_ER_X = 1 << 19,       // xmm{er}
+    T_ER_Y = 1 << 20,       // ymm{er}
+    T_ER_Z = 1 << 21,       // zmm{er}
+    T_SAE_X = 1 << 22,      // xmm{sae}
+    T_SAE_Y = 1 << 23,      // ymm{sae}
+    T_SAE_Z = 1 << 24,      // zmm{sae}
+    T_MUST_EVEX = 1 << 25,  // contains T_EVEX
+    T_B32 = 1 << 26,        // m32bcst
+    T_B64 = 1 << 27,        // m64bcst
+    T_B16 = T_B32 | T_B64,  // m16bcst (Be careful)
+    T_M_K = 1 << 28,        // mem{k}
+    T_VSIB = 1 << 29,
+    T_MEM_EVEX = 1 << 30,  // use evex if mem
+    T_FP16 = 1 << 31,      // avx512-fp16
+    T_MAP5 = T_FP16 | T_0F,
+    T_MAP6 = T_FP16 | T_0F38,
+    T_XXX
+  };
+  // T_66 = 1, T_F3 = 2, T_F2 = 3
+  uint32_t getPP(int type) const { return (type >> 5) & 3; }
+  void vex(const Reg& reg, const Reg& base, const Operand* v, int type, int code, bool x = false) {
+    int w = (type & T_W1) ? 1 : 0;
+    bool is256 = (type & T_L1) ? true : (type & T_L0) ? false : reg.isYMM();
+    bool r = reg.isExtIdx();
+    bool b = base.isExtIdx();
+    int idx = v ? v->getIdx() : 0;
+    if ((idx | reg.getIdx() | base.getIdx()) >= 16) XBYAK_THROW(ERR_BAD_COMBINATION)
+    uint32_t pp = getPP(type);
+    uint32_t vvvv = (((~idx) & 15) << 3) | (is256 ? 4 : 0) | pp;
+    if (!b && !x && !w && (type & T_0F)) {
+      db(0xC5);
+      db((r ? 0 : 0x80) | vvvv);
+    } else {
+      uint32_t mmmm = (type & T_0F) ? 1 : (type & T_0F38) ? 2 : (type & T_0F3A) ? 3 : 0;
+      db(0xC4);
+      db((r ? 0 : 0x80) | (x ? 0 : 0x40) | (b ? 0 : 0x20) | mmmm);
+      db((w << 7) | vvvv);
+    }
+    db(code);
+  }
+  void verifySAE(const Reg& r, int type) const {
+    if (((type & T_SAE_X) && r.isXMM()) || ((type & T_SAE_Y) && r.isYMM()) || ((type & T_SAE_Z) && r.isZMM())) return;
+    XBYAK_THROW(ERR_SAE_IS_INVALID)
+  }
+  void verifyER(const Reg& r, int type) const {
+    if ((type & T_ER_R) && r.isREG(32 | 64)) return;
+    if (((type & T_ER_X) && r.isXMM()) || ((type & T_ER_Y) && r.isYMM()) || ((type & T_ER_Z) && r.isZMM())) return;
+    XBYAK_THROW(ERR_ER_IS_INVALID)
+  }
+  // (a, b, c) contains non zero two or three values then err
+  int verifyDuplicate(int a, int b, int c, int err) {
+    int v = a | b | c;
+    if ((a > 0 && a != v) + (b > 0 && b != v) + (c > 0 && c != v) > 0) XBYAK_THROW_RET(err, 0)
+    return v;
+  }
+  int evex(const Reg& reg, const Reg& base, const Operand* v, int type, int code, bool x = false, bool b = false,
+           int aaa = 0, uint32_t VL = 0, bool Hi16Vidx = false) {
+    if (!(type & (T_EVEX | T_MUST_EVEX))) XBYAK_THROW_RET(ERR_EVEX_IS_INVALID, 0)
+    int w = (type & T_EW1) ? 1 : 0;
+    uint32_t mmm = (type & T_0F) ? 1 : (type & T_0F38) ? 2 : (type & T_0F3A) ? 3 : 0;
+    if (type & T_FP16) mmm |= 4;
+    uint32_t pp = getPP(type);
+    int idx = v ? v->getIdx() : 0;
+    uint32_t vvvv = ~idx;
+
+    bool R = !reg.isExtIdx();
+    bool X = x ? false : !base.isExtIdx2();
+    bool B = !base.isExtIdx();
+    bool Rp = !reg.isExtIdx2();
+    int LL;
+    int rounding =
+        verifyDuplicate(reg.getRounding(), base.getRounding(), v ? v->getRounding() : 0, ERR_ROUNDING_IS_ALREADY_SET);
+    int disp8N = 1;
+    if (rounding) {
+      if (rounding == EvexModifierRounding::T_SAE) {
+        verifySAE(base, type);
+        LL = 0;
+      } else {
+        verifyER(base, type);
+        LL = rounding - 1;
+      }
+      b = true;
+    } else {
+      if (v) VL = (std::max)(VL, v->getBit());
+      VL = (std::max)((std::max)(reg.getBit(), base.getBit()), VL);
+      LL = (VL == 512) ? 2 : (VL == 256) ? 1 : 0;
+      if (b) {
+        disp8N = ((type & T_B16) == T_B16) ? 2 : (type & T_B32) ? 4 : 8;
+      } else if (type & T_DUP) {
+        disp8N = VL == 128 ? 8 : VL == 256 ? 32 : 64;
+      } else {
+        if ((type & (T_NX_MASK | T_N_VL)) == 0) {
+          type |= T_N16 | T_N_VL;  // default
+        }
+        int low = type & T_NX_MASK;
+        if (low > 0) {
+          disp8N = 1 << (low - 1);
+          if (type & T_N_VL) disp8N *= (VL == 512 ? 4 : VL == 256 ? 2 : 1);
+        }
+      }
+    }
+    bool Vp = !((v ? v->isExtIdx2() : 0) | Hi16Vidx);
+    bool z = reg.hasZero() || base.hasZero() || (v ? v->hasZero() : false);
+    if (aaa == 0)
+      aaa = verifyDuplicate(base.getOpmaskIdx(), reg.getOpmaskIdx(), (v ? v->getOpmaskIdx() : 0),
+                            ERR_OPMASK_IS_ALREADY_SET);
+    if (aaa == 0) z = 0;  // clear T_z if mask is not set
+    db(0x62);
+    db((R ? 0x80 : 0) | (X ? 0x40 : 0) | (B ? 0x20 : 0) | (Rp ? 0x10 : 0) | mmm);
+    db((w == 1 ? 0x80 : 0) | ((vvvv & 15) << 3) | 4 | (pp & 3));
+    db((z ? 0x80 : 0) | ((LL & 3) << 5) | (b ? 0x10 : 0) | (Vp ? 8 : 0) | (aaa & 7));
+    db(code);
+    return disp8N;
+  }
+  void setModRM(int mod, int r1, int r2) { db(static_cast<uint8_t>((mod << 6) | ((r1 & 7) << 3) | (r2 & 7))); }
+  void setSIB(const RegExp& e, int reg, int disp8N = 0) {
+    uint64_t disp64 = e.getDisp();
+#if defined(XBYAK64) && !defined(__ILP32__)
+#ifdef XBYAK_OLD_DISP_CHECK
+    // treat 0xffffffff as 0xffffffffffffffff
+    uint64_t high = disp64 >> 32;
+    if (high != 0 && high != 0xFFFFFFFF) XBYAK_THROW(ERR_OFFSET_IS_TOO_BIG)
+#else
+    // displacement should be a signed 32-bit value, so also check sign bit
+    uint64_t high = disp64 >> 31;
+    if (high != 0 && high != 0x1FFFFFFFF) XBYAK_THROW(ERR_OFFSET_IS_TOO_BIG)
+#endif
+#endif
+    uint32_t disp = static_cast<uint32_t>(disp64);
+    const Reg& base = e.getBase();
+    const Reg& index = e.getIndex();
+    const int baseIdx = base.getIdx();
+    const int baseBit = base.getBit();
+    const int indexBit = index.getBit();
+    enum { mod00 = 0, mod01 = 1, mod10 = 2 };
+    int mod = mod10;  // disp32
+    if (!baseBit || ((baseIdx & 7) != Operand::EBP && disp == 0)) {
+      mod = mod00;
+    } else {
+      if (disp8N == 0) {
+        if (inner::IsInDisp8(disp)) {
+          mod = mod01;
+        }
+      } else {
+        // disp must be casted to signed
+        uint32_t t = static_cast<uint32_t>(static_cast<int>(disp) / disp8N);
+        if ((disp % disp8N) == 0 && inner::IsInDisp8(t)) {
+          disp = t;
+          mod = mod01;
+        }
+      }
+    }
+    const int newBaseIdx = baseBit ? (baseIdx & 7) : Operand::EBP;
+    /* ModR/M = [2:3:3] = [Mod:reg/code:R/M] */
+    bool hasSIB = indexBit || (baseIdx & 7) == Operand::ESP;
+#ifdef XBYAK64
+    if (!baseBit && !indexBit) hasSIB = true;
+#endif
+    if (hasSIB) {
+      setModRM(mod, reg, Operand::ESP);
+      /* SIB = [2:3:3] = [SS:index:base(=rm)] */
+      const int idx = indexBit ? (index.getIdx() & 7) : Operand::ESP;
+      const int scale = e.getScale();
+      const int SS = (scale == 8) ? 3 : (scale == 4) ? 2 : (scale == 2) ? 1 : 0;
+      setModRM(SS, idx, newBaseIdx);
+    } else {
+      setModRM(mod, reg, newBaseIdx);
+    }
+    if (mod == mod01) {
+      db(disp);
+    } else if (mod == mod10 || (mod == mod00 && !baseBit)) {
+      dd(disp);
+    }
+  }
+  LabelManager labelMgr_;
+  bool isInDisp16(uint32_t x) const { return 0xFFFF8000 <= x || x <= 0x7FFF; }
+  void opModR(const Reg& reg1, const Reg& reg2, int code0, int code1 = NONE, int code2 = NONE) {
+    rex(reg2, reg1);
+    db(code0 | (reg1.isBit(8) ? 0 : 1));
+    if (code1 != NONE) db(code1);
+    if (code2 != NONE) db(code2);
+    setModRM(3, reg1.getIdx(), reg2.getIdx());
+  }
+  void opModM(const Address& addr, const Reg& reg, int code0, int code1 = NONE, int code2 = NONE, int immSize = 0) {
+    if (addr.is64bitDisp()) XBYAK_THROW(ERR_CANT_USE_64BIT_DISP)
+    rex(addr, reg);
+    db(code0 | (reg.isBit(8) ? 0 : 1));
+    if (code1 != NONE) db(code1);
+    if (code2 != NONE) db(code2);
+    opAddr(addr, reg.getIdx(), immSize);
+  }
+  void opLoadSeg(const Address& addr, const Reg& reg, int code0, int code1 = NONE) {
+    if (addr.is64bitDisp()) XBYAK_THROW(ERR_CANT_USE_64BIT_DISP)
+    if (reg.isBit(8)) XBYAK_THROW(ERR_BAD_SIZE_OF_REGISTER)
+    rex(addr, reg);
+    db(code0);
+    if (code1 != NONE) db(code1);
+    opAddr(addr, reg.getIdx());
+  }
+  void opMIB(const Address& addr, const Reg& reg, int code0, int code1) {
+    if (addr.is64bitDisp()) XBYAK_THROW(ERR_CANT_USE_64BIT_DISP)
+    if (addr.getMode() != Address::M_ModRM) XBYAK_THROW(ERR_INVALID_MIB_ADDRESS)
+    if (BIT == 64 && addr.is32bit()) db(0x67);
+    const RegExp& regExp = addr.getRegExp(false);
+    uint8_t rex = regExp.getRex();
+    if (rex) db(rex);
+    db(code0);
+    db(code1);
+    setSIB(regExp, reg.getIdx());
+  }
+  void makeJmp(uint32_t disp, LabelType type, uint8_t shortCode, uint8_t longCode, uint8_t longPref) {
+    const int shortJmpSize = 2;
+    const int longHeaderSize = longPref ? 2 : 1;
+    const int longJmpSize = longHeaderSize + 4;
+    if (type != T_NEAR && inner::IsInDisp8(disp - shortJmpSize)) {
+      db(shortCode);
+      db(disp - shortJmpSize);
+    } else {
+      if (type == T_SHORT) XBYAK_THROW(ERR_LABEL_IS_TOO_FAR)
+      if (longPref) db(longPref);
+      db(longCode);
+      dd(disp - longJmpSize);
+    }
+  }
+  bool isNEAR(LabelType type) const { return type == T_NEAR || (type == T_AUTO && isDefaultJmpNEAR_); }
+  template <class T>
+  void opJmp(T& label, LabelType type, uint8_t shortCode, uint8_t longCode, uint8_t longPref) {
+    if (type == T_FAR) XBYAK_THROW(ERR_NOT_SUPPORTED)
+    if (isAutoGrow() && size_ + 16 >= maxSize_) growMemory(); /* avoid splitting code of jmp */
+    size_t offset = 0;
+    if (labelMgr_.getOffset(&offset, label)) { /* label exists */
+      makeJmp(inner::VerifyInInt32(offset - size_), type, shortCode, longCode, longPref);
+    } else {
+      int jmpSize = 0;
+      if (isNEAR(type)) {
+        jmpSize = 4;
+        if (longPref) db(longPref);
+        db(longCode);
+        dd(0);
+      } else {
+        jmpSize = 1;
+        db(shortCode);
+        db(0);
+      }
+      JmpLabel jmp(size_, jmpSize, inner::LasIs);
+      labelMgr_.addUndefinedLabel(label, jmp);
+    }
+  }
+  void opJmpAbs(const void* addr, LabelType type, uint8_t shortCode, uint8_t longCode, uint8_t longPref = 0) {
+    if (type == T_FAR) XBYAK_THROW(ERR_NOT_SUPPORTED)
+    if (isAutoGrow()) {
+      if (!isNEAR(type)) XBYAK_THROW(ERR_ONLY_T_NEAR_IS_SUPPORTED_IN_AUTO_GROW)
+      if (size_ + 16 >= maxSize_) growMemory();
+      if (longPref) db(longPref);
+      db(longCode);
+      dd(0);
+      save(size_ - 4, size_t(addr) - size_, 4, inner::Labs);
+    } else {
+      makeJmp(inner::VerifyInInt32(reinterpret_cast<const uint8_t*>(addr) - getCurr()), type, shortCode, longCode,
+              longPref);
+    }
+  }
+  void opJmpOp(const Operand& op, LabelType type, int ext) {
+    const int bit = 16 | i32e;
+    if (type == T_FAR) {
+      if (!op.isMEM(bit)) XBYAK_THROW(ERR_NOT_SUPPORTED)
+      opR_ModM(op, bit, ext + 1, 0xFF, NONE, NONE, false);
+    } else {
+      opR_ModM(op, bit, ext, 0xFF, NONE, NONE, true);
+    }
+  }
+  // reg is reg field of ModRM
+  // immSize is the size for immediate value
+  // disp8N = 0(normal), disp8N = 1(force disp32), disp8N = {2, 4, 8} ; compressed displacement
+  void opAddr(const Address& addr, int reg, int immSize = 0, int disp8N = 0, bool permitVisb = false) {
+    if (!permitVisb && addr.isVsib()) XBYAK_THROW(ERR_BAD_VSIB_ADDRESSING)
+    if (addr.getMode() == Address::M_ModRM) {
+      setSIB(addr.getRegExp(), reg, disp8N);
+    } else if (addr.getMode() == Address::M_rip || addr.getMode() == Address::M_ripAddr) {
+      setModRM(0, reg, 5);
+      if (addr.getLabel()) {  // [rip + Label]
+        putL_inner(*addr.getLabel(), true, addr.getDisp() - immSize);
+      } else {
+        size_t disp = addr.getDisp();
+        if (addr.getMode() == Address::M_ripAddr) {
+          if (isAutoGrow()) XBYAK_THROW(ERR_INVALID_RIP_IN_AUTO_GROW)
+          disp -= (size_t)getCurr() + 4 + immSize;
+        }
+        dd(inner::VerifyInInt32(disp));
+      }
+    }
+  }
+  /* preCode is for SSSE3/SSE4 */
+  void opGen(const Operand& reg, const Operand& op, int code, int pref, bool isValid(const Operand&, const Operand&),
+             int imm8 = NONE, int preCode = NONE) {
+    if (isValid && !isValid(reg, op)) XBYAK_THROW(ERR_BAD_COMBINATION)
+    if (!isValidSSE(reg) || !isValidSSE(op)) XBYAK_THROW(ERR_NOT_SUPPORTED)
+    if (pref != NONE) db(pref);
+    if (op.isMEM()) {
+      opModM(op.getAddress(), reg.getReg(), 0x0F, preCode, code, (imm8 != NONE) ? 1 : 0);
+    } else {
+      opModR(reg.getReg(), op.getReg(), 0x0F, preCode, code);
+    }
+    if (imm8 != NONE) db(imm8);
+  }
+  void opMMX_IMM(const Mmx& mmx, int imm8, int code, int ext) {
+    if (!isValidSSE(mmx)) XBYAK_THROW(ERR_NOT_SUPPORTED)
+    if (mmx.isXMM()) db(0x66);
+    opModR(Reg32(ext), mmx, 0x0F, code);
+    db(imm8);
+  }
+  void opMMX(const Mmx& mmx, const Operand& op, int code, int pref = 0x66, int imm8 = NONE, int preCode = NONE) {
+    opGen(mmx, op, code, mmx.isXMM() ? pref : NONE, isXMMorMMX_MEM, imm8, preCode);
+  }
+  void opMovXMM(const Operand& op1, const Operand& op2, int code, int pref) {
+    if (!isValidSSE(op1) || !isValidSSE(op2)) XBYAK_THROW(ERR_NOT_SUPPORTED)
+    if (pref != NONE) db(pref);
+    if (op1.isXMM() && op2.isMEM()) {
+      opModM(op2.getAddress(), op1.getReg(), 0x0F, code);
+    } else if (op1.isMEM() && op2.isXMM()) {
+      opModM(op1.getAddress(), op2.getReg(), 0x0F, code | 1);
+    } else {
+      XBYAK_THROW(ERR_BAD_COMBINATION)
+    }
+  }
+  void opExt(const Operand& op, const Mmx& mmx, int code, int imm, bool hasMMX2 = false) {
+    if (!isValidSSE(op) || !isValidSSE(mmx)) XBYAK_THROW(ERR_NOT_SUPPORTED)
+    if (hasMMX2 && op.isREG(i32e)) { /* pextrw is special */
+      if (mmx.isXMM()) db(0x66);
+      opModR(op.getReg(), mmx, 0x0F, 0xC5);
+      db(imm);
+    } else {
+      opGen(mmx, op, code, 0x66, isXMM_REG32orMEM, imm, 0x3A);
+    }
+  }
+  void opR_ModM(const Operand& op, int bit, int ext, int code0, int code1 = NONE, int code2 = NONE,
+                bool disableRex = false, int immSize = 0) {
+    int opBit = op.getBit();
+    if (disableRex && opBit == 64) opBit = 32;
+    if (op.isREG(bit)) {
+      opModR(Reg(ext, Operand::REG, opBit), op.getReg().changeBit(opBit), code0, code1, code2);
+    } else if (op.isMEM()) {
+      opModM(op.getAddress(), Reg(ext, Operand::REG, opBit), code0, code1, code2, immSize);
+    } else {
+      XBYAK_THROW(ERR_BAD_COMBINATION)
+    }
+  }
+  void opShift(const Operand& op, int imm, int ext) {
+    verifyMemHasSize(op);
+    opR_ModM(op, 0, ext, (0xC0 | ((imm == 1 ? 1 : 0) << 4)), NONE, NONE, false, (imm != 1) ? 1 : 0);
+    if (imm != 1) db(imm);
+  }
+  void opShift(const Operand& op, const Reg8& _cl, int ext) {
+    if (_cl.getIdx() != Operand::CL) XBYAK_THROW(ERR_BAD_COMBINATION)
+    opR_ModM(op, 0, ext, 0xD2);
+  }
+  void opModRM(const Operand& op1, const Operand& op2, bool condR, bool condM, int code0, int code1 = NONE,
+               int code2 = NONE, int immSize = 0) {
+    if (condR) {
+      opModR(op1.getReg(), op2.getReg(), code0, code1, code2);
+    } else if (condM) {
+      opModM(op2.getAddress(), op1.getReg(), code0, code1, code2, immSize);
+    } else {
+      XBYAK_THROW(ERR_BAD_COMBINATION)
+    }
+  }
+  void opShxd(const Operand& op, const Reg& reg, uint8_t imm, int code, const Reg8* _cl = 0) {
+    if (_cl && _cl->getIdx() != Operand::CL) XBYAK_THROW(ERR_BAD_COMBINATION)
+    opModRM(reg, op, (op.isREG(16 | i32e) && op.getBit() == reg.getBit()), op.isMEM() && (reg.isREG(16 | i32e)), 0x0F,
+            code | (_cl ? 1 : 0), NONE, _cl ? 0 : 1);
+    if (!_cl) db(imm);
+  }
+  // (REG, REG|MEM), (MEM, REG)
+  void opRM_RM(const Operand& op1, const Operand& op2, int code) {
+    if (op1.isREG() && op2.isMEM()) {
+      opModM(op2.getAddress(), op1.getReg(), code | 2);
+    } else {
+      opModRM(op2, op1, op1.isREG() && op1.getKind() == op2.getKind(), op1.isMEM() && op2.isREG(), code);
+    }
+  }
+  // (REG|MEM, IMM)
+  void opRM_I(const Operand& op, uint32_t imm, int code, int ext) {
+    verifyMemHasSize(op);
+    uint32_t immBit = inner::IsInDisp8(imm) ? 8 : isInDisp16(imm) ? 16 : 32;
+    if (op.isBit(8)) immBit = 8;
+    if (op.getBit() < immBit) XBYAK_THROW(ERR_IMM_IS_TOO_BIG)
+    if (op.isBit(32 | 64) && immBit == 16) immBit = 32; /* don't use MEM16 if 32/64bit mode */
+    if (op.isREG() && op.getIdx() == 0 &&
+        (op.getBit() == immBit || (op.isBit(64) && immBit == 32))) {  // rax, eax, ax, al
+      rex(op);
+      db(code | 4 | (immBit == 8 ? 0 : 1));
+    } else {
+      int tmp = immBit < (std::min)(op.getBit(), 32U) ? 2 : 0;
+      opR_ModM(op, 0, ext, 0x80 | tmp, NONE, NONE, false, immBit / 8);
+    }
+    db(imm, immBit / 8);
+  }
+  void opIncDec(const Operand& op, int code, int ext) {
+    verifyMemHasSize(op);
+#ifndef XBYAK64
+    if (op.isREG() && !op.isBit(8)) {
+      rex(op);
+      db(code | op.getIdx());
+      return;
+    }
+#endif
+    code = 0xFE;
+    if (op.isREG()) {
+      opModR(Reg(ext, Operand::REG, op.getBit()), op.getReg(), code);
+    } else {
+      opModM(op.getAddress(), Reg(ext, Operand::REG, op.getBit()), code);
+    }
+  }
+  void opPushPop(const Operand& op, int code, int ext, int alt) {
+    int bit = op.getBit();
+    if (bit == 16 || bit == BIT) {
+      if (bit == 16) db(0x66);
+      if (op.isREG()) {
+        if (op.getReg().getIdx() >= 8) db(0x41);
+        db(alt | (op.getIdx() & 7));
+        return;
+      }
+      if (op.isMEM()) {
+        opModM(op.getAddress(), Reg(ext, Operand::REG, 32), code);
+        return;
+      }
+    }
+    XBYAK_THROW(ERR_BAD_COMBINATION)
+  }
+  void verifyMemHasSize(const Operand& op) const {
+    if (op.isMEM() && op.getBit() == 0) XBYAK_THROW(ERR_MEM_SIZE_IS_NOT_SPECIFIED)
+  }
+  /*
+          mov(r, imm) = db(imm, mov_imm(r, imm))
+  */
+  int mov_imm(const Reg& reg, uint64_t imm) {
+    int bit = reg.getBit();
+    const int idx = reg.getIdx();
+    int code = 0xB0 | ((bit == 8 ? 0 : 1) << 3);
+    if (bit == 64 && (imm & ~uint64_t(0xffffffffu)) == 0) {
+      rex(Reg32(idx));
+      bit = 32;
+    } else {
+      rex(reg);
+      if (bit == 64 && inner::IsInInt32(imm)) {
+        db(0xC7);
+        code = 0xC0;
+        bit = 32;
+      }
+    }
+    db(code | (idx & 7));
+    return bit / 8;
+  }
+  template <class T>
+  void putL_inner(T& label, bool relative = false, size_t disp = 0) {
+    const int jmpSize = relative ? 4 : (int)sizeof(size_t);
+    if (isAutoGrow() && size_ + 16 >= maxSize_) growMemory();
+    size_t offset = 0;
+    if (labelMgr_.getOffset(&offset, label)) {
+      if (relative) {
+        db(inner::VerifyInInt32(offset + disp - size_ - jmpSize), jmpSize);
+      } else if (isAutoGrow()) {
+        db(uint64_t(0), jmpSize);
+        save(size_ - jmpSize, offset, jmpSize, inner::LaddTop);
+      } else {
+        db(size_t(top_) + offset, jmpSize);
+      }
+      return;
+    }
+    db(uint64_t(0), jmpSize);
+    JmpLabel jmp(size_, jmpSize, (relative ? inner::LasIs : isAutoGrow() ? inner::LaddTop : inner::Labs), disp);
+    labelMgr_.addUndefinedLabel(label, jmp);
+  }
+  void opMovxx(const Reg& reg, const Operand& op, uint8_t code) {
+    if (op.isBit(32)) XBYAK_THROW(ERR_BAD_COMBINATION)
+    int w = op.isBit(16);
+    bool cond = reg.isREG() && (reg.getBit() > op.getBit());
+    opModRM(reg, op, cond && op.isREG(), cond && op.isMEM(), 0x0F, code | w);
+  }
+  void opFpuMem(const Address& addr, uint8_t m16, uint8_t m32, uint8_t m64, uint8_t ext, uint8_t m64ext) {
+    if (addr.is64bitDisp()) XBYAK_THROW(ERR_CANT_USE_64BIT_DISP)
+    uint8_t code = addr.isBit(16) ? m16 : addr.isBit(32) ? m32 : addr.isBit(64) ? m64 : 0;
+    if (!code) XBYAK_THROW(ERR_BAD_MEM_SIZE)
+    if (m64ext && addr.isBit(64)) ext = m64ext;
+
+    rex(addr, st0);
+    db(code);
+    opAddr(addr, ext);
+  }
+  // use code1 if reg1 == st0
+  // use code2 if reg1 != st0 && reg2 == st0
+  void opFpuFpu(const Fpu& reg1, const Fpu& reg2, uint32_t code1, uint32_t code2) {
+    uint32_t code = reg1.getIdx() == 0 ? code1 : reg2.getIdx() == 0 ? code2 : 0;
+    if (!code) XBYAK_THROW(ERR_BAD_ST_COMBINATION)
+    db(uint8_t(code >> 8));
+    db(uint8_t(code | (reg1.getIdx() | reg2.getIdx())));
+  }
+  void opFpu(const Fpu& reg, uint8_t code1, uint8_t code2) {
+    db(code1);
+    db(code2 | reg.getIdx());
+  }
+  void opVex(const Reg& r, const Operand* p1, const Operand& op2, int type, int code, int imm8 = NONE) {
+    if (op2.isMEM()) {
+      const Address& addr = op2.getAddress();
+      const RegExp& regExp = addr.getRegExp();
+      const Reg& base = regExp.getBase();
+      const Reg& index = regExp.getIndex();
+      if (BIT == 64 && addr.is32bit()) db(0x67);
+      int disp8N = 0;
+      bool x = index.isExtIdx();
+      if ((type & (T_MUST_EVEX | T_MEM_EVEX)) || r.hasEvex() || (p1 && p1->hasEvex()) || addr.isBroadcast() ||
+          addr.getOpmaskIdx()) {
+        int aaa = addr.getOpmaskIdx();
+        if (aaa && !(type & T_M_K)) XBYAK_THROW(ERR_INVALID_OPMASK_WITH_MEMORY)
+        bool b = false;
+        if (addr.isBroadcast()) {
+          if (!(type & (T_B32 | T_B64))) XBYAK_THROW(ERR_INVALID_BROADCAST)
+          b = true;
+        }
+        int VL = regExp.isVsib() ? index.getBit() : 0;
+        disp8N = evex(r, base, p1, type, code, x, b, aaa, VL, index.isExtIdx2());
+      } else {
+        vex(r, base, p1, type, code, x);
+      }
+      opAddr(addr, r.getIdx(), (imm8 != NONE) ? 1 : 0, disp8N, (type & T_VSIB) != 0);
+    } else {
+      const Reg& base = op2.getReg();
+      if ((type & T_MUST_EVEX) || r.hasEvex() || (p1 && p1->hasEvex()) || base.hasEvex()) {
+        evex(r, base, p1, type, code);
+      } else {
+        vex(r, base, p1, type, code);
+      }
+      setModRM(3, r.getIdx(), base.getIdx());
+    }
+    if (imm8 != NONE) db(imm8);
+  }
+  // (r, r, r/m) if isR_R_RM
+  // (r, r/m, r)
+  void opGpr(const Reg32e& r, const Operand& op1, const Operand& op2, int type, uint8_t code, bool isR_R_RM,
+             int imm8 = NONE) {
+    const Operand* p1 = &op1;
+    const Operand* p2 = &op2;
+    if (!isR_R_RM) std::swap(p1, p2);
+    const unsigned int bit = r.getBit();
+    if (p1->getBit() != bit || (p2->isREG() && p2->getBit() != bit)) XBYAK_THROW(ERR_BAD_COMBINATION)
+    type |= (bit == 64) ? T_W1 : T_W0;
+    opVex(r, p1, *p2, type, code, imm8);
+  }
+  void opAVX_X_X_XM(const Xmm& x1, const Operand& op1, const Operand& op2, int type, int code0, int imm8 = NONE) {
+    const Xmm* x2 = static_cast<const Xmm*>(&op1);
+    const Operand* op = &op2;
+    if (op2.isNone()) {  // (x1, op1) -> (x1, x1, op1)
+      x2 = &x1;
+      op = &op1;
+    }
+    // (x1, x2, op)
+    if (!((x1.isXMM() && x2->isXMM()) ||
+          ((type & T_YMM) && ((x1.isYMM() && x2->isYMM()) || (x1.isZMM() && x2->isZMM())))))
+      XBYAK_THROW(ERR_BAD_COMBINATION)
+    opVex(x1, x2, *op, type, code0, imm8);
+  }
+  void opAVX_K_X_XM(const Opmask& k, const Xmm& x2, const Operand& op3, int type, int code0, int imm8 = NONE) {
+    if (!op3.isMEM() && (x2.getKind() != op3.getKind())) XBYAK_THROW(ERR_BAD_COMBINATION)
+    opVex(k, &x2, op3, type, code0, imm8);
+  }
+  // (x, x/m), (y, x/m256), (z, y/m)
+  void checkCvt1(const Operand& x, const Operand& op) const {
+    if (!op.isMEM() && !(x.is(Operand::XMM | Operand::YMM) && op.isXMM()) && !(x.isZMM() && op.isYMM()))
+      XBYAK_THROW(ERR_BAD_COMBINATION)
+  }
+  // (x, x/m), (x, y/m256), (y, z/m)
+  void checkCvt2(const Xmm& x, const Operand& op) const {
+    if (!(x.isXMM() && op.is(Operand::XMM | Operand::YMM | Operand::MEM)) &&
+        !(x.isYMM() && op.is(Operand::ZMM | Operand::MEM)))
+      XBYAK_THROW(ERR_BAD_COMBINATION)
+  }
+  void opCvt(const Xmm& x, const Operand& op, int type, int code) {
+    Operand::Kind kind = x.isXMM() ? (op.isBit(256) ? Operand::YMM : Operand::XMM) : Operand::ZMM;
+    opVex(x.copyAndSetKind(kind), &xm0, op, type, code);
+  }
+  void opCvt2(const Xmm& x, const Operand& op, int type, int code) {
+    checkCvt2(x, op);
+    opCvt(x, op, type, code);
+  }
+  void opCvt3(const Xmm& x1, const Xmm& x2, const Operand& op, int type, int type64, int type32, uint8_t code) {
+    if (!(x1.isXMM() && x2.isXMM() && (op.isREG(i32e) || op.isMEM()))) XBYAK_THROW(ERR_BAD_SIZE_OF_REGISTER)
+    Xmm x(op.getIdx());
+    const Operand* p = op.isREG() ? &x : &op;
+    opVex(x1, &x2, *p, type | (op.isBit(64) ? type64 : type32), code);
+  }
+  // (x, x/y/xword/yword), (y, z/m)
+  void checkCvt4(const Xmm& x, const Operand& op) const {
+    if (!(x.isXMM() && op.is(Operand::XMM | Operand::YMM | Operand::MEM) && op.isBit(128 | 256)) &&
+        !(x.isYMM() && op.is(Operand::ZMM | Operand::MEM)))
+      XBYAK_THROW(ERR_BAD_COMBINATION)
+  }
+  // (x, x/y/z/xword/yword/zword)
+  void opCvt5(const Xmm& x, const Operand& op, int type, int code) {
+    if (!(x.isXMM() && op.isBit(128 | 256 | 512))) XBYAK_THROW(ERR_BAD_COMBINATION)
+    Operand::Kind kind = op.isBit(128) ? Operand::XMM : op.isBit(256) ? Operand::YMM : Operand::ZMM;
+    opVex(x.copyAndSetKind(kind), &xm0, op, type, code);
+  }
+  const Xmm& cvtIdx0(const Operand& x) const { return x.isZMM() ? zm0 : x.isYMM() ? ym0 : xm0; }
+  // support (x, x/m, imm), (y, y/m, imm)
+  void opAVX_X_XM_IMM(const Xmm& x, const Operand& op, int type, int code, int imm8 = NONE) {
+    opAVX_X_X_XM(x, cvtIdx0(x), op, type, code, imm8);
+  }
+  // QQQ:need to refactor
+  void opSp1(const Reg& reg, const Operand& op, uint8_t pref, uint8_t code0, uint8_t code1) {
+    if (reg.isBit(8)) XBYAK_THROW(ERR_BAD_SIZE_OF_REGISTER)
+    bool is16bit = reg.isREG(16) && (op.isREG(16) || op.isMEM());
+    if (!is16bit && !(reg.isREG(i32e) && (op.isREG(reg.getBit()) || op.isMEM()))) XBYAK_THROW(ERR_BAD_COMBINATION)
+    if (is16bit) db(0x66);
+    db(pref);
+    opModRM(reg.changeBit(i32e == 32 ? 32 : reg.getBit()), op, op.isREG(), true, code0, code1);
+  }
+  void opGather(const Xmm& x1, const Address& addr, const Xmm& x2, int type, uint8_t code, int mode) {
+    const RegExp& regExp = addr.getRegExp();
+    if (!regExp.isVsib(128 | 256)) XBYAK_THROW(ERR_BAD_VSIB_ADDRESSING)
+    const int y_vx_y = 0;
+    const int y_vy_y = 1;
+    //		const int x_vy_x = 2;
+    const bool isAddrYMM = regExp.getIndex().getBit() == 256;
+    if (!x1.isXMM() || isAddrYMM || !x2.isXMM()) {
+      bool isOK = false;
+      if (mode == y_vx_y) {
+        isOK = x1.isYMM() && !isAddrYMM && x2.isYMM();
+      } else if (mode == y_vy_y) {
+        isOK = x1.isYMM() && isAddrYMM && x2.isYMM();
+      } else {  // x_vy_x
+        isOK = !x1.isYMM() && isAddrYMM && !x2.isYMM();
+      }
+      if (!isOK) XBYAK_THROW(ERR_BAD_VSIB_ADDRESSING)
+    }
+    int i1 = x1.getIdx();
+    int i2 = regExp.getIndex().getIdx();
+    int i3 = x2.getIdx();
+    if (i1 == i2 || i1 == i3 || i2 == i3) XBYAK_THROW(ERR_SAME_REGS_ARE_INVALID);
+    opAVX_X_X_XM(isAddrYMM ? Ymm(i1) : x1, isAddrYMM ? Ymm(i3) : x2, addr, type, code);
+  }
+  enum { xx_yy_zz = 0, xx_yx_zy = 1, xx_xy_yz = 2 };
+  void checkGather2(const Xmm& x1, const Reg& x2, int mode) const {
+    if (x1.isXMM() && x2.isXMM()) return;
+    switch (mode) {
+      case xx_yy_zz:
+        if ((x1.isYMM() && x2.isYMM()) || (x1.isZMM() && x2.isZMM())) return;
+        break;
+      case xx_yx_zy:
+        if ((x1.isYMM() && x2.isXMM()) || (x1.isZMM() && x2.isYMM())) return;
+        break;
+      case xx_xy_yz:
+        if ((x1.isXMM() && x2.isYMM()) || (x1.isYMM() && x2.isZMM())) return;
+        break;
+    }
+    XBYAK_THROW(ERR_BAD_VSIB_ADDRESSING)
+  }
+  void opGather2(const Xmm& x, const Address& addr, int type, uint8_t code, int mode) {
+    if (x.hasZero()) XBYAK_THROW(ERR_INVALID_ZERO)
+    const RegExp& regExp = addr.getRegExp();
+    checkGather2(x, regExp.getIndex(), mode);
+    int maskIdx = x.getOpmaskIdx();
+    if ((type & T_M_K) && addr.getOpmaskIdx()) maskIdx = addr.getOpmaskIdx();
+    if (maskIdx == 0) XBYAK_THROW(ERR_K0_IS_INVALID);
+    if (!(type & T_M_K) && x.getIdx() == regExp.getIndex().getIdx()) XBYAK_THROW(ERR_SAME_REGS_ARE_INVALID);
+    opVex(x, 0, addr, type, code);
+  }
+  /*
+          xx_xy_yz ; mode = true
+          xx_xy_xz ; mode = false
+  */
+  void opVmov(const Operand& op, const Xmm& x, int type, uint8_t code, bool mode) {
+    if (mode) {
+      if (!op.isMEM() && !((op.isXMM() && x.isXMM()) || (op.isXMM() && x.isYMM()) || (op.isYMM() && x.isZMM())))
+        XBYAK_THROW(ERR_BAD_COMBINATION)
+    } else {
+      if (!op.isMEM() && !op.isXMM()) XBYAK_THROW(ERR_BAD_COMBINATION)
+    }
+    opVex(x, 0, op, type, code);
+  }
+  void opGatherFetch(const Address& addr, const Xmm& x, int type, uint8_t code, Operand::Kind kind) {
+    if (addr.hasZero()) XBYAK_THROW(ERR_INVALID_ZERO)
+    if (addr.getRegExp().getIndex().getKind() != kind) XBYAK_THROW(ERR_BAD_VSIB_ADDRESSING)
+    opVex(x, 0, addr, type, code);
+  }
+  void opEncoding(const Xmm& x1, const Xmm& x2, const Operand& op, int type, int code0, PreferredEncoding encoding) {
+    opAVX_X_X_XM(x1, x2, op, type | orEvexIf(encoding), code0);
+  }
+  int orEvexIf(PreferredEncoding encoding) {
+    if (encoding == DefaultEncoding) {
+      encoding = defaultEncoding_;
+    }
+    if (encoding == EvexEncoding) {
+#ifdef XBYAK_DISABLE_AVX512
+      XBYAK_THROW(ERR_EVEX_IS_INVALID)
+#endif
+      return T_MUST_EVEX;
+    }
+    return 0;
+  }
+  void opInOut(const Reg& a, const Reg& d, uint8_t code) {
+    if (a.getIdx() == Operand::AL && d.getIdx() == Operand::DX && d.getBit() == 16) {
+      switch (a.getBit()) {
+        case 8:
+          db(code);
+          return;
+        case 16:
+          db(0x66);
+          db(code + 1);
+          return;
+        case 32:
+          db(code + 1);
+          return;
+      }
+    }
+    XBYAK_THROW(ERR_BAD_COMBINATION)
+  }
+  void opInOut(const Reg& a, uint8_t code, uint8_t v) {
+    if (a.getIdx() == Operand::AL) {
+      switch (a.getBit()) {
+        case 8:
+          db(code);
+          db(v);
+          return;
+        case 16:
+          db(0x66);
+          db(code + 1);
+          db(v);
+          return;
+        case 32:
+          db(code + 1);
+          db(v);
+          return;
+      }
+    }
+    XBYAK_THROW(ERR_BAD_COMBINATION)
+  }
+#ifdef XBYAK64
+  void opAMX(const Tmm& t1, const Address& addr, int type, int code0) {
+    // require both base and index
+    const RegExp exp = addr.getRegExp(false);
+    if (exp.getBase().getBit() == 0 || exp.getIndex().getBit() == 0) XBYAK_THROW(ERR_NOT_SUPPORTED)
+    opVex(t1, &tmm0, addr, type, code0);
+  }
+#endif
+ public:
+  unsigned int getVersion() const { return VERSION; }
+  using CodeArray::db;
+  const Mmx mm0, mm1, mm2, mm3, mm4, mm5, mm6, mm7;
+  const Xmm xmm0, xmm1, xmm2, xmm3, xmm4, xmm5, xmm6, xmm7;
+  const Ymm ymm0, ymm1, ymm2, ymm3, ymm4, ymm5, ymm6, ymm7;
+  const Zmm zmm0, zmm1, zmm2, zmm3, zmm4, zmm5, zmm6, zmm7;
+  const Xmm &xm0, &xm1, &xm2, &xm3, &xm4, &xm5, &xm6, &xm7;
+  const Ymm &ym0, &ym1, &ym2, &ym3, &ym4, &ym5, &ym6, &ym7;
+  const Zmm &zm0, &zm1, &zm2, &zm3, &zm4, &zm5, &zm6, &zm7;
+  const Reg32 eax, ecx, edx, ebx, esp, ebp, esi, edi;
+  const Reg16 ax, cx, dx, bx, sp, bp, si, di;
+  const Reg8 al, cl, dl, bl, ah, ch, dh, bh;
+  const AddressFrame ptr, byte, word, dword, qword, xword, yword, zword;  // xword is same as oword of NASM
+  const AddressFrame ptr_b, xword_b, yword_b, zword_b;  // broadcast such as {1to2}, {1to4}, {1to8}, {1to16}, {b}
+  const Fpu st0, st1, st2, st3, st4, st5, st6, st7;
+  const Opmask k0, k1, k2, k3, k4, k5, k6, k7;
+  const BoundsReg bnd0, bnd1, bnd2, bnd3;
+  const EvexModifierRounding T_sae, T_rn_sae, T_rd_sae, T_ru_sae,
+      T_rz_sae;                // {sae}, {rn-sae}, {rd-sae}, {ru-sae}, {rz-sae}
+  const EvexModifierZero T_z;  // {z}
+#ifdef XBYAK64
+  const Reg64 rax, rcx, rdx, rbx, rsp, rbp, rsi, rdi, r8, r9, r10, r11, r12, r13, r14, r15;
+  const Reg32 r8d, r9d, r10d, r11d, r12d, r13d, r14d, r15d;
+  const Reg16 r8w, r9w, r10w, r11w, r12w, r13w, r14w, r15w;
+  const Reg8 r8b, r9b, r10b, r11b, r12b, r13b, r14b, r15b;
+  const Reg8 spl, bpl, sil, dil;
+  const Xmm xmm8, xmm9, xmm10, xmm11, xmm12, xmm13, xmm14, xmm15;
+  const Xmm xmm16, xmm17, xmm18, xmm19, xmm20, xmm21, xmm22, xmm23;
+  const Xmm xmm24, xmm25, xmm26, xmm27, xmm28, xmm29, xmm30, xmm31;
+  const Ymm ymm8, ymm9, ymm10, ymm11, ymm12, ymm13, ymm14, ymm15;
+  const Ymm ymm16, ymm17, ymm18, ymm19, ymm20, ymm21, ymm22, ymm23;
+  const Ymm ymm24, ymm25, ymm26, ymm27, ymm28, ymm29, ymm30, ymm31;
+  const Zmm zmm8, zmm9, zmm10, zmm11, zmm12, zmm13, zmm14, zmm15;
+  const Zmm zmm16, zmm17, zmm18, zmm19, zmm20, zmm21, zmm22, zmm23;
+  const Zmm zmm24, zmm25, zmm26, zmm27, zmm28, zmm29, zmm30, zmm31;
+  const Tmm tmm0, tmm1, tmm2, tmm3, tmm4, tmm5, tmm6, tmm7;
+  const Xmm &xm8, &xm9, &xm10, &xm11, &xm12, &xm13, &xm14, &xm15;  // for my convenience
+  const Xmm &xm16, &xm17, &xm18, &xm19, &xm20, &xm21, &xm22, &xm23;
+  const Xmm &xm24, &xm25, &xm26, &xm27, &xm28, &xm29, &xm30, &xm31;
+  const Ymm &ym8, &ym9, &ym10, &ym11, &ym12, &ym13, &ym14, &ym15;
+  const Ymm &ym16, &ym17, &ym18, &ym19, &ym20, &ym21, &ym22, &ym23;
+  const Ymm &ym24, &ym25, &ym26, &ym27, &ym28, &ym29, &ym30, &ym31;
+  const Zmm &zm8, &zm9, &zm10, &zm11, &zm12, &zm13, &zm14, &zm15;
+  const Zmm &zm16, &zm17, &zm18, &zm19, &zm20, &zm21, &zm22, &zm23;
+  const Zmm &zm24, &zm25, &zm26, &zm27, &zm28, &zm29, &zm30, &zm31;
+  const RegRip rip;
+#endif
+#ifndef XBYAK_DISABLE_SEGMENT
+  const Segment es, cs, ss, ds, fs, gs;
+#endif
+ private:
+  bool isDefaultJmpNEAR_;
+  PreferredEncoding defaultEncoding_;
+
+ public:
+  void L(const std::string& label) { labelMgr_.defineSlabel(label); }
+  void L(Label& label) { labelMgr_.defineClabel(label); }
+  Label L() {
+    Label label;
+    L(label);
+    return label;
+  }
+  void inLocalLabel() { labelMgr_.enterLocal(); }
+  void outLocalLabel() { labelMgr_.leaveLocal(); }
+  /*
+          assign src to dst
+          require
+          dst : does not used by L()
+          src : used by L()
+  */
+  void assignL(Label& dst, const Label& src) { labelMgr_.assign(dst, src); }
+  /*
+          put address of label to buffer
+          @note the put size is 4(32-bit), 8(64-bit)
+  */
+  void putL(std::string label) { putL_inner(label); }
+  void putL(const Label& label) { putL_inner(label); }
+
+  // set default type of `jmp` of undefined label to T_NEAR
+  void setDefaultJmpNEAR(bool isNear) { isDefaultJmpNEAR_ = isNear; }
+  void jmp(const Operand& op, LabelType type = T_AUTO) { opJmpOp(op, type, 4); }
+  void jmp(std::string label, LabelType type = T_AUTO) { opJmp(label, type, 0xEB, 0xE9, 0); }
+  void jmp(const char* label, LabelType type = T_AUTO) { jmp(std::string(label), type); }
+  void jmp(const Label& label, LabelType type = T_AUTO) { opJmp(label, type, 0xEB, 0xE9, 0); }
+  void jmp(const void* addr, LabelType type = T_AUTO) { opJmpAbs(addr, type, 0xEB, 0xE9); }
+
+  void call(const Operand& op, LabelType type = T_AUTO) { opJmpOp(op, type, 2); }
+  // call(string label), not const std::string&
+  void call(std::string label) { opJmp(label, T_NEAR, 0, 0xE8, 0); }
+  void call(const char* label) { call(std::string(label)); }
+  void call(const Label& label) { opJmp(label, T_NEAR, 0, 0xE8, 0); }
+  // call(function pointer)
+#ifdef XBYAK_VARIADIC_TEMPLATE
+  template <class Ret, class... Params>
+  void call(Ret (*func)(Params...)) {
+    call(reinterpret_cast<const void*>(func));
+  }
+#endif
+  void call(const void* addr) { opJmpAbs(addr, T_NEAR, 0, 0xE8); }
+
+  void test(const Operand& op, const Reg& reg) {
+    opModRM(reg, op, op.isREG() && (op.getKind() == reg.getKind()), op.isMEM(), 0x84);
+  }
+  void test(const Operand& op, uint32_t imm) {
+    verifyMemHasSize(op);
+    int immSize = (std::min)(op.getBit() / 8, 4U);
+    if (op.isREG() && op.getIdx() == 0) {  // al, ax, eax
+      rex(op);
+      db(0xA8 | (op.isBit(8) ? 0 : 1));
+    } else {
+      opR_ModM(op, 0, 0, 0xF6, NONE, NONE, false, immSize);
+    }
+    db(imm, immSize);
+  }
+  void imul(const Reg& reg, const Operand& op) {
+    opModRM(reg, op, op.isREG() && (reg.getKind() == op.getKind()), op.isMEM(), 0x0F, 0xAF);
+  }
+  void imul(const Reg& reg, const Operand& op, int imm) {
+    int s = inner::IsInDisp8(imm) ? 1 : 0;
+    int immSize = s ? 1 : reg.isREG(16) ? 2 : 4;
+    opModRM(reg, op, op.isREG() && (reg.getKind() == op.getKind()), op.isMEM(), 0x69 | (s << 1), NONE, NONE, immSize);
+    db(imm, immSize);
+  }
+  void push(const Operand& op) { opPushPop(op, 0xFF, 6, 0x50); }
+  void pop(const Operand& op) { opPushPop(op, 0x8F, 0, 0x58); }
+  void push(const AddressFrame& af, uint32_t imm) {
+    if (af.bit_ == 8) {
+      db(0x6A);
+      db(imm);
+    } else if (af.bit_ == 16) {
+      db(0x66);
+      db(0x68);
+      dw(imm);
+    } else {
+      db(0x68);
+      dd(imm);
+    }
+  }
+  /* use "push(word, 4)" if you want "push word 4" */
+  void push(uint32_t imm) {
+    if (inner::IsInDisp8(imm)) {
+      push(byte, imm);
+    } else {
+      push(dword, imm);
+    }
+  }
+  void mov(const Operand& reg1, const Operand& reg2) {
+    const Reg* reg = 0;
+    const Address* addr = 0;
+    uint8_t code = 0;
+    if (reg1.isREG() && reg1.getIdx() == 0 && reg2.isMEM()) {  // mov eax|ax|al, [disp]
+      reg = &reg1.getReg();
+      addr = &reg2.getAddress();
+      code = 0xA0;
+    } else if (reg1.isMEM() && reg2.isREG() && reg2.getIdx() == 0) {  // mov [disp], eax|ax|al
+      reg = &reg2.getReg();
+      addr = &reg1.getAddress();
+      code = 0xA2;
+    }
+#ifdef XBYAK64
+    if (addr && addr->is64bitDisp()) {
+      if (code) {
+        rex(*reg);
+        db(reg1.isREG(8) ? 0xA0 : reg1.isREG() ? 0xA1 : reg2.isREG(8) ? 0xA2 : 0xA3);
+        db(addr->getDisp(), 8);
+      } else {
+        XBYAK_THROW(ERR_BAD_COMBINATION)
+      }
+    } else
+#else
+    if (code && addr->isOnlyDisp()) {
+      rex(*reg, *addr);
+      db(code | (reg->isBit(8) ? 0 : 1));
+      dd(static_cast<uint32_t>(addr->getDisp()));
+    } else
+#endif
+    {
+      opRM_RM(reg1, reg2, 0x88);
+    }
+  }
+  void mov(const Operand& op, uint64_t imm) {
+    if (op.isREG()) {
+      const int size = mov_imm(op.getReg(), imm);
+      db(imm, size);
+    } else if (op.isMEM()) {
+      verifyMemHasSize(op);
+      int immSize = op.getBit() / 8;
+      if (immSize <= 4) {
+        int64_t s = int64_t(imm) >> (immSize * 8);
+        if (s != 0 && s != -1) XBYAK_THROW(ERR_IMM_IS_TOO_BIG)
+      } else {
+        if (!inner::IsInInt32(imm)) XBYAK_THROW(ERR_IMM_IS_TOO_BIG)
+        immSize = 4;
+      }
+      opModM(op.getAddress(), Reg(0, Operand::REG, op.getBit()), 0xC6, NONE, NONE, immSize);
+      db(static_cast<uint32_t>(imm), immSize);
+    } else {
+      XBYAK_THROW(ERR_BAD_COMBINATION)
+    }
+  }
+
+  // The template is used to avoid ambiguity when the 2nd argument is 0.
+  // When the 2nd argument is 0 the call goes to
+  // `void mov(const Operand& op, uint64_t imm)`.
+  template <typename T1, typename T2>
+  void mov(const T1&, const T2*) {
+    T1::unexpected;
+  }
+  void mov(const NativeReg& reg, const Label& label) {
+    mov_imm(reg, dummyAddr);
+    putL(label);
+  }
+  void xchg(const Operand& op1, const Operand& op2) {
+    const Operand *p1 = &op1, *p2 = &op2;
+    if (p1->isMEM() || (p2->isREG(16 | i32e) && p2->getIdx() == 0)) {
+      p1 = &op2;
+      p2 = &op1;
+    }
+    if (p1->isMEM()) XBYAK_THROW(ERR_BAD_COMBINATION)
+    if (p2->isREG() && (p1->isREG(16 | i32e) && p1->getIdx() == 0)
+#ifdef XBYAK64
+        && (p2->getIdx() != 0 || !p1->isREG(32))
+#endif
+    ) {
+      rex(*p2, *p1);
+      db(0x90 | (p2->getIdx() & 7));
+      return;
+    }
+    opModRM(*p1, *p2, (p1->isREG() && p2->isREG() && (p1->getBit() == p2->getBit())), p2->isMEM(),
+            0x86 | (p1->isBit(8) ? 0 : 1));
+  }
+
+#ifndef XBYAK_DISABLE_SEGMENT
+  void push(const Segment& seg) {
+    switch (seg.getIdx()) {
+      case Segment::es:
+        db(0x06);
+        break;
+      case Segment::cs:
+        db(0x0E);
+        break;
+      case Segment::ss:
+        db(0x16);
+        break;
+      case Segment::ds:
+        db(0x1E);
+        break;
+      case Segment::fs:
+        db(0x0F);
+        db(0xA0);
+        break;
+      case Segment::gs:
+        db(0x0F);
+        db(0xA8);
+        break;
+      default:
+        assert(0);
+    }
+  }
+  void pop(const Segment& seg) {
+    switch (seg.getIdx()) {
+      case Segment::es:
+        db(0x07);
+        break;
+      case Segment::cs:
+        XBYAK_THROW(ERR_BAD_COMBINATION)
+      case Segment::ss:
+        db(0x17);
+        break;
+      case Segment::ds:
+        db(0x1F);
+        break;
+      case Segment::fs:
+        db(0x0F);
+        db(0xA1);
+        break;
+      case Segment::gs:
+        db(0x0F);
+        db(0xA9);
+        break;
+      default:
+        assert(0);
+    }
+  }
+  void putSeg(const Segment& seg) {
+    switch (seg.getIdx()) {
+      case Segment::es:
+        db(0x2E);
+        break;
+      case Segment::cs:
+        db(0x36);
+        break;
+      case Segment::ss:
+        db(0x3E);
+        break;
+      case Segment::ds:
+        db(0x26);
+        break;
+      case Segment::fs:
+        db(0x64);
+        break;
+      case Segment::gs:
+        db(0x65);
+        break;
+      default:
+        assert(0);
+    }
+  }
+  void mov(const Operand& op, const Segment& seg) {
+    opModRM(Reg8(seg.getIdx()), op, op.isREG(16 | i32e), op.isMEM(), 0x8C);
+  }
+  void mov(const Segment& seg, const Operand& op) {
+    opModRM(Reg8(seg.getIdx()), op.isREG(16 | i32e) ? static_cast<const Operand&>(op.getReg().cvt32()) : op,
+            op.isREG(16 | i32e), op.isMEM(), 0x8E);
+  }
+#endif
+
+  enum { NONE = 256 };
+  // constructor
+  CodeGenerator(size_t maxSize = DEFAULT_MAX_CODE_SIZE, void* userPtr = 0, Allocator* allocator = 0)
+      : CodeArray(maxSize, userPtr, allocator),
+        mm0(0),
+        mm1(1),
+        mm2(2),
+        mm3(3),
+        mm4(4),
+        mm5(5),
+        mm6(6),
+        mm7(7),
+        xmm0(0),
+        xmm1(1),
+        xmm2(2),
+        xmm3(3),
+        xmm4(4),
+        xmm5(5),
+        xmm6(6),
+        xmm7(7),
+        ymm0(0),
+        ymm1(1),
+        ymm2(2),
+        ymm3(3),
+        ymm4(4),
+        ymm5(5),
+        ymm6(6),
+        ymm7(7),
+        zmm0(0),
+        zmm1(1),
+        zmm2(2),
+        zmm3(3),
+        zmm4(4),
+        zmm5(5),
+        zmm6(6),
+        zmm7(7)
+        // for my convenience
+        ,
+        xm0(xmm0),
+        xm1(xmm1),
+        xm2(xmm2),
+        xm3(xmm3),
+        xm4(xmm4),
+        xm5(xmm5),
+        xm6(xmm6),
+        xm7(xmm7),
+        ym0(ymm0),
+        ym1(ymm1),
+        ym2(ymm2),
+        ym3(ymm3),
+        ym4(ymm4),
+        ym5(ymm5),
+        ym6(ymm6),
+        ym7(ymm7),
+        zm0(zmm0),
+        zm1(zmm1),
+        zm2(zmm2),
+        zm3(zmm3),
+        zm4(zmm4),
+        zm5(zmm5),
+        zm6(zmm6),
+        zm7(zmm7)
+
+        ,
+        eax(Operand::EAX),
+        ecx(Operand::ECX),
+        edx(Operand::EDX),
+        ebx(Operand::EBX),
+        esp(Operand::ESP),
+        ebp(Operand::EBP),
+        esi(Operand::ESI),
+        edi(Operand::EDI),
+        ax(Operand::AX),
+        cx(Operand::CX),
+        dx(Operand::DX),
+        bx(Operand::BX),
+        sp(Operand::SP),
+        bp(Operand::BP),
+        si(Operand::SI),
+        di(Operand::DI),
+        al(Operand::AL),
+        cl(Operand::CL),
+        dl(Operand::DL),
+        bl(Operand::BL),
+        ah(Operand::AH),
+        ch(Operand::CH),
+        dh(Operand::DH),
+        bh(Operand::BH),
+        ptr(0),
+        byte(8),
+        word(16),
+        dword(32),
+        qword(64),
+        xword(128),
+        yword(256),
+        zword(512),
+        ptr_b(0, true),
+        xword_b(128, true),
+        yword_b(256, true),
+        zword_b(512, true),
+        st0(0),
+        st1(1),
+        st2(2),
+        st3(3),
+        st4(4),
+        st5(5),
+        st6(6),
+        st7(7),
+        k0(0),
+        k1(1),
+        k2(2),
+        k3(3),
+        k4(4),
+        k5(5),
+        k6(6),
+        k7(7),
+        bnd0(0),
+        bnd1(1),
+        bnd2(2),
+        bnd3(3),
+        T_sae(EvexModifierRounding::T_SAE),
+        T_rn_sae(EvexModifierRounding::T_RN_SAE),
+        T_rd_sae(EvexModifierRounding::T_RD_SAE),
+        T_ru_sae(EvexModifierRounding::T_RU_SAE),
+        T_rz_sae(EvexModifierRounding::T_RZ_SAE),
+        T_z()
+#ifdef XBYAK64
+        ,
+        rax(Operand::RAX),
+        rcx(Operand::RCX),
+        rdx(Operand::RDX),
+        rbx(Operand::RBX),
+        rsp(Operand::RSP),
+        rbp(Operand::RBP),
+        rsi(Operand::RSI),
+        rdi(Operand::RDI),
+        r8(Operand::R8),
+        r9(Operand::R9),
+        r10(Operand::R10),
+        r11(Operand::R11),
+        r12(Operand::R12),
+        r13(Operand::R13),
+        r14(Operand::R14),
+        r15(Operand::R15),
+        r8d(8),
+        r9d(9),
+        r10d(10),
+        r11d(11),
+        r12d(12),
+        r13d(13),
+        r14d(14),
+        r15d(15),
+        r8w(8),
+        r9w(9),
+        r10w(10),
+        r11w(11),
+        r12w(12),
+        r13w(13),
+        r14w(14),
+        r15w(15),
+        r8b(8),
+        r9b(9),
+        r10b(10),
+        r11b(11),
+        r12b(12),
+        r13b(13),
+        r14b(14),
+        r15b(15),
+        spl(Operand::SPL, true),
+        bpl(Operand::BPL, true),
+        sil(Operand::SIL, true),
+        dil(Operand::DIL, true),
+        xmm8(8),
+        xmm9(9),
+        xmm10(10),
+        xmm11(11),
+        xmm12(12),
+        xmm13(13),
+        xmm14(14),
+        xmm15(15),
+        xmm16(16),
+        xmm17(17),
+        xmm18(18),
+        xmm19(19),
+        xmm20(20),
+        xmm21(21),
+        xmm22(22),
+        xmm23(23),
+        xmm24(24),
+        xmm25(25),
+        xmm26(26),
+        xmm27(27),
+        xmm28(28),
+        xmm29(29),
+        xmm30(30),
+        xmm31(31),
+        ymm8(8),
+        ymm9(9),
+        ymm10(10),
+        ymm11(11),
+        ymm12(12),
+        ymm13(13),
+        ymm14(14),
+        ymm15(15),
+        ymm16(16),
+        ymm17(17),
+        ymm18(18),
+        ymm19(19),
+        ymm20(20),
+        ymm21(21),
+        ymm22(22),
+        ymm23(23),
+        ymm24(24),
+        ymm25(25),
+        ymm26(26),
+        ymm27(27),
+        ymm28(28),
+        ymm29(29),
+        ymm30(30),
+        ymm31(31),
+        zmm8(8),
+        zmm9(9),
+        zmm10(10),
+        zmm11(11),
+        zmm12(12),
+        zmm13(13),
+        zmm14(14),
+        zmm15(15),
+        zmm16(16),
+        zmm17(17),
+        zmm18(18),
+        zmm19(19),
+        zmm20(20),
+        zmm21(21),
+        zmm22(22),
+        zmm23(23),
+        zmm24(24),
+        zmm25(25),
+        zmm26(26),
+        zmm27(27),
+        zmm28(28),
+        zmm29(29),
+        zmm30(30),
+        zmm31(31),
+        tmm0(0),
+        tmm1(1),
+        tmm2(2),
+        tmm3(3),
+        tmm4(4),
+        tmm5(5),
+        tmm6(6),
+        tmm7(7)
+        // for my convenience
+        ,
+        xm8(xmm8),
+        xm9(xmm9),
+        xm10(xmm10),
+        xm11(xmm11),
+        xm12(xmm12),
+        xm13(xmm13),
+        xm14(xmm14),
+        xm15(xmm15),
+        xm16(xmm16),
+        xm17(xmm17),
+        xm18(xmm18),
+        xm19(xmm19),
+        xm20(xmm20),
+        xm21(xmm21),
+        xm22(xmm22),
+        xm23(xmm23),
+        xm24(xmm24),
+        xm25(xmm25),
+        xm26(xmm26),
+        xm27(xmm27),
+        xm28(xmm28),
+        xm29(xmm29),
+        xm30(xmm30),
+        xm31(xmm31),
+        ym8(ymm8),
+        ym9(ymm9),
+        ym10(ymm10),
+        ym11(ymm11),
+        ym12(ymm12),
+        ym13(ymm13),
+        ym14(ymm14),
+        ym15(ymm15),
+        ym16(ymm16),
+        ym17(ymm17),
+        ym18(ymm18),
+        ym19(ymm19),
+        ym20(ymm20),
+        ym21(ymm21),
+        ym22(ymm22),
+        ym23(ymm23),
+        ym24(ymm24),
+        ym25(ymm25),
+        ym26(ymm26),
+        ym27(ymm27),
+        ym28(ymm28),
+        ym29(ymm29),
+        ym30(ymm30),
+        ym31(ymm31),
+        zm8(zmm8),
+        zm9(zmm9),
+        zm10(zmm10),
+        zm11(zmm11),
+        zm12(zmm12),
+        zm13(zmm13),
+        zm14(zmm14),
+        zm15(zmm15),
+        zm16(zmm16),
+        zm17(zmm17),
+        zm18(zmm18),
+        zm19(zmm19),
+        zm20(zmm20),
+        zm21(zmm21),
+        zm22(zmm22),
+        zm23(zmm23),
+        zm24(zmm24),
+        zm25(zmm25),
+        zm26(zmm26),
+        zm27(zmm27),
+        zm28(zmm28),
+        zm29(zmm29),
+        zm30(zmm30),
+        zm31(zmm31),
+        rip()
+#endif
+#ifndef XBYAK_DISABLE_SEGMENT
+        ,
+        es(Segment::es),
+        cs(Segment::cs),
+        ss(Segment::ss),
+        ds(Segment::ds),
+        fs(Segment::fs),
+        gs(Segment::gs)
+#endif
+        ,
+        isDefaultJmpNEAR_(false),
+        defaultEncoding_(EvexEncoding) {
+    labelMgr_.set(this);
+  }
+  void reset() {
+    ClearError();
+    resetSize();
+    labelMgr_.reset();
+    labelMgr_.set(this);
+  }
+  bool hasUndefinedLabel() const { return labelMgr_.hasUndefSlabel() || labelMgr_.hasUndefClabel(); }
+  /*
+          MUST call ready() to complete generating code if you use AutoGrow mode.
+          It is not necessary for the other mode if hasUndefinedLabel() is true.
+  */
+  void ready(ProtectMode mode = PROTECT_RWE) {
+    if (hasUndefinedLabel()) XBYAK_THROW(ERR_LABEL_IS_NOT_FOUND)
+    if (isAutoGrow()) {
+      calcJmpAddress();
+      if (useProtect()) setProtectMode(mode);
+    }
+  }
+  // set read/exec
+  void readyRE() { return ready(PROTECT_RE); }
+#ifdef XBYAK_TEST
+  void dump(bool doClear = true) {
+    CodeArray::dump();
+    if (doClear) size_ = 0;
+  }
+#endif
+
+#ifdef XBYAK_UNDEF_JNL
+#undef jnl
+#endif
+
+  // set default encoding to select Vex or Evex
+  void setDefaultEncoding(PreferredEncoding encoding) { defaultEncoding_ = encoding; }
+
+  /*
+          use single byte nop if useMultiByteNop = false
+  */
+  void nop(size_t size = 1, bool useMultiByteNop = true) {
+    if (!useMultiByteNop) {
+      for (size_t i = 0; i < size; i++) {
+        db(0x90);
+      }
+      return;
+    }
+    /*
+            Intel Architectures Software Developer's Manual Volume 2
+            recommended multi-byte sequence of NOP instruction
+            AMD and Intel seem to agree on the same sequences for up to 9 bytes:
+            https://support.amd.com/TechDocs/55723_SOG_Fam_17h_Processors_3.00.pdf
+    */
+    static const uint8_t nopTbl[9][9] = {
+        {0x90},
+        {0x66, 0x90},
+        {0x0F, 0x1F, 0x00},
+        {0x0F, 0x1F, 0x40, 0x00},
+        {0x0F, 0x1F, 0x44, 0x00, 0x00},
+        {0x66, 0x0F, 0x1F, 0x44, 0x00, 0x00},
+        {0x0F, 0x1F, 0x80, 0x00, 0x00, 0x00, 0x00},
+        {0x0F, 0x1F, 0x84, 0x00, 0x00, 0x00, 0x00, 0x00},
+        {0x66, 0x0F, 0x1F, 0x84, 0x00, 0x00, 0x00, 0x00, 0x00},
+    };
+    const size_t n = sizeof(nopTbl) / sizeof(nopTbl[0]);
+    while (size > 0) {
+      size_t len = (std::min)(n, size);
+      const uint8_t* seq = nopTbl[len - 1];
+      db(seq, len);
+      size -= len;
+    }
+  }
+
+#ifndef XBYAK_DONT_READ_LIST
+#include "xbyak_mnemonic.h"
+  /*
+          use single byte nop if useMultiByteNop = false
+  */
+  void align(size_t x = 16, bool useMultiByteNop = true) {
+    if (x == 1) return;
+    if (x < 1 || (x & (x - 1))) XBYAK_THROW(ERR_BAD_ALIGN)
+    if (isAutoGrow()) XBYAK_THROW(ERR_BAD_ALIGN)
+    size_t remain = size_t(getCurr()) % x;
+    if (remain) {
+      nop(x - remain, useMultiByteNop);
+    }
+  }
+#endif
+};
+
+template <>
+inline void CodeGenerator::mov(const NativeReg& reg, const char* label)  // can't use std::string
+{
+  assert(label);
+  mov_imm(reg, dummyAddr);
+  putL(label);
+}
+
+namespace util {
+static const XBYAK_CONSTEXPR Mmx mm0(0), mm1(1), mm2(2), mm3(3), mm4(4), mm5(5), mm6(6), mm7(7);
+static const XBYAK_CONSTEXPR Xmm xmm0(0), xmm1(1), xmm2(2), xmm3(3), xmm4(4), xmm5(5), xmm6(6), xmm7(7);
+static const XBYAK_CONSTEXPR Ymm ymm0(0), ymm1(1), ymm2(2), ymm3(3), ymm4(4), ymm5(5), ymm6(6), ymm7(7);
+static const XBYAK_CONSTEXPR Zmm zmm0(0), zmm1(1), zmm2(2), zmm3(3), zmm4(4), zmm5(5), zmm6(6), zmm7(7);
+static const XBYAK_CONSTEXPR Reg32 eax(Operand::EAX), ecx(Operand::ECX), edx(Operand::EDX), ebx(Operand::EBX),
+    esp(Operand::ESP), ebp(Operand::EBP), esi(Operand::ESI), edi(Operand::EDI);
+static const XBYAK_CONSTEXPR Reg16 ax(Operand::AX), cx(Operand::CX), dx(Operand::DX), bx(Operand::BX), sp(Operand::SP),
+    bp(Operand::BP), si(Operand::SI), di(Operand::DI);
+static const XBYAK_CONSTEXPR Reg8 al(Operand::AL), cl(Operand::CL), dl(Operand::DL), bl(Operand::BL), ah(Operand::AH),
+    ch(Operand::CH), dh(Operand::DH), bh(Operand::BH);
+static const XBYAK_CONSTEXPR AddressFrame ptr(0), byte(8), word(16), dword(32), qword(64), xword(128), yword(256),
+    zword(512);
+static const XBYAK_CONSTEXPR AddressFrame ptr_b(0, true), xword_b(128, true), yword_b(256, true), zword_b(512, true);
+static const XBYAK_CONSTEXPR Fpu st0(0), st1(1), st2(2), st3(3), st4(4), st5(5), st6(6), st7(7);
+static const XBYAK_CONSTEXPR Opmask k0(0), k1(1), k2(2), k3(3), k4(4), k5(5), k6(6), k7(7);
+static const XBYAK_CONSTEXPR BoundsReg bnd0(0), bnd1(1), bnd2(2), bnd3(3);
+static const XBYAK_CONSTEXPR EvexModifierRounding T_sae(EvexModifierRounding::T_SAE),
+    T_rn_sae(EvexModifierRounding::T_RN_SAE), T_rd_sae(EvexModifierRounding::T_RD_SAE),
+    T_ru_sae(EvexModifierRounding::T_RU_SAE), T_rz_sae(EvexModifierRounding::T_RZ_SAE);
+static const XBYAK_CONSTEXPR EvexModifierZero T_z;
+#ifdef XBYAK64
+static const XBYAK_CONSTEXPR Reg64 rax(Operand::RAX), rcx(Operand::RCX), rdx(Operand::RDX), rbx(Operand::RBX),
+    rsp(Operand::RSP), rbp(Operand::RBP), rsi(Operand::RSI), rdi(Operand::RDI), r8(Operand::R8), r9(Operand::R9),
+    r10(Operand::R10), r11(Operand::R11), r12(Operand::R12), r13(Operand::R13), r14(Operand::R14), r15(Operand::R15);
+static const XBYAK_CONSTEXPR Reg32 r8d(8), r9d(9), r10d(10), r11d(11), r12d(12), r13d(13), r14d(14), r15d(15);
+static const XBYAK_CONSTEXPR Reg16 r8w(8), r9w(9), r10w(10), r11w(11), r12w(12), r13w(13), r14w(14), r15w(15);
+static const XBYAK_CONSTEXPR Reg8 r8b(8), r9b(9), r10b(10), r11b(11), r12b(12), r13b(13), r14b(14), r15b(15),
+    spl(Operand::SPL, true), bpl(Operand::BPL, true), sil(Operand::SIL, true), dil(Operand::DIL, true);
+static const XBYAK_CONSTEXPR Xmm xmm8(8), xmm9(9), xmm10(10), xmm11(11), xmm12(12), xmm13(13), xmm14(14), xmm15(15);
+static const XBYAK_CONSTEXPR Xmm xmm16(16), xmm17(17), xmm18(18), xmm19(19), xmm20(20), xmm21(21), xmm22(22), xmm23(23);
+static const XBYAK_CONSTEXPR Xmm xmm24(24), xmm25(25), xmm26(26), xmm27(27), xmm28(28), xmm29(29), xmm30(30), xmm31(31);
+static const XBYAK_CONSTEXPR Ymm ymm8(8), ymm9(9), ymm10(10), ymm11(11), ymm12(12), ymm13(13), ymm14(14), ymm15(15);
+static const XBYAK_CONSTEXPR Ymm ymm16(16), ymm17(17), ymm18(18), ymm19(19), ymm20(20), ymm21(21), ymm22(22), ymm23(23);
+static const XBYAK_CONSTEXPR Ymm ymm24(24), ymm25(25), ymm26(26), ymm27(27), ymm28(28), ymm29(29), ymm30(30), ymm31(31);
+static const XBYAK_CONSTEXPR Zmm zmm8(8), zmm9(9), zmm10(10), zmm11(11), zmm12(12), zmm13(13), zmm14(14), zmm15(15);
+static const XBYAK_CONSTEXPR Zmm zmm16(16), zmm17(17), zmm18(18), zmm19(19), zmm20(20), zmm21(21), zmm22(22), zmm23(23);
+static const XBYAK_CONSTEXPR Zmm zmm24(24), zmm25(25), zmm26(26), zmm27(27), zmm28(28), zmm29(29), zmm30(30), zmm31(31);
+static const XBYAK_CONSTEXPR Zmm tmm0(0), tmm1(1), tmm2(2), tmm3(3), tmm4(4), tmm5(5), tmm6(6), tmm7(7);
+static const XBYAK_CONSTEXPR RegRip rip;
+#endif
+#ifndef XBYAK_DISABLE_SEGMENT
+static const XBYAK_CONSTEXPR Segment es(Segment::es), cs(Segment::cs), ss(Segment::ss), ds(Segment::ds),
+    fs(Segment::fs), gs(Segment::gs);
+#endif
+}  // namespace util
+
+#ifdef _MSC_VER
+#pragma warning(pop)
+#endif
+
+#if defined(__GNUC__) && !defined(__clang__)
+#pragma GCC diagnostic pop
+#endif
+
+}  // namespace Xbyak
+
+#endif  // XBYAK_XBYAK_H_
diff --git a/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/xbyak/xbyak_bin2hex.h b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/xbyak/xbyak_bin2hex.h
new file mode 100644
index 0000000000000..fda7da3c9b7c1
--- /dev/null
+++ b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/xbyak/xbyak_bin2hex.h
@@ -0,0 +1,271 @@
+//  Copyright (c) 2023 Intel Corporation
+//
+//  Licensed under the Apache License, Version 2.0 (the "License");
+//  you may not use this file except in compliance with the License.
+//  You may obtain a copy of the License at
+//
+//    http://www.apache.org/licenses/LICENSE-2.0
+//
+//  Unless required by applicable law or agreed to in writing, software
+//  distributed under the License is distributed on an "AS IS" BASIS,
+//  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+//  See the License for the specific language governing permissions and
+//  limitations under the License.
+enum {
+  B00000000 = 0,
+  B00000001 = 1,
+  B00000010 = 2,
+  B00000011 = 3,
+  B00000100 = 4,
+  B00000101 = 5,
+  B00000110 = 6,
+  B00000111 = 7,
+  B00001000 = 8,
+  B00001001 = 9,
+  B00001010 = 10,
+  B00001011 = 11,
+  B00001100 = 12,
+  B00001101 = 13,
+  B00001110 = 14,
+  B00001111 = 15,
+  B00010000 = 16,
+  B00010001 = 17,
+  B00010010 = 18,
+  B00010011 = 19,
+  B00010100 = 20,
+  B00010101 = 21,
+  B00010110 = 22,
+  B00010111 = 23,
+  B00011000 = 24,
+  B00011001 = 25,
+  B00011010 = 26,
+  B00011011 = 27,
+  B00011100 = 28,
+  B00011101 = 29,
+  B00011110 = 30,
+  B00011111 = 31,
+  B00100000 = 32,
+  B00100001 = 33,
+  B00100010 = 34,
+  B00100011 = 35,
+  B00100100 = 36,
+  B00100101 = 37,
+  B00100110 = 38,
+  B00100111 = 39,
+  B00101000 = 40,
+  B00101001 = 41,
+  B00101010 = 42,
+  B00101011 = 43,
+  B00101100 = 44,
+  B00101101 = 45,
+  B00101110 = 46,
+  B00101111 = 47,
+  B00110000 = 48,
+  B00110001 = 49,
+  B00110010 = 50,
+  B00110011 = 51,
+  B00110100 = 52,
+  B00110101 = 53,
+  B00110110 = 54,
+  B00110111 = 55,
+  B00111000 = 56,
+  B00111001 = 57,
+  B00111010 = 58,
+  B00111011 = 59,
+  B00111100 = 60,
+  B00111101 = 61,
+  B00111110 = 62,
+  B00111111 = 63,
+  B01000000 = 64,
+  B01000001 = 65,
+  B01000010 = 66,
+  B01000011 = 67,
+  B01000100 = 68,
+  B01000101 = 69,
+  B01000110 = 70,
+  B01000111 = 71,
+  B01001000 = 72,
+  B01001001 = 73,
+  B01001010 = 74,
+  B01001011 = 75,
+  B01001100 = 76,
+  B01001101 = 77,
+  B01001110 = 78,
+  B01001111 = 79,
+  B01010000 = 80,
+  B01010001 = 81,
+  B01010010 = 82,
+  B01010011 = 83,
+  B01010100 = 84,
+  B01010101 = 85,
+  B01010110 = 86,
+  B01010111 = 87,
+  B01011000 = 88,
+  B01011001 = 89,
+  B01011010 = 90,
+  B01011011 = 91,
+  B01011100 = 92,
+  B01011101 = 93,
+  B01011110 = 94,
+  B01011111 = 95,
+  B01100000 = 96,
+  B01100001 = 97,
+  B01100010 = 98,
+  B01100011 = 99,
+  B01100100 = 100,
+  B01100101 = 101,
+  B01100110 = 102,
+  B01100111 = 103,
+  B01101000 = 104,
+  B01101001 = 105,
+  B01101010 = 106,
+  B01101011 = 107,
+  B01101100 = 108,
+  B01101101 = 109,
+  B01101110 = 110,
+  B01101111 = 111,
+  B01110000 = 112,
+  B01110001 = 113,
+  B01110010 = 114,
+  B01110011 = 115,
+  B01110100 = 116,
+  B01110101 = 117,
+  B01110110 = 118,
+  B01110111 = 119,
+  B01111000 = 120,
+  B01111001 = 121,
+  B01111010 = 122,
+  B01111011 = 123,
+  B01111100 = 124,
+  B01111101 = 125,
+  B01111110 = 126,
+  B01111111 = 127,
+  B10000000 = 128,
+  B10000001 = 129,
+  B10000010 = 130,
+  B10000011 = 131,
+  B10000100 = 132,
+  B10000101 = 133,
+  B10000110 = 134,
+  B10000111 = 135,
+  B10001000 = 136,
+  B10001001 = 137,
+  B10001010 = 138,
+  B10001011 = 139,
+  B10001100 = 140,
+  B10001101 = 141,
+  B10001110 = 142,
+  B10001111 = 143,
+  B10010000 = 144,
+  B10010001 = 145,
+  B10010010 = 146,
+  B10010011 = 147,
+  B10010100 = 148,
+  B10010101 = 149,
+  B10010110 = 150,
+  B10010111 = 151,
+  B10011000 = 152,
+  B10011001 = 153,
+  B10011010 = 154,
+  B10011011 = 155,
+  B10011100 = 156,
+  B10011101 = 157,
+  B10011110 = 158,
+  B10011111 = 159,
+  B10100000 = 160,
+  B10100001 = 161,
+  B10100010 = 162,
+  B10100011 = 163,
+  B10100100 = 164,
+  B10100101 = 165,
+  B10100110 = 166,
+  B10100111 = 167,
+  B10101000 = 168,
+  B10101001 = 169,
+  B10101010 = 170,
+  B10101011 = 171,
+  B10101100 = 172,
+  B10101101 = 173,
+  B10101110 = 174,
+  B10101111 = 175,
+  B10110000 = 176,
+  B10110001 = 177,
+  B10110010 = 178,
+  B10110011 = 179,
+  B10110100 = 180,
+  B10110101 = 181,
+  B10110110 = 182,
+  B10110111 = 183,
+  B10111000 = 184,
+  B10111001 = 185,
+  B10111010 = 186,
+  B10111011 = 187,
+  B10111100 = 188,
+  B10111101 = 189,
+  B10111110 = 190,
+  B10111111 = 191,
+  B11000000 = 192,
+  B11000001 = 193,
+  B11000010 = 194,
+  B11000011 = 195,
+  B11000100 = 196,
+  B11000101 = 197,
+  B11000110 = 198,
+  B11000111 = 199,
+  B11001000 = 200,
+  B11001001 = 201,
+  B11001010 = 202,
+  B11001011 = 203,
+  B11001100 = 204,
+  B11001101 = 205,
+  B11001110 = 206,
+  B11001111 = 207,
+  B11010000 = 208,
+  B11010001 = 209,
+  B11010010 = 210,
+  B11010011 = 211,
+  B11010100 = 212,
+  B11010101 = 213,
+  B11010110 = 214,
+  B11010111 = 215,
+  B11011000 = 216,
+  B11011001 = 217,
+  B11011010 = 218,
+  B11011011 = 219,
+  B11011100 = 220,
+  B11011101 = 221,
+  B11011110 = 222,
+  B11011111 = 223,
+  B11100000 = 224,
+  B11100001 = 225,
+  B11100010 = 226,
+  B11100011 = 227,
+  B11100100 = 228,
+  B11100101 = 229,
+  B11100110 = 230,
+  B11100111 = 231,
+  B11101000 = 232,
+  B11101001 = 233,
+  B11101010 = 234,
+  B11101011 = 235,
+  B11101100 = 236,
+  B11101101 = 237,
+  B11101110 = 238,
+  B11101111 = 239,
+  B11110000 = 240,
+  B11110001 = 241,
+  B11110010 = 242,
+  B11110011 = 243,
+  B11110100 = 244,
+  B11110101 = 245,
+  B11110110 = 246,
+  B11110111 = 247,
+  B11111000 = 248,
+  B11111001 = 249,
+  B11111010 = 250,
+  B11111011 = 251,
+  B11111100 = 252,
+  B11111101 = 253,
+  B11111110 = 254,
+  B11111111 = 255
+};
diff --git a/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/xbyak/xbyak_mnemonic.h b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/xbyak/xbyak_mnemonic.h
new file mode 100644
index 0000000000000..533b1712a7669
--- /dev/null
+++ b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/xbyak/xbyak_mnemonic.h
@@ -0,0 +1,4728 @@
+//  Copyright (c) 2023 Intel Corporation
+//
+//  Licensed under the Apache License, Version 2.0 (the "License");
+//  you may not use this file except in compliance with the License.
+//  You may obtain a copy of the License at
+//
+//    http://www.apache.org/licenses/LICENSE-2.0
+//
+//  Unless required by applicable law or agreed to in writing, software
+//  distributed under the License is distributed on an "AS IS" BASIS,
+//  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+//  See the License for the specific language governing permissions and
+//  limitations under the License.
+const char* getVersionString() const { return "6.73"; }
+void aadd(const Address& addr, const Reg32e& reg) { opModM(addr, reg, 0x0F, 0x38, 0x0FC); }
+void aand(const Address& addr, const Reg32e& reg) {
+  db(0x66);
+  opModM(addr, reg, 0x0F, 0x38, 0x0FC);
+}
+void adc(const Operand& op, uint32_t imm) { opRM_I(op, imm, 0x10, 2); }
+void adc(const Operand& op1, const Operand& op2) { opRM_RM(op1, op2, 0x10); }
+void adcx(const Reg32e& reg, const Operand& op) { opGen(reg, op, 0xF6, 0x66, isREG32_REG32orMEM, NONE, 0x38); }
+void add(const Operand& op, uint32_t imm) { opRM_I(op, imm, 0x00, 0); }
+void add(const Operand& op1, const Operand& op2) { opRM_RM(op1, op2, 0x00); }
+void addpd(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x58, 0x66, isXMM_XMMorMEM); }
+void addps(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x58, 0x100, isXMM_XMMorMEM); }
+void addsd(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x58, 0xF2, isXMM_XMMorMEM); }
+void addss(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x58, 0xF3, isXMM_XMMorMEM); }
+void addsubpd(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0xD0, 0x66, isXMM_XMMorMEM); }
+void addsubps(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0xD0, 0xF2, isXMM_XMMorMEM); }
+void adox(const Reg32e& reg, const Operand& op) { opGen(reg, op, 0xF6, 0xF3, isREG32_REG32orMEM, NONE, 0x38); }
+void aesdec(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0xDE, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void aesdeclast(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0xDF, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void aesenc(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0xDC, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void aesenclast(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0xDD, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void aesimc(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0xDB, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void aeskeygenassist(const Xmm& xmm, const Operand& op, uint8_t imm) {
+  opGen(xmm, op, 0xDF, 0x66, isXMM_XMMorMEM, imm, 0x3A);
+}
+void and_(const Operand& op, uint32_t imm) { opRM_I(op, imm, 0x20, 4); }
+void and_(const Operand& op1, const Operand& op2) { opRM_RM(op1, op2, 0x20); }
+void andn(const Reg32e& r1, const Reg32e& r2, const Operand& op) { opGpr(r1, r2, op, T_0F38, 0xf2, true); }
+void andnpd(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x55, 0x66, isXMM_XMMorMEM); }
+void andnps(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x55, 0x100, isXMM_XMMorMEM); }
+void andpd(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x54, 0x66, isXMM_XMMorMEM); }
+void andps(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x54, 0x100, isXMM_XMMorMEM); }
+void aor(const Address& addr, const Reg32e& reg) {
+  db(0xF2);
+  opModM(addr, reg, 0x0F, 0x38, 0x0FC);
+}
+void axor(const Address& addr, const Reg32e& reg) {
+  db(0xF3);
+  opModM(addr, reg, 0x0F, 0x38, 0x0FC);
+}
+void bextr(const Reg32e& r1, const Operand& op, const Reg32e& r2) { opGpr(r1, op, r2, T_0F38, 0xf7, false); }
+void blendpd(const Xmm& xmm, const Operand& op, int imm) {
+  opGen(xmm, op, 0x0D, 0x66, isXMM_XMMorMEM, static_cast<uint8_t>(imm), 0x3A);
+}
+void blendps(const Xmm& xmm, const Operand& op, int imm) {
+  opGen(xmm, op, 0x0C, 0x66, isXMM_XMMorMEM, static_cast<uint8_t>(imm), 0x3A);
+}
+void blendvpd(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x15, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void blendvps(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x14, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void blsi(const Reg32e& r, const Operand& op) { opGpr(Reg32e(3, r.getBit()), op, r, T_0F38, 0xf3, false); }
+void blsmsk(const Reg32e& r, const Operand& op) { opGpr(Reg32e(2, r.getBit()), op, r, T_0F38, 0xf3, false); }
+void blsr(const Reg32e& r, const Operand& op) { opGpr(Reg32e(1, r.getBit()), op, r, T_0F38, 0xf3, false); }
+void bnd() { db(0xF2); }
+void bndcl(const BoundsReg& bnd, const Operand& op) {
+  db(0xF3);
+  opR_ModM(op, i32e, bnd.getIdx(), 0x0F, 0x1A, NONE, !op.isMEM());
+}
+void bndcn(const BoundsReg& bnd, const Operand& op) {
+  db(0xF2);
+  opR_ModM(op, i32e, bnd.getIdx(), 0x0F, 0x1B, NONE, !op.isMEM());
+}
+void bndcu(const BoundsReg& bnd, const Operand& op) {
+  db(0xF2);
+  opR_ModM(op, i32e, bnd.getIdx(), 0x0F, 0x1A, NONE, !op.isMEM());
+}
+void bndldx(const BoundsReg& bnd, const Address& addr) { opMIB(addr, bnd, 0x0F, 0x1A); }
+void bndmk(const BoundsReg& bnd, const Address& addr) {
+  db(0xF3);
+  opModM(addr, bnd, 0x0F, 0x1B);
+}
+void bndmov(const Address& addr, const BoundsReg& bnd) {
+  db(0x66);
+  opModM(addr, bnd, 0x0F, 0x1B);
+}
+void bndmov(const BoundsReg& bnd, const Operand& op) {
+  db(0x66);
+  opModRM(bnd, op, op.isBNDREG(), op.isMEM(), 0x0F, 0x1A);
+}
+void bndstx(const Address& addr, const BoundsReg& bnd) { opMIB(addr, bnd, 0x0F, 0x1B); }
+void bsf(const Reg& reg, const Operand& op) { opModRM(reg, op, op.isREG(16 | i32e), op.isMEM(), 0x0F, 0xBC); }
+void bsr(const Reg& reg, const Operand& op) { opModRM(reg, op, op.isREG(16 | i32e), op.isMEM(), 0x0F, 0xBD); }
+void bswap(const Reg32e& reg) { opModR(Reg32(1), reg, 0x0F); }
+void bt(const Operand& op, const Reg& reg) {
+  opModRM(reg, op, op.isREG(16 | 32 | 64) && op.getBit() == reg.getBit(), op.isMEM(), 0x0f, 0xA3);
+}
+void bt(const Operand& op, uint8_t imm) {
+  opR_ModM(op, 16 | 32 | 64, 4, 0x0f, 0xba, NONE, false, 1);
+  db(imm);
+}
+void btc(const Operand& op, const Reg& reg) {
+  opModRM(reg, op, op.isREG(16 | 32 | 64) && op.getBit() == reg.getBit(), op.isMEM(), 0x0f, 0xBB);
+}
+void btc(const Operand& op, uint8_t imm) {
+  opR_ModM(op, 16 | 32 | 64, 7, 0x0f, 0xba, NONE, false, 1);
+  db(imm);
+}
+void btr(const Operand& op, const Reg& reg) {
+  opModRM(reg, op, op.isREG(16 | 32 | 64) && op.getBit() == reg.getBit(), op.isMEM(), 0x0f, 0xB3);
+}
+void btr(const Operand& op, uint8_t imm) {
+  opR_ModM(op, 16 | 32 | 64, 6, 0x0f, 0xba, NONE, false, 1);
+  db(imm);
+}
+void bts(const Operand& op, const Reg& reg) {
+  opModRM(reg, op, op.isREG(16 | 32 | 64) && op.getBit() == reg.getBit(), op.isMEM(), 0x0f, 0xAB);
+}
+void bts(const Operand& op, uint8_t imm) {
+  opR_ModM(op, 16 | 32 | 64, 5, 0x0f, 0xba, NONE, false, 1);
+  db(imm);
+}
+void bzhi(const Reg32e& r1, const Operand& op, const Reg32e& r2) { opGpr(r1, op, r2, T_0F38, 0xf5, false); }
+void cbw() {
+  db(0x66);
+  db(0x98);
+}
+void cdq() { db(0x99); }
+void clc() { db(0xF8); }
+void cld() { db(0xFC); }
+void cldemote(const Address& addr) { opMIB(addr, eax, 0x0F, 0x1C); }
+void clflush(const Address& addr) { opModM(addr, Reg32(7), 0x0F, 0xAE); }
+void clflushopt(const Address& addr) {
+  db(0x66);
+  opModM(addr, Reg32(7), 0x0F, 0xAE);
+}
+void cli() { db(0xFA); }
+void clwb(const Address& addr) {
+  db(0x66);
+  opMIB(addr, esi, 0x0F, 0xAE);
+}
+void clzero() {
+  db(0x0F);
+  db(0x01);
+  db(0xFC);
+}
+void cmc() { db(0xF5); }
+void cmova(const Reg& reg, const Operand& op) {
+  opModRM(reg, op, op.isREG(16 | i32e), op.isMEM(), 0x0F, 0x40 | 7);
+}  //-V524
+void cmovae(const Reg& reg, const Operand& op) {
+  opModRM(reg, op, op.isREG(16 | i32e), op.isMEM(), 0x0F, 0x40 | 3);
+}  //-V524
+void cmovb(const Reg& reg, const Operand& op) {
+  opModRM(reg, op, op.isREG(16 | i32e), op.isMEM(), 0x0F, 0x40 | 2);
+}  //-V524
+void cmovbe(const Reg& reg, const Operand& op) {
+  opModRM(reg, op, op.isREG(16 | i32e), op.isMEM(), 0x0F, 0x40 | 6);
+}  //-V524
+void cmovc(const Reg& reg, const Operand& op) {
+  opModRM(reg, op, op.isREG(16 | i32e), op.isMEM(), 0x0F, 0x40 | 2);
+}  //-V524
+void cmove(const Reg& reg, const Operand& op) {
+  opModRM(reg, op, op.isREG(16 | i32e), op.isMEM(), 0x0F, 0x40 | 4);
+}  //-V524
+void cmovg(const Reg& reg, const Operand& op) {
+  opModRM(reg, op, op.isREG(16 | i32e), op.isMEM(), 0x0F, 0x40 | 15);
+}  //-V524
+void cmovge(const Reg& reg, const Operand& op) {
+  opModRM(reg, op, op.isREG(16 | i32e), op.isMEM(), 0x0F, 0x40 | 13);
+}  //-V524
+void cmovl(const Reg& reg, const Operand& op) {
+  opModRM(reg, op, op.isREG(16 | i32e), op.isMEM(), 0x0F, 0x40 | 12);
+}  //-V524
+void cmovle(const Reg& reg, const Operand& op) {
+  opModRM(reg, op, op.isREG(16 | i32e), op.isMEM(), 0x0F, 0x40 | 14);
+}  //-V524
+void cmovna(const Reg& reg, const Operand& op) {
+  opModRM(reg, op, op.isREG(16 | i32e), op.isMEM(), 0x0F, 0x40 | 6);
+}  //-V524
+void cmovnae(const Reg& reg, const Operand& op) {
+  opModRM(reg, op, op.isREG(16 | i32e), op.isMEM(), 0x0F, 0x40 | 2);
+}  //-V524
+void cmovnb(const Reg& reg, const Operand& op) {
+  opModRM(reg, op, op.isREG(16 | i32e), op.isMEM(), 0x0F, 0x40 | 3);
+}  //-V524
+void cmovnbe(const Reg& reg, const Operand& op) {
+  opModRM(reg, op, op.isREG(16 | i32e), op.isMEM(), 0x0F, 0x40 | 7);
+}  //-V524
+void cmovnc(const Reg& reg, const Operand& op) {
+  opModRM(reg, op, op.isREG(16 | i32e), op.isMEM(), 0x0F, 0x40 | 3);
+}  //-V524
+void cmovne(const Reg& reg, const Operand& op) {
+  opModRM(reg, op, op.isREG(16 | i32e), op.isMEM(), 0x0F, 0x40 | 5);
+}  //-V524
+void cmovng(const Reg& reg, const Operand& op) {
+  opModRM(reg, op, op.isREG(16 | i32e), op.isMEM(), 0x0F, 0x40 | 14);
+}  //-V524
+void cmovnge(const Reg& reg, const Operand& op) {
+  opModRM(reg, op, op.isREG(16 | i32e), op.isMEM(), 0x0F, 0x40 | 12);
+}  //-V524
+void cmovnl(const Reg& reg, const Operand& op) {
+  opModRM(reg, op, op.isREG(16 | i32e), op.isMEM(), 0x0F, 0x40 | 13);
+}  //-V524
+void cmovnle(const Reg& reg, const Operand& op) {
+  opModRM(reg, op, op.isREG(16 | i32e), op.isMEM(), 0x0F, 0x40 | 15);
+}  //-V524
+void cmovno(const Reg& reg, const Operand& op) {
+  opModRM(reg, op, op.isREG(16 | i32e), op.isMEM(), 0x0F, 0x40 | 1);
+}  //-V524
+void cmovnp(const Reg& reg, const Operand& op) {
+  opModRM(reg, op, op.isREG(16 | i32e), op.isMEM(), 0x0F, 0x40 | 11);
+}  //-V524
+void cmovns(const Reg& reg, const Operand& op) {
+  opModRM(reg, op, op.isREG(16 | i32e), op.isMEM(), 0x0F, 0x40 | 9);
+}  //-V524
+void cmovnz(const Reg& reg, const Operand& op) {
+  opModRM(reg, op, op.isREG(16 | i32e), op.isMEM(), 0x0F, 0x40 | 5);
+}  //-V524
+void cmovo(const Reg& reg, const Operand& op) {
+  opModRM(reg, op, op.isREG(16 | i32e), op.isMEM(), 0x0F, 0x40 | 0);
+}  //-V524
+void cmovp(const Reg& reg, const Operand& op) {
+  opModRM(reg, op, op.isREG(16 | i32e), op.isMEM(), 0x0F, 0x40 | 10);
+}  //-V524
+void cmovpe(const Reg& reg, const Operand& op) {
+  opModRM(reg, op, op.isREG(16 | i32e), op.isMEM(), 0x0F, 0x40 | 10);
+}  //-V524
+void cmovpo(const Reg& reg, const Operand& op) {
+  opModRM(reg, op, op.isREG(16 | i32e), op.isMEM(), 0x0F, 0x40 | 11);
+}  //-V524
+void cmovs(const Reg& reg, const Operand& op) {
+  opModRM(reg, op, op.isREG(16 | i32e), op.isMEM(), 0x0F, 0x40 | 8);
+}  //-V524
+void cmovz(const Reg& reg, const Operand& op) {
+  opModRM(reg, op, op.isREG(16 | i32e), op.isMEM(), 0x0F, 0x40 | 4);
+}  //-V524
+void cmp(const Operand& op, uint32_t imm) { opRM_I(op, imm, 0x38, 7); }
+void cmp(const Operand& op1, const Operand& op2) { opRM_RM(op1, op2, 0x38); }
+void cmpeqpd(const Xmm& x, const Operand& op) { cmppd(x, op, 0); }
+void cmpeqps(const Xmm& x, const Operand& op) { cmpps(x, op, 0); }
+void cmpeqsd(const Xmm& x, const Operand& op) { cmpsd(x, op, 0); }
+void cmpeqss(const Xmm& x, const Operand& op) { cmpss(x, op, 0); }
+void cmplepd(const Xmm& x, const Operand& op) { cmppd(x, op, 2); }
+void cmpleps(const Xmm& x, const Operand& op) { cmpps(x, op, 2); }
+void cmplesd(const Xmm& x, const Operand& op) { cmpsd(x, op, 2); }
+void cmpless(const Xmm& x, const Operand& op) { cmpss(x, op, 2); }
+void cmpltpd(const Xmm& x, const Operand& op) { cmppd(x, op, 1); }
+void cmpltps(const Xmm& x, const Operand& op) { cmpps(x, op, 1); }
+void cmpltsd(const Xmm& x, const Operand& op) { cmpsd(x, op, 1); }
+void cmpltss(const Xmm& x, const Operand& op) { cmpss(x, op, 1); }
+void cmpneqpd(const Xmm& x, const Operand& op) { cmppd(x, op, 4); }
+void cmpneqps(const Xmm& x, const Operand& op) { cmpps(x, op, 4); }
+void cmpneqsd(const Xmm& x, const Operand& op) { cmpsd(x, op, 4); }
+void cmpneqss(const Xmm& x, const Operand& op) { cmpss(x, op, 4); }
+void cmpnlepd(const Xmm& x, const Operand& op) { cmppd(x, op, 6); }
+void cmpnleps(const Xmm& x, const Operand& op) { cmpps(x, op, 6); }
+void cmpnlesd(const Xmm& x, const Operand& op) { cmpsd(x, op, 6); }
+void cmpnless(const Xmm& x, const Operand& op) { cmpss(x, op, 6); }
+void cmpnltpd(const Xmm& x, const Operand& op) { cmppd(x, op, 5); }
+void cmpnltps(const Xmm& x, const Operand& op) { cmpps(x, op, 5); }
+void cmpnltsd(const Xmm& x, const Operand& op) { cmpsd(x, op, 5); }
+void cmpnltss(const Xmm& x, const Operand& op) { cmpss(x, op, 5); }
+void cmpordpd(const Xmm& x, const Operand& op) { cmppd(x, op, 7); }
+void cmpordps(const Xmm& x, const Operand& op) { cmpps(x, op, 7); }
+void cmpordsd(const Xmm& x, const Operand& op) { cmpsd(x, op, 7); }
+void cmpordss(const Xmm& x, const Operand& op) { cmpss(x, op, 7); }
+void cmppd(const Xmm& xmm, const Operand& op, uint8_t imm8) { opGen(xmm, op, 0xC2, 0x66, isXMM_XMMorMEM, imm8); }
+void cmpps(const Xmm& xmm, const Operand& op, uint8_t imm8) { opGen(xmm, op, 0xC2, 0x100, isXMM_XMMorMEM, imm8); }
+void cmpsb() { db(0xA6); }
+void cmpsd() { db(0xA7); }
+void cmpsd(const Xmm& xmm, const Operand& op, uint8_t imm8) { opGen(xmm, op, 0xC2, 0xF2, isXMM_XMMorMEM, imm8); }
+void cmpss(const Xmm& xmm, const Operand& op, uint8_t imm8) { opGen(xmm, op, 0xC2, 0xF3, isXMM_XMMorMEM, imm8); }
+void cmpsw() {
+  db(0x66);
+  db(0xA7);
+}
+void cmpunordpd(const Xmm& x, const Operand& op) { cmppd(x, op, 3); }
+void cmpunordps(const Xmm& x, const Operand& op) { cmpps(x, op, 3); }
+void cmpunordsd(const Xmm& x, const Operand& op) { cmpsd(x, op, 3); }
+void cmpunordss(const Xmm& x, const Operand& op) { cmpss(x, op, 3); }
+void cmpxchg(const Operand& op, const Reg& reg) {
+  opModRM(reg, op, (op.isREG() && reg.isREG() && op.getBit() == reg.getBit()), op.isMEM(), 0x0F,
+          0xB0 | (reg.isBit(8) ? 0 : 1));
+}
+void cmpxchg8b(const Address& addr) { opModM(addr, Reg32(1), 0x0F, 0xC7); }
+void comisd(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x2F, 0x66, isXMM_XMMorMEM); }
+void comiss(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x2F, 0x100, isXMM_XMMorMEM); }
+void cpuid() {
+  db(0x0F);
+  db(0xA2);
+}
+void crc32(const Reg32e& reg, const Operand& op) {
+  if (reg.isBit(32) && op.isBit(16)) db(0x66);
+  db(0xF2);
+  opModRM(reg, op, op.isREG(), op.isMEM(), 0x0F, 0x38, 0xF0 | (op.isBit(8) ? 0 : 1));
+}
+void cvtdq2pd(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0xE6, 0xF3, isXMM_XMMorMEM); }
+void cvtdq2ps(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x5B, 0x100, isXMM_XMMorMEM); }
+void cvtpd2dq(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0xE6, 0xF2, isXMM_XMMorMEM); }
+void cvtpd2pi(const Operand& reg, const Operand& op) { opGen(reg, op, 0x2D, 0x66, isMMX_XMMorMEM); }
+void cvtpd2ps(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x5A, 0x66, isXMM_XMMorMEM); }
+void cvtpi2pd(const Operand& reg, const Operand& op) { opGen(reg, op, 0x2A, 0x66, isXMM_MMXorMEM); }
+void cvtpi2ps(const Operand& reg, const Operand& op) { opGen(reg, op, 0x2A, 0x100, isXMM_MMXorMEM); }
+void cvtps2dq(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x5B, 0x66, isXMM_XMMorMEM); }
+void cvtps2pd(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x5A, 0x100, isXMM_XMMorMEM); }
+void cvtps2pi(const Operand& reg, const Operand& op) { opGen(reg, op, 0x2D, 0x100, isMMX_XMMorMEM); }
+void cvtsd2si(const Operand& reg, const Operand& op) { opGen(reg, op, 0x2D, 0xF2, isREG32_XMMorMEM); }
+void cvtsd2ss(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x5A, 0xF2, isXMM_XMMorMEM); }
+void cvtsi2sd(const Operand& reg, const Operand& op) { opGen(reg, op, 0x2A, 0xF2, isXMM_REG32orMEM); }
+void cvtsi2ss(const Operand& reg, const Operand& op) { opGen(reg, op, 0x2A, 0xF3, isXMM_REG32orMEM); }
+void cvtss2sd(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x5A, 0xF3, isXMM_XMMorMEM); }
+void cvtss2si(const Operand& reg, const Operand& op) { opGen(reg, op, 0x2D, 0xF3, isREG32_XMMorMEM); }
+void cvttpd2dq(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0xE6, 0x66, isXMM_XMMorMEM); }
+void cvttpd2pi(const Operand& reg, const Operand& op) { opGen(reg, op, 0x2C, 0x66, isMMX_XMMorMEM); }
+void cvttps2dq(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x5B, 0xF3, isXMM_XMMorMEM); }
+void cvttps2pi(const Operand& reg, const Operand& op) { opGen(reg, op, 0x2C, 0x100, isMMX_XMMorMEM); }
+void cvttsd2si(const Operand& reg, const Operand& op) { opGen(reg, op, 0x2C, 0xF2, isREG32_XMMorMEM); }
+void cvttss2si(const Operand& reg, const Operand& op) { opGen(reg, op, 0x2C, 0xF3, isREG32_XMMorMEM); }
+void cwd() {
+  db(0x66);
+  db(0x99);
+}
+void cwde() { db(0x98); }
+void dec(const Operand& op) { opIncDec(op, 0x48, 1); }
+void div(const Operand& op) { opR_ModM(op, 0, 6, 0xF6); }
+void divpd(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x5E, 0x66, isXMM_XMMorMEM); }
+void divps(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x5E, 0x100, isXMM_XMMorMEM); }
+void divsd(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x5E, 0xF2, isXMM_XMMorMEM); }
+void divss(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x5E, 0xF3, isXMM_XMMorMEM); }
+void dppd(const Xmm& xmm, const Operand& op, int imm) {
+  opGen(xmm, op, 0x41, 0x66, isXMM_XMMorMEM, static_cast<uint8_t>(imm), 0x3A);
+}
+void dpps(const Xmm& xmm, const Operand& op, int imm) {
+  opGen(xmm, op, 0x40, 0x66, isXMM_XMMorMEM, static_cast<uint8_t>(imm), 0x3A);
+}
+void emms() {
+  db(0x0F);
+  db(0x77);
+}
+void endbr32() {
+  db(0xF3);
+  db(0x0F);
+  db(0x1E);
+  db(0xFB);
+}
+void endbr64() {
+  db(0xF3);
+  db(0x0F);
+  db(0x1E);
+  db(0xFA);
+}
+void enter(uint16_t x, uint8_t y) {
+  db(0xC8);
+  dw(x);
+  db(y);
+}
+void extractps(const Operand& op, const Xmm& xmm, uint8_t imm) { opExt(op, xmm, 0x17, imm); }
+void f2xm1() {
+  db(0xD9);
+  db(0xF0);
+}
+void fabs() {
+  db(0xD9);
+  db(0xE1);
+}
+void fadd(const Address& addr) { opFpuMem(addr, 0x00, 0xD8, 0xDC, 0, 0); }
+void fadd(const Fpu& reg1) { opFpuFpu(st0, reg1, 0xD8C0, 0xDCC0); }
+void fadd(const Fpu& reg1, const Fpu& reg2) { opFpuFpu(reg1, reg2, 0xD8C0, 0xDCC0); }
+void faddp() {
+  db(0xDE);
+  db(0xC1);
+}
+void faddp(const Fpu& reg1) { opFpuFpu(reg1, st0, 0x0000, 0xDEC0); }
+void faddp(const Fpu& reg1, const Fpu& reg2) { opFpuFpu(reg1, reg2, 0x0000, 0xDEC0); }
+void fbld(const Address& addr) { opModM(addr, Reg32(4), 0xDF, 0x100); }
+void fbstp(const Address& addr) { opModM(addr, Reg32(6), 0xDF, 0x100); }
+void fchs() {
+  db(0xD9);
+  db(0xE0);
+}
+void fclex() {
+  db(0x9B);
+  db(0xDB);
+  db(0xE2);
+}
+void fcmovb(const Fpu& reg1) { opFpuFpu(st0, reg1, 0xDAC0, 0x00C0); }
+void fcmovb(const Fpu& reg1, const Fpu& reg2) { opFpuFpu(reg1, reg2, 0xDAC0, 0x00C0); }
+void fcmovbe(const Fpu& reg1) { opFpuFpu(st0, reg1, 0xDAD0, 0x00D0); }
+void fcmovbe(const Fpu& reg1, const Fpu& reg2) { opFpuFpu(reg1, reg2, 0xDAD0, 0x00D0); }
+void fcmove(const Fpu& reg1) { opFpuFpu(st0, reg1, 0xDAC8, 0x00C8); }
+void fcmove(const Fpu& reg1, const Fpu& reg2) { opFpuFpu(reg1, reg2, 0xDAC8, 0x00C8); }
+void fcmovnb(const Fpu& reg1) { opFpuFpu(st0, reg1, 0xDBC0, 0x00C0); }
+void fcmovnb(const Fpu& reg1, const Fpu& reg2) { opFpuFpu(reg1, reg2, 0xDBC0, 0x00C0); }
+void fcmovnbe(const Fpu& reg1) { opFpuFpu(st0, reg1, 0xDBD0, 0x00D0); }
+void fcmovnbe(const Fpu& reg1, const Fpu& reg2) { opFpuFpu(reg1, reg2, 0xDBD0, 0x00D0); }
+void fcmovne(const Fpu& reg1) { opFpuFpu(st0, reg1, 0xDBC8, 0x00C8); }
+void fcmovne(const Fpu& reg1, const Fpu& reg2) { opFpuFpu(reg1, reg2, 0xDBC8, 0x00C8); }
+void fcmovnu(const Fpu& reg1) { opFpuFpu(st0, reg1, 0xDBD8, 0x00D8); }
+void fcmovnu(const Fpu& reg1, const Fpu& reg2) { opFpuFpu(reg1, reg2, 0xDBD8, 0x00D8); }
+void fcmovu(const Fpu& reg1) { opFpuFpu(st0, reg1, 0xDAD8, 0x00D8); }
+void fcmovu(const Fpu& reg1, const Fpu& reg2) { opFpuFpu(reg1, reg2, 0xDAD8, 0x00D8); }
+void fcom() {
+  db(0xD8);
+  db(0xD1);
+}
+void fcom(const Address& addr) { opFpuMem(addr, 0x00, 0xD8, 0xDC, 2, 0); }
+void fcom(const Fpu& reg) { opFpu(reg, 0xD8, 0xD0); }
+void fcomi(const Fpu& reg1) { opFpuFpu(st0, reg1, 0xDBF0, 0x00F0); }
+void fcomi(const Fpu& reg1, const Fpu& reg2) { opFpuFpu(reg1, reg2, 0xDBF0, 0x00F0); }
+void fcomip(const Fpu& reg1) { opFpuFpu(st0, reg1, 0xDFF0, 0x00F0); }
+void fcomip(const Fpu& reg1, const Fpu& reg2) { opFpuFpu(reg1, reg2, 0xDFF0, 0x00F0); }
+void fcomp() {
+  db(0xD8);
+  db(0xD9);
+}
+void fcomp(const Address& addr) { opFpuMem(addr, 0x00, 0xD8, 0xDC, 3, 0); }
+void fcomp(const Fpu& reg) { opFpu(reg, 0xD8, 0xD8); }
+void fcompp() {
+  db(0xDE);
+  db(0xD9);
+}
+void fcos() {
+  db(0xD9);
+  db(0xFF);
+}
+void fdecstp() {
+  db(0xD9);
+  db(0xF6);
+}
+void fdiv(const Address& addr) { opFpuMem(addr, 0x00, 0xD8, 0xDC, 6, 0); }
+void fdiv(const Fpu& reg1) { opFpuFpu(st0, reg1, 0xD8F0, 0xDCF8); }
+void fdiv(const Fpu& reg1, const Fpu& reg2) { opFpuFpu(reg1, reg2, 0xD8F0, 0xDCF8); }
+void fdivp() {
+  db(0xDE);
+  db(0xF9);
+}
+void fdivp(const Fpu& reg1) { opFpuFpu(reg1, st0, 0x0000, 0xDEF8); }
+void fdivp(const Fpu& reg1, const Fpu& reg2) { opFpuFpu(reg1, reg2, 0x0000, 0xDEF8); }
+void fdivr(const Address& addr) { opFpuMem(addr, 0x00, 0xD8, 0xDC, 7, 0); }
+void fdivr(const Fpu& reg1) { opFpuFpu(st0, reg1, 0xD8F8, 0xDCF0); }
+void fdivr(const Fpu& reg1, const Fpu& reg2) { opFpuFpu(reg1, reg2, 0xD8F8, 0xDCF0); }
+void fdivrp() {
+  db(0xDE);
+  db(0xF1);
+}
+void fdivrp(const Fpu& reg1) { opFpuFpu(reg1, st0, 0x0000, 0xDEF0); }
+void fdivrp(const Fpu& reg1, const Fpu& reg2) { opFpuFpu(reg1, reg2, 0x0000, 0xDEF0); }
+void ffree(const Fpu& reg) { opFpu(reg, 0xDD, 0xC0); }
+void fiadd(const Address& addr) { opFpuMem(addr, 0xDE, 0xDA, 0x00, 0, 0); }
+void ficom(const Address& addr) { opFpuMem(addr, 0xDE, 0xDA, 0x00, 2, 0); }
+void ficomp(const Address& addr) { opFpuMem(addr, 0xDE, 0xDA, 0x00, 3, 0); }
+void fidiv(const Address& addr) { opFpuMem(addr, 0xDE, 0xDA, 0x00, 6, 0); }
+void fidivr(const Address& addr) { opFpuMem(addr, 0xDE, 0xDA, 0x00, 7, 0); }
+void fild(const Address& addr) { opFpuMem(addr, 0xDF, 0xDB, 0xDF, 0, 5); }
+void fimul(const Address& addr) { opFpuMem(addr, 0xDE, 0xDA, 0x00, 1, 0); }
+void fincstp() {
+  db(0xD9);
+  db(0xF7);
+}
+void finit() {
+  db(0x9B);
+  db(0xDB);
+  db(0xE3);
+}
+void fist(const Address& addr) { opFpuMem(addr, 0xDF, 0xDB, 0x00, 2, 0); }
+void fistp(const Address& addr) { opFpuMem(addr, 0xDF, 0xDB, 0xDF, 3, 7); }
+void fisttp(const Address& addr) { opFpuMem(addr, 0xDF, 0xDB, 0xDD, 1, 0); }
+void fisub(const Address& addr) { opFpuMem(addr, 0xDE, 0xDA, 0x00, 4, 0); }
+void fisubr(const Address& addr) { opFpuMem(addr, 0xDE, 0xDA, 0x00, 5, 0); }
+void fld(const Address& addr) { opFpuMem(addr, 0x00, 0xD9, 0xDD, 0, 0); }
+void fld(const Fpu& reg) { opFpu(reg, 0xD9, 0xC0); }
+void fld1() {
+  db(0xD9);
+  db(0xE8);
+}
+void fldcw(const Address& addr) { opModM(addr, Reg32(5), 0xD9, 0x100); }
+void fldenv(const Address& addr) { opModM(addr, Reg32(4), 0xD9, 0x100); }
+void fldl2e() {
+  db(0xD9);
+  db(0xEA);
+}
+void fldl2t() {
+  db(0xD9);
+  db(0xE9);
+}
+void fldlg2() {
+  db(0xD9);
+  db(0xEC);
+}
+void fldln2() {
+  db(0xD9);
+  db(0xED);
+}
+void fldpi() {
+  db(0xD9);
+  db(0xEB);
+}
+void fldz() {
+  db(0xD9);
+  db(0xEE);
+}
+void fmul(const Address& addr) { opFpuMem(addr, 0x00, 0xD8, 0xDC, 1, 0); }
+void fmul(const Fpu& reg1) { opFpuFpu(st0, reg1, 0xD8C8, 0xDCC8); }
+void fmul(const Fpu& reg1, const Fpu& reg2) { opFpuFpu(reg1, reg2, 0xD8C8, 0xDCC8); }
+void fmulp() {
+  db(0xDE);
+  db(0xC9);
+}
+void fmulp(const Fpu& reg1) { opFpuFpu(reg1, st0, 0x0000, 0xDEC8); }
+void fmulp(const Fpu& reg1, const Fpu& reg2) { opFpuFpu(reg1, reg2, 0x0000, 0xDEC8); }
+void fnclex() {
+  db(0xDB);
+  db(0xE2);
+}
+void fninit() {
+  db(0xDB);
+  db(0xE3);
+}
+void fnop() {
+  db(0xD9);
+  db(0xD0);
+}
+void fnsave(const Address& addr) { opModM(addr, Reg32(6), 0xDD, 0x100); }
+void fnstcw(const Address& addr) { opModM(addr, Reg32(7), 0xD9, 0x100); }
+void fnstenv(const Address& addr) { opModM(addr, Reg32(6), 0xD9, 0x100); }
+void fnstsw(const Address& addr) { opModM(addr, Reg32(7), 0xDD, 0x100); }
+void fnstsw(const Reg16& r) {
+  if (r.getIdx() != Operand::AX) XBYAK_THROW(ERR_BAD_PARAMETER) db(0xDF);
+  db(0xE0);
+}
+void fpatan() {
+  db(0xD9);
+  db(0xF3);
+}
+void fprem() {
+  db(0xD9);
+  db(0xF8);
+}
+void fprem1() {
+  db(0xD9);
+  db(0xF5);
+}
+void fptan() {
+  db(0xD9);
+  db(0xF2);
+}
+void frndint() {
+  db(0xD9);
+  db(0xFC);
+}
+void frstor(const Address& addr) { opModM(addr, Reg32(4), 0xDD, 0x100); }
+void fsave(const Address& addr) {
+  db(0x9B);
+  opModM(addr, Reg32(6), 0xDD, 0x100);
+}
+void fscale() {
+  db(0xD9);
+  db(0xFD);
+}
+void fsin() {
+  db(0xD9);
+  db(0xFE);
+}
+void fsincos() {
+  db(0xD9);
+  db(0xFB);
+}
+void fsqrt() {
+  db(0xD9);
+  db(0xFA);
+}
+void fst(const Address& addr) { opFpuMem(addr, 0x00, 0xD9, 0xDD, 2, 0); }
+void fst(const Fpu& reg) { opFpu(reg, 0xDD, 0xD0); }
+void fstcw(const Address& addr) {
+  db(0x9B);
+  opModM(addr, Reg32(7), 0xD9, 0x100);
+}
+void fstenv(const Address& addr) {
+  db(0x9B);
+  opModM(addr, Reg32(6), 0xD9, 0x100);
+}
+void fstp(const Address& addr) { opFpuMem(addr, 0x00, 0xD9, 0xDD, 3, 0); }
+void fstp(const Fpu& reg) { opFpu(reg, 0xDD, 0xD8); }
+void fstsw(const Address& addr) {
+  db(0x9B);
+  opModM(addr, Reg32(7), 0xDD, 0x100);
+}
+void fstsw(const Reg16& r) {
+  if (r.getIdx() != Operand::AX) XBYAK_THROW(ERR_BAD_PARAMETER) db(0x9B);
+  db(0xDF);
+  db(0xE0);
+}
+void fsub(const Address& addr) { opFpuMem(addr, 0x00, 0xD8, 0xDC, 4, 0); }
+void fsub(const Fpu& reg1) { opFpuFpu(st0, reg1, 0xD8E0, 0xDCE8); }
+void fsub(const Fpu& reg1, const Fpu& reg2) { opFpuFpu(reg1, reg2, 0xD8E0, 0xDCE8); }
+void fsubp() {
+  db(0xDE);
+  db(0xE9);
+}
+void fsubp(const Fpu& reg1) { opFpuFpu(reg1, st0, 0x0000, 0xDEE8); }
+void fsubp(const Fpu& reg1, const Fpu& reg2) { opFpuFpu(reg1, reg2, 0x0000, 0xDEE8); }
+void fsubr(const Address& addr) { opFpuMem(addr, 0x00, 0xD8, 0xDC, 5, 0); }
+void fsubr(const Fpu& reg1) { opFpuFpu(st0, reg1, 0xD8E8, 0xDCE0); }
+void fsubr(const Fpu& reg1, const Fpu& reg2) { opFpuFpu(reg1, reg2, 0xD8E8, 0xDCE0); }
+void fsubrp() {
+  db(0xDE);
+  db(0xE1);
+}
+void fsubrp(const Fpu& reg1) { opFpuFpu(reg1, st0, 0x0000, 0xDEE0); }
+void fsubrp(const Fpu& reg1, const Fpu& reg2) { opFpuFpu(reg1, reg2, 0x0000, 0xDEE0); }
+void ftst() {
+  db(0xD9);
+  db(0xE4);
+}
+void fucom() {
+  db(0xDD);
+  db(0xE1);
+}
+void fucom(const Fpu& reg) { opFpu(reg, 0xDD, 0xE0); }
+void fucomi(const Fpu& reg1) { opFpuFpu(st0, reg1, 0xDBE8, 0x00E8); }
+void fucomi(const Fpu& reg1, const Fpu& reg2) { opFpuFpu(reg1, reg2, 0xDBE8, 0x00E8); }
+void fucomip(const Fpu& reg1) { opFpuFpu(st0, reg1, 0xDFE8, 0x00E8); }
+void fucomip(const Fpu& reg1, const Fpu& reg2) { opFpuFpu(reg1, reg2, 0xDFE8, 0x00E8); }
+void fucomp() {
+  db(0xDD);
+  db(0xE9);
+}
+void fucomp(const Fpu& reg) { opFpu(reg, 0xDD, 0xE8); }
+void fucompp() {
+  db(0xDA);
+  db(0xE9);
+}
+void fwait() { db(0x9B); }
+void fxam() {
+  db(0xD9);
+  db(0xE5);
+}
+void fxch() {
+  db(0xD9);
+  db(0xC9);
+}
+void fxch(const Fpu& reg) { opFpu(reg, 0xD9, 0xC8); }
+void fxrstor(const Address& addr) { opModM(addr, Reg32(1), 0x0F, 0xAE); }
+void fxtract() {
+  db(0xD9);
+  db(0xF4);
+}
+void fyl2x() {
+  db(0xD9);
+  db(0xF1);
+}
+void fyl2xp1() {
+  db(0xD9);
+  db(0xF9);
+}
+void gf2p8affineinvqb(const Xmm& xmm, const Operand& op, int imm) {
+  opGen(xmm, op, 0xCF, 0x66, isXMM_XMMorMEM, static_cast<uint8_t>(imm), 0x3A);
+}
+void gf2p8affineqb(const Xmm& xmm, const Operand& op, int imm) {
+  opGen(xmm, op, 0xCE, 0x66, isXMM_XMMorMEM, static_cast<uint8_t>(imm), 0x3A);
+}
+void gf2p8mulb(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0xCF, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void haddpd(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x7C, 0x66, isXMM_XMMorMEM); }
+void haddps(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x7C, 0xF2, isXMM_XMMorMEM); }
+void hlt() { db(0xF4); }
+void hsubpd(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x7D, 0x66, isXMM_XMMorMEM); }
+void hsubps(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x7D, 0xF2, isXMM_XMMorMEM); }
+void idiv(const Operand& op) { opR_ModM(op, 0, 7, 0xF6); }
+void imul(const Operand& op) { opR_ModM(op, 0, 5, 0xF6); }
+void in_(const Reg& a, const Reg& d) { opInOut(a, d, 0xEC); }
+void in_(const Reg& a, uint8_t v) { opInOut(a, 0xE4, v); }
+void inc(const Operand& op) { opIncDec(op, 0x40, 0); }
+void insertps(const Xmm& xmm, const Operand& op, uint8_t imm) { opGen(xmm, op, 0x21, 0x66, isXMM_XMMorMEM, imm, 0x3A); }
+void int3() { db(0xCC); }
+void int_(uint8_t x) {
+  db(0xCD);
+  db(x);
+}
+void ja(const Label& label, LabelType type = T_AUTO) { opJmp(label, type, 0x77, 0x87, 0x0F); }    //-V524
+void ja(const char* label, LabelType type = T_AUTO) { ja(std::string(label), type); }             //-V524
+void ja(const void* addr) { opJmpAbs(addr, T_NEAR, 0x77, 0x87, 0x0F); }                           //-V524
+void ja(std::string label, LabelType type = T_AUTO) { opJmp(label, type, 0x77, 0x87, 0x0F); }     //-V524
+void jae(const Label& label, LabelType type = T_AUTO) { opJmp(label, type, 0x73, 0x83, 0x0F); }   //-V524
+void jae(const char* label, LabelType type = T_AUTO) { jae(std::string(label), type); }           //-V524
+void jae(const void* addr) { opJmpAbs(addr, T_NEAR, 0x73, 0x83, 0x0F); }                          //-V524
+void jae(std::string label, LabelType type = T_AUTO) { opJmp(label, type, 0x73, 0x83, 0x0F); }    //-V524
+void jb(const Label& label, LabelType type = T_AUTO) { opJmp(label, type, 0x72, 0x82, 0x0F); }    //-V524
+void jb(const char* label, LabelType type = T_AUTO) { jb(std::string(label), type); }             //-V524
+void jb(const void* addr) { opJmpAbs(addr, T_NEAR, 0x72, 0x82, 0x0F); }                           //-V524
+void jb(std::string label, LabelType type = T_AUTO) { opJmp(label, type, 0x72, 0x82, 0x0F); }     //-V524
+void jbe(const Label& label, LabelType type = T_AUTO) { opJmp(label, type, 0x76, 0x86, 0x0F); }   //-V524
+void jbe(const char* label, LabelType type = T_AUTO) { jbe(std::string(label), type); }           //-V524
+void jbe(const void* addr) { opJmpAbs(addr, T_NEAR, 0x76, 0x86, 0x0F); }                          //-V524
+void jbe(std::string label, LabelType type = T_AUTO) { opJmp(label, type, 0x76, 0x86, 0x0F); }    //-V524
+void jc(const Label& label, LabelType type = T_AUTO) { opJmp(label, type, 0x72, 0x82, 0x0F); }    //-V524
+void jc(const char* label, LabelType type = T_AUTO) { jc(std::string(label), type); }             //-V524
+void jc(const void* addr) { opJmpAbs(addr, T_NEAR, 0x72, 0x82, 0x0F); }                           //-V524
+void jc(std::string label, LabelType type = T_AUTO) { opJmp(label, type, 0x72, 0x82, 0x0F); }     //-V524
+void je(const Label& label, LabelType type = T_AUTO) { opJmp(label, type, 0x74, 0x84, 0x0F); }    //-V524
+void je(const char* label, LabelType type = T_AUTO) { je(std::string(label), type); }             //-V524
+void je(const void* addr) { opJmpAbs(addr, T_NEAR, 0x74, 0x84, 0x0F); }                           //-V524
+void je(std::string label, LabelType type = T_AUTO) { opJmp(label, type, 0x74, 0x84, 0x0F); }     //-V524
+void jg(const Label& label, LabelType type = T_AUTO) { opJmp(label, type, 0x7F, 0x8F, 0x0F); }    //-V524
+void jg(const char* label, LabelType type = T_AUTO) { jg(std::string(label), type); }             //-V524
+void jg(const void* addr) { opJmpAbs(addr, T_NEAR, 0x7F, 0x8F, 0x0F); }                           //-V524
+void jg(std::string label, LabelType type = T_AUTO) { opJmp(label, type, 0x7F, 0x8F, 0x0F); }     //-V524
+void jge(const Label& label, LabelType type = T_AUTO) { opJmp(label, type, 0x7D, 0x8D, 0x0F); }   //-V524
+void jge(const char* label, LabelType type = T_AUTO) { jge(std::string(label), type); }           //-V524
+void jge(const void* addr) { opJmpAbs(addr, T_NEAR, 0x7D, 0x8D, 0x0F); }                          //-V524
+void jge(std::string label, LabelType type = T_AUTO) { opJmp(label, type, 0x7D, 0x8D, 0x0F); }    //-V524
+void jl(const Label& label, LabelType type = T_AUTO) { opJmp(label, type, 0x7C, 0x8C, 0x0F); }    //-V524
+void jl(const char* label, LabelType type = T_AUTO) { jl(std::string(label), type); }             //-V524
+void jl(const void* addr) { opJmpAbs(addr, T_NEAR, 0x7C, 0x8C, 0x0F); }                           //-V524
+void jl(std::string label, LabelType type = T_AUTO) { opJmp(label, type, 0x7C, 0x8C, 0x0F); }     //-V524
+void jle(const Label& label, LabelType type = T_AUTO) { opJmp(label, type, 0x7E, 0x8E, 0x0F); }   //-V524
+void jle(const char* label, LabelType type = T_AUTO) { jle(std::string(label), type); }           //-V524
+void jle(const void* addr) { opJmpAbs(addr, T_NEAR, 0x7E, 0x8E, 0x0F); }                          //-V524
+void jle(std::string label, LabelType type = T_AUTO) { opJmp(label, type, 0x7E, 0x8E, 0x0F); }    //-V524
+void jna(const Label& label, LabelType type = T_AUTO) { opJmp(label, type, 0x76, 0x86, 0x0F); }   //-V524
+void jna(const char* label, LabelType type = T_AUTO) { jna(std::string(label), type); }           //-V524
+void jna(const void* addr) { opJmpAbs(addr, T_NEAR, 0x76, 0x86, 0x0F); }                          //-V524
+void jna(std::string label, LabelType type = T_AUTO) { opJmp(label, type, 0x76, 0x86, 0x0F); }    //-V524
+void jnae(const Label& label, LabelType type = T_AUTO) { opJmp(label, type, 0x72, 0x82, 0x0F); }  //-V524
+void jnae(const char* label, LabelType type = T_AUTO) { jnae(std::string(label), type); }         //-V524
+void jnae(const void* addr) { opJmpAbs(addr, T_NEAR, 0x72, 0x82, 0x0F); }                         //-V524
+void jnae(std::string label, LabelType type = T_AUTO) { opJmp(label, type, 0x72, 0x82, 0x0F); }   //-V524
+void jnb(const Label& label, LabelType type = T_AUTO) { opJmp(label, type, 0x73, 0x83, 0x0F); }   //-V524
+void jnb(const char* label, LabelType type = T_AUTO) { jnb(std::string(label), type); }           //-V524
+void jnb(const void* addr) { opJmpAbs(addr, T_NEAR, 0x73, 0x83, 0x0F); }                          //-V524
+void jnb(std::string label, LabelType type = T_AUTO) { opJmp(label, type, 0x73, 0x83, 0x0F); }    //-V524
+void jnbe(const Label& label, LabelType type = T_AUTO) { opJmp(label, type, 0x77, 0x87, 0x0F); }  //-V524
+void jnbe(const char* label, LabelType type = T_AUTO) { jnbe(std::string(label), type); }         //-V524
+void jnbe(const void* addr) { opJmpAbs(addr, T_NEAR, 0x77, 0x87, 0x0F); }                         //-V524
+void jnbe(std::string label, LabelType type = T_AUTO) { opJmp(label, type, 0x77, 0x87, 0x0F); }   //-V524
+void jnc(const Label& label, LabelType type = T_AUTO) { opJmp(label, type, 0x73, 0x83, 0x0F); }   //-V524
+void jnc(const char* label, LabelType type = T_AUTO) { jnc(std::string(label), type); }           //-V524
+void jnc(const void* addr) { opJmpAbs(addr, T_NEAR, 0x73, 0x83, 0x0F); }                          //-V524
+void jnc(std::string label, LabelType type = T_AUTO) { opJmp(label, type, 0x73, 0x83, 0x0F); }    //-V524
+void jne(const Label& label, LabelType type = T_AUTO) { opJmp(label, type, 0x75, 0x85, 0x0F); }   //-V524
+void jne(const char* label, LabelType type = T_AUTO) { jne(std::string(label), type); }           //-V524
+void jne(const void* addr) { opJmpAbs(addr, T_NEAR, 0x75, 0x85, 0x0F); }                          //-V524
+void jne(std::string label, LabelType type = T_AUTO) { opJmp(label, type, 0x75, 0x85, 0x0F); }    //-V524
+void jng(const Label& label, LabelType type = T_AUTO) { opJmp(label, type, 0x7E, 0x8E, 0x0F); }   //-V524
+void jng(const char* label, LabelType type = T_AUTO) { jng(std::string(label), type); }           //-V524
+void jng(const void* addr) { opJmpAbs(addr, T_NEAR, 0x7E, 0x8E, 0x0F); }                          //-V524
+void jng(std::string label, LabelType type = T_AUTO) { opJmp(label, type, 0x7E, 0x8E, 0x0F); }    //-V524
+void jnge(const Label& label, LabelType type = T_AUTO) { opJmp(label, type, 0x7C, 0x8C, 0x0F); }  //-V524
+void jnge(const char* label, LabelType type = T_AUTO) { jnge(std::string(label), type); }         //-V524
+void jnge(const void* addr) { opJmpAbs(addr, T_NEAR, 0x7C, 0x8C, 0x0F); }                         //-V524
+void jnge(std::string label, LabelType type = T_AUTO) { opJmp(label, type, 0x7C, 0x8C, 0x0F); }   //-V524
+void jnl(const Label& label, LabelType type = T_AUTO) { opJmp(label, type, 0x7D, 0x8D, 0x0F); }   //-V524
+void jnl(const char* label, LabelType type = T_AUTO) { jnl(std::string(label), type); }           //-V524
+void jnl(const void* addr) { opJmpAbs(addr, T_NEAR, 0x7D, 0x8D, 0x0F); }                          //-V524
+void jnl(std::string label, LabelType type = T_AUTO) { opJmp(label, type, 0x7D, 0x8D, 0x0F); }    //-V524
+void jnle(const Label& label, LabelType type = T_AUTO) { opJmp(label, type, 0x7F, 0x8F, 0x0F); }  //-V524
+void jnle(const char* label, LabelType type = T_AUTO) { jnle(std::string(label), type); }         //-V524
+void jnle(const void* addr) { opJmpAbs(addr, T_NEAR, 0x7F, 0x8F, 0x0F); }                         //-V524
+void jnle(std::string label, LabelType type = T_AUTO) { opJmp(label, type, 0x7F, 0x8F, 0x0F); }   //-V524
+void jno(const Label& label, LabelType type = T_AUTO) { opJmp(label, type, 0x71, 0x81, 0x0F); }   //-V524
+void jno(const char* label, LabelType type = T_AUTO) { jno(std::string(label), type); }           //-V524
+void jno(const void* addr) { opJmpAbs(addr, T_NEAR, 0x71, 0x81, 0x0F); }                          //-V524
+void jno(std::string label, LabelType type = T_AUTO) { opJmp(label, type, 0x71, 0x81, 0x0F); }    //-V524
+void jnp(const Label& label, LabelType type = T_AUTO) { opJmp(label, type, 0x7B, 0x8B, 0x0F); }   //-V524
+void jnp(const char* label, LabelType type = T_AUTO) { jnp(std::string(label), type); }           //-V524
+void jnp(const void* addr) { opJmpAbs(addr, T_NEAR, 0x7B, 0x8B, 0x0F); }                          //-V524
+void jnp(std::string label, LabelType type = T_AUTO) { opJmp(label, type, 0x7B, 0x8B, 0x0F); }    //-V524
+void jns(const Label& label, LabelType type = T_AUTO) { opJmp(label, type, 0x79, 0x89, 0x0F); }   //-V524
+void jns(const char* label, LabelType type = T_AUTO) { jns(std::string(label), type); }           //-V524
+void jns(const void* addr) { opJmpAbs(addr, T_NEAR, 0x79, 0x89, 0x0F); }                          //-V524
+void jns(std::string label, LabelType type = T_AUTO) { opJmp(label, type, 0x79, 0x89, 0x0F); }    //-V524
+void jnz(const Label& label, LabelType type = T_AUTO) { opJmp(label, type, 0x75, 0x85, 0x0F); }   //-V524
+void jnz(const char* label, LabelType type = T_AUTO) { jnz(std::string(label), type); }           //-V524
+void jnz(const void* addr) { opJmpAbs(addr, T_NEAR, 0x75, 0x85, 0x0F); }                          //-V524
+void jnz(std::string label, LabelType type = T_AUTO) { opJmp(label, type, 0x75, 0x85, 0x0F); }    //-V524
+void jo(const Label& label, LabelType type = T_AUTO) { opJmp(label, type, 0x70, 0x80, 0x0F); }    //-V524
+void jo(const char* label, LabelType type = T_AUTO) { jo(std::string(label), type); }             //-V524
+void jo(const void* addr) { opJmpAbs(addr, T_NEAR, 0x70, 0x80, 0x0F); }                           //-V524
+void jo(std::string label, LabelType type = T_AUTO) { opJmp(label, type, 0x70, 0x80, 0x0F); }     //-V524
+void jp(const Label& label, LabelType type = T_AUTO) { opJmp(label, type, 0x7A, 0x8A, 0x0F); }    //-V524
+void jp(const char* label, LabelType type = T_AUTO) { jp(std::string(label), type); }             //-V524
+void jp(const void* addr) { opJmpAbs(addr, T_NEAR, 0x7A, 0x8A, 0x0F); }                           //-V524
+void jp(std::string label, LabelType type = T_AUTO) { opJmp(label, type, 0x7A, 0x8A, 0x0F); }     //-V524
+void jpe(const Label& label, LabelType type = T_AUTO) { opJmp(label, type, 0x7A, 0x8A, 0x0F); }   //-V524
+void jpe(const char* label, LabelType type = T_AUTO) { jpe(std::string(label), type); }           //-V524
+void jpe(const void* addr) { opJmpAbs(addr, T_NEAR, 0x7A, 0x8A, 0x0F); }                          //-V524
+void jpe(std::string label, LabelType type = T_AUTO) { opJmp(label, type, 0x7A, 0x8A, 0x0F); }    //-V524
+void jpo(const Label& label, LabelType type = T_AUTO) { opJmp(label, type, 0x7B, 0x8B, 0x0F); }   //-V524
+void jpo(const char* label, LabelType type = T_AUTO) { jpo(std::string(label), type); }           //-V524
+void jpo(const void* addr) { opJmpAbs(addr, T_NEAR, 0x7B, 0x8B, 0x0F); }                          //-V524
+void jpo(std::string label, LabelType type = T_AUTO) { opJmp(label, type, 0x7B, 0x8B, 0x0F); }    //-V524
+void js(const Label& label, LabelType type = T_AUTO) { opJmp(label, type, 0x78, 0x88, 0x0F); }    //-V524
+void js(const char* label, LabelType type = T_AUTO) { js(std::string(label), type); }             //-V524
+void js(const void* addr) { opJmpAbs(addr, T_NEAR, 0x78, 0x88, 0x0F); }                           //-V524
+void js(std::string label, LabelType type = T_AUTO) { opJmp(label, type, 0x78, 0x88, 0x0F); }     //-V524
+void jz(const Label& label, LabelType type = T_AUTO) { opJmp(label, type, 0x74, 0x84, 0x0F); }    //-V524
+void jz(const char* label, LabelType type = T_AUTO) { jz(std::string(label), type); }             //-V524
+void jz(const void* addr) { opJmpAbs(addr, T_NEAR, 0x74, 0x84, 0x0F); }                           //-V524
+void jz(std::string label, LabelType type = T_AUTO) { opJmp(label, type, 0x74, 0x84, 0x0F); }     //-V524
+void lahf() { db(0x9F); }
+void lddqu(const Xmm& xmm, const Address& addr) {
+  db(0xF2);
+  opModM(addr, xmm, 0x0F, 0xF0);
+}
+void ldmxcsr(const Address& addr) { opModM(addr, Reg32(2), 0x0F, 0xAE); }
+void lea(const Reg& reg, const Address& addr) {
+  if (!reg.isBit(16 | i32e)) XBYAK_THROW(ERR_BAD_SIZE_OF_REGISTER) opModM(addr, reg, 0x8D);
+}
+void leave() { db(0xC9); }
+void lfence() {
+  db(0x0F);
+  db(0xAE);
+  db(0xE8);
+}
+void lfs(const Reg& reg, const Address& addr) { opLoadSeg(addr, reg, 0x0F, 0xB4); }
+void lgs(const Reg& reg, const Address& addr) { opLoadSeg(addr, reg, 0x0F, 0xB5); }
+void lock() { db(0xF0); }
+void lodsb() { db(0xAC); }
+void lodsd() { db(0xAD); }
+void lodsw() {
+  db(0x66);
+  db(0xAD);
+}
+void loop(const Label& label) { opJmp(label, T_SHORT, 0xE2, 0, 0); }
+void loop(const char* label) { loop(std::string(label)); }
+void loop(std::string label) { opJmp(label, T_SHORT, 0xE2, 0, 0); }
+void loope(const Label& label) { opJmp(label, T_SHORT, 0xE1, 0, 0); }
+void loope(const char* label) { loope(std::string(label)); }
+void loope(std::string label) { opJmp(label, T_SHORT, 0xE1, 0, 0); }
+void loopne(const Label& label) { opJmp(label, T_SHORT, 0xE0, 0, 0); }
+void loopne(const char* label) { loopne(std::string(label)); }
+void loopne(std::string label) { opJmp(label, T_SHORT, 0xE0, 0, 0); }
+void lss(const Reg& reg, const Address& addr) { opLoadSeg(addr, reg, 0x0F, 0xB2); }
+void lzcnt(const Reg& reg, const Operand& op) { opSp1(reg, op, 0xF3, 0x0F, 0xBD); }
+void maskmovdqu(const Xmm& reg1, const Xmm& reg2) {
+  db(0x66);
+  opModR(reg1, reg2, 0x0F, 0xF7);
+}
+void maskmovq(const Mmx& reg1, const Mmx& reg2) {
+  if (!reg1.isMMX() || !reg2.isMMX()) XBYAK_THROW(ERR_BAD_COMBINATION) opModR(reg1, reg2, 0x0F, 0xF7);
+}
+void maxpd(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x5F, 0x66, isXMM_XMMorMEM); }
+void maxps(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x5F, 0x100, isXMM_XMMorMEM); }
+void maxsd(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x5F, 0xF2, isXMM_XMMorMEM); }
+void maxss(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x5F, 0xF3, isXMM_XMMorMEM); }
+void mfence() {
+  db(0x0F);
+  db(0xAE);
+  db(0xF0);
+}
+void minpd(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x5D, 0x66, isXMM_XMMorMEM); }
+void minps(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x5D, 0x100, isXMM_XMMorMEM); }
+void minsd(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x5D, 0xF2, isXMM_XMMorMEM); }
+void minss(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x5D, 0xF3, isXMM_XMMorMEM); }
+void monitor() {
+  db(0x0F);
+  db(0x01);
+  db(0xC8);
+}
+void monitorx() {
+  db(0x0F);
+  db(0x01);
+  db(0xFA);
+}
+void movapd(const Address& addr, const Xmm& xmm) {
+  db(0x66);
+  opModM(addr, xmm, 0x0F, 0x29);
+}
+void movapd(const Xmm& xmm, const Operand& op) { opMMX(xmm, op, 0x28, 0x66); }
+void movaps(const Address& addr, const Xmm& xmm) { opModM(addr, xmm, 0x0F, 0x29); }
+void movaps(const Xmm& xmm, const Operand& op) { opMMX(xmm, op, 0x28, 0x100); }
+void movbe(const Address& addr, const Reg& reg) { opModM(addr, reg, 0x0F, 0x38, 0xF1); }
+void movbe(const Reg& reg, const Address& addr) { opModM(addr, reg, 0x0F, 0x38, 0xF0); }
+void movd(const Address& addr, const Mmx& mmx) {
+  if (mmx.isXMM()) db(0x66);
+  opModM(addr, mmx, 0x0F, 0x7E);
+}
+void movd(const Mmx& mmx, const Address& addr) {
+  if (mmx.isXMM()) db(0x66);
+  opModM(addr, mmx, 0x0F, 0x6E);
+}
+void movd(const Mmx& mmx, const Reg32& reg) {
+  if (mmx.isXMM()) db(0x66);
+  opModR(mmx, reg, 0x0F, 0x6E);
+}
+void movd(const Reg32& reg, const Mmx& mmx) {
+  if (mmx.isXMM()) db(0x66);
+  opModR(mmx, reg, 0x0F, 0x7E);
+}
+void movddup(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x12, 0xF2, isXMM_XMMorMEM, NONE, NONE); }
+void movdir64b(const Reg& reg, const Address& addr) {
+  db(0x66);
+  opModM(addr, reg.cvt32(), 0x0F, 0x38, 0xF8);
+}
+void movdiri(const Address& addr, const Reg32e& reg) { opModM(addr, reg, 0x0F, 0x38, 0xF9); }
+void movdq2q(const Mmx& mmx, const Xmm& xmm) {
+  db(0xF2);
+  opModR(mmx, xmm, 0x0F, 0xD6);
+}
+void movdqa(const Address& addr, const Xmm& xmm) {
+  db(0x66);
+  opModM(addr, xmm, 0x0F, 0x7F);
+}
+void movdqa(const Xmm& xmm, const Operand& op) { opMMX(xmm, op, 0x6F, 0x66); }
+void movdqu(const Address& addr, const Xmm& xmm) {
+  db(0xF3);
+  opModM(addr, xmm, 0x0F, 0x7F);
+}
+void movdqu(const Xmm& xmm, const Operand& op) { opMMX(xmm, op, 0x6F, 0xF3); }
+void movhlps(const Xmm& reg1, const Xmm& reg2) { opModR(reg1, reg2, 0x0F, 0x12); }
+void movhpd(const Operand& op1, const Operand& op2) { opMovXMM(op1, op2, 0x16, 0x66); }
+void movhps(const Operand& op1, const Operand& op2) { opMovXMM(op1, op2, 0x16, 0x100); }
+void movlhps(const Xmm& reg1, const Xmm& reg2) { opModR(reg1, reg2, 0x0F, 0x16); }
+void movlpd(const Operand& op1, const Operand& op2) { opMovXMM(op1, op2, 0x12, 0x66); }
+void movlps(const Operand& op1, const Operand& op2) { opMovXMM(op1, op2, 0x12, 0x100); }
+void movmskpd(const Reg32e& reg, const Xmm& xmm) {
+  db(0x66);
+  movmskps(reg, xmm);
+}
+void movmskps(const Reg32e& reg, const Xmm& xmm) { opModR(reg, xmm, 0x0F, 0x50); }
+void movntdq(const Address& addr, const Xmm& reg) { opModM(addr, Reg16(reg.getIdx()), 0x0F, 0xE7); }
+void movntdqa(const Xmm& xmm, const Address& addr) {
+  db(0x66);
+  opModM(addr, xmm, 0x0F, 0x38, 0x2A);
+}
+void movnti(const Address& addr, const Reg32e& reg) { opModM(addr, reg, 0x0F, 0xC3); }
+void movntpd(const Address& addr, const Xmm& reg) { opModM(addr, Reg16(reg.getIdx()), 0x0F, 0x2B); }
+void movntps(const Address& addr, const Xmm& xmm) { opModM(addr, Mmx(xmm.getIdx()), 0x0F, 0x2B); }
+void movntq(const Address& addr, const Mmx& mmx) {
+  if (!mmx.isMMX()) XBYAK_THROW(ERR_BAD_COMBINATION) opModM(addr, mmx, 0x0F, 0xE7);
+}
+void movq(const Address& addr, const Mmx& mmx) {
+  if (mmx.isXMM()) db(0x66);
+  opModM(addr, mmx, 0x0F, mmx.isXMM() ? 0xD6 : 0x7F);
+}
+void movq(const Mmx& mmx, const Operand& op) {
+  if (mmx.isXMM()) db(0xF3);
+  opModRM(mmx, op, (mmx.getKind() == op.getKind()), op.isMEM(), 0x0F, mmx.isXMM() ? 0x7E : 0x6F);
+}
+void movq2dq(const Xmm& xmm, const Mmx& mmx) {
+  db(0xF3);
+  opModR(xmm, mmx, 0x0F, 0xD6);
+}
+void movsb() { db(0xA4); }
+void movsd() { db(0xA5); }
+void movsd(const Address& addr, const Xmm& xmm) {
+  db(0xF2);
+  opModM(addr, xmm, 0x0F, 0x11);
+}
+void movsd(const Xmm& xmm, const Operand& op) { opMMX(xmm, op, 0x10, 0xF2); }
+void movshdup(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x16, 0xF3, isXMM_XMMorMEM, NONE, NONE); }
+void movsldup(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x12, 0xF3, isXMM_XMMorMEM, NONE, NONE); }
+void movss(const Address& addr, const Xmm& xmm) {
+  db(0xF3);
+  opModM(addr, xmm, 0x0F, 0x11);
+}
+void movss(const Xmm& xmm, const Operand& op) { opMMX(xmm, op, 0x10, 0xF3); }
+void movsw() {
+  db(0x66);
+  db(0xA5);
+}
+void movsx(const Reg& reg, const Operand& op) { opMovxx(reg, op, 0xBE); }
+void movupd(const Address& addr, const Xmm& xmm) {
+  db(0x66);
+  opModM(addr, xmm, 0x0F, 0x11);
+}
+void movupd(const Xmm& xmm, const Operand& op) { opMMX(xmm, op, 0x10, 0x66); }
+void movups(const Address& addr, const Xmm& xmm) { opModM(addr, xmm, 0x0F, 0x11); }
+void movups(const Xmm& xmm, const Operand& op) { opMMX(xmm, op, 0x10, 0x100); }
+void movzx(const Reg& reg, const Operand& op) { opMovxx(reg, op, 0xB6); }
+void mpsadbw(const Xmm& xmm, const Operand& op, int imm) {
+  opGen(xmm, op, 0x42, 0x66, isXMM_XMMorMEM, static_cast<uint8_t>(imm), 0x3A);
+}
+void mul(const Operand& op) { opR_ModM(op, 0, 4, 0xF6); }
+void mulpd(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x59, 0x66, isXMM_XMMorMEM); }
+void mulps(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x59, 0x100, isXMM_XMMorMEM); }
+void mulsd(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x59, 0xF2, isXMM_XMMorMEM); }
+void mulss(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x59, 0xF3, isXMM_XMMorMEM); }
+void mulx(const Reg32e& r1, const Reg32e& r2, const Operand& op) { opGpr(r1, r2, op, T_F2 | T_0F38, 0xf6, true); }
+void mwait() {
+  db(0x0F);
+  db(0x01);
+  db(0xC9);
+}
+void mwaitx() {
+  db(0x0F);
+  db(0x01);
+  db(0xFB);
+}
+void neg(const Operand& op) { opR_ModM(op, 0, 3, 0xF6); }
+void not_(const Operand& op) { opR_ModM(op, 0, 2, 0xF6); }
+void or_(const Operand& op, uint32_t imm) { opRM_I(op, imm, 0x08, 1); }
+void or_(const Operand& op1, const Operand& op2) { opRM_RM(op1, op2, 0x08); }
+void orpd(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x56, 0x66, isXMM_XMMorMEM); }
+void orps(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x56, 0x100, isXMM_XMMorMEM); }
+void out_(const Reg& d, const Reg& a) { opInOut(a, d, 0xEE); }
+void out_(uint8_t v, const Reg& a) { opInOut(a, 0xE6, v); }
+void outsb() { db(0x6E); }
+void outsd() { db(0x6F); }
+void outsw() {
+  db(0x66);
+  db(0x6F);
+}
+void pabsb(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0x1C, 0x66, NONE, 0x38); }
+void pabsd(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0x1E, 0x66, NONE, 0x38); }
+void pabsw(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0x1D, 0x66, NONE, 0x38); }
+void packssdw(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0x6B); }
+void packsswb(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0x63); }
+void packusdw(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x2B, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void packuswb(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0x67); }
+void paddb(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xFC); }
+void paddd(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xFE); }
+void paddq(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xD4); }
+void paddsb(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xEC); }
+void paddsw(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xED); }
+void paddusb(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xDC); }
+void paddusw(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xDD); }
+void paddw(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xFD); }
+void palignr(const Mmx& mmx, const Operand& op, int imm) {
+  opMMX(mmx, op, 0x0f, 0x66, static_cast<uint8_t>(imm), 0x3a);
+}
+void pand(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xDB); }
+void pandn(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xDF); }
+void pause() {
+  db(0xF3);
+  db(0x90);
+}
+void pavgb(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xE0); }
+void pavgw(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xE3); }
+void pblendvb(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x10, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void pblendw(const Xmm& xmm, const Operand& op, int imm) {
+  opGen(xmm, op, 0x0E, 0x66, isXMM_XMMorMEM, static_cast<uint8_t>(imm), 0x3A);
+}
+void pclmulhqhqdq(const Xmm& xmm, const Operand& op) { pclmulqdq(xmm, op, 0x11); }
+void pclmulhqlqdq(const Xmm& xmm, const Operand& op) { pclmulqdq(xmm, op, 0x01); }
+void pclmullqhqdq(const Xmm& xmm, const Operand& op) { pclmulqdq(xmm, op, 0x10); }
+void pclmullqlqdq(const Xmm& xmm, const Operand& op) { pclmulqdq(xmm, op, 0x00); }
+void pclmulqdq(const Xmm& xmm, const Operand& op, int imm) {
+  opGen(xmm, op, 0x44, 0x66, isXMM_XMMorMEM, static_cast<uint8_t>(imm), 0x3A);
+}
+void pcmpeqb(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0x74); }
+void pcmpeqd(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0x76); }
+void pcmpeqq(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x29, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void pcmpeqw(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0x75); }
+void pcmpestri(const Xmm& xmm, const Operand& op, uint8_t imm) {
+  opGen(xmm, op, 0x61, 0x66, isXMM_XMMorMEM, imm, 0x3A);
+}
+void pcmpestrm(const Xmm& xmm, const Operand& op, uint8_t imm) {
+  opGen(xmm, op, 0x60, 0x66, isXMM_XMMorMEM, imm, 0x3A);
+}
+void pcmpgtb(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0x64); }
+void pcmpgtd(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0x66); }
+void pcmpgtq(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x37, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void pcmpgtw(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0x65); }
+void pcmpistri(const Xmm& xmm, const Operand& op, uint8_t imm) {
+  opGen(xmm, op, 0x63, 0x66, isXMM_XMMorMEM, imm, 0x3A);
+}
+void pcmpistrm(const Xmm& xmm, const Operand& op, uint8_t imm) {
+  opGen(xmm, op, 0x62, 0x66, isXMM_XMMorMEM, imm, 0x3A);
+}
+void pdep(const Reg32e& r1, const Reg32e& r2, const Operand& op) { opGpr(r1, r2, op, T_F2 | T_0F38, 0xf5, true); }
+void pext(const Reg32e& r1, const Reg32e& r2, const Operand& op) { opGpr(r1, r2, op, T_F3 | T_0F38, 0xf5, true); }
+void pextrb(const Operand& op, const Xmm& xmm, uint8_t imm) { opExt(op, xmm, 0x14, imm); }
+void pextrd(const Operand& op, const Xmm& xmm, uint8_t imm) { opExt(op, xmm, 0x16, imm); }
+void pextrw(const Operand& op, const Mmx& xmm, uint8_t imm) { opExt(op, xmm, 0x15, imm, true); }
+void phaddd(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0x02, 0x66, NONE, 0x38); }
+void phaddsw(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0x03, 0x66, NONE, 0x38); }
+void phaddw(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0x01, 0x66, NONE, 0x38); }
+void phminposuw(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x41, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void phsubd(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0x06, 0x66, NONE, 0x38); }
+void phsubsw(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0x07, 0x66, NONE, 0x38); }
+void phsubw(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0x05, 0x66, NONE, 0x38); }
+void pinsrb(const Xmm& xmm, const Operand& op, uint8_t imm) { opGen(xmm, op, 0x20, 0x66, isXMM_REG32orMEM, imm, 0x3A); }
+void pinsrd(const Xmm& xmm, const Operand& op, uint8_t imm) { opGen(xmm, op, 0x22, 0x66, isXMM_REG32orMEM, imm, 0x3A); }
+void pinsrw(const Mmx& mmx, const Operand& op, int imm) {
+  if (!op.isREG(32) && !op.isMEM())
+    XBYAK_THROW(ERR_BAD_COMBINATION) opGen(mmx, op, 0xC4, mmx.isXMM() ? 0x66 : NONE, 0, imm);
+}
+void pmaddubsw(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0x04, 0x66, NONE, 0x38); }
+void pmaddwd(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xF5); }
+void pmaxsb(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x3C, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void pmaxsd(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x3D, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void pmaxsw(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xEE); }
+void pmaxub(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xDE); }
+void pmaxud(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x3F, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void pmaxuw(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x3E, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void pminsb(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x38, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void pminsd(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x39, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void pminsw(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xEA); }
+void pminub(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xDA); }
+void pminud(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x3B, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void pminuw(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x3A, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void pmovmskb(const Reg32e& reg, const Mmx& mmx) {
+  if (mmx.isXMM()) db(0x66);
+  opModR(reg, mmx, 0x0F, 0xD7);
+}
+void pmovsxbd(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x21, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void pmovsxbq(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x22, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void pmovsxbw(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x20, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void pmovsxdq(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x25, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void pmovsxwd(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x23, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void pmovsxwq(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x24, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void pmovzxbd(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x31, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void pmovzxbq(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x32, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void pmovzxbw(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x30, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void pmovzxdq(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x35, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void pmovzxwd(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x33, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void pmovzxwq(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x34, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void pmuldq(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x28, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void pmulhrsw(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0x0B, 0x66, NONE, 0x38); }
+void pmulhuw(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xE4); }
+void pmulhw(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xE5); }
+void pmulld(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x40, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void pmullw(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xD5); }
+void pmuludq(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xF4); }
+void popcnt(const Reg& reg, const Operand& op) { opSp1(reg, op, 0xF3, 0x0F, 0xB8); }
+void popf() { db(0x9D); }
+void por(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xEB); }
+void prefetchit0(const Address& addr) { opModM(addr, Reg32(7), 0x0F, 0x18); }
+void prefetchit1(const Address& addr) { opModM(addr, Reg32(6), 0x0F, 0x18); }
+void prefetchnta(const Address& addr) { opModM(addr, Reg32(0), 0x0F, 0x18); }
+void prefetcht0(const Address& addr) { opModM(addr, Reg32(1), 0x0F, 0x18); }
+void prefetcht1(const Address& addr) { opModM(addr, Reg32(2), 0x0F, 0x18); }
+void prefetcht2(const Address& addr) { opModM(addr, Reg32(3), 0x0F, 0x18); }
+void prefetchw(const Address& addr) { opModM(addr, Reg32(1), 0x0F, 0x0D); }
+void prefetchwt1(const Address& addr) { opModM(addr, Reg32(2), 0x0F, 0x0D); }
+void psadbw(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xF6); }
+void pshufb(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0x00, 0x66, NONE, 0x38); }
+void pshufd(const Mmx& mmx, const Operand& op, uint8_t imm8) { opMMX(mmx, op, 0x70, 0x66, imm8); }
+void pshufhw(const Mmx& mmx, const Operand& op, uint8_t imm8) { opMMX(mmx, op, 0x70, 0xF3, imm8); }
+void pshuflw(const Mmx& mmx, const Operand& op, uint8_t imm8) { opMMX(mmx, op, 0x70, 0xF2, imm8); }
+void pshufw(const Mmx& mmx, const Operand& op, uint8_t imm8) { opMMX(mmx, op, 0x70, 0x00, imm8); }
+void psignb(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0x08, 0x66, NONE, 0x38); }
+void psignd(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0x0A, 0x66, NONE, 0x38); }
+void psignw(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0x09, 0x66, NONE, 0x38); }
+void pslld(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xF2); }
+void pslld(const Mmx& mmx, int imm8) { opMMX_IMM(mmx, imm8, 0x72, 6); }
+void pslldq(const Xmm& xmm, int imm8) { opMMX_IMM(xmm, imm8, 0x73, 7); }
+void psllq(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xF3); }
+void psllq(const Mmx& mmx, int imm8) { opMMX_IMM(mmx, imm8, 0x73, 6); }
+void psllw(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xF1); }
+void psllw(const Mmx& mmx, int imm8) { opMMX_IMM(mmx, imm8, 0x71, 6); }
+void psrad(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xE2); }
+void psrad(const Mmx& mmx, int imm8) { opMMX_IMM(mmx, imm8, 0x72, 4); }
+void psraw(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xE1); }
+void psraw(const Mmx& mmx, int imm8) { opMMX_IMM(mmx, imm8, 0x71, 4); }
+void psrld(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xD2); }
+void psrld(const Mmx& mmx, int imm8) { opMMX_IMM(mmx, imm8, 0x72, 2); }
+void psrldq(const Xmm& xmm, int imm8) { opMMX_IMM(xmm, imm8, 0x73, 3); }
+void psrlq(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xD3); }
+void psrlq(const Mmx& mmx, int imm8) { opMMX_IMM(mmx, imm8, 0x73, 2); }
+void psrlw(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xD1); }
+void psrlw(const Mmx& mmx, int imm8) { opMMX_IMM(mmx, imm8, 0x71, 2); }
+void psubb(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xF8); }
+void psubd(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xFA); }
+void psubq(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xFB); }
+void psubsb(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xE8); }
+void psubsw(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xE9); }
+void psubusb(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xD8); }
+void psubusw(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xD9); }
+void psubw(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xF9); }
+void ptest(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x17, 0x66, isXMM_XMMorMEM, NONE, 0x38); }
+void punpckhbw(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0x68); }
+void punpckhdq(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0x6A); }
+void punpckhqdq(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x6D, 0x66, isXMM_XMMorMEM); }
+void punpckhwd(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0x69); }
+void punpcklbw(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0x60); }
+void punpckldq(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0x62); }
+void punpcklqdq(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x6C, 0x66, isXMM_XMMorMEM); }
+void punpcklwd(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0x61); }
+void pushf() { db(0x9C); }
+void pxor(const Mmx& mmx, const Operand& op) { opMMX(mmx, op, 0xEF); }
+void rcl(const Operand& op, const Reg8& _cl) { opShift(op, _cl, 2); }
+void rcl(const Operand& op, int imm) { opShift(op, imm, 2); }
+void rcpps(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x53, 0x100, isXMM_XMMorMEM); }
+void rcpss(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x53, 0xF3, isXMM_XMMorMEM); }
+void rcr(const Operand& op, const Reg8& _cl) { opShift(op, _cl, 3); }
+void rcr(const Operand& op, int imm) { opShift(op, imm, 3); }
+void rdmsr() {
+  db(0x0F);
+  db(0x32);
+}
+void rdpmc() {
+  db(0x0F);
+  db(0x33);
+}
+void rdrand(const Reg& r) {
+  if (r.isBit(8)) XBYAK_THROW(ERR_BAD_SIZE_OF_REGISTER) opModR(Reg(6, Operand::REG, r.getBit()), r, 0x0F, 0xC7);
+}
+void rdseed(const Reg& r) {
+  if (r.isBit(8)) XBYAK_THROW(ERR_BAD_SIZE_OF_REGISTER) opModR(Reg(7, Operand::REG, r.getBit()), r, 0x0F, 0xC7);
+}
+void rdtsc() {
+  db(0x0F);
+  db(0x31);
+}
+void rdtscp() {
+  db(0x0F);
+  db(0x01);
+  db(0xF9);
+}
+void rep() { db(0xF3); }
+void repe() { db(0xF3); }
+void repne() { db(0xF2); }
+void repnz() { db(0xF2); }
+void repz() { db(0xF3); }
+void ret(int imm = 0) {
+  if (imm) {
+    db(0xC2);
+    dw(imm);
+  } else {
+    db(0xC3);
+  }
+}
+void retf(int imm = 0) {
+  if (imm) {
+    db(0xCA);
+    dw(imm);
+  } else {
+    db(0xCB);
+  }
+}
+void rol(const Operand& op, const Reg8& _cl) { opShift(op, _cl, 0); }
+void rol(const Operand& op, int imm) { opShift(op, imm, 0); }
+void ror(const Operand& op, const Reg8& _cl) { opShift(op, _cl, 1); }
+void ror(const Operand& op, int imm) { opShift(op, imm, 1); }
+void rorx(const Reg32e& r, const Operand& op, uint8_t imm) {
+  opGpr(r, op, Reg32e(0, r.getBit()), T_0F3A | T_F2, 0xF0, false, imm);
+}
+void roundpd(const Xmm& xmm, const Operand& op, uint8_t imm) { opGen(xmm, op, 0x09, 0x66, isXMM_XMMorMEM, imm, 0x3A); }
+void roundps(const Xmm& xmm, const Operand& op, uint8_t imm) { opGen(xmm, op, 0x08, 0x66, isXMM_XMMorMEM, imm, 0x3A); }
+void roundsd(const Xmm& xmm, const Operand& op, int imm) {
+  opGen(xmm, op, 0x0B, 0x66, isXMM_XMMorMEM, static_cast<uint8_t>(imm), 0x3A);
+}
+void roundss(const Xmm& xmm, const Operand& op, int imm) {
+  opGen(xmm, op, 0x0A, 0x66, isXMM_XMMorMEM, static_cast<uint8_t>(imm), 0x3A);
+}
+void rsqrtps(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x52, 0x100, isXMM_XMMorMEM); }
+void rsqrtss(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x52, 0xF3, isXMM_XMMorMEM); }
+void sahf() { db(0x9E); }
+void sal(const Operand& op, const Reg8& _cl) { opShift(op, _cl, 4); }
+void sal(const Operand& op, int imm) { opShift(op, imm, 4); }
+void sar(const Operand& op, const Reg8& _cl) { opShift(op, _cl, 7); }
+void sar(const Operand& op, int imm) { opShift(op, imm, 7); }
+void sarx(const Reg32e& r1, const Operand& op, const Reg32e& r2) { opGpr(r1, op, r2, T_F3 | T_0F38, 0xf7, false); }
+void sbb(const Operand& op, uint32_t imm) { opRM_I(op, imm, 0x18, 3); }
+void sbb(const Operand& op1, const Operand& op2) { opRM_RM(op1, op2, 0x18); }
+void scasb() { db(0xAE); }
+void scasd() { db(0xAF); }
+void scasw() {
+  db(0x66);
+  db(0xAF);
+}
+void serialize() {
+  db(0x0F);
+  db(0x01);
+  db(0xE8);
+}
+void seta(const Operand& op) { opR_ModM(op, 8, 0, 0x0F, 0x90 | 7); }     //-V524
+void setae(const Operand& op) { opR_ModM(op, 8, 0, 0x0F, 0x90 | 3); }    //-V524
+void setb(const Operand& op) { opR_ModM(op, 8, 0, 0x0F, 0x90 | 2); }     //-V524
+void setbe(const Operand& op) { opR_ModM(op, 8, 0, 0x0F, 0x90 | 6); }    //-V524
+void setc(const Operand& op) { opR_ModM(op, 8, 0, 0x0F, 0x90 | 2); }     //-V524
+void sete(const Operand& op) { opR_ModM(op, 8, 0, 0x0F, 0x90 | 4); }     //-V524
+void setg(const Operand& op) { opR_ModM(op, 8, 0, 0x0F, 0x90 | 15); }    //-V524
+void setge(const Operand& op) { opR_ModM(op, 8, 0, 0x0F, 0x90 | 13); }   //-V524
+void setl(const Operand& op) { opR_ModM(op, 8, 0, 0x0F, 0x90 | 12); }    //-V524
+void setle(const Operand& op) { opR_ModM(op, 8, 0, 0x0F, 0x90 | 14); }   //-V524
+void setna(const Operand& op) { opR_ModM(op, 8, 0, 0x0F, 0x90 | 6); }    //-V524
+void setnae(const Operand& op) { opR_ModM(op, 8, 0, 0x0F, 0x90 | 2); }   //-V524
+void setnb(const Operand& op) { opR_ModM(op, 8, 0, 0x0F, 0x90 | 3); }    //-V524
+void setnbe(const Operand& op) { opR_ModM(op, 8, 0, 0x0F, 0x90 | 7); }   //-V524
+void setnc(const Operand& op) { opR_ModM(op, 8, 0, 0x0F, 0x90 | 3); }    //-V524
+void setne(const Operand& op) { opR_ModM(op, 8, 0, 0x0F, 0x90 | 5); }    //-V524
+void setng(const Operand& op) { opR_ModM(op, 8, 0, 0x0F, 0x90 | 14); }   //-V524
+void setnge(const Operand& op) { opR_ModM(op, 8, 0, 0x0F, 0x90 | 12); }  //-V524
+void setnl(const Operand& op) { opR_ModM(op, 8, 0, 0x0F, 0x90 | 13); }   //-V524
+void setnle(const Operand& op) { opR_ModM(op, 8, 0, 0x0F, 0x90 | 15); }  //-V524
+void setno(const Operand& op) { opR_ModM(op, 8, 0, 0x0F, 0x90 | 1); }    //-V524
+void setnp(const Operand& op) { opR_ModM(op, 8, 0, 0x0F, 0x90 | 11); }   //-V524
+void setns(const Operand& op) { opR_ModM(op, 8, 0, 0x0F, 0x90 | 9); }    //-V524
+void setnz(const Operand& op) { opR_ModM(op, 8, 0, 0x0F, 0x90 | 5); }    //-V524
+void seto(const Operand& op) { opR_ModM(op, 8, 0, 0x0F, 0x90 | 0); }     //-V524
+void setp(const Operand& op) { opR_ModM(op, 8, 0, 0x0F, 0x90 | 10); }    //-V524
+void setpe(const Operand& op) { opR_ModM(op, 8, 0, 0x0F, 0x90 | 10); }   //-V524
+void setpo(const Operand& op) { opR_ModM(op, 8, 0, 0x0F, 0x90 | 11); }   //-V524
+void sets(const Operand& op) { opR_ModM(op, 8, 0, 0x0F, 0x90 | 8); }     //-V524
+void setz(const Operand& op) { opR_ModM(op, 8, 0, 0x0F, 0x90 | 4); }     //-V524
+void sfence() {
+  db(0x0F);
+  db(0xAE);
+  db(0xF8);
+}
+void sha1msg1(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0xC9, NONE, isXMM_XMMorMEM, NONE, 0x38); }
+void sha1msg2(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0xCA, NONE, isXMM_XMMorMEM, NONE, 0x38); }
+void sha1nexte(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0xC8, NONE, isXMM_XMMorMEM, NONE, 0x38); }
+void sha1rnds4(const Xmm& xmm, const Operand& op, uint8_t imm) {
+  opGen(xmm, op, 0xCC, NONE, isXMM_XMMorMEM, imm, 0x3A);
+}
+void sha256msg1(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0xCC, NONE, isXMM_XMMorMEM, NONE, 0x38); }
+void sha256msg2(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0xCD, NONE, isXMM_XMMorMEM, NONE, 0x38); }
+void sha256rnds2(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0xCB, NONE, isXMM_XMMorMEM, NONE, 0x38); }
+void shl(const Operand& op, const Reg8& _cl) { opShift(op, _cl, 4); }
+void shl(const Operand& op, int imm) { opShift(op, imm, 4); }
+void shld(const Operand& op, const Reg& reg, const Reg8& _cl) { opShxd(op, reg, 0, 0xA4, &_cl); }
+void shld(const Operand& op, const Reg& reg, uint8_t imm) { opShxd(op, reg, imm, 0xA4); }
+void shlx(const Reg32e& r1, const Operand& op, const Reg32e& r2) { opGpr(r1, op, r2, T_66 | T_0F38, 0xf7, false); }
+void shr(const Operand& op, const Reg8& _cl) { opShift(op, _cl, 5); }
+void shr(const Operand& op, int imm) { opShift(op, imm, 5); }
+void shrd(const Operand& op, const Reg& reg, const Reg8& _cl) { opShxd(op, reg, 0, 0xAC, &_cl); }
+void shrd(const Operand& op, const Reg& reg, uint8_t imm) { opShxd(op, reg, imm, 0xAC); }
+void shrx(const Reg32e& r1, const Operand& op, const Reg32e& r2) { opGpr(r1, op, r2, T_F2 | T_0F38, 0xf7, false); }
+void shufpd(const Xmm& xmm, const Operand& op, uint8_t imm8) { opGen(xmm, op, 0xC6, 0x66, isXMM_XMMorMEM, imm8); }
+void shufps(const Xmm& xmm, const Operand& op, uint8_t imm8) { opGen(xmm, op, 0xC6, 0x100, isXMM_XMMorMEM, imm8); }
+void sqrtpd(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x51, 0x66, isXMM_XMMorMEM); }
+void sqrtps(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x51, 0x100, isXMM_XMMorMEM); }
+void sqrtsd(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x51, 0xF2, isXMM_XMMorMEM); }
+void sqrtss(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x51, 0xF3, isXMM_XMMorMEM); }
+void stac() {
+  db(0x0F);
+  db(0x01);
+  db(0xCB);
+}
+void stc() { db(0xF9); }
+void std() { db(0xFD); }
+void sti() { db(0xFB); }
+void stmxcsr(const Address& addr) { opModM(addr, Reg32(3), 0x0F, 0xAE); }
+void stosb() { db(0xAA); }
+void stosd() { db(0xAB); }
+void stosw() {
+  db(0x66);
+  db(0xAB);
+}
+void sub(const Operand& op, uint32_t imm) { opRM_I(op, imm, 0x28, 5); }
+void sub(const Operand& op1, const Operand& op2) { opRM_RM(op1, op2, 0x28); }
+void subpd(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x5C, 0x66, isXMM_XMMorMEM); }
+void subps(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x5C, 0x100, isXMM_XMMorMEM); }
+void subsd(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x5C, 0xF2, isXMM_XMMorMEM); }
+void subss(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x5C, 0xF3, isXMM_XMMorMEM); }
+void sysenter() {
+  db(0x0F);
+  db(0x34);
+}
+void sysexit() {
+  db(0x0F);
+  db(0x35);
+}
+void tpause(const Reg32& r) {
+  int idx = r.getIdx();
+  if (idx > 7) XBYAK_THROW(ERR_BAD_PARAMETER) db(0x66);
+  db(0x0F);
+  db(0xAE);
+  setModRM(3, 6, idx);
+}
+void tzcnt(const Reg& reg, const Operand& op) { opSp1(reg, op, 0xF3, 0x0F, 0xBC); }
+void ucomisd(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x2E, 0x66, isXMM_XMMorMEM); }
+void ucomiss(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x2E, 0x100, isXMM_XMMorMEM); }
+void ud2() {
+  db(0x0F);
+  db(0x0B);
+}
+void umonitor(const Reg& r) {
+  int idx = r.getIdx();
+  if (idx > 7) XBYAK_THROW(ERR_BAD_PARAMETER) int bit = r.getBit();
+  if (BIT != bit) {
+    if ((BIT == 32 && bit == 16) || (BIT == 64 && bit == 32)) {
+      db(0x67);
+    } else {
+      XBYAK_THROW(ERR_BAD_SIZE_OF_REGISTER)
+    }
+  }
+  db(0xF3);
+  db(0x0F);
+  db(0xAE);
+  setModRM(3, 6, idx);
+}
+void umwait(const Reg32& r) {
+  int idx = r.getIdx();
+  if (idx > 7) XBYAK_THROW(ERR_BAD_PARAMETER) db(0xF2);
+  db(0x0F);
+  db(0xAE);
+  setModRM(3, 6, idx);
+}
+void unpckhpd(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x15, 0x66, isXMM_XMMorMEM); }
+void unpckhps(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x15, 0x100, isXMM_XMMorMEM); }
+void unpcklpd(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x14, 0x66, isXMM_XMMorMEM); }
+void unpcklps(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x14, 0x100, isXMM_XMMorMEM); }
+void vaddpd(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_0F | T_66 | T_EW1 | T_YMM | T_EVEX | T_ER_Z | T_B64, 0x58);
+}
+void vaddps(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_0F | T_EW0 | T_YMM | T_EVEX | T_ER_Z | T_B32, 0x58);
+}
+void vaddsd(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_0F | T_F2 | T_EW1 | T_EVEX | T_ER_X | T_N8, 0x58);
+}
+void vaddss(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_0F | T_F3 | T_EW0 | T_EVEX | T_ER_X | T_N4, 0x58);
+}
+void vaddsubpd(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_66 | T_0F | T_YMM, 0xD0);
+}
+void vaddsubps(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_F2 | T_0F | T_YMM, 0xD0);
+}
+void vaesdec(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_66 | T_0F38 | T_YMM | T_EVEX, 0xDE);
+}
+void vaesdeclast(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_66 | T_0F38 | T_YMM | T_EVEX, 0xDF);
+}
+void vaesenc(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_66 | T_0F38 | T_YMM | T_EVEX, 0xDC);
+}
+void vaesenclast(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_66 | T_0F38 | T_YMM | T_EVEX, 0xDD);
+}
+void vaesimc(const Xmm& xm, const Operand& op) { opAVX_X_XM_IMM(xm, op, T_66 | T_0F38 | T_W0, 0xDB); }
+void vaeskeygenassist(const Xmm& xm, const Operand& op, uint8_t imm) {
+  opAVX_X_XM_IMM(xm, op, T_66 | T_0F3A, 0xDF, imm);
+}
+void vandnpd(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_0F | T_66 | T_EW1 | T_YMM | T_EVEX | T_ER_Z | T_B64, 0x55);
+}
+void vandnps(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_0F | T_EW0 | T_YMM | T_EVEX | T_ER_Z | T_B32, 0x55);
+}
+void vandpd(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_0F | T_66 | T_EW1 | T_YMM | T_EVEX | T_ER_Z | T_B64, 0x54);
+}
+void vandps(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_0F | T_EW0 | T_YMM | T_EVEX | T_ER_Z | T_B32, 0x54);
+}
+void vbcstnebf162ps(const Xmm& x, const Address& addr) {
+  opVex(x, 0, addr, T_F3 | T_0F38 | T_W0 | T_YMM | T_B16, 0xB1);
+}
+void vbcstnesh2ps(const Xmm& x, const Address& addr) { opVex(x, 0, addr, T_66 | T_0F38 | T_W0 | T_YMM | T_B16, 0xB1); }
+void vblendpd(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F3A | T_W0 | T_YMM, 0x0D, imm);
+}
+void vblendps(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F3A | T_W0 | T_YMM, 0x0C, imm);
+}
+void vblendvpd(const Xmm& x1, const Xmm& x2, const Operand& op, const Xmm& x4) {
+  opAVX_X_X_XM(x1, x2, op, T_0F3A | T_66 | T_YMM, 0x4B, x4.getIdx() << 4);
+}
+void vblendvps(const Xmm& x1, const Xmm& x2, const Operand& op, const Xmm& x4) {
+  opAVX_X_X_XM(x1, x2, op, T_0F3A | T_66 | T_YMM, 0x4A, x4.getIdx() << 4);
+}
+void vbroadcastf128(const Ymm& y, const Address& addr) { opAVX_X_XM_IMM(y, addr, T_0F38 | T_66 | T_W0 | T_YMM, 0x1A); }
+void vbroadcasti128(const Ymm& y, const Address& addr) { opAVX_X_XM_IMM(y, addr, T_0F38 | T_66 | T_W0 | T_YMM, 0x5A); }
+void vbroadcastsd(const Ymm& y, const Operand& op) {
+  if (!op.isMEM() && !(y.isYMM() && op.isXMM()) && !(y.isZMM() && op.isXMM()))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opAVX_X_XM_IMM(y, op, T_0F38 | T_66 | T_W0 | T_YMM | T_EVEX | T_EW1 | T_N8, 0x19);
+}
+void vbroadcastss(const Xmm& x, const Operand& op) {
+  if (!(op.isXMM() || op.isMEM()))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opAVX_X_XM_IMM(x, op, T_N4 | T_66 | T_0F38 | T_W0 | T_YMM | T_EVEX, 0x18);
+}
+void vcmpeq_ospd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmppd(x1, x2, op, 16); }
+void vcmpeq_osps(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpps(x1, x2, op, 16); }
+void vcmpeq_ossd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpsd(x1, x2, op, 16); }
+void vcmpeq_osss(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpss(x1, x2, op, 16); }
+void vcmpeq_uqpd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmppd(x1, x2, op, 8); }
+void vcmpeq_uqps(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpps(x1, x2, op, 8); }
+void vcmpeq_uqsd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpsd(x1, x2, op, 8); }
+void vcmpeq_uqss(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpss(x1, x2, op, 8); }
+void vcmpeq_uspd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmppd(x1, x2, op, 24); }
+void vcmpeq_usps(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpps(x1, x2, op, 24); }
+void vcmpeq_ussd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpsd(x1, x2, op, 24); }
+void vcmpeq_usss(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpss(x1, x2, op, 24); }
+void vcmpeqpd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmppd(x1, x2, op, 0); }
+void vcmpeqps(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpps(x1, x2, op, 0); }
+void vcmpeqsd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpsd(x1, x2, op, 0); }
+void vcmpeqss(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpss(x1, x2, op, 0); }
+void vcmpfalse_ospd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmppd(x1, x2, op, 27); }
+void vcmpfalse_osps(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpps(x1, x2, op, 27); }
+void vcmpfalse_ossd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpsd(x1, x2, op, 27); }
+void vcmpfalse_osss(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpss(x1, x2, op, 27); }
+void vcmpfalsepd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmppd(x1, x2, op, 11); }
+void vcmpfalseps(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpps(x1, x2, op, 11); }
+void vcmpfalsesd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpsd(x1, x2, op, 11); }
+void vcmpfalsess(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpss(x1, x2, op, 11); }
+void vcmpge_oqpd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmppd(x1, x2, op, 29); }
+void vcmpge_oqps(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpps(x1, x2, op, 29); }
+void vcmpge_oqsd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpsd(x1, x2, op, 29); }
+void vcmpge_oqss(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpss(x1, x2, op, 29); }
+void vcmpgepd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmppd(x1, x2, op, 13); }
+void vcmpgeps(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpps(x1, x2, op, 13); }
+void vcmpgesd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpsd(x1, x2, op, 13); }
+void vcmpgess(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpss(x1, x2, op, 13); }
+void vcmpgt_oqpd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmppd(x1, x2, op, 30); }
+void vcmpgt_oqps(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpps(x1, x2, op, 30); }
+void vcmpgt_oqsd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpsd(x1, x2, op, 30); }
+void vcmpgt_oqss(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpss(x1, x2, op, 30); }
+void vcmpgtpd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmppd(x1, x2, op, 14); }
+void vcmpgtps(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpps(x1, x2, op, 14); }
+void vcmpgtsd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpsd(x1, x2, op, 14); }
+void vcmpgtss(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpss(x1, x2, op, 14); }
+void vcmple_oqpd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmppd(x1, x2, op, 18); }
+void vcmple_oqps(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpps(x1, x2, op, 18); }
+void vcmple_oqsd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpsd(x1, x2, op, 18); }
+void vcmple_oqss(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpss(x1, x2, op, 18); }
+void vcmplepd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmppd(x1, x2, op, 2); }
+void vcmpleps(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpps(x1, x2, op, 2); }
+void vcmplesd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpsd(x1, x2, op, 2); }
+void vcmpless(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpss(x1, x2, op, 2); }
+void vcmplt_oqpd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmppd(x1, x2, op, 17); }
+void vcmplt_oqps(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpps(x1, x2, op, 17); }
+void vcmplt_oqsd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpsd(x1, x2, op, 17); }
+void vcmplt_oqss(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpss(x1, x2, op, 17); }
+void vcmpltpd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmppd(x1, x2, op, 1); }
+void vcmpltps(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpps(x1, x2, op, 1); }
+void vcmpltsd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpsd(x1, x2, op, 1); }
+void vcmpltss(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpss(x1, x2, op, 1); }
+void vcmpneq_oqpd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmppd(x1, x2, op, 12); }
+void vcmpneq_oqps(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpps(x1, x2, op, 12); }
+void vcmpneq_oqsd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpsd(x1, x2, op, 12); }
+void vcmpneq_oqss(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpss(x1, x2, op, 12); }
+void vcmpneq_ospd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmppd(x1, x2, op, 28); }
+void vcmpneq_osps(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpps(x1, x2, op, 28); }
+void vcmpneq_ossd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpsd(x1, x2, op, 28); }
+void vcmpneq_osss(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpss(x1, x2, op, 28); }
+void vcmpneq_uspd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmppd(x1, x2, op, 20); }
+void vcmpneq_usps(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpps(x1, x2, op, 20); }
+void vcmpneq_ussd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpsd(x1, x2, op, 20); }
+void vcmpneq_usss(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpss(x1, x2, op, 20); }
+void vcmpneqpd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmppd(x1, x2, op, 4); }
+void vcmpneqps(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpps(x1, x2, op, 4); }
+void vcmpneqsd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpsd(x1, x2, op, 4); }
+void vcmpneqss(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpss(x1, x2, op, 4); }
+void vcmpnge_uqpd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmppd(x1, x2, op, 25); }
+void vcmpnge_uqps(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpps(x1, x2, op, 25); }
+void vcmpnge_uqsd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpsd(x1, x2, op, 25); }
+void vcmpnge_uqss(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpss(x1, x2, op, 25); }
+void vcmpngepd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmppd(x1, x2, op, 9); }
+void vcmpngeps(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpps(x1, x2, op, 9); }
+void vcmpngesd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpsd(x1, x2, op, 9); }
+void vcmpngess(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpss(x1, x2, op, 9); }
+void vcmpngt_uqpd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmppd(x1, x2, op, 26); }
+void vcmpngt_uqps(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpps(x1, x2, op, 26); }
+void vcmpngt_uqsd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpsd(x1, x2, op, 26); }
+void vcmpngt_uqss(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpss(x1, x2, op, 26); }
+void vcmpngtpd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmppd(x1, x2, op, 10); }
+void vcmpngtps(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpps(x1, x2, op, 10); }
+void vcmpngtsd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpsd(x1, x2, op, 10); }
+void vcmpngtss(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpss(x1, x2, op, 10); }
+void vcmpnle_uqpd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmppd(x1, x2, op, 22); }
+void vcmpnle_uqps(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpps(x1, x2, op, 22); }
+void vcmpnle_uqsd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpsd(x1, x2, op, 22); }
+void vcmpnle_uqss(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpss(x1, x2, op, 22); }
+void vcmpnlepd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmppd(x1, x2, op, 6); }
+void vcmpnleps(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpps(x1, x2, op, 6); }
+void vcmpnlesd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpsd(x1, x2, op, 6); }
+void vcmpnless(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpss(x1, x2, op, 6); }
+void vcmpnlt_uqpd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmppd(x1, x2, op, 21); }
+void vcmpnlt_uqps(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpps(x1, x2, op, 21); }
+void vcmpnlt_uqsd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpsd(x1, x2, op, 21); }
+void vcmpnlt_uqss(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpss(x1, x2, op, 21); }
+void vcmpnltpd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmppd(x1, x2, op, 5); }
+void vcmpnltps(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpps(x1, x2, op, 5); }
+void vcmpnltsd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpsd(x1, x2, op, 5); }
+void vcmpnltss(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpss(x1, x2, op, 5); }
+void vcmpord_spd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmppd(x1, x2, op, 23); }
+void vcmpord_sps(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpps(x1, x2, op, 23); }
+void vcmpord_ssd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpsd(x1, x2, op, 23); }
+void vcmpord_sss(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpss(x1, x2, op, 23); }
+void vcmpordpd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmppd(x1, x2, op, 7); }
+void vcmpordps(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpps(x1, x2, op, 7); }
+void vcmpordsd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpsd(x1, x2, op, 7); }
+void vcmpordss(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpss(x1, x2, op, 7); }
+void vcmppd(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM, 0xC2, imm);
+}
+void vcmpps(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_0F | T_YMM, 0xC2, imm);
+}
+void vcmpsd(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_F2 | T_0F, 0xC2, imm);
+}
+void vcmpss(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_F3 | T_0F, 0xC2, imm);
+}
+void vcmptrue_uspd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmppd(x1, x2, op, 31); }
+void vcmptrue_usps(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpps(x1, x2, op, 31); }
+void vcmptrue_ussd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpsd(x1, x2, op, 31); }
+void vcmptrue_usss(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpss(x1, x2, op, 31); }
+void vcmptruepd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmppd(x1, x2, op, 15); }
+void vcmptrueps(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpps(x1, x2, op, 15); }
+void vcmptruesd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpsd(x1, x2, op, 15); }
+void vcmptruess(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpss(x1, x2, op, 15); }
+void vcmpunord_spd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmppd(x1, x2, op, 19); }
+void vcmpunord_sps(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpps(x1, x2, op, 19); }
+void vcmpunord_ssd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpsd(x1, x2, op, 19); }
+void vcmpunord_sss(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpss(x1, x2, op, 19); }
+void vcmpunordpd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmppd(x1, x2, op, 3); }
+void vcmpunordps(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpps(x1, x2, op, 3); }
+void vcmpunordsd(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpsd(x1, x2, op, 3); }
+void vcmpunordss(const Xmm& x1, const Xmm& x2, const Operand& op) { vcmpss(x1, x2, op, 3); }
+void vcomisd(const Xmm& xm, const Operand& op) {
+  opAVX_X_XM_IMM(xm, op, T_N8 | T_66 | T_0F | T_EW1 | T_EVEX | T_SAE_X, 0x2F);
+}
+void vcomiss(const Xmm& xm, const Operand& op) { opAVX_X_XM_IMM(xm, op, T_N4 | T_0F | T_EW0 | T_EVEX | T_SAE_X, 0x2F); }
+void vcvtdq2pd(const Xmm& x, const Operand& op) {
+  checkCvt1(x, op);
+  opVex(x, 0, op, T_0F | T_F3 | T_YMM | T_EVEX | T_EW0 | T_B32 | T_N8 | T_N_VL, 0xE6);
+}
+void vcvtdq2ps(const Xmm& xm, const Operand& op) {
+  opAVX_X_XM_IMM(xm, op, T_0F | T_EW0 | T_YMM | T_EVEX | T_ER_Z | T_B32, 0x5B);
+}
+void vcvtneebf162ps(const Xmm& x, const Address& addr) { opVex(x, 0, addr, T_F3 | T_0F38 | T_W0 | T_YMM, 0xB0); }
+void vcvtneeph2ps(const Xmm& x, const Address& addr) { opVex(x, 0, addr, T_66 | T_0F38 | T_W0 | T_YMM, 0xB0); }
+void vcvtneobf162ps(const Xmm& x, const Address& addr) { opVex(x, 0, addr, T_F2 | T_0F38 | T_W0 | T_YMM, 0xB0); }
+void vcvtneoph2ps(const Xmm& x, const Address& addr) { opVex(x, 0, addr, T_0F38 | T_W0 | T_YMM, 0xB0); }
+void vcvtneps2bf16(const Xmm& x, const Operand& op, PreferredEncoding encoding = DefaultEncoding) {
+  opCvt2(x, op, T_F3 | T_0F38 | T_EW0 | T_YMM | T_SAE_Z | T_B32 | orEvexIf(encoding), 0x72);
+}
+void vcvtpd2dq(const Xmm& x, const Operand& op) {
+  opCvt2(x, op, T_0F | T_F2 | T_YMM | T_EVEX | T_EW1 | T_B64 | T_ER_Z, 0xE6);
+}
+void vcvtpd2ps(const Xmm& x, const Operand& op) {
+  opCvt2(x, op, T_0F | T_66 | T_YMM | T_EVEX | T_EW1 | T_B64 | T_ER_Z, 0x5A);
+}
+void vcvtph2ps(const Xmm& x, const Operand& op) {
+  checkCvt1(x, op);
+  opVex(x, 0, op, T_0F38 | T_66 | T_W0 | T_EVEX | T_EW0 | T_N8 | T_N_VL | T_SAE_Y, 0x13);
+}
+void vcvtps2dq(const Xmm& xm, const Operand& op) {
+  opAVX_X_XM_IMM(xm, op, T_66 | T_0F | T_EW0 | T_YMM | T_EVEX | T_ER_Z | T_B32, 0x5B);
+}
+void vcvtps2pd(const Xmm& x, const Operand& op) {
+  checkCvt1(x, op);
+  opVex(x, 0, op, T_0F | T_YMM | T_EVEX | T_EW0 | T_B32 | T_N8 | T_N_VL | T_SAE_Y, 0x5A);
+}
+void vcvtps2ph(const Operand& op, const Xmm& x, uint8_t imm) {
+  checkCvt1(x, op);
+  opVex(x, 0, op, T_0F3A | T_66 | T_W0 | T_EVEX | T_EW0 | T_N8 | T_N_VL | T_SAE_Y | T_M_K, 0x1D, imm);
+}
+void vcvtsd2si(const Reg32& r, const Operand& op) {
+  opAVX_X_X_XM(Xmm(r.getIdx()), xm0, op, T_0F | T_F2 | T_W0 | T_EVEX | T_EW0 | T_N4 | T_ER_X, 0x2D);
+}
+void vcvtsd2ss(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N8 | T_F2 | T_0F | T_EW1 | T_EVEX | T_ER_X, 0x5A);
+}
+void vcvtsi2sd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opCvt3(x1, x2, op, T_0F | T_F2 | T_EVEX, T_W1 | T_EW1 | T_ER_X | T_N8, T_W0 | T_EW0 | T_N4, 0x2A);
+}
+void vcvtsi2ss(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opCvt3(x1, x2, op, T_0F | T_F3 | T_EVEX | T_ER_X, T_W1 | T_EW1 | T_N8, T_W0 | T_EW0 | T_N4, 0x2A);
+}
+void vcvtss2sd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N4 | T_F3 | T_0F | T_EW0 | T_EVEX | T_SAE_X, 0x5A);
+}
+void vcvtss2si(const Reg32& r, const Operand& op) {
+  opAVX_X_X_XM(Xmm(r.getIdx()), xm0, op, T_0F | T_F3 | T_W0 | T_EVEX | T_EW0 | T_ER_X | T_N8, 0x2D);
+}
+void vcvttpd2dq(const Xmm& x, const Operand& op) {
+  opCvt2(x, op, T_66 | T_0F | T_YMM | T_EVEX | T_EW1 | T_B64 | T_ER_Z, 0xE6);
+}
+void vcvttps2dq(const Xmm& xm, const Operand& op) {
+  opAVX_X_XM_IMM(xm, op, T_F3 | T_0F | T_EW0 | T_YMM | T_EVEX | T_SAE_Z | T_B32, 0x5B);
+}
+void vcvttsd2si(const Reg32& r, const Operand& op) {
+  opAVX_X_X_XM(Xmm(r.getIdx()), xm0, op, T_0F | T_F2 | T_W0 | T_EVEX | T_EW0 | T_N4 | T_SAE_X, 0x2C);
+}
+void vcvttss2si(const Reg32& r, const Operand& op) {
+  opAVX_X_X_XM(Xmm(r.getIdx()), xm0, op, T_0F | T_F3 | T_W0 | T_EVEX | T_EW0 | T_SAE_X | T_N8, 0x2C);
+}
+void vdivpd(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_0F | T_66 | T_EW1 | T_YMM | T_EVEX | T_ER_Z | T_B64, 0x5E);
+}
+void vdivps(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_0F | T_EW0 | T_YMM | T_EVEX | T_ER_Z | T_B32, 0x5E);
+}
+void vdivsd(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_0F | T_F2 | T_EW1 | T_EVEX | T_ER_X | T_N8, 0x5E);
+}
+void vdivss(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_0F | T_F3 | T_EW0 | T_EVEX | T_ER_X | T_N4, 0x5E);
+}
+void vdppd(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F3A | T_W0, 0x41, imm);
+}
+void vdpps(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F3A | T_W0 | T_YMM, 0x40, imm);
+}
+void vextractf128(const Operand& op, const Ymm& y, uint8_t imm) {
+  if (!(op.isXMEM() && y.isYMM()))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opVex(y, 0, op, T_0F3A | T_66 | T_W0 | T_YMM, 0x19, imm);
+}
+void vextracti128(const Operand& op, const Ymm& y, uint8_t imm) {
+  if (!(op.isXMEM() && y.isYMM()))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opVex(y, 0, op, T_0F3A | T_66 | T_W0 | T_YMM, 0x39, imm);
+}
+void vextractps(const Operand& op, const Xmm& x, uint8_t imm) {
+  if (!((op.isREG(32) || op.isMEM()) && x.isXMM()))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opVex(x, 0, op, T_0F3A | T_66 | T_W0 | T_EVEX | T_N4, 0x17, imm);
+}
+void vfmadd132pd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W1 | T_EW1 | T_YMM | T_EVEX | T_B64, 0x98);
+}
+void vfmadd132ps(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W0 | T_EW0 | T_YMM | T_EVEX | T_B32, 0x98);
+}
+void vfmadd132sd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N8 | T_66 | T_0F38 | T_W1 | T_EW1 | T_EVEX | T_ER_X, 0x99);
+}
+void vfmadd132ss(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N4 | T_66 | T_0F38 | T_W0 | T_EW0 | T_EVEX | T_ER_X, 0x99);
+}
+void vfmadd213pd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W1 | T_EW1 | T_YMM | T_EVEX | T_B64, 0xA8);
+}
+void vfmadd213ps(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W0 | T_EW0 | T_YMM | T_EVEX | T_B32, 0xA8);
+}
+void vfmadd213sd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N8 | T_66 | T_0F38 | T_W1 | T_EW1 | T_EVEX | T_ER_X, 0xA9);
+}
+void vfmadd213ss(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N4 | T_66 | T_0F38 | T_W0 | T_EW0 | T_EVEX | T_ER_X, 0xA9);
+}
+void vfmadd231pd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W1 | T_EW1 | T_YMM | T_EVEX | T_B64, 0xB8);
+}
+void vfmadd231ps(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W0 | T_EW0 | T_YMM | T_EVEX | T_B32, 0xB8);
+}
+void vfmadd231sd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N8 | T_66 | T_0F38 | T_W1 | T_EW1 | T_EVEX | T_ER_X, 0xB9);
+}
+void vfmadd231ss(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N4 | T_66 | T_0F38 | T_W0 | T_EW0 | T_EVEX | T_ER_X, 0xB9);
+}
+void vfmaddsub132pd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W1 | T_EW1 | T_YMM | T_EVEX | T_B64, 0x96);
+}
+void vfmaddsub132ps(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W0 | T_EW0 | T_YMM | T_EVEX | T_B32, 0x96);
+}
+void vfmaddsub213pd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W1 | T_EW1 | T_YMM | T_EVEX | T_B64, 0xA6);
+}
+void vfmaddsub213ps(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W0 | T_EW0 | T_YMM | T_EVEX | T_B32, 0xA6);
+}
+void vfmaddsub231pd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W1 | T_EW1 | T_YMM | T_EVEX | T_B64, 0xB6);
+}
+void vfmaddsub231ps(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W0 | T_EW0 | T_YMM | T_EVEX | T_B32, 0xB6);
+}
+void vfmsub132pd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W1 | T_EW1 | T_YMM | T_EVEX | T_B64, 0x9A);
+}
+void vfmsub132ps(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W0 | T_EW0 | T_YMM | T_EVEX | T_B32, 0x9A);
+}
+void vfmsub132sd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N8 | T_66 | T_0F38 | T_W1 | T_EW1 | T_EVEX | T_ER_X, 0x9B);
+}
+void vfmsub132ss(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N4 | T_66 | T_0F38 | T_W0 | T_EW0 | T_EVEX | T_ER_X, 0x9B);
+}
+void vfmsub213pd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W1 | T_EW1 | T_YMM | T_EVEX | T_B64, 0xAA);
+}
+void vfmsub213ps(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W0 | T_EW0 | T_YMM | T_EVEX | T_B32, 0xAA);
+}
+void vfmsub213sd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N8 | T_66 | T_0F38 | T_W1 | T_EW1 | T_EVEX | T_ER_X, 0xAB);
+}
+void vfmsub213ss(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N4 | T_66 | T_0F38 | T_W0 | T_EW0 | T_EVEX | T_ER_X, 0xAB);
+}
+void vfmsub231pd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W1 | T_EW1 | T_YMM | T_EVEX | T_B64, 0xBA);
+}
+void vfmsub231ps(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W0 | T_EW0 | T_YMM | T_EVEX | T_B32, 0xBA);
+}
+void vfmsub231sd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N8 | T_66 | T_0F38 | T_W1 | T_EW1 | T_EVEX | T_ER_X, 0xBB);
+}
+void vfmsub231ss(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N4 | T_66 | T_0F38 | T_W0 | T_EW0 | T_EVEX | T_ER_X, 0xBB);
+}
+void vfmsubadd132pd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W1 | T_EW1 | T_YMM | T_EVEX | T_B64, 0x97);
+}
+void vfmsubadd132ps(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W0 | T_EW0 | T_YMM | T_EVEX | T_B32, 0x97);
+}
+void vfmsubadd213pd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W1 | T_EW1 | T_YMM | T_EVEX | T_B64, 0xA7);
+}
+void vfmsubadd213ps(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W0 | T_EW0 | T_YMM | T_EVEX | T_B32, 0xA7);
+}
+void vfmsubadd231pd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W1 | T_EW1 | T_YMM | T_EVEX | T_B64, 0xB7);
+}
+void vfmsubadd231ps(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W0 | T_EW0 | T_YMM | T_EVEX | T_B32, 0xB7);
+}
+void vfnmadd132pd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W1 | T_EW1 | T_YMM | T_EVEX | T_B64, 0x9C);
+}
+void vfnmadd132ps(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W0 | T_EW0 | T_YMM | T_EVEX | T_B32, 0x9C);
+}
+void vfnmadd132sd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N8 | T_66 | T_0F38 | T_W1 | T_EW1 | T_EVEX | T_ER_X, 0x9D);
+}
+void vfnmadd132ss(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N4 | T_66 | T_0F38 | T_W0 | T_EW0 | T_EVEX | T_ER_X, 0x9D);
+}
+void vfnmadd213pd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W1 | T_EW1 | T_YMM | T_EVEX | T_B64, 0xAC);
+}
+void vfnmadd213ps(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W0 | T_EW0 | T_YMM | T_EVEX | T_B32, 0xAC);
+}
+void vfnmadd213sd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N8 | T_66 | T_0F38 | T_W1 | T_EW1 | T_EVEX | T_ER_X, 0xAD);
+}
+void vfnmadd213ss(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N4 | T_66 | T_0F38 | T_W0 | T_EW0 | T_EVEX | T_ER_X, 0xAD);
+}
+void vfnmadd231pd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W1 | T_EW1 | T_YMM | T_EVEX | T_B64, 0xBC);
+}
+void vfnmadd231ps(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W0 | T_EW0 | T_YMM | T_EVEX | T_B32, 0xBC);
+}
+void vfnmadd231sd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N8 | T_66 | T_0F38 | T_W1 | T_EW1 | T_EVEX | T_ER_X, 0xBD);
+}
+void vfnmadd231ss(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N4 | T_66 | T_0F38 | T_W0 | T_EW0 | T_EVEX | T_ER_X, 0xBD);
+}
+void vfnmsub132pd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W1 | T_EW1 | T_YMM | T_EVEX | T_B64, 0x9E);
+}
+void vfnmsub132ps(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W0 | T_EW0 | T_YMM | T_EVEX | T_B32, 0x9E);
+}
+void vfnmsub132sd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N8 | T_66 | T_0F38 | T_W1 | T_EW1 | T_EVEX | T_ER_X, 0x9F);
+}
+void vfnmsub132ss(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N4 | T_66 | T_0F38 | T_W0 | T_EW0 | T_EVEX | T_ER_X, 0x9F);
+}
+void vfnmsub213pd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W1 | T_EW1 | T_YMM | T_EVEX | T_B64, 0xAE);
+}
+void vfnmsub213ps(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W0 | T_EW0 | T_YMM | T_EVEX | T_B32, 0xAE);
+}
+void vfnmsub213sd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N8 | T_66 | T_0F38 | T_W1 | T_EW1 | T_EVEX | T_ER_X, 0xAF);
+}
+void vfnmsub213ss(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N4 | T_66 | T_0F38 | T_W0 | T_EW0 | T_EVEX | T_ER_X, 0xAF);
+}
+void vfnmsub231pd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W1 | T_EW1 | T_YMM | T_EVEX | T_B64, 0xBE);
+}
+void vfnmsub231ps(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W0 | T_EW0 | T_YMM | T_EVEX | T_B32, 0xBE);
+}
+void vfnmsub231sd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N8 | T_66 | T_0F38 | T_W1 | T_EW1 | T_EVEX | T_ER_X, 0xBF);
+}
+void vfnmsub231ss(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N4 | T_66 | T_0F38 | T_W0 | T_EW0 | T_EVEX | T_ER_X, 0xBF);
+}
+void vgatherdpd(const Xmm& x1, const Address& addr, const Xmm& x2) {
+  opGather(x1, addr, x2, T_0F38 | T_66 | T_YMM | T_VSIB | T_W1, 0x92, 0);
+}
+void vgatherdps(const Xmm& x1, const Address& addr, const Xmm& x2) {
+  opGather(x1, addr, x2, T_0F38 | T_66 | T_YMM | T_VSIB | T_W0, 0x92, 1);
+}
+void vgatherqpd(const Xmm& x1, const Address& addr, const Xmm& x2) {
+  opGather(x1, addr, x2, T_0F38 | T_66 | T_YMM | T_VSIB | T_W1, 0x93, 1);
+}
+void vgatherqps(const Xmm& x1, const Address& addr, const Xmm& x2) {
+  opGather(x1, addr, x2, T_0F38 | T_66 | T_YMM | T_VSIB | T_W0, 0x93, 2);
+}
+void vgf2p8affineinvqb(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F3A | T_W1 | T_EW1 | T_YMM | T_EVEX | T_SAE_Z | T_B64, 0xCF, imm);
+}
+void vgf2p8affineqb(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F3A | T_W1 | T_EW1 | T_YMM | T_EVEX | T_SAE_Z | T_B64, 0xCE, imm);
+}
+void vgf2p8mulb(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W0 | T_EW0 | T_YMM | T_EVEX | T_SAE_Z, 0xCF);
+}
+void vhaddpd(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_66 | T_0F | T_YMM, 0x7C);
+}
+void vhaddps(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_F2 | T_0F | T_YMM, 0x7C);
+}
+void vhsubpd(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_66 | T_0F | T_YMM, 0x7D);
+}
+void vhsubps(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_F2 | T_0F | T_YMM, 0x7D);
+}
+void vinsertf128(const Ymm& y1, const Ymm& y2, const Operand& op, uint8_t imm) {
+  if (!(y1.isYMM() && y2.isYMM() && op.isXMEM()))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opVex(y1, &y2, op, T_0F3A | T_66 | T_W0 | T_YMM, 0x18, imm);
+}
+void vinserti128(const Ymm& y1, const Ymm& y2, const Operand& op, uint8_t imm) {
+  if (!(y1.isYMM() && y2.isYMM() && op.isXMEM()))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opVex(y1, &y2, op, T_0F3A | T_66 | T_W0 | T_YMM, 0x38, imm);
+}
+void vinsertps(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_N4 | T_66 | T_0F3A | T_W0 | T_EW0 | T_EVEX, 0x21, imm);
+}
+void vlddqu(const Xmm& x, const Address& addr) { opAVX_X_X_XM(x, cvtIdx0(x), addr, T_0F | T_F2 | T_W0 | T_YMM, 0xF0); }
+void vldmxcsr(const Address& addr) { opAVX_X_X_XM(xm2, xm0, addr, T_0F, 0xAE); }
+void vmaskmovdqu(const Xmm& x1, const Xmm& x2) { opAVX_X_X_XM(x1, xm0, x2, T_0F | T_66, 0xF7); }
+void vmaskmovpd(const Address& addr, const Xmm& x1, const Xmm& x2) {
+  opAVX_X_X_XM(x2, x1, addr, T_0F38 | T_66 | T_W0 | T_YMM, 0x2F);
+}
+void vmaskmovpd(const Xmm& x1, const Xmm& x2, const Address& addr) {
+  opAVX_X_X_XM(x1, x2, addr, T_0F38 | T_66 | T_W0 | T_YMM, 0x2D);
+}
+void vmaskmovps(const Address& addr, const Xmm& x1, const Xmm& x2) {
+  opAVX_X_X_XM(x2, x1, addr, T_0F38 | T_66 | T_W0 | T_YMM, 0x2E);
+}
+void vmaskmovps(const Xmm& x1, const Xmm& x2, const Address& addr) {
+  opAVX_X_X_XM(x1, x2, addr, T_0F38 | T_66 | T_W0 | T_YMM, 0x2C);
+}
+void vmaxpd(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_0F | T_66 | T_EW1 | T_YMM | T_EVEX | T_ER_Z | T_B64, 0x5F);
+}
+void vmaxps(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_0F | T_EW0 | T_YMM | T_EVEX | T_ER_Z | T_B32, 0x5F);
+}
+void vmaxsd(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_0F | T_F2 | T_EW1 | T_EVEX | T_ER_X | T_N8, 0x5F);
+}
+void vmaxss(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_0F | T_F3 | T_EW0 | T_EVEX | T_ER_X | T_N4, 0x5F);
+}
+void vminpd(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_0F | T_66 | T_EW1 | T_YMM | T_EVEX | T_ER_Z | T_B64, 0x5D);
+}
+void vminps(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_0F | T_EW0 | T_YMM | T_EVEX | T_ER_Z | T_B32, 0x5D);
+}
+void vminsd(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_0F | T_F2 | T_EW1 | T_EVEX | T_ER_X | T_N8, 0x5D);
+}
+void vminss(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_0F | T_F3 | T_EW0 | T_EVEX | T_ER_X | T_N4, 0x5D);
+}
+void vmovapd(const Address& addr, const Xmm& xmm) {
+  opAVX_X_XM_IMM(xmm, addr, T_66 | T_0F | T_EW1 | T_YMM | T_EVEX | T_M_K, 0x29);
+}
+void vmovapd(const Xmm& xm, const Operand& op) { opAVX_X_XM_IMM(xm, op, T_66 | T_0F | T_EW1 | T_YMM | T_EVEX, 0x28); }
+void vmovaps(const Address& addr, const Xmm& xmm) {
+  opAVX_X_XM_IMM(xmm, addr, T_0F | T_EW0 | T_YMM | T_EVEX | T_M_K, 0x29);
+}
+void vmovaps(const Xmm& xm, const Operand& op) { opAVX_X_XM_IMM(xm, op, T_0F | T_EW0 | T_YMM | T_EVEX, 0x28); }
+void vmovd(const Operand& op, const Xmm& x) {
+  if (!op.isREG(32) && !op.isMEM())
+    XBYAK_THROW(ERR_BAD_COMBINATION) opAVX_X_X_XM(x, xm0, op, T_0F | T_66 | T_W0 | T_EVEX | T_N4, 0x7E);
+}
+void vmovd(const Xmm& x, const Operand& op) {
+  if (!op.isREG(32) && !op.isMEM())
+    XBYAK_THROW(ERR_BAD_COMBINATION) opAVX_X_X_XM(x, xm0, op, T_0F | T_66 | T_W0 | T_EVEX | T_N4, 0x6E);
+}
+void vmovddup(const Xmm& xm, const Operand& op) {
+  opAVX_X_XM_IMM(xm, op, T_DUP | T_F2 | T_0F | T_EW1 | T_YMM | T_EVEX | T_ER_X | T_ER_Y | T_ER_Z, 0x12);
+}
+void vmovdqa(const Address& addr, const Xmm& xmm) { opAVX_X_XM_IMM(xmm, addr, T_66 | T_0F | T_YMM, 0x7F); }
+void vmovdqa(const Xmm& xm, const Operand& op) { opAVX_X_XM_IMM(xm, op, T_66 | T_0F | T_YMM, 0x6F); }
+void vmovdqu(const Address& addr, const Xmm& xmm) { opAVX_X_XM_IMM(xmm, addr, T_F3 | T_0F | T_YMM, 0x7F); }
+void vmovdqu(const Xmm& xm, const Operand& op) { opAVX_X_XM_IMM(xm, op, T_F3 | T_0F | T_YMM, 0x6F); }
+void vmovhlps(const Xmm& x1, const Xmm& x2, const Operand& op = Operand()) {
+  if (!op.isNone() && !op.isXMM())
+    XBYAK_THROW(ERR_BAD_COMBINATION) opAVX_X_X_XM(x1, x2, op, T_0F | T_EVEX | T_EW0, 0x12);
+}
+void vmovhpd(const Address& addr, const Xmm& x) {
+  opAVX_X_X_XM(x, xm0, addr, T_0F | T_66 | T_EVEX | T_EW1 | T_N8, 0x17);
+}
+void vmovhpd(const Xmm& x, const Operand& op1, const Operand& op2 = Operand()) {
+  if (!op2.isNone() && !op2.isMEM())
+    XBYAK_THROW(ERR_BAD_COMBINATION) opAVX_X_X_XM(x, op1, op2, T_0F | T_66 | T_EVEX | T_EW1 | T_N8, 0x16);
+}
+void vmovhps(const Address& addr, const Xmm& x) { opAVX_X_X_XM(x, xm0, addr, T_0F | T_EVEX | T_EW0 | T_N8, 0x17); }
+void vmovhps(const Xmm& x, const Operand& op1, const Operand& op2 = Operand()) {
+  if (!op2.isNone() && !op2.isMEM())
+    XBYAK_THROW(ERR_BAD_COMBINATION) opAVX_X_X_XM(x, op1, op2, T_0F | T_EVEX | T_EW0 | T_N8, 0x16);
+}
+void vmovlhps(const Xmm& x1, const Xmm& x2, const Operand& op = Operand()) {
+  if (!op.isNone() && !op.isXMM())
+    XBYAK_THROW(ERR_BAD_COMBINATION) opAVX_X_X_XM(x1, x2, op, T_0F | T_EVEX | T_EW0, 0x16);
+}
+void vmovlpd(const Address& addr, const Xmm& x) {
+  opAVX_X_X_XM(x, xm0, addr, T_0F | T_66 | T_EVEX | T_EW1 | T_N8, 0x13);
+}
+void vmovlpd(const Xmm& x, const Operand& op1, const Operand& op2 = Operand()) {
+  if (!op2.isNone() && !op2.isMEM())
+    XBYAK_THROW(ERR_BAD_COMBINATION) opAVX_X_X_XM(x, op1, op2, T_0F | T_66 | T_EVEX | T_EW1 | T_N8, 0x12);
+}
+void vmovlps(const Address& addr, const Xmm& x) { opAVX_X_X_XM(x, xm0, addr, T_0F | T_EVEX | T_EW0 | T_N8, 0x13); }
+void vmovlps(const Xmm& x, const Operand& op1, const Operand& op2 = Operand()) {
+  if (!op2.isNone() && !op2.isMEM())
+    XBYAK_THROW(ERR_BAD_COMBINATION) opAVX_X_X_XM(x, op1, op2, T_0F | T_EVEX | T_EW0 | T_N8, 0x12);
+}
+void vmovmskpd(const Reg& r, const Xmm& x) {
+  if (!r.isBit(i32e))
+    XBYAK_THROW(ERR_BAD_COMBINATION)
+    opAVX_X_X_XM(x.isXMM() ? Xmm(r.getIdx()) : Ymm(r.getIdx()), cvtIdx0(x), x, T_0F | T_66 | T_W0 | T_YMM, 0x50);
+}
+void vmovmskps(const Reg& r, const Xmm& x) {
+  if (!r.isBit(i32e))
+    XBYAK_THROW(ERR_BAD_COMBINATION)
+    opAVX_X_X_XM(x.isXMM() ? Xmm(r.getIdx()) : Ymm(r.getIdx()), cvtIdx0(x), x, T_0F | T_W0 | T_YMM, 0x50);
+}
+void vmovntdq(const Address& addr, const Xmm& x) { opVex(x, 0, addr, T_0F | T_66 | T_YMM | T_EVEX | T_EW0, 0xE7); }
+void vmovntdqa(const Xmm& x, const Address& addr) { opVex(x, 0, addr, T_0F38 | T_66 | T_YMM | T_EVEX | T_EW0, 0x2A); }
+void vmovntpd(const Address& addr, const Xmm& x) { opVex(x, 0, addr, T_0F | T_66 | T_YMM | T_EVEX | T_EW1, 0x2B); }
+void vmovntps(const Address& addr, const Xmm& x) { opVex(x, 0, addr, T_0F | T_YMM | T_EVEX | T_EW0, 0x2B); }
+void vmovq(const Address& addr, const Xmm& x) {
+  opAVX_X_X_XM(x, xm0, addr, T_0F | T_66 | T_EVEX | T_EW1 | T_N8, x.getIdx() < 16 ? 0xD6 : 0x7E);
+}
+void vmovq(const Xmm& x, const Address& addr) {
+  int type, code;
+  if (x.getIdx() < 16) {
+    type = T_0F | T_F3;
+    code = 0x7E;
+  } else {
+    type = T_0F | T_66 | T_EVEX | T_EW1 | T_N8;
+    code = 0x6E;
+  }
+  opAVX_X_X_XM(x, xm0, addr, type, code);
+}
+void vmovq(const Xmm& x1, const Xmm& x2) { opAVX_X_X_XM(x1, xm0, x2, T_0F | T_F3 | T_EVEX | T_EW1 | T_N8, 0x7E); }
+void vmovsd(const Address& addr, const Xmm& x) {
+  opAVX_X_X_XM(x, xm0, addr, T_N8 | T_F2 | T_0F | T_EW1 | T_EVEX | T_M_K, 0x11);
+}
+void vmovsd(const Xmm& x, const Address& addr) {
+  opAVX_X_X_XM(x, xm0, addr, T_N8 | T_F2 | T_0F | T_EW1 | T_EVEX, 0x10);
+}
+void vmovsd(const Xmm& x1, const Xmm& x2, const Operand& op = Operand()) {
+  if (!op.isNone() && !op.isXMM())
+    XBYAK_THROW(ERR_BAD_COMBINATION) opAVX_X_X_XM(x1, x2, op, T_N8 | T_F2 | T_0F | T_EW1 | T_EVEX, 0x10);
+}
+void vmovshdup(const Xmm& xm, const Operand& op) { opAVX_X_XM_IMM(xm, op, T_F3 | T_0F | T_EW0 | T_YMM | T_EVEX, 0x16); }
+void vmovsldup(const Xmm& xm, const Operand& op) { opAVX_X_XM_IMM(xm, op, T_F3 | T_0F | T_EW0 | T_YMM | T_EVEX, 0x12); }
+void vmovss(const Address& addr, const Xmm& x) {
+  opAVX_X_X_XM(x, xm0, addr, T_N4 | T_F3 | T_0F | T_EW0 | T_EVEX | T_M_K, 0x11);
+}
+void vmovss(const Xmm& x, const Address& addr) {
+  opAVX_X_X_XM(x, xm0, addr, T_N4 | T_F3 | T_0F | T_EW0 | T_EVEX, 0x10);
+}
+void vmovss(const Xmm& x1, const Xmm& x2, const Operand& op = Operand()) {
+  if (!op.isNone() && !op.isXMM())
+    XBYAK_THROW(ERR_BAD_COMBINATION) opAVX_X_X_XM(x1, x2, op, T_N4 | T_F3 | T_0F | T_EW0 | T_EVEX, 0x10);
+}
+void vmovupd(const Address& addr, const Xmm& xmm) {
+  opAVX_X_XM_IMM(xmm, addr, T_66 | T_0F | T_EW1 | T_YMM | T_EVEX | T_M_K, 0x11);
+}
+void vmovupd(const Xmm& xm, const Operand& op) { opAVX_X_XM_IMM(xm, op, T_66 | T_0F | T_EW1 | T_YMM | T_EVEX, 0x10); }
+void vmovups(const Address& addr, const Xmm& xmm) {
+  opAVX_X_XM_IMM(xmm, addr, T_0F | T_EW0 | T_YMM | T_EVEX | T_M_K, 0x11);
+}
+void vmovups(const Xmm& xm, const Operand& op) { opAVX_X_XM_IMM(xm, op, T_0F | T_EW0 | T_YMM | T_EVEX, 0x10); }
+void vmpsadbw(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F3A | T_W0 | T_YMM, 0x42, imm);
+}
+void vmulpd(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_0F | T_66 | T_EW1 | T_YMM | T_EVEX | T_ER_Z | T_B64, 0x59);
+}
+void vmulps(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_0F | T_EW0 | T_YMM | T_EVEX | T_ER_Z | T_B32, 0x59);
+}
+void vmulsd(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_0F | T_F2 | T_EW1 | T_EVEX | T_ER_X | T_N8, 0x59);
+}
+void vmulss(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_0F | T_F3 | T_EW0 | T_EVEX | T_ER_X | T_N4, 0x59);
+}
+void vorpd(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_0F | T_66 | T_EW1 | T_YMM | T_EVEX | T_ER_Z | T_B64, 0x56);
+}
+void vorps(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_0F | T_EW0 | T_YMM | T_EVEX | T_ER_Z | T_B32, 0x56);
+}
+void vpabsb(const Xmm& xm, const Operand& op) { opAVX_X_XM_IMM(xm, op, T_66 | T_0F38 | T_YMM | T_EVEX, 0x1C); }
+void vpabsd(const Xmm& xm, const Operand& op) {
+  opAVX_X_XM_IMM(xm, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_EVEX | T_B32, 0x1E);
+}
+void vpabsw(const Xmm& xm, const Operand& op) { opAVX_X_XM_IMM(xm, op, T_66 | T_0F38 | T_YMM | T_EVEX, 0x1D); }
+void vpackssdw(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_EW0 | T_YMM | T_EVEX | T_B32, 0x6B);
+}
+void vpacksswb(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM | T_EVEX, 0x63);
+}
+void vpackusdw(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_EVEX | T_B32, 0x2B);
+}
+void vpackuswb(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM | T_EVEX, 0x67);
+}
+void vpaddb(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM | T_EVEX, 0xFC);
+}
+void vpaddd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_EW0 | T_YMM | T_EVEX | T_B32, 0xFE);
+}
+void vpaddq(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_EW1 | T_YMM | T_EVEX | T_B64, 0xD4);
+}
+void vpaddsb(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM | T_EVEX, 0xEC);
+}
+void vpaddsw(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM | T_EVEX, 0xED);
+}
+void vpaddusb(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM | T_EVEX, 0xDC);
+}
+void vpaddusw(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM | T_EVEX, 0xDD);
+}
+void vpaddw(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM | T_EVEX, 0xFD);
+}
+void vpalignr(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F3A | T_YMM | T_EVEX, 0x0F, imm);
+}
+void vpand(const Xmm& x1, const Xmm& x2, const Operand& op) { opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM, 0xDB); }
+void vpandn(const Xmm& x1, const Xmm& x2, const Operand& op) { opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM, 0xDF); }
+void vpavgb(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM | T_EVEX, 0xE0);
+}
+void vpavgw(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM | T_EVEX, 0xE3);
+}
+void vpblendd(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F3A | T_W0 | T_YMM, 0x02, imm);
+}
+void vpblendvb(const Xmm& x1, const Xmm& x2, const Operand& op, const Xmm& x4) {
+  opAVX_X_X_XM(x1, x2, op, T_0F3A | T_66 | T_YMM, 0x4C, x4.getIdx() << 4);
+}
+void vpblendw(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F3A | T_W0 | T_YMM, 0x0E, imm);
+}
+void vpbroadcastb(const Xmm& x, const Operand& op) {
+  if (!(op.isXMM() || op.isMEM()))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opAVX_X_XM_IMM(x, op, T_N1 | T_66 | T_0F38 | T_W0 | T_YMM | T_EVEX, 0x78);
+}
+void vpbroadcastd(const Xmm& x, const Operand& op) {
+  if (!(op.isXMM() || op.isMEM()))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opAVX_X_XM_IMM(x, op, T_N4 | T_66 | T_0F38 | T_W0 | T_YMM | T_EVEX, 0x58);
+}
+void vpbroadcastq(const Xmm& x, const Operand& op) {
+  if (!(op.isXMM() || op.isMEM()))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opAVX_X_XM_IMM(x, op, T_N8 | T_66 | T_0F38 | T_W0 | T_EW1 | T_YMM | T_EVEX, 0x59);
+}
+void vpbroadcastw(const Xmm& x, const Operand& op) {
+  if (!(op.isXMM() || op.isMEM()))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opAVX_X_XM_IMM(x, op, T_N2 | T_66 | T_0F38 | T_W0 | T_YMM | T_EVEX, 0x79);
+}
+void vpclmulhqhqdq(const Xmm& x1, const Xmm& x2, const Operand& op) { vpclmulqdq(x1, x2, op, 0x11); }
+void vpclmulhqlqdq(const Xmm& x1, const Xmm& x2, const Operand& op) { vpclmulqdq(x1, x2, op, 0x01); }
+void vpclmullqhqdq(const Xmm& x1, const Xmm& x2, const Operand& op) { vpclmulqdq(x1, x2, op, 0x10); }
+void vpclmullqlqdq(const Xmm& x1, const Xmm& x2, const Operand& op) { vpclmulqdq(x1, x2, op, 0x00); }
+void vpclmulqdq(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F3A | T_W0 | T_YMM | T_EVEX, 0x44, imm);
+}
+void vpcmpeqb(const Xmm& x1, const Xmm& x2, const Operand& op) { opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM, 0x74); }
+void vpcmpeqd(const Xmm& x1, const Xmm& x2, const Operand& op) { opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM, 0x76); }
+void vpcmpeqq(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_YMM, 0x29);
+}
+void vpcmpeqw(const Xmm& x1, const Xmm& x2, const Operand& op) { opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM, 0x75); }
+void vpcmpestri(const Xmm& xm, const Operand& op, uint8_t imm) { opAVX_X_XM_IMM(xm, op, T_66 | T_0F3A, 0x61, imm); }
+void vpcmpestrm(const Xmm& xm, const Operand& op, uint8_t imm) { opAVX_X_XM_IMM(xm, op, T_66 | T_0F3A, 0x60, imm); }
+void vpcmpgtb(const Xmm& x1, const Xmm& x2, const Operand& op) { opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM, 0x64); }
+void vpcmpgtd(const Xmm& x1, const Xmm& x2, const Operand& op) { opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM, 0x66); }
+void vpcmpgtq(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_YMM, 0x37);
+}
+void vpcmpgtw(const Xmm& x1, const Xmm& x2, const Operand& op) { opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM, 0x65); }
+void vpcmpistri(const Xmm& xm, const Operand& op, uint8_t imm) { opAVX_X_XM_IMM(xm, op, T_66 | T_0F3A, 0x63, imm); }
+void vpcmpistrm(const Xmm& xm, const Operand& op, uint8_t imm) { opAVX_X_XM_IMM(xm, op, T_66 | T_0F3A, 0x62, imm); }
+void vpdpbssd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_F2 | T_0F38 | T_W0 | T_YMM, 0x50);
+}
+void vpdpbssds(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_F2 | T_0F38 | T_W0 | T_YMM, 0x51);
+}
+void vpdpbsud(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_F3 | T_0F38 | T_W0 | T_YMM, 0x50);
+}
+void vpdpbsuds(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_F3 | T_0F38 | T_W0 | T_YMM, 0x51);
+}
+void vpdpbusd(const Xmm& x1, const Xmm& x2, const Operand& op, PreferredEncoding encoding = DefaultEncoding) {
+  opEncoding(x1, x2, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_SAE_Z | T_B32, 0x50, encoding);
+}
+void vpdpbusds(const Xmm& x1, const Xmm& x2, const Operand& op, PreferredEncoding encoding = DefaultEncoding) {
+  opEncoding(x1, x2, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_SAE_Z | T_B32, 0x51, encoding);
+}
+void vpdpbuud(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_0F38 | T_W0 | T_YMM, 0x50);
+}
+void vpdpbuuds(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_0F38 | T_W0 | T_YMM, 0x51);
+}
+void vpdpwssd(const Xmm& x1, const Xmm& x2, const Operand& op, PreferredEncoding encoding = DefaultEncoding) {
+  opEncoding(x1, x2, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_SAE_Z | T_B32, 0x52, encoding);
+}
+void vpdpwssds(const Xmm& x1, const Xmm& x2, const Operand& op, PreferredEncoding encoding = DefaultEncoding) {
+  opEncoding(x1, x2, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_SAE_Z | T_B32, 0x53, encoding);
+}
+void vpdpwsud(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_F3 | T_0F38 | T_W0 | T_YMM, 0xD2);
+}
+void vpdpwsuds(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_F3 | T_0F38 | T_W0 | T_YMM, 0xD3);
+}
+void vpdpwusd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W0 | T_YMM, 0xD2);
+}
+void vpdpwusds(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W0 | T_YMM, 0xD3);
+}
+void vpdpwuud(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_0F38 | T_W0 | T_YMM, 0xD2);
+}
+void vpdpwuuds(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_0F38 | T_W0 | T_YMM, 0xD3);
+}
+void vperm2f128(const Ymm& y1, const Ymm& y2, const Operand& op, uint8_t imm) {
+  if (!(y1.isYMM() && y2.isYMM() && op.isYMEM()))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opVex(y1, &y2, op, T_0F3A | T_66 | T_W0 | T_YMM, 0x06, imm);
+}
+void vperm2i128(const Ymm& y1, const Ymm& y2, const Operand& op, uint8_t imm) {
+  if (!(y1.isYMM() && y2.isYMM() && op.isYMEM()))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opVex(y1, &y2, op, T_0F3A | T_66 | T_W0 | T_YMM, 0x46, imm);
+}
+void vpermd(const Ymm& y1, const Ymm& y2, const Operand& op) {
+  opAVX_X_X_XM(y1, y2, op, T_66 | T_0F38 | T_W0 | T_EW0 | T_YMM | T_EVEX | T_B32, 0x36);
+}
+void vpermilpd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W0 | T_EW1 | T_YMM | T_EVEX | T_B64, 0x0D);
+}
+void vpermilpd(const Xmm& xm, const Operand& op, uint8_t imm) {
+  opAVX_X_XM_IMM(xm, op, T_66 | T_0F3A | T_EW1 | T_YMM | T_EVEX | T_B64, 0x05, imm);
+}
+void vpermilps(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W0 | T_EW0 | T_YMM | T_EVEX | T_B32, 0x0C);
+}
+void vpermilps(const Xmm& xm, const Operand& op, uint8_t imm) {
+  opAVX_X_XM_IMM(xm, op, T_66 | T_0F3A | T_EW0 | T_YMM | T_EVEX | T_B32, 0x04, imm);
+}
+void vpermpd(const Ymm& y, const Operand& op, uint8_t imm) {
+  opAVX_X_XM_IMM(y, op, T_66 | T_0F3A | T_W1 | T_EW1 | T_YMM | T_EVEX | T_B64, 0x01, imm);
+}
+void vpermpd(const Ymm& y1, const Ymm& y2, const Operand& op) {
+  opAVX_X_X_XM(y1, y2, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX | T_B64, 0x16);
+}
+void vpermps(const Ymm& y1, const Ymm& y2, const Operand& op) {
+  opAVX_X_X_XM(y1, y2, op, T_66 | T_0F38 | T_W0 | T_EW0 | T_YMM | T_EVEX | T_B32, 0x16);
+}
+void vpermq(const Ymm& y, const Operand& op, uint8_t imm) {
+  opAVX_X_XM_IMM(y, op, T_66 | T_0F3A | T_W1 | T_EW1 | T_YMM | T_EVEX | T_B64, 0x00, imm);
+}
+void vpermq(const Ymm& y1, const Ymm& y2, const Operand& op) {
+  opAVX_X_X_XM(y1, y2, op, T_66 | T_0F38 | T_W0 | T_EW1 | T_YMM | T_EVEX | T_B64, 0x36);
+}
+void vpextrb(const Operand& op, const Xmm& x, uint8_t imm) {
+  if (!((op.isREG(8 | 16 | i32e) || op.isMEM()) && x.isXMM()))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opVex(x, 0, op, T_0F3A | T_66 | T_EVEX | T_N1, 0x14, imm);
+}
+void vpextrd(const Operand& op, const Xmm& x, uint8_t imm) {
+  if (!((op.isREG(32) || op.isMEM()) && x.isXMM()))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opVex(x, 0, op, T_0F3A | T_66 | T_W0 | T_EVEX | T_EW0 | T_N4, 0x16, imm);
+}
+void vpextrq(const Operand& op, const Xmm& x, uint8_t imm) {
+  if (!((op.isREG(64) || op.isMEM()) && x.isXMM()))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opVex(x, 0, op, T_0F3A | T_66 | T_W1 | T_EVEX | T_EW1 | T_N8, 0x16, imm);
+}
+void vpextrw(const Operand& op, const Xmm& x, uint8_t imm) {
+  if (!((op.isREG(16 | i32e) || op.isMEM()) && x.isXMM()))
+    XBYAK_THROW(ERR_BAD_COMBINATION) if (op.isREG() && x.getIdx() < 16) {
+      opAVX_X_X_XM(Xmm(op.getIdx()), xm0, x, T_0F | T_66, 0xC5, imm);
+    }
+  else {
+    opVex(x, 0, op, T_0F3A | T_66 | T_EVEX | T_N2, 0x15, imm);
+  }
+}
+void vpgatherdd(const Xmm& x1, const Address& addr, const Xmm& x2) {
+  opGather(x1, addr, x2, T_0F38 | T_66 | T_YMM | T_VSIB | T_W0, 0x90, 1);
+}
+void vpgatherdq(const Xmm& x1, const Address& addr, const Xmm& x2) {
+  opGather(x1, addr, x2, T_0F38 | T_66 | T_YMM | T_VSIB | T_W1, 0x90, 0);
+}
+void vpgatherqd(const Xmm& x1, const Address& addr, const Xmm& x2) {
+  opGather(x1, addr, x2, T_0F38 | T_66 | T_YMM | T_VSIB | T_W0, 0x91, 2);
+}
+void vpgatherqq(const Xmm& x1, const Address& addr, const Xmm& x2) {
+  opGather(x1, addr, x2, T_0F38 | T_66 | T_YMM | T_VSIB | T_W1, 0x91, 1);
+}
+void vphaddd(const Xmm& x1, const Xmm& x2, const Operand& op) { opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_YMM, 0x02); }
+void vphaddsw(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_YMM, 0x03);
+}
+void vphaddw(const Xmm& x1, const Xmm& x2, const Operand& op) { opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_YMM, 0x01); }
+void vphminposuw(const Xmm& xm, const Operand& op) { opAVX_X_XM_IMM(xm, op, T_66 | T_0F38, 0x41); }
+void vphsubd(const Xmm& x1, const Xmm& x2, const Operand& op) { opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_YMM, 0x06); }
+void vphsubsw(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_YMM, 0x07);
+}
+void vphsubw(const Xmm& x1, const Xmm& x2, const Operand& op) { opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_YMM, 0x05); }
+void vpinsrb(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  if (!(x1.isXMM() && x2.isXMM() && (op.isREG(32) || op.isMEM())))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opVex(x1, &x2, op, T_0F3A | T_66 | T_EVEX | T_N1, 0x20, imm);
+}
+void vpinsrd(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  if (!(x1.isXMM() && x2.isXMM() && (op.isREG(32) || op.isMEM())))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opVex(x1, &x2, op, T_0F3A | T_66 | T_W0 | T_EVEX | T_EW0 | T_N4, 0x22, imm);
+}
+void vpinsrq(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  if (!(x1.isXMM() && x2.isXMM() && (op.isREG(64) || op.isMEM())))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opVex(x1, &x2, op, T_0F3A | T_66 | T_W1 | T_EVEX | T_EW1 | T_N8, 0x22, imm);
+}
+void vpinsrw(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  if (!(x1.isXMM() && x2.isXMM() && (op.isREG(32) || op.isMEM())))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opVex(x1, &x2, op, T_0F | T_66 | T_EVEX | T_N2, 0xC4, imm);
+}
+void vpmadd52huq(const Xmm& x1, const Xmm& x2, const Operand& op, PreferredEncoding encoding = DefaultEncoding) {
+  opEncoding(x1, x2, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_B64, 0xB5, encoding);
+}
+void vpmadd52luq(const Xmm& x1, const Xmm& x2, const Operand& op, PreferredEncoding encoding = DefaultEncoding) {
+  opEncoding(x1, x2, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_B64, 0xB4, encoding);
+}
+void vpmaddubsw(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_YMM | T_EVEX, 0x04);
+}
+void vpmaddwd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM | T_EVEX, 0xF5);
+}
+void vpmaskmovd(const Address& addr, const Xmm& x1, const Xmm& x2) {
+  opAVX_X_X_XM(x2, x1, addr, T_0F38 | T_66 | T_W0 | T_YMM, 0x8E);
+}
+void vpmaskmovd(const Xmm& x1, const Xmm& x2, const Address& addr) {
+  opAVX_X_X_XM(x1, x2, addr, T_0F38 | T_66 | T_W0 | T_YMM, 0x8C);
+}
+void vpmaskmovq(const Address& addr, const Xmm& x1, const Xmm& x2) {
+  opAVX_X_X_XM(x2, x1, addr, T_0F38 | T_66 | T_W1 | T_YMM, 0x8E);
+}
+void vpmaskmovq(const Xmm& x1, const Xmm& x2, const Address& addr) {
+  opAVX_X_X_XM(x1, x2, addr, T_0F38 | T_66 | T_W1 | T_YMM, 0x8C);
+}
+void vpmaxsb(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_YMM | T_EVEX, 0x3C);
+}
+void vpmaxsd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_EVEX | T_B32, 0x3D);
+}
+void vpmaxsw(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM | T_EVEX, 0xEE);
+}
+void vpmaxub(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM | T_EVEX, 0xDE);
+}
+void vpmaxud(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_EVEX | T_B32, 0x3F);
+}
+void vpmaxuw(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_YMM | T_EVEX, 0x3E);
+}
+void vpminsb(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_YMM | T_EVEX, 0x38);
+}
+void vpminsd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_EVEX | T_B32, 0x39);
+}
+void vpminsw(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM | T_EVEX, 0xEA);
+}
+void vpminub(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM | T_EVEX, 0xDA);
+}
+void vpminud(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_EVEX | T_B32, 0x3B);
+}
+void vpminuw(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_YMM | T_EVEX, 0x3A);
+}
+void vpmovmskb(const Reg32e& r, const Xmm& x) {
+  if (!x.is(Operand::XMM | Operand::YMM))
+    XBYAK_THROW(ERR_BAD_COMBINATION)
+    opVex(x.isYMM() ? Ymm(r.getIdx()) : Xmm(r.getIdx()), 0, x, T_0F | T_66 | T_YMM, 0xD7);
+}
+void vpmovsxbd(const Xmm& xm, const Operand& op) {
+  opAVX_X_XM_IMM(xm, op, T_N4 | T_N_VL | T_66 | T_0F38 | T_YMM | T_EVEX, 0x21);
+}
+void vpmovsxbq(const Xmm& xm, const Operand& op) {
+  opAVX_X_XM_IMM(xm, op, T_N2 | T_N_VL | T_66 | T_0F38 | T_YMM | T_EVEX, 0x22);
+}
+void vpmovsxbw(const Xmm& xm, const Operand& op) {
+  opAVX_X_XM_IMM(xm, op, T_N8 | T_N_VL | T_66 | T_0F38 | T_YMM | T_EVEX, 0x20);
+}
+void vpmovsxdq(const Xmm& xm, const Operand& op) {
+  opAVX_X_XM_IMM(xm, op, T_N8 | T_N_VL | T_66 | T_0F38 | T_EW0 | T_YMM | T_EVEX, 0x25);
+}
+void vpmovsxwd(const Xmm& xm, const Operand& op) {
+  opAVX_X_XM_IMM(xm, op, T_N8 | T_N_VL | T_66 | T_0F38 | T_YMM | T_EVEX, 0x23);
+}
+void vpmovsxwq(const Xmm& xm, const Operand& op) {
+  opAVX_X_XM_IMM(xm, op, T_N4 | T_N_VL | T_66 | T_0F38 | T_YMM | T_EVEX, 0x24);
+}
+void vpmovzxbd(const Xmm& xm, const Operand& op) {
+  opAVX_X_XM_IMM(xm, op, T_N4 | T_N_VL | T_66 | T_0F38 | T_YMM | T_EVEX, 0x31);
+}
+void vpmovzxbq(const Xmm& xm, const Operand& op) {
+  opAVX_X_XM_IMM(xm, op, T_N2 | T_N_VL | T_66 | T_0F38 | T_YMM | T_EVEX, 0x32);
+}
+void vpmovzxbw(const Xmm& xm, const Operand& op) {
+  opAVX_X_XM_IMM(xm, op, T_N8 | T_N_VL | T_66 | T_0F38 | T_YMM | T_EVEX, 0x30);
+}
+void vpmovzxdq(const Xmm& xm, const Operand& op) {
+  opAVX_X_XM_IMM(xm, op, T_N8 | T_N_VL | T_66 | T_0F38 | T_EW0 | T_YMM | T_EVEX, 0x35);
+}
+void vpmovzxwd(const Xmm& xm, const Operand& op) {
+  opAVX_X_XM_IMM(xm, op, T_N8 | T_N_VL | T_66 | T_0F38 | T_YMM | T_EVEX, 0x33);
+}
+void vpmovzxwq(const Xmm& xm, const Operand& op) {
+  opAVX_X_XM_IMM(xm, op, T_N4 | T_N_VL | T_66 | T_0F38 | T_YMM | T_EVEX, 0x34);
+}
+void vpmuldq(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_EVEX | T_B64, 0x28);
+}
+void vpmulhrsw(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_YMM | T_EVEX, 0x0B);
+}
+void vpmulhuw(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM | T_EVEX, 0xE4);
+}
+void vpmulhw(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM | T_EVEX, 0xE5);
+}
+void vpmulld(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_EVEX | T_B32, 0x40);
+}
+void vpmullw(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM | T_EVEX, 0xD5);
+}
+void vpmuludq(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_EW1 | T_YMM | T_EVEX | T_B64, 0xF4);
+}
+void vpor(const Xmm& x1, const Xmm& x2, const Operand& op) { opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM, 0xEB); }
+void vpsadbw(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM | T_EVEX, 0xF6);
+}
+void vpshufb(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_YMM | T_EVEX, 0x00);
+}
+void vpshufd(const Xmm& xm, const Operand& op, uint8_t imm) {
+  opAVX_X_XM_IMM(xm, op, T_66 | T_0F | T_EW0 | T_YMM | T_EVEX | T_B32, 0x70, imm);
+}
+void vpshufhw(const Xmm& xm, const Operand& op, uint8_t imm) {
+  opAVX_X_XM_IMM(xm, op, T_F3 | T_0F | T_YMM | T_EVEX, 0x70, imm);
+}
+void vpshuflw(const Xmm& xm, const Operand& op, uint8_t imm) {
+  opAVX_X_XM_IMM(xm, op, T_F2 | T_0F | T_YMM | T_EVEX, 0x70, imm);
+}
+void vpsignb(const Xmm& x1, const Xmm& x2, const Operand& op) { opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_YMM, 0x08); }
+void vpsignd(const Xmm& x1, const Xmm& x2, const Operand& op) { opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_YMM, 0x0A); }
+void vpsignw(const Xmm& x1, const Xmm& x2, const Operand& op) { opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_YMM, 0x09); }
+void vpslld(const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(Xmm(x.getKind(), 6), x, op, T_66 | T_0F | T_EW0 | T_YMM | T_EVEX | T_B32 | T_MEM_EVEX, 0x72, imm);
+}
+void vpslld(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N16 | T_66 | T_0F | T_EW0 | T_YMM | T_EVEX, 0xF2);
+}
+void vpslldq(const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(Xmm(x.getKind(), 7), x, op, T_66 | T_0F | T_YMM | T_EVEX | T_MEM_EVEX, 0x73, imm);
+}
+void vpsllq(const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(Xmm(x.getKind(), 6), x, op, T_66 | T_0F | T_EW1 | T_YMM | T_EVEX | T_B64 | T_MEM_EVEX, 0x73, imm);
+}
+void vpsllq(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N16 | T_66 | T_0F | T_EW1 | T_YMM | T_EVEX, 0xF3);
+}
+void vpsllvd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W0 | T_EW0 | T_YMM | T_EVEX | T_B32, 0x47);
+}
+void vpsllvq(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W1 | T_EW1 | T_YMM | T_EVEX | T_B64, 0x47);
+}
+void vpsllw(const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(Xmm(x.getKind(), 6), x, op, T_66 | T_0F | T_YMM | T_EVEX | T_MEM_EVEX, 0x71, imm);
+}
+void vpsllw(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N16 | T_66 | T_0F | T_YMM | T_EVEX, 0xF1);
+}
+void vpsrad(const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(Xmm(x.getKind(), 4), x, op, T_66 | T_0F | T_EW0 | T_YMM | T_EVEX | T_B32 | T_MEM_EVEX, 0x72, imm);
+}
+void vpsrad(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N16 | T_66 | T_0F | T_EW0 | T_YMM | T_EVEX, 0xE2);
+}
+void vpsravd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W0 | T_EW0 | T_YMM | T_EVEX | T_B32, 0x46);
+}
+void vpsraw(const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(Xmm(x.getKind(), 4), x, op, T_66 | T_0F | T_YMM | T_EVEX | T_MEM_EVEX, 0x71, imm);
+}
+void vpsraw(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N16 | T_66 | T_0F | T_YMM | T_EVEX, 0xE1);
+}
+void vpsrld(const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(Xmm(x.getKind(), 2), x, op, T_66 | T_0F | T_EW0 | T_YMM | T_EVEX | T_B32 | T_MEM_EVEX, 0x72, imm);
+}
+void vpsrld(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N16 | T_66 | T_0F | T_EW0 | T_YMM | T_EVEX, 0xD2);
+}
+void vpsrldq(const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(Xmm(x.getKind(), 3), x, op, T_66 | T_0F | T_YMM | T_EVEX | T_MEM_EVEX, 0x73, imm);
+}
+void vpsrlq(const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(Xmm(x.getKind(), 2), x, op, T_66 | T_0F | T_EW1 | T_YMM | T_EVEX | T_B64 | T_MEM_EVEX, 0x73, imm);
+}
+void vpsrlq(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N16 | T_66 | T_0F | T_EW1 | T_YMM | T_EVEX, 0xD3);
+}
+void vpsrlvd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W0 | T_EW0 | T_YMM | T_EVEX | T_B32, 0x45);
+}
+void vpsrlvq(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W1 | T_EW1 | T_YMM | T_EVEX | T_B64, 0x45);
+}
+void vpsrlw(const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(Xmm(x.getKind(), 2), x, op, T_66 | T_0F | T_YMM | T_EVEX | T_MEM_EVEX, 0x71, imm);
+}
+void vpsrlw(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N16 | T_66 | T_0F | T_YMM | T_EVEX, 0xD1);
+}
+void vpsubb(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM | T_EVEX, 0xF8);
+}
+void vpsubd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_EW0 | T_YMM | T_EVEX | T_B32, 0xFA);
+}
+void vpsubq(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_EW1 | T_YMM | T_EVEX | T_B64, 0xFB);
+}
+void vpsubsb(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM | T_EVEX, 0xE8);
+}
+void vpsubsw(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM | T_EVEX, 0xE9);
+}
+void vpsubusb(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM | T_EVEX, 0xD8);
+}
+void vpsubusw(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM | T_EVEX, 0xD9);
+}
+void vpsubw(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM | T_EVEX, 0xF9);
+}
+void vptest(const Xmm& xm, const Operand& op) { opAVX_X_XM_IMM(xm, op, T_66 | T_0F38 | T_YMM, 0x17); }
+void vpunpckhbw(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM | T_EVEX, 0x68);
+}
+void vpunpckhdq(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_EW0 | T_YMM | T_EVEX | T_B32, 0x6A);
+}
+void vpunpckhqdq(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_EW1 | T_YMM | T_EVEX | T_B64, 0x6D);
+}
+void vpunpckhwd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM | T_EVEX, 0x69);
+}
+void vpunpcklbw(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM | T_EVEX, 0x60);
+}
+void vpunpckldq(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_EW0 | T_YMM | T_EVEX | T_B32, 0x62);
+}
+void vpunpcklqdq(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_EW1 | T_YMM | T_EVEX | T_B64, 0x6C);
+}
+void vpunpcklwd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM | T_EVEX, 0x61);
+}
+void vpxor(const Xmm& x1, const Xmm& x2, const Operand& op) { opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_YMM, 0xEF); }
+void vrcpps(const Xmm& xm, const Operand& op) { opAVX_X_XM_IMM(xm, op, T_0F | T_YMM, 0x53); }
+void vrcpss(const Xmm& x1, const Xmm& x2, const Operand& op) { opAVX_X_X_XM(x1, x2, op, T_F3 | T_0F, 0x53); }
+void vroundpd(const Xmm& xm, const Operand& op, uint8_t imm) {
+  opAVX_X_XM_IMM(xm, op, T_66 | T_0F3A | T_YMM, 0x09, imm);
+}
+void vroundps(const Xmm& xm, const Operand& op, uint8_t imm) {
+  opAVX_X_XM_IMM(xm, op, T_66 | T_0F3A | T_YMM, 0x08, imm);
+}
+void vroundsd(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F3A | T_W0, 0x0B, imm);
+}
+void vroundss(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F3A | T_W0, 0x0A, imm);
+}
+void vrsqrtps(const Xmm& xm, const Operand& op) { opAVX_X_XM_IMM(xm, op, T_0F | T_YMM, 0x52); }
+void vrsqrtss(const Xmm& x1, const Xmm& x2, const Operand& op) { opAVX_X_X_XM(x1, x2, op, T_F3 | T_0F, 0x52); }
+void vsha512msg1(const Ymm& y, const Xmm& x) {
+  if (!(y.isYMM() && x.isXMM())) XBYAK_THROW(ERR_BAD_PARAMETER) opVex(y, 0, x, T_F2 | T_0F38 | T_W0 | T_YMM, 0xCC);
+}
+void vsha512msg2(const Ymm& y1, const Ymm& y2) {
+  if (!(y1.isYMM() && y2.isYMM())) XBYAK_THROW(ERR_BAD_PARAMETER) opVex(y1, 0, y2, T_F2 | T_0F38 | T_W0 | T_YMM, 0xCD);
+}
+void vsha512rnds2(const Ymm& y1, const Ymm& y2, const Xmm& x) {
+  if (!(y1.isYMM() && y2.isYMM() && x.isXMM()))
+    XBYAK_THROW(ERR_BAD_PARAMETER) opVex(y1, &y2, x, T_F2 | T_0F38 | T_W0 | T_YMM, 0xCB);
+}
+void vshufpd(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_EW1 | T_YMM | T_EVEX | T_B64, 0xC6, imm);
+}
+void vshufps(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_0F | T_EW0 | T_YMM | T_EVEX | T_B32, 0xC6, imm);
+}
+void vsm3msg1(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_0F38 | T_W0 | T_EW0 | T_EVEX, 0xDA);
+}
+void vsm3msg2(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_W0 | T_EW0 | T_EVEX, 0xDA);
+}
+void vsm3rnds2(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F3A | T_W0 | T_EW0 | T_EVEX, 0xDE, imm);
+}
+void vsm4key4(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_F3 | T_0F38 | T_W0 | T_EW0 | T_EVEX, 0xDA);
+}
+void vsm4rnds4(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_F2 | T_0F38 | T_W0 | T_EW0 | T_EVEX, 0xDA);
+}
+void vsqrtpd(const Xmm& xm, const Operand& op) {
+  opAVX_X_XM_IMM(xm, op, T_66 | T_0F | T_EW1 | T_YMM | T_EVEX | T_ER_Z | T_B64, 0x51);
+}
+void vsqrtps(const Xmm& xm, const Operand& op) {
+  opAVX_X_XM_IMM(xm, op, T_0F | T_EW0 | T_YMM | T_EVEX | T_ER_Z | T_B32, 0x51);
+}
+void vsqrtsd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N8 | T_F2 | T_0F | T_EW1 | T_EVEX | T_ER_X, 0x51);
+}
+void vsqrtss(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N4 | T_F3 | T_0F | T_EW0 | T_EVEX | T_ER_X, 0x51);
+}
+void vstmxcsr(const Address& addr) { opAVX_X_X_XM(xm3, xm0, addr, T_0F, 0xAE); }
+void vsubpd(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_0F | T_66 | T_EW1 | T_YMM | T_EVEX | T_ER_Z | T_B64, 0x5C);
+}
+void vsubps(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_0F | T_EW0 | T_YMM | T_EVEX | T_ER_Z | T_B32, 0x5C);
+}
+void vsubsd(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_0F | T_F2 | T_EW1 | T_EVEX | T_ER_X | T_N8, 0x5C);
+}
+void vsubss(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_0F | T_F3 | T_EW0 | T_EVEX | T_ER_X | T_N4, 0x5C);
+}
+void vtestpd(const Xmm& xm, const Operand& op) { opAVX_X_XM_IMM(xm, op, T_66 | T_0F38 | T_YMM, 0x0F); }
+void vtestps(const Xmm& xm, const Operand& op) { opAVX_X_XM_IMM(xm, op, T_66 | T_0F38 | T_YMM, 0x0E); }
+void vucomisd(const Xmm& xm, const Operand& op) {
+  opAVX_X_XM_IMM(xm, op, T_N8 | T_66 | T_0F | T_EW1 | T_EVEX | T_SAE_X, 0x2E);
+}
+void vucomiss(const Xmm& xm, const Operand& op) {
+  opAVX_X_XM_IMM(xm, op, T_N4 | T_0F | T_EW0 | T_EVEX | T_SAE_X, 0x2E);
+}
+void vunpckhpd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_EW1 | T_YMM | T_EVEX | T_B64, 0x15);
+}
+void vunpckhps(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_0F | T_EW0 | T_YMM | T_EVEX | T_B32, 0x15);
+}
+void vunpcklpd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_EW1 | T_YMM | T_EVEX | T_B64, 0x14);
+}
+void vunpcklps(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_0F | T_EW0 | T_YMM | T_EVEX | T_B32, 0x14);
+}
+void vxorpd(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_0F | T_66 | T_EW1 | T_YMM | T_EVEX | T_ER_Z | T_B64, 0x57);
+}
+void vxorps(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_0F | T_EW0 | T_YMM | T_EVEX | T_ER_Z | T_B32, 0x57);
+}
+void vzeroall() {
+  db(0xC5);
+  db(0xFC);
+  db(0x77);
+}
+void vzeroupper() {
+  db(0xC5);
+  db(0xF8);
+  db(0x77);
+}
+void wait() { db(0x9B); }
+void wbinvd() {
+  db(0x0F);
+  db(0x09);
+}
+void wrmsr() {
+  db(0x0F);
+  db(0x30);
+}
+void xabort(uint8_t imm) {
+  db(0xC6);
+  db(0xF8);
+  db(imm);
+}
+void xadd(const Operand& op, const Reg& reg) {
+  opModRM(reg, op, (op.isREG() && reg.isREG() && op.getBit() == reg.getBit()), op.isMEM(), 0x0F,
+          0xC0 | (reg.isBit(8) ? 0 : 1));
+}
+void xbegin(uint32_t rel) {
+  db(0xC7);
+  db(0xF8);
+  dd(rel);
+}
+void xend() {
+  db(0x0F);
+  db(0x01);
+  db(0xD5);
+}
+void xgetbv() {
+  db(0x0F);
+  db(0x01);
+  db(0xD0);
+}
+void xlatb() { db(0xD7); }
+void xor_(const Operand& op, uint32_t imm) { opRM_I(op, imm, 0x30, 6); }
+void xor_(const Operand& op1, const Operand& op2) { opRM_RM(op1, op2, 0x30); }
+void xorpd(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x57, 0x66, isXMM_XMMorMEM); }
+void xorps(const Xmm& xmm, const Operand& op) { opGen(xmm, op, 0x57, 0x100, isXMM_XMMorMEM); }
+#ifdef XBYAK_ENABLE_OMITTED_OPERAND
+void vblendpd(const Xmm& x, const Operand& op, uint8_t imm) { vblendpd(x, x, op, imm); }
+void vblendps(const Xmm& x, const Operand& op, uint8_t imm) { vblendps(x, x, op, imm); }
+void vblendvpd(const Xmm& x1, const Operand& op, const Xmm& x4) { vblendvpd(x1, x1, op, x4); }
+void vblendvps(const Xmm& x1, const Operand& op, const Xmm& x4) { vblendvps(x1, x1, op, x4); }
+void vcmpeq_ospd(const Xmm& x, const Operand& op) { vcmpeq_ospd(x, x, op); }
+void vcmpeq_osps(const Xmm& x, const Operand& op) { vcmpeq_osps(x, x, op); }
+void vcmpeq_ossd(const Xmm& x, const Operand& op) { vcmpeq_ossd(x, x, op); }
+void vcmpeq_osss(const Xmm& x, const Operand& op) { vcmpeq_osss(x, x, op); }
+void vcmpeq_uqpd(const Xmm& x, const Operand& op) { vcmpeq_uqpd(x, x, op); }
+void vcmpeq_uqps(const Xmm& x, const Operand& op) { vcmpeq_uqps(x, x, op); }
+void vcmpeq_uqsd(const Xmm& x, const Operand& op) { vcmpeq_uqsd(x, x, op); }
+void vcmpeq_uqss(const Xmm& x, const Operand& op) { vcmpeq_uqss(x, x, op); }
+void vcmpeq_uspd(const Xmm& x, const Operand& op) { vcmpeq_uspd(x, x, op); }
+void vcmpeq_usps(const Xmm& x, const Operand& op) { vcmpeq_usps(x, x, op); }
+void vcmpeq_ussd(const Xmm& x, const Operand& op) { vcmpeq_ussd(x, x, op); }
+void vcmpeq_usss(const Xmm& x, const Operand& op) { vcmpeq_usss(x, x, op); }
+void vcmpeqpd(const Xmm& x, const Operand& op) { vcmpeqpd(x, x, op); }
+void vcmpeqps(const Xmm& x, const Operand& op) { vcmpeqps(x, x, op); }
+void vcmpeqsd(const Xmm& x, const Operand& op) { vcmpeqsd(x, x, op); }
+void vcmpeqss(const Xmm& x, const Operand& op) { vcmpeqss(x, x, op); }
+void vcmpfalse_ospd(const Xmm& x, const Operand& op) { vcmpfalse_ospd(x, x, op); }
+void vcmpfalse_osps(const Xmm& x, const Operand& op) { vcmpfalse_osps(x, x, op); }
+void vcmpfalse_ossd(const Xmm& x, const Operand& op) { vcmpfalse_ossd(x, x, op); }
+void vcmpfalse_osss(const Xmm& x, const Operand& op) { vcmpfalse_osss(x, x, op); }
+void vcmpfalsepd(const Xmm& x, const Operand& op) { vcmpfalsepd(x, x, op); }
+void vcmpfalseps(const Xmm& x, const Operand& op) { vcmpfalseps(x, x, op); }
+void vcmpfalsesd(const Xmm& x, const Operand& op) { vcmpfalsesd(x, x, op); }
+void vcmpfalsess(const Xmm& x, const Operand& op) { vcmpfalsess(x, x, op); }
+void vcmpge_oqpd(const Xmm& x, const Operand& op) { vcmpge_oqpd(x, x, op); }
+void vcmpge_oqps(const Xmm& x, const Operand& op) { vcmpge_oqps(x, x, op); }
+void vcmpge_oqsd(const Xmm& x, const Operand& op) { vcmpge_oqsd(x, x, op); }
+void vcmpge_oqss(const Xmm& x, const Operand& op) { vcmpge_oqss(x, x, op); }
+void vcmpgepd(const Xmm& x, const Operand& op) { vcmpgepd(x, x, op); }
+void vcmpgeps(const Xmm& x, const Operand& op) { vcmpgeps(x, x, op); }
+void vcmpgesd(const Xmm& x, const Operand& op) { vcmpgesd(x, x, op); }
+void vcmpgess(const Xmm& x, const Operand& op) { vcmpgess(x, x, op); }
+void vcmpgt_oqpd(const Xmm& x, const Operand& op) { vcmpgt_oqpd(x, x, op); }
+void vcmpgt_oqps(const Xmm& x, const Operand& op) { vcmpgt_oqps(x, x, op); }
+void vcmpgt_oqsd(const Xmm& x, const Operand& op) { vcmpgt_oqsd(x, x, op); }
+void vcmpgt_oqss(const Xmm& x, const Operand& op) { vcmpgt_oqss(x, x, op); }
+void vcmpgtpd(const Xmm& x, const Operand& op) { vcmpgtpd(x, x, op); }
+void vcmpgtps(const Xmm& x, const Operand& op) { vcmpgtps(x, x, op); }
+void vcmpgtsd(const Xmm& x, const Operand& op) { vcmpgtsd(x, x, op); }
+void vcmpgtss(const Xmm& x, const Operand& op) { vcmpgtss(x, x, op); }
+void vcmple_oqpd(const Xmm& x, const Operand& op) { vcmple_oqpd(x, x, op); }
+void vcmple_oqps(const Xmm& x, const Operand& op) { vcmple_oqps(x, x, op); }
+void vcmple_oqsd(const Xmm& x, const Operand& op) { vcmple_oqsd(x, x, op); }
+void vcmple_oqss(const Xmm& x, const Operand& op) { vcmple_oqss(x, x, op); }
+void vcmplepd(const Xmm& x, const Operand& op) { vcmplepd(x, x, op); }
+void vcmpleps(const Xmm& x, const Operand& op) { vcmpleps(x, x, op); }
+void vcmplesd(const Xmm& x, const Operand& op) { vcmplesd(x, x, op); }
+void vcmpless(const Xmm& x, const Operand& op) { vcmpless(x, x, op); }
+void vcmplt_oqpd(const Xmm& x, const Operand& op) { vcmplt_oqpd(x, x, op); }
+void vcmplt_oqps(const Xmm& x, const Operand& op) { vcmplt_oqps(x, x, op); }
+void vcmplt_oqsd(const Xmm& x, const Operand& op) { vcmplt_oqsd(x, x, op); }
+void vcmplt_oqss(const Xmm& x, const Operand& op) { vcmplt_oqss(x, x, op); }
+void vcmpltpd(const Xmm& x, const Operand& op) { vcmpltpd(x, x, op); }
+void vcmpltps(const Xmm& x, const Operand& op) { vcmpltps(x, x, op); }
+void vcmpltsd(const Xmm& x, const Operand& op) { vcmpltsd(x, x, op); }
+void vcmpltss(const Xmm& x, const Operand& op) { vcmpltss(x, x, op); }
+void vcmpneq_oqpd(const Xmm& x, const Operand& op) { vcmpneq_oqpd(x, x, op); }
+void vcmpneq_oqps(const Xmm& x, const Operand& op) { vcmpneq_oqps(x, x, op); }
+void vcmpneq_oqsd(const Xmm& x, const Operand& op) { vcmpneq_oqsd(x, x, op); }
+void vcmpneq_oqss(const Xmm& x, const Operand& op) { vcmpneq_oqss(x, x, op); }
+void vcmpneq_ospd(const Xmm& x, const Operand& op) { vcmpneq_ospd(x, x, op); }
+void vcmpneq_osps(const Xmm& x, const Operand& op) { vcmpneq_osps(x, x, op); }
+void vcmpneq_ossd(const Xmm& x, const Operand& op) { vcmpneq_ossd(x, x, op); }
+void vcmpneq_osss(const Xmm& x, const Operand& op) { vcmpneq_osss(x, x, op); }
+void vcmpneq_uspd(const Xmm& x, const Operand& op) { vcmpneq_uspd(x, x, op); }
+void vcmpneq_usps(const Xmm& x, const Operand& op) { vcmpneq_usps(x, x, op); }
+void vcmpneq_ussd(const Xmm& x, const Operand& op) { vcmpneq_ussd(x, x, op); }
+void vcmpneq_usss(const Xmm& x, const Operand& op) { vcmpneq_usss(x, x, op); }
+void vcmpneqpd(const Xmm& x, const Operand& op) { vcmpneqpd(x, x, op); }
+void vcmpneqps(const Xmm& x, const Operand& op) { vcmpneqps(x, x, op); }
+void vcmpneqsd(const Xmm& x, const Operand& op) { vcmpneqsd(x, x, op); }
+void vcmpneqss(const Xmm& x, const Operand& op) { vcmpneqss(x, x, op); }
+void vcmpnge_uqpd(const Xmm& x, const Operand& op) { vcmpnge_uqpd(x, x, op); }
+void vcmpnge_uqps(const Xmm& x, const Operand& op) { vcmpnge_uqps(x, x, op); }
+void vcmpnge_uqsd(const Xmm& x, const Operand& op) { vcmpnge_uqsd(x, x, op); }
+void vcmpnge_uqss(const Xmm& x, const Operand& op) { vcmpnge_uqss(x, x, op); }
+void vcmpngepd(const Xmm& x, const Operand& op) { vcmpngepd(x, x, op); }
+void vcmpngeps(const Xmm& x, const Operand& op) { vcmpngeps(x, x, op); }
+void vcmpngesd(const Xmm& x, const Operand& op) { vcmpngesd(x, x, op); }
+void vcmpngess(const Xmm& x, const Operand& op) { vcmpngess(x, x, op); }
+void vcmpngt_uqpd(const Xmm& x, const Operand& op) { vcmpngt_uqpd(x, x, op); }
+void vcmpngt_uqps(const Xmm& x, const Operand& op) { vcmpngt_uqps(x, x, op); }
+void vcmpngt_uqsd(const Xmm& x, const Operand& op) { vcmpngt_uqsd(x, x, op); }
+void vcmpngt_uqss(const Xmm& x, const Operand& op) { vcmpngt_uqss(x, x, op); }
+void vcmpngtpd(const Xmm& x, const Operand& op) { vcmpngtpd(x, x, op); }
+void vcmpngtps(const Xmm& x, const Operand& op) { vcmpngtps(x, x, op); }
+void vcmpngtsd(const Xmm& x, const Operand& op) { vcmpngtsd(x, x, op); }
+void vcmpngtss(const Xmm& x, const Operand& op) { vcmpngtss(x, x, op); }
+void vcmpnle_uqpd(const Xmm& x, const Operand& op) { vcmpnle_uqpd(x, x, op); }
+void vcmpnle_uqps(const Xmm& x, const Operand& op) { vcmpnle_uqps(x, x, op); }
+void vcmpnle_uqsd(const Xmm& x, const Operand& op) { vcmpnle_uqsd(x, x, op); }
+void vcmpnle_uqss(const Xmm& x, const Operand& op) { vcmpnle_uqss(x, x, op); }
+void vcmpnlepd(const Xmm& x, const Operand& op) { vcmpnlepd(x, x, op); }
+void vcmpnleps(const Xmm& x, const Operand& op) { vcmpnleps(x, x, op); }
+void vcmpnlesd(const Xmm& x, const Operand& op) { vcmpnlesd(x, x, op); }
+void vcmpnless(const Xmm& x, const Operand& op) { vcmpnless(x, x, op); }
+void vcmpnlt_uqpd(const Xmm& x, const Operand& op) { vcmpnlt_uqpd(x, x, op); }
+void vcmpnlt_uqps(const Xmm& x, const Operand& op) { vcmpnlt_uqps(x, x, op); }
+void vcmpnlt_uqsd(const Xmm& x, const Operand& op) { vcmpnlt_uqsd(x, x, op); }
+void vcmpnlt_uqss(const Xmm& x, const Operand& op) { vcmpnlt_uqss(x, x, op); }
+void vcmpnltpd(const Xmm& x, const Operand& op) { vcmpnltpd(x, x, op); }
+void vcmpnltps(const Xmm& x, const Operand& op) { vcmpnltps(x, x, op); }
+void vcmpnltsd(const Xmm& x, const Operand& op) { vcmpnltsd(x, x, op); }
+void vcmpnltss(const Xmm& x, const Operand& op) { vcmpnltss(x, x, op); }
+void vcmpord_spd(const Xmm& x, const Operand& op) { vcmpord_spd(x, x, op); }
+void vcmpord_sps(const Xmm& x, const Operand& op) { vcmpord_sps(x, x, op); }
+void vcmpord_ssd(const Xmm& x, const Operand& op) { vcmpord_ssd(x, x, op); }
+void vcmpord_sss(const Xmm& x, const Operand& op) { vcmpord_sss(x, x, op); }
+void vcmpordpd(const Xmm& x, const Operand& op) { vcmpordpd(x, x, op); }
+void vcmpordps(const Xmm& x, const Operand& op) { vcmpordps(x, x, op); }
+void vcmpordsd(const Xmm& x, const Operand& op) { vcmpordsd(x, x, op); }
+void vcmpordss(const Xmm& x, const Operand& op) { vcmpordss(x, x, op); }
+void vcmppd(const Xmm& x, const Operand& op, uint8_t imm) { vcmppd(x, x, op, imm); }
+void vcmpps(const Xmm& x, const Operand& op, uint8_t imm) { vcmpps(x, x, op, imm); }
+void vcmpsd(const Xmm& x, const Operand& op, uint8_t imm) { vcmpsd(x, x, op, imm); }
+void vcmpss(const Xmm& x, const Operand& op, uint8_t imm) { vcmpss(x, x, op, imm); }
+void vcmptrue_uspd(const Xmm& x, const Operand& op) { vcmptrue_uspd(x, x, op); }
+void vcmptrue_usps(const Xmm& x, const Operand& op) { vcmptrue_usps(x, x, op); }
+void vcmptrue_ussd(const Xmm& x, const Operand& op) { vcmptrue_ussd(x, x, op); }
+void vcmptrue_usss(const Xmm& x, const Operand& op) { vcmptrue_usss(x, x, op); }
+void vcmptruepd(const Xmm& x, const Operand& op) { vcmptruepd(x, x, op); }
+void vcmptrueps(const Xmm& x, const Operand& op) { vcmptrueps(x, x, op); }
+void vcmptruesd(const Xmm& x, const Operand& op) { vcmptruesd(x, x, op); }
+void vcmptruess(const Xmm& x, const Operand& op) { vcmptruess(x, x, op); }
+void vcmpunord_spd(const Xmm& x, const Operand& op) { vcmpunord_spd(x, x, op); }
+void vcmpunord_sps(const Xmm& x, const Operand& op) { vcmpunord_sps(x, x, op); }
+void vcmpunord_ssd(const Xmm& x, const Operand& op) { vcmpunord_ssd(x, x, op); }
+void vcmpunord_sss(const Xmm& x, const Operand& op) { vcmpunord_sss(x, x, op); }
+void vcmpunordpd(const Xmm& x, const Operand& op) { vcmpunordpd(x, x, op); }
+void vcmpunordps(const Xmm& x, const Operand& op) { vcmpunordps(x, x, op); }
+void vcmpunordsd(const Xmm& x, const Operand& op) { vcmpunordsd(x, x, op); }
+void vcmpunordss(const Xmm& x, const Operand& op) { vcmpunordss(x, x, op); }
+void vcvtsd2ss(const Xmm& x, const Operand& op) { vcvtsd2ss(x, x, op); }
+void vcvtsi2sd(const Xmm& x, const Operand& op) { vcvtsi2sd(x, x, op); }
+void vcvtsi2ss(const Xmm& x, const Operand& op) { vcvtsi2ss(x, x, op); }
+void vcvtss2sd(const Xmm& x, const Operand& op) { vcvtss2sd(x, x, op); }
+void vdppd(const Xmm& x, const Operand& op, uint8_t imm) { vdppd(x, x, op, imm); }
+void vdpps(const Xmm& x, const Operand& op, uint8_t imm) { vdpps(x, x, op, imm); }
+void vinsertps(const Xmm& x, const Operand& op, uint8_t imm) { vinsertps(x, x, op, imm); }
+void vmpsadbw(const Xmm& x, const Operand& op, uint8_t imm) { vmpsadbw(x, x, op, imm); }
+void vpackssdw(const Xmm& x, const Operand& op) { vpackssdw(x, x, op); }
+void vpacksswb(const Xmm& x, const Operand& op) { vpacksswb(x, x, op); }
+void vpackusdw(const Xmm& x, const Operand& op) { vpackusdw(x, x, op); }
+void vpackuswb(const Xmm& x, const Operand& op) { vpackuswb(x, x, op); }
+void vpaddb(const Xmm& x, const Operand& op) { vpaddb(x, x, op); }
+void vpaddd(const Xmm& x, const Operand& op) { vpaddd(x, x, op); }
+void vpaddq(const Xmm& x, const Operand& op) { vpaddq(x, x, op); }
+void vpaddsb(const Xmm& x, const Operand& op) { vpaddsb(x, x, op); }
+void vpaddsw(const Xmm& x, const Operand& op) { vpaddsw(x, x, op); }
+void vpaddusb(const Xmm& x, const Operand& op) { vpaddusb(x, x, op); }
+void vpaddusw(const Xmm& x, const Operand& op) { vpaddusw(x, x, op); }
+void vpaddw(const Xmm& x, const Operand& op) { vpaddw(x, x, op); }
+void vpalignr(const Xmm& x, const Operand& op, uint8_t imm) { vpalignr(x, x, op, imm); }
+void vpand(const Xmm& x, const Operand& op) { vpand(x, x, op); }
+void vpandn(const Xmm& x, const Operand& op) { vpandn(x, x, op); }
+void vpavgb(const Xmm& x, const Operand& op) { vpavgb(x, x, op); }
+void vpavgw(const Xmm& x, const Operand& op) { vpavgw(x, x, op); }
+void vpblendd(const Xmm& x, const Operand& op, uint8_t imm) { vpblendd(x, x, op, imm); }
+void vpblendvb(const Xmm& x1, const Operand& op, const Xmm& x4) { vpblendvb(x1, x1, op, x4); }
+void vpblendw(const Xmm& x, const Operand& op, uint8_t imm) { vpblendw(x, x, op, imm); }
+void vpclmulqdq(const Xmm& x, const Operand& op, uint8_t imm) { vpclmulqdq(x, x, op, imm); }
+void vpcmpeqb(const Xmm& x, const Operand& op) { vpcmpeqb(x, x, op); }
+void vpcmpeqd(const Xmm& x, const Operand& op) { vpcmpeqd(x, x, op); }
+void vpcmpeqq(const Xmm& x, const Operand& op) { vpcmpeqq(x, x, op); }
+void vpcmpeqw(const Xmm& x, const Operand& op) { vpcmpeqw(x, x, op); }
+void vpcmpgtb(const Xmm& x, const Operand& op) { vpcmpgtb(x, x, op); }
+void vpcmpgtd(const Xmm& x, const Operand& op) { vpcmpgtd(x, x, op); }
+void vpcmpgtq(const Xmm& x, const Operand& op) { vpcmpgtq(x, x, op); }
+void vpcmpgtw(const Xmm& x, const Operand& op) { vpcmpgtw(x, x, op); }
+void vphaddd(const Xmm& x, const Operand& op) { vphaddd(x, x, op); }
+void vphaddsw(const Xmm& x, const Operand& op) { vphaddsw(x, x, op); }
+void vphaddw(const Xmm& x, const Operand& op) { vphaddw(x, x, op); }
+void vphsubd(const Xmm& x, const Operand& op) { vphsubd(x, x, op); }
+void vphsubsw(const Xmm& x, const Operand& op) { vphsubsw(x, x, op); }
+void vphsubw(const Xmm& x, const Operand& op) { vphsubw(x, x, op); }
+void vpinsrb(const Xmm& x, const Operand& op, uint8_t imm) { vpinsrb(x, x, op, imm); }
+void vpinsrd(const Xmm& x, const Operand& op, uint8_t imm) { vpinsrd(x, x, op, imm); }
+void vpinsrq(const Xmm& x, const Operand& op, uint8_t imm) { vpinsrq(x, x, op, imm); }
+void vpinsrw(const Xmm& x, const Operand& op, uint8_t imm) { vpinsrw(x, x, op, imm); }
+void vpmaddubsw(const Xmm& x, const Operand& op) { vpmaddubsw(x, x, op); }
+void vpmaddwd(const Xmm& x, const Operand& op) { vpmaddwd(x, x, op); }
+void vpmaxsb(const Xmm& x, const Operand& op) { vpmaxsb(x, x, op); }
+void vpmaxsd(const Xmm& x, const Operand& op) { vpmaxsd(x, x, op); }
+void vpmaxsw(const Xmm& x, const Operand& op) { vpmaxsw(x, x, op); }
+void vpmaxub(const Xmm& x, const Operand& op) { vpmaxub(x, x, op); }
+void vpmaxud(const Xmm& x, const Operand& op) { vpmaxud(x, x, op); }
+void vpmaxuw(const Xmm& x, const Operand& op) { vpmaxuw(x, x, op); }
+void vpminsb(const Xmm& x, const Operand& op) { vpminsb(x, x, op); }
+void vpminsd(const Xmm& x, const Operand& op) { vpminsd(x, x, op); }
+void vpminsw(const Xmm& x, const Operand& op) { vpminsw(x, x, op); }
+void vpminub(const Xmm& x, const Operand& op) { vpminub(x, x, op); }
+void vpminud(const Xmm& x, const Operand& op) { vpminud(x, x, op); }
+void vpminuw(const Xmm& x, const Operand& op) { vpminuw(x, x, op); }
+void vpmuldq(const Xmm& x, const Operand& op) { vpmuldq(x, x, op); }
+void vpmulhrsw(const Xmm& x, const Operand& op) { vpmulhrsw(x, x, op); }
+void vpmulhuw(const Xmm& x, const Operand& op) { vpmulhuw(x, x, op); }
+void vpmulhw(const Xmm& x, const Operand& op) { vpmulhw(x, x, op); }
+void vpmulld(const Xmm& x, const Operand& op) { vpmulld(x, x, op); }
+void vpmullw(const Xmm& x, const Operand& op) { vpmullw(x, x, op); }
+void vpmuludq(const Xmm& x, const Operand& op) { vpmuludq(x, x, op); }
+void vpor(const Xmm& x, const Operand& op) { vpor(x, x, op); }
+void vpsadbw(const Xmm& x, const Operand& op) { vpsadbw(x, x, op); }
+void vpsignb(const Xmm& x, const Operand& op) { vpsignb(x, x, op); }
+void vpsignd(const Xmm& x, const Operand& op) { vpsignd(x, x, op); }
+void vpsignw(const Xmm& x, const Operand& op) { vpsignw(x, x, op); }
+void vpslld(const Xmm& x, const Operand& op) { vpslld(x, x, op); }
+void vpslld(const Xmm& x, uint8_t imm) { vpslld(x, x, imm); }
+void vpslldq(const Xmm& x, uint8_t imm) { vpslldq(x, x, imm); }
+void vpsllq(const Xmm& x, const Operand& op) { vpsllq(x, x, op); }
+void vpsllq(const Xmm& x, uint8_t imm) { vpsllq(x, x, imm); }
+void vpsllw(const Xmm& x, const Operand& op) { vpsllw(x, x, op); }
+void vpsllw(const Xmm& x, uint8_t imm) { vpsllw(x, x, imm); }
+void vpsrad(const Xmm& x, const Operand& op) { vpsrad(x, x, op); }
+void vpsrad(const Xmm& x, uint8_t imm) { vpsrad(x, x, imm); }
+void vpsraw(const Xmm& x, const Operand& op) { vpsraw(x, x, op); }
+void vpsraw(const Xmm& x, uint8_t imm) { vpsraw(x, x, imm); }
+void vpsrld(const Xmm& x, const Operand& op) { vpsrld(x, x, op); }
+void vpsrld(const Xmm& x, uint8_t imm) { vpsrld(x, x, imm); }
+void vpsrldq(const Xmm& x, uint8_t imm) { vpsrldq(x, x, imm); }
+void vpsrlq(const Xmm& x, const Operand& op) { vpsrlq(x, x, op); }
+void vpsrlq(const Xmm& x, uint8_t imm) { vpsrlq(x, x, imm); }
+void vpsrlw(const Xmm& x, const Operand& op) { vpsrlw(x, x, op); }
+void vpsrlw(const Xmm& x, uint8_t imm) { vpsrlw(x, x, imm); }
+void vpsubb(const Xmm& x, const Operand& op) { vpsubb(x, x, op); }
+void vpsubd(const Xmm& x, const Operand& op) { vpsubd(x, x, op); }
+void vpsubq(const Xmm& x, const Operand& op) { vpsubq(x, x, op); }
+void vpsubsb(const Xmm& x, const Operand& op) { vpsubsb(x, x, op); }
+void vpsubsw(const Xmm& x, const Operand& op) { vpsubsw(x, x, op); }
+void vpsubusb(const Xmm& x, const Operand& op) { vpsubusb(x, x, op); }
+void vpsubusw(const Xmm& x, const Operand& op) { vpsubusw(x, x, op); }
+void vpsubw(const Xmm& x, const Operand& op) { vpsubw(x, x, op); }
+void vpunpckhbw(const Xmm& x, const Operand& op) { vpunpckhbw(x, x, op); }
+void vpunpckhdq(const Xmm& x, const Operand& op) { vpunpckhdq(x, x, op); }
+void vpunpckhqdq(const Xmm& x, const Operand& op) { vpunpckhqdq(x, x, op); }
+void vpunpckhwd(const Xmm& x, const Operand& op) { vpunpckhwd(x, x, op); }
+void vpunpcklbw(const Xmm& x, const Operand& op) { vpunpcklbw(x, x, op); }
+void vpunpckldq(const Xmm& x, const Operand& op) { vpunpckldq(x, x, op); }
+void vpunpcklqdq(const Xmm& x, const Operand& op) { vpunpcklqdq(x, x, op); }
+void vpunpcklwd(const Xmm& x, const Operand& op) { vpunpcklwd(x, x, op); }
+void vpxor(const Xmm& x, const Operand& op) { vpxor(x, x, op); }
+void vrcpss(const Xmm& x, const Operand& op) { vrcpss(x, x, op); }
+void vroundsd(const Xmm& x, const Operand& op, uint8_t imm) { vroundsd(x, x, op, imm); }
+void vroundss(const Xmm& x, const Operand& op, uint8_t imm) { vroundss(x, x, op, imm); }
+void vrsqrtss(const Xmm& x, const Operand& op) { vrsqrtss(x, x, op); }
+void vshufpd(const Xmm& x, const Operand& op, uint8_t imm) { vshufpd(x, x, op, imm); }
+void vshufps(const Xmm& x, const Operand& op, uint8_t imm) { vshufps(x, x, op, imm); }
+void vsqrtsd(const Xmm& x, const Operand& op) { vsqrtsd(x, x, op); }
+void vsqrtss(const Xmm& x, const Operand& op) { vsqrtss(x, x, op); }
+void vunpckhpd(const Xmm& x, const Operand& op) { vunpckhpd(x, x, op); }
+void vunpckhps(const Xmm& x, const Operand& op) { vunpckhps(x, x, op); }
+void vunpcklpd(const Xmm& x, const Operand& op) { vunpcklpd(x, x, op); }
+void vunpcklps(const Xmm& x, const Operand& op) { vunpcklps(x, x, op); }
+#endif
+#ifdef XBYAK64
+void jecxz(std::string label) {
+  db(0x67);
+  opJmp(label, T_SHORT, 0xe3, 0, 0);
+}
+void jecxz(const Label& label) {
+  db(0x67);
+  opJmp(label, T_SHORT, 0xe3, 0, 0);
+}
+void jrcxz(std::string label) { opJmp(label, T_SHORT, 0xe3, 0, 0); }
+void jrcxz(const Label& label) { opJmp(label, T_SHORT, 0xe3, 0, 0); }
+void cdqe() {
+  db(0x48);
+  db(0x98);
+}
+void cqo() {
+  db(0x48);
+  db(0x99);
+}
+void cmpsq() {
+  db(0x48);
+  db(0xA7);
+}
+void popfq() { db(0x9D); }
+void pushfq() { db(0x9C); }
+void lodsq() {
+  db(0x48);
+  db(0xAD);
+}
+void movsq() {
+  db(0x48);
+  db(0xA5);
+}
+void scasq() {
+  db(0x48);
+  db(0xAF);
+}
+void stosq() {
+  db(0x48);
+  db(0xAB);
+}
+void syscall() {
+  db(0x0F);
+  db(0x05);
+}
+void sysret() {
+  db(0x0F);
+  db(0x07);
+}
+void clui() {
+  db(0xF3);
+  db(0x0F);
+  db(0x01);
+  db(0xEE);
+}
+void stui() {
+  db(0xF3);
+  db(0x0F);
+  db(0x01);
+  db(0xEF);
+}
+void testui() {
+  db(0xF3);
+  db(0x0F);
+  db(0x01);
+  db(0xED);
+}
+void uiret() {
+  db(0xF3);
+  db(0x0F);
+  db(0x01);
+  db(0xEC);
+}
+void cmpxchg16b(const Address& addr) { opModM(addr, Reg64(1), 0x0F, 0xC7); }
+void fxrstor64(const Address& addr) { opModM(addr, Reg64(1), 0x0F, 0xAE); }
+void movq(const Reg64& reg, const Mmx& mmx) {
+  if (mmx.isXMM()) db(0x66);
+  opModR(mmx, reg, 0x0F, 0x7E);
+}
+void movq(const Mmx& mmx, const Reg64& reg) {
+  if (mmx.isXMM()) db(0x66);
+  opModR(mmx, reg, 0x0F, 0x6E);
+}
+void movsxd(const Reg64& reg, const Operand& op) {
+  if (!op.isBit(32)) XBYAK_THROW(ERR_BAD_COMBINATION) opModRM(reg, op, op.isREG(), op.isMEM(), 0x63);
+}
+void pextrq(const Operand& op, const Xmm& xmm, uint8_t imm) {
+  if (!op.isREG(64) && !op.isMEM())
+    XBYAK_THROW(ERR_BAD_COMBINATION) opGen(Reg64(xmm.getIdx()), op, 0x16, 0x66, 0, imm, 0x3A);
+}
+void pinsrq(const Xmm& xmm, const Operand& op, uint8_t imm) {
+  if (!op.isREG(64) && !op.isMEM())
+    XBYAK_THROW(ERR_BAD_COMBINATION) opGen(Reg64(xmm.getIdx()), op, 0x22, 0x66, 0, imm, 0x3A);
+}
+void senduipi(const Reg64& r) {
+  db(0xF3);
+  opModR(Reg32(6), r.cvt32(), 0x0F, 0xC7);
+}
+void vcvtss2si(const Reg64& r, const Operand& op) {
+  opAVX_X_X_XM(Xmm(r.getIdx()), xm0, op, T_0F | T_F3 | T_W1 | T_EVEX | T_EW1 | T_ER_X | T_N8, 0x2D);
+}
+void vcvttss2si(const Reg64& r, const Operand& op) {
+  opAVX_X_X_XM(Xmm(r.getIdx()), xm0, op, T_0F | T_F3 | T_W1 | T_EVEX | T_EW1 | T_SAE_X | T_N8, 0x2C);
+}
+void vcvtsd2si(const Reg64& r, const Operand& op) {
+  opAVX_X_X_XM(Xmm(r.getIdx()), xm0, op, T_0F | T_F2 | T_W1 | T_EVEX | T_EW1 | T_N4 | T_ER_X, 0x2D);
+}
+void vcvttsd2si(const Reg64& r, const Operand& op) {
+  opAVX_X_X_XM(Xmm(r.getIdx()), xm0, op, T_0F | T_F2 | T_W1 | T_EVEX | T_EW1 | T_N4 | T_SAE_X, 0x2C);
+}
+void vmovq(const Xmm& x, const Reg64& r) {
+  opAVX_X_X_XM(x, xm0, Xmm(r.getIdx()), T_66 | T_0F | T_W1 | T_EVEX | T_EW1, 0x6E);
+}
+void vmovq(const Reg64& r, const Xmm& x) {
+  opAVX_X_X_XM(x, xm0, Xmm(r.getIdx()), T_66 | T_0F | T_W1 | T_EVEX | T_EW1, 0x7E);
+}
+void cmpbexadd(const Address& addr, const Reg32e& r1, const Reg32e& r2) {
+  opGpr(r1, addr, r2, T_66 | T_0F38, 0xE6, false);
+}
+void cmpbxadd(const Address& addr, const Reg32e& r1, const Reg32e& r2) {
+  opGpr(r1, addr, r2, T_66 | T_0F38, 0xE2, false);
+}
+void cmplexadd(const Address& addr, const Reg32e& r1, const Reg32e& r2) {
+  opGpr(r1, addr, r2, T_66 | T_0F38, 0xEE, false);
+}
+void cmplxadd(const Address& addr, const Reg32e& r1, const Reg32e& r2) {
+  opGpr(r1, addr, r2, T_66 | T_0F38, 0xEC, false);
+}
+void cmpnbexadd(const Address& addr, const Reg32e& r1, const Reg32e& r2) {
+  opGpr(r1, addr, r2, T_66 | T_0F38, 0xE7, false);
+}
+void cmpnbxadd(const Address& addr, const Reg32e& r1, const Reg32e& r2) {
+  opGpr(r1, addr, r2, T_66 | T_0F38, 0xE3, false);
+}
+void cmpnlexadd(const Address& addr, const Reg32e& r1, const Reg32e& r2) {
+  opGpr(r1, addr, r2, T_66 | T_0F38, 0xEF, false);
+}
+void cmpnlxadd(const Address& addr, const Reg32e& r1, const Reg32e& r2) {
+  opGpr(r1, addr, r2, T_66 | T_0F38, 0xED, false);
+}
+void cmpnoxadd(const Address& addr, const Reg32e& r1, const Reg32e& r2) {
+  opGpr(r1, addr, r2, T_66 | T_0F38, 0xE1, false);
+}
+void cmpnpxadd(const Address& addr, const Reg32e& r1, const Reg32e& r2) {
+  opGpr(r1, addr, r2, T_66 | T_0F38, 0xEB, false);
+}
+void cmpnsxadd(const Address& addr, const Reg32e& r1, const Reg32e& r2) {
+  opGpr(r1, addr, r2, T_66 | T_0F38, 0xE9, false);
+}
+void cmpnzxadd(const Address& addr, const Reg32e& r1, const Reg32e& r2) {
+  opGpr(r1, addr, r2, T_66 | T_0F38, 0xE5, false);
+}
+void cmpoxadd(const Address& addr, const Reg32e& r1, const Reg32e& r2) {
+  opGpr(r1, addr, r2, T_66 | T_0F38, 0xE0, false);
+}
+void cmppxadd(const Address& addr, const Reg32e& r1, const Reg32e& r2) {
+  opGpr(r1, addr, r2, T_66 | T_0F38, 0xEA, false);
+}
+void cmpsxadd(const Address& addr, const Reg32e& r1, const Reg32e& r2) {
+  opGpr(r1, addr, r2, T_66 | T_0F38, 0xE8, false);
+}
+void cmpzxadd(const Address& addr, const Reg32e& r1, const Reg32e& r2) {
+  opGpr(r1, addr, r2, T_66 | T_0F38, 0xE4, false);
+}
+void ldtilecfg(const Address& addr) { opVex(tmm0, &tmm0, addr, T_0F38 | T_W0, 0x49); }
+void sttilecfg(const Address& addr) { opVex(tmm0, &tmm0, addr, T_66 | T_0F38 | T_W0, 0x49); }
+void tileloadd(const Tmm& tm, const Address& addr) { opAMX(tm, addr, T_F2 | T_0F38 | T_W0, 0x4b); }
+void tileloaddt1(const Tmm& tm, const Address& addr) { opAMX(tm, addr, T_66 | T_0F38 | T_W0, 0x4b); }
+void tilerelease() {
+  db(0xc4);
+  db(0xe2);
+  db(0x78);
+  db(0x49);
+  db(0xc0);
+}
+void tilestored(const Address& addr, const Tmm& tm) { opVex(tm, &tmm0, addr, T_F3 | T_0F38 | T_W0, 0x4b); }
+void tilezero(const Tmm& Tmm) { opVex(Tmm, &tmm0, tmm0, T_F2 | T_0F38 | T_W0, 0x49); }
+void tdpbssd(const Tmm& x1, const Tmm& x2, const Tmm& x3) { opVex(x1, &x3, x2, T_F2 | T_0F38 | T_W0, 0x5e); }
+void tdpbsud(const Tmm& x1, const Tmm& x2, const Tmm& x3) { opVex(x1, &x3, x2, T_F3 | T_0F38 | T_W0, 0x5e); }
+void tdpbusd(const Tmm& x1, const Tmm& x2, const Tmm& x3) { opVex(x1, &x3, x2, T_66 | T_0F38 | T_W0, 0x5e); }
+void tdpbuud(const Tmm& x1, const Tmm& x2, const Tmm& x3) { opVex(x1, &x3, x2, T_0F38 | T_W0, 0x5e); }
+void tdpfp16ps(const Tmm& x1, const Tmm& x2, const Tmm& x3) { opVex(x1, &x3, x2, T_F2 | T_0F38 | T_W0, 0x5c); }
+void tdpbf16ps(const Tmm& x1, const Tmm& x2, const Tmm& x3) { opVex(x1, &x3, x2, T_F3 | T_0F38 | T_W0, 0x5c); }
+#else
+void jcxz(std::string label) {
+  db(0x67);
+  opJmp(label, T_SHORT, 0xe3, 0, 0);
+}
+void jcxz(const Label& label) {
+  db(0x67);
+  opJmp(label, T_SHORT, 0xe3, 0, 0);
+}
+void jecxz(std::string label) { opJmp(label, T_SHORT, 0xe3, 0, 0); }
+void jecxz(const Label& label) { opJmp(label, T_SHORT, 0xe3, 0, 0); }
+void aaa() { db(0x37); }
+void aad() {
+  db(0xD5);
+  db(0x0A);
+}
+void aam() {
+  db(0xD4);
+  db(0x0A);
+}
+void aas() { db(0x3F); }
+void daa() { db(0x27); }
+void das() { db(0x2F); }
+void into() { db(0xCE); }
+void popad() { db(0x61); }
+void popfd() { db(0x9D); }
+void pusha() { db(0x60); }
+void pushad() { db(0x60); }
+void pushfd() { db(0x9C); }
+void popa() { db(0x61); }
+void lds(const Reg& reg, const Address& addr) { opLoadSeg(addr, reg, 0xC5, 0x100); }
+void les(const Reg& reg, const Address& addr) { opLoadSeg(addr, reg, 0xC4, 0x100); }
+#endif
+#ifndef XBYAK_NO_OP_NAMES
+void and (const Operand& op1, const Operand& op2) { and_(op1, op2); }
+void and (const Operand& op, uint32_t imm) { and_(op, imm); }
+void or (const Operand& op1, const Operand& op2) { or_(op1, op2); }
+void or (const Operand& op, uint32_t imm) { or_(op, imm); }
+void xor (const Operand& op1, const Operand& op2) { xor_(op1, op2); } void xor
+    (const Operand& op, uint32_t imm) { xor_(op, imm); } void not(const Operand& op) {
+  not_(op);
+}
+#endif
+#ifndef XBYAK_DISABLE_AVX512
+void kaddb(const Opmask& r1, const Opmask& r2, const Opmask& r3) {
+  opVex(r1, &r2, r3, T_L1 | T_0F | T_66 | T_W0, 0x4A);
+}
+void kaddd(const Opmask& r1, const Opmask& r2, const Opmask& r3) {
+  opVex(r1, &r2, r3, T_L1 | T_0F | T_66 | T_W1, 0x4A);
+}
+void kaddq(const Opmask& r1, const Opmask& r2, const Opmask& r3) { opVex(r1, &r2, r3, T_L1 | T_0F | T_W1, 0x4A); }
+void kaddw(const Opmask& r1, const Opmask& r2, const Opmask& r3) { opVex(r1, &r2, r3, T_L1 | T_0F | T_W0, 0x4A); }
+void kandb(const Opmask& r1, const Opmask& r2, const Opmask& r3) {
+  opVex(r1, &r2, r3, T_L1 | T_0F | T_66 | T_W0, 0x41);
+}
+void kandd(const Opmask& r1, const Opmask& r2, const Opmask& r3) {
+  opVex(r1, &r2, r3, T_L1 | T_0F | T_66 | T_W1, 0x41);
+}
+void kandnb(const Opmask& r1, const Opmask& r2, const Opmask& r3) {
+  opVex(r1, &r2, r3, T_L1 | T_0F | T_66 | T_W0, 0x42);
+}
+void kandnd(const Opmask& r1, const Opmask& r2, const Opmask& r3) {
+  opVex(r1, &r2, r3, T_L1 | T_0F | T_66 | T_W1, 0x42);
+}
+void kandnq(const Opmask& r1, const Opmask& r2, const Opmask& r3) { opVex(r1, &r2, r3, T_L1 | T_0F | T_W1, 0x42); }
+void kandnw(const Opmask& r1, const Opmask& r2, const Opmask& r3) { opVex(r1, &r2, r3, T_L1 | T_0F | T_W0, 0x42); }
+void kandq(const Opmask& r1, const Opmask& r2, const Opmask& r3) { opVex(r1, &r2, r3, T_L1 | T_0F | T_W1, 0x41); }
+void kandw(const Opmask& r1, const Opmask& r2, const Opmask& r3) { opVex(r1, &r2, r3, T_L1 | T_0F | T_W0, 0x41); }
+void kmovb(const Address& addr, const Opmask& k) { opVex(k, 0, addr, T_L0 | T_0F | T_66 | T_W0, 0x91); }
+void kmovb(const Opmask& k, const Operand& op) {
+  if (!op.isMEM() && !op.isOPMASK()) XBYAK_THROW(ERR_BAD_COMBINATION) opVex(k, 0, op, T_L0 | T_0F | T_66 | T_W0, 0x90);
+}
+void kmovb(const Opmask& k, const Reg32& r) { opVex(k, 0, r, T_L0 | T_0F | T_66 | T_W0, 0x92); }
+void kmovb(const Reg32& r, const Opmask& k) { opVex(r, 0, k, T_L0 | T_0F | T_66 | T_W0, 0x93); }
+void kmovd(const Address& addr, const Opmask& k) { opVex(k, 0, addr, T_L0 | T_0F | T_66 | T_W1, 0x91); }
+void kmovd(const Opmask& k, const Operand& op) {
+  if (!op.isMEM() && !op.isOPMASK()) XBYAK_THROW(ERR_BAD_COMBINATION) opVex(k, 0, op, T_L0 | T_0F | T_66 | T_W1, 0x90);
+}
+void kmovd(const Opmask& k, const Reg32& r) { opVex(k, 0, r, T_L0 | T_0F | T_F2 | T_W0, 0x92); }
+void kmovd(const Reg32& r, const Opmask& k) { opVex(r, 0, k, T_L0 | T_0F | T_F2 | T_W0, 0x93); }
+void kmovq(const Address& addr, const Opmask& k) { opVex(k, 0, addr, T_L0 | T_0F | T_W1, 0x91); }
+void kmovq(const Opmask& k, const Operand& op) {
+  if (!op.isMEM() && !op.isOPMASK()) XBYAK_THROW(ERR_BAD_COMBINATION) opVex(k, 0, op, T_L0 | T_0F | T_W1, 0x90);
+}
+void kmovw(const Address& addr, const Opmask& k) { opVex(k, 0, addr, T_L0 | T_0F | T_W0, 0x91); }
+void kmovw(const Opmask& k, const Operand& op) {
+  if (!op.isMEM() && !op.isOPMASK()) XBYAK_THROW(ERR_BAD_COMBINATION) opVex(k, 0, op, T_L0 | T_0F | T_W0, 0x90);
+}
+void kmovw(const Opmask& k, const Reg32& r) { opVex(k, 0, r, T_L0 | T_0F | T_W0, 0x92); }
+void kmovw(const Reg32& r, const Opmask& k) { opVex(r, 0, k, T_L0 | T_0F | T_W0, 0x93); }
+void knotb(const Opmask& r1, const Opmask& r2) { opVex(r1, 0, r2, T_0F | T_66 | T_W0, 0x44); }
+void knotd(const Opmask& r1, const Opmask& r2) { opVex(r1, 0, r2, T_0F | T_66 | T_W1, 0x44); }
+void knotq(const Opmask& r1, const Opmask& r2) { opVex(r1, 0, r2, T_0F | T_W1, 0x44); }
+void knotw(const Opmask& r1, const Opmask& r2) { opVex(r1, 0, r2, T_0F | T_W0, 0x44); }
+void korb(const Opmask& r1, const Opmask& r2, const Opmask& r3) { opVex(r1, &r2, r3, T_L1 | T_0F | T_66 | T_W0, 0x45); }
+void kord(const Opmask& r1, const Opmask& r2, const Opmask& r3) { opVex(r1, &r2, r3, T_L1 | T_0F | T_66 | T_W1, 0x45); }
+void korq(const Opmask& r1, const Opmask& r2, const Opmask& r3) { opVex(r1, &r2, r3, T_L1 | T_0F | T_W1, 0x45); }
+void kortestb(const Opmask& r1, const Opmask& r2) { opVex(r1, 0, r2, T_0F | T_66 | T_W0, 0x98); }
+void kortestd(const Opmask& r1, const Opmask& r2) { opVex(r1, 0, r2, T_0F | T_66 | T_W1, 0x98); }
+void kortestq(const Opmask& r1, const Opmask& r2) { opVex(r1, 0, r2, T_0F | T_W1, 0x98); }
+void kortestw(const Opmask& r1, const Opmask& r2) { opVex(r1, 0, r2, T_0F | T_W0, 0x98); }
+void korw(const Opmask& r1, const Opmask& r2, const Opmask& r3) { opVex(r1, &r2, r3, T_L1 | T_0F | T_W0, 0x45); }
+void kshiftlb(const Opmask& r1, const Opmask& r2, uint8_t imm) { opVex(r1, 0, r2, T_66 | T_0F3A | T_W0, 0x32, imm); }
+void kshiftld(const Opmask& r1, const Opmask& r2, uint8_t imm) { opVex(r1, 0, r2, T_66 | T_0F3A | T_W0, 0x33, imm); }
+void kshiftlq(const Opmask& r1, const Opmask& r2, uint8_t imm) { opVex(r1, 0, r2, T_66 | T_0F3A | T_W1, 0x33, imm); }
+void kshiftlw(const Opmask& r1, const Opmask& r2, uint8_t imm) { opVex(r1, 0, r2, T_66 | T_0F3A | T_W1, 0x32, imm); }
+void kshiftrb(const Opmask& r1, const Opmask& r2, uint8_t imm) { opVex(r1, 0, r2, T_66 | T_0F3A | T_W0, 0x30, imm); }
+void kshiftrd(const Opmask& r1, const Opmask& r2, uint8_t imm) { opVex(r1, 0, r2, T_66 | T_0F3A | T_W0, 0x31, imm); }
+void kshiftrq(const Opmask& r1, const Opmask& r2, uint8_t imm) { opVex(r1, 0, r2, T_66 | T_0F3A | T_W1, 0x31, imm); }
+void kshiftrw(const Opmask& r1, const Opmask& r2, uint8_t imm) { opVex(r1, 0, r2, T_66 | T_0F3A | T_W1, 0x30, imm); }
+void ktestb(const Opmask& r1, const Opmask& r2) { opVex(r1, 0, r2, T_0F | T_66 | T_W0, 0x99); }
+void ktestd(const Opmask& r1, const Opmask& r2) { opVex(r1, 0, r2, T_0F | T_66 | T_W1, 0x99); }
+void ktestq(const Opmask& r1, const Opmask& r2) { opVex(r1, 0, r2, T_0F | T_W1, 0x99); }
+void ktestw(const Opmask& r1, const Opmask& r2) { opVex(r1, 0, r2, T_0F | T_W0, 0x99); }
+void kunpckbw(const Opmask& r1, const Opmask& r2, const Opmask& r3) {
+  opVex(r1, &r2, r3, T_L1 | T_0F | T_66 | T_W0, 0x4B);
+}
+void kunpckdq(const Opmask& r1, const Opmask& r2, const Opmask& r3) { opVex(r1, &r2, r3, T_L1 | T_0F | T_W1, 0x4B); }
+void kunpckwd(const Opmask& r1, const Opmask& r2, const Opmask& r3) { opVex(r1, &r2, r3, T_L1 | T_0F | T_W0, 0x4B); }
+void kxnorb(const Opmask& r1, const Opmask& r2, const Opmask& r3) {
+  opVex(r1, &r2, r3, T_L1 | T_0F | T_66 | T_W0, 0x46);
+}
+void kxnord(const Opmask& r1, const Opmask& r2, const Opmask& r3) {
+  opVex(r1, &r2, r3, T_L1 | T_0F | T_66 | T_W1, 0x46);
+}
+void kxnorq(const Opmask& r1, const Opmask& r2, const Opmask& r3) { opVex(r1, &r2, r3, T_L1 | T_0F | T_W1, 0x46); }
+void kxnorw(const Opmask& r1, const Opmask& r2, const Opmask& r3) { opVex(r1, &r2, r3, T_L1 | T_0F | T_W0, 0x46); }
+void kxorb(const Opmask& r1, const Opmask& r2, const Opmask& r3) {
+  opVex(r1, &r2, r3, T_L1 | T_0F | T_66 | T_W0, 0x47);
+}
+void kxord(const Opmask& r1, const Opmask& r2, const Opmask& r3) {
+  opVex(r1, &r2, r3, T_L1 | T_0F | T_66 | T_W1, 0x47);
+}
+void kxorq(const Opmask& r1, const Opmask& r2, const Opmask& r3) { opVex(r1, &r2, r3, T_L1 | T_0F | T_W1, 0x47); }
+void kxorw(const Opmask& r1, const Opmask& r2, const Opmask& r3) { opVex(r1, &r2, r3, T_L1 | T_0F | T_W0, 0x47); }
+void v4fmaddps(const Zmm& z1, const Zmm& z2, const Address& addr) {
+  opAVX_X_X_XM(z1, z2, addr, T_0F38 | T_F2 | T_EW0 | T_YMM | T_MUST_EVEX | T_N16, 0x9A);
+}
+void v4fmaddss(const Xmm& x1, const Xmm& x2, const Address& addr) {
+  opAVX_X_X_XM(x1, x2, addr, T_0F38 | T_F2 | T_EW0 | T_MUST_EVEX | T_N16, 0x9B);
+}
+void v4fnmaddps(const Zmm& z1, const Zmm& z2, const Address& addr) {
+  opAVX_X_X_XM(z1, z2, addr, T_0F38 | T_F2 | T_EW0 | T_YMM | T_MUST_EVEX | T_N16, 0xAA);
+}
+void v4fnmaddss(const Xmm& x1, const Xmm& x2, const Address& addr) {
+  opAVX_X_X_XM(x1, x2, addr, T_0F38 | T_F2 | T_EW0 | T_MUST_EVEX | T_N16, 0xAB);
+}
+void vaddph(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_MAP5 | T_EW0 | T_YMM | T_MUST_EVEX | T_ER_Z | T_B16, 0x58);
+}
+void vaddsh(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_MAP5 | T_F3 | T_EW0 | T_MUST_EVEX | T_ER_X | T_N2, 0x58);
+}
+void valignd(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F3A | T_EW0 | T_YMM | T_MUST_EVEX, 0x03, imm);
+}
+void valignq(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F3A | T_EW1 | T_YMM | T_MUST_EVEX, 0x03, imm);
+}
+void vblendmpd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX | T_B64, 0x65);
+}
+void vblendmps(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_B32, 0x65);
+}
+void vbroadcastf32x2(const Ymm& y, const Operand& op) {
+  opAVX_X_XM_IMM(y, op, T_66 | T_0F38 | T_YMM | T_MUST_EVEX | T_EW0 | T_N8, 0x19);
+}
+void vbroadcastf32x4(const Ymm& y, const Address& addr) {
+  opAVX_X_XM_IMM(y, addr, T_66 | T_0F38 | T_YMM | T_MUST_EVEX | T_EW0 | T_N16, 0x1A);
+}
+void vbroadcastf32x8(const Zmm& y, const Address& addr) {
+  opAVX_X_XM_IMM(y, addr, T_66 | T_0F38 | T_YMM | T_MUST_EVEX | T_EW0 | T_N32, 0x1B);
+}
+void vbroadcastf64x2(const Ymm& y, const Address& addr) {
+  opAVX_X_XM_IMM(y, addr, T_66 | T_0F38 | T_YMM | T_MUST_EVEX | T_EW1 | T_N16, 0x1A);
+}
+void vbroadcastf64x4(const Zmm& y, const Address& addr) {
+  opAVX_X_XM_IMM(y, addr, T_66 | T_0F38 | T_YMM | T_MUST_EVEX | T_EW1 | T_N32, 0x1B);
+}
+void vbroadcasti32x2(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_66 | T_0F38 | T_YMM | T_MUST_EVEX | T_EW0 | T_N8, 0x59);
+}
+void vbroadcasti32x4(const Ymm& y, const Operand& op) {
+  opAVX_X_XM_IMM(y, op, T_66 | T_0F38 | T_YMM | T_MUST_EVEX | T_EW0 | T_N16, 0x5A);
+}
+void vbroadcasti32x8(const Zmm& z, const Operand& op) {
+  opAVX_X_XM_IMM(z, op, T_66 | T_0F38 | T_YMM | T_MUST_EVEX | T_EW0 | T_N32, 0x5B);
+}
+void vbroadcasti64x2(const Ymm& y, const Operand& op) {
+  opAVX_X_XM_IMM(y, op, T_66 | T_0F38 | T_YMM | T_MUST_EVEX | T_EW1 | T_N16, 0x5A);
+}
+void vbroadcasti64x4(const Zmm& z, const Operand& op) {
+  opAVX_X_XM_IMM(z, op, T_66 | T_0F38 | T_YMM | T_MUST_EVEX | T_EW1 | T_N32, 0x5B);
+}
+void vcmpeq_ospd(const Opmask& k, const Xmm& x, const Operand& op) { vcmppd(k, x, op, 16); }
+void vcmpeq_osps(const Opmask& k, const Xmm& x, const Operand& op) { vcmpps(k, x, op, 16); }
+void vcmpeq_ossd(const Opmask& k, const Xmm& x, const Operand& op) { vcmpsd(k, x, op, 16); }
+void vcmpeq_osss(const Opmask& k, const Xmm& x, const Operand& op) { vcmpss(k, x, op, 16); }
+void vcmpeq_uqpd(const Opmask& k, const Xmm& x, const Operand& op) { vcmppd(k, x, op, 8); }
+void vcmpeq_uqps(const Opmask& k, const Xmm& x, const Operand& op) { vcmpps(k, x, op, 8); }
+void vcmpeq_uqsd(const Opmask& k, const Xmm& x, const Operand& op) { vcmpsd(k, x, op, 8); }
+void vcmpeq_uqss(const Opmask& k, const Xmm& x, const Operand& op) { vcmpss(k, x, op, 8); }
+void vcmpeq_uspd(const Opmask& k, const Xmm& x, const Operand& op) { vcmppd(k, x, op, 24); }
+void vcmpeq_usps(const Opmask& k, const Xmm& x, const Operand& op) { vcmpps(k, x, op, 24); }
+void vcmpeq_ussd(const Opmask& k, const Xmm& x, const Operand& op) { vcmpsd(k, x, op, 24); }
+void vcmpeq_usss(const Opmask& k, const Xmm& x, const Operand& op) { vcmpss(k, x, op, 24); }
+void vcmpeqpd(const Opmask& k, const Xmm& x, const Operand& op) { vcmppd(k, x, op, 0); }
+void vcmpeqps(const Opmask& k, const Xmm& x, const Operand& op) { vcmpps(k, x, op, 0); }
+void vcmpeqsd(const Opmask& k, const Xmm& x, const Operand& op) { vcmpsd(k, x, op, 0); }
+void vcmpeqss(const Opmask& k, const Xmm& x, const Operand& op) { vcmpss(k, x, op, 0); }
+void vcmpfalse_ospd(const Opmask& k, const Xmm& x, const Operand& op) { vcmppd(k, x, op, 27); }
+void vcmpfalse_osps(const Opmask& k, const Xmm& x, const Operand& op) { vcmpps(k, x, op, 27); }
+void vcmpfalse_ossd(const Opmask& k, const Xmm& x, const Operand& op) { vcmpsd(k, x, op, 27); }
+void vcmpfalse_osss(const Opmask& k, const Xmm& x, const Operand& op) { vcmpss(k, x, op, 27); }
+void vcmpfalsepd(const Opmask& k, const Xmm& x, const Operand& op) { vcmppd(k, x, op, 11); }
+void vcmpfalseps(const Opmask& k, const Xmm& x, const Operand& op) { vcmpps(k, x, op, 11); }
+void vcmpfalsesd(const Opmask& k, const Xmm& x, const Operand& op) { vcmpsd(k, x, op, 11); }
+void vcmpfalsess(const Opmask& k, const Xmm& x, const Operand& op) { vcmpss(k, x, op, 11); }
+void vcmpge_oqpd(const Opmask& k, const Xmm& x, const Operand& op) { vcmppd(k, x, op, 29); }
+void vcmpge_oqps(const Opmask& k, const Xmm& x, const Operand& op) { vcmpps(k, x, op, 29); }
+void vcmpge_oqsd(const Opmask& k, const Xmm& x, const Operand& op) { vcmpsd(k, x, op, 29); }
+void vcmpge_oqss(const Opmask& k, const Xmm& x, const Operand& op) { vcmpss(k, x, op, 29); }
+void vcmpgepd(const Opmask& k, const Xmm& x, const Operand& op) { vcmppd(k, x, op, 13); }
+void vcmpgeps(const Opmask& k, const Xmm& x, const Operand& op) { vcmpps(k, x, op, 13); }
+void vcmpgesd(const Opmask& k, const Xmm& x, const Operand& op) { vcmpsd(k, x, op, 13); }
+void vcmpgess(const Opmask& k, const Xmm& x, const Operand& op) { vcmpss(k, x, op, 13); }
+void vcmpgt_oqpd(const Opmask& k, const Xmm& x, const Operand& op) { vcmppd(k, x, op, 30); }
+void vcmpgt_oqps(const Opmask& k, const Xmm& x, const Operand& op) { vcmpps(k, x, op, 30); }
+void vcmpgt_oqsd(const Opmask& k, const Xmm& x, const Operand& op) { vcmpsd(k, x, op, 30); }
+void vcmpgt_oqss(const Opmask& k, const Xmm& x, const Operand& op) { vcmpss(k, x, op, 30); }
+void vcmpgtpd(const Opmask& k, const Xmm& x, const Operand& op) { vcmppd(k, x, op, 14); }
+void vcmpgtps(const Opmask& k, const Xmm& x, const Operand& op) { vcmpps(k, x, op, 14); }
+void vcmpgtsd(const Opmask& k, const Xmm& x, const Operand& op) { vcmpsd(k, x, op, 14); }
+void vcmpgtss(const Opmask& k, const Xmm& x, const Operand& op) { vcmpss(k, x, op, 14); }
+void vcmple_oqpd(const Opmask& k, const Xmm& x, const Operand& op) { vcmppd(k, x, op, 18); }
+void vcmple_oqps(const Opmask& k, const Xmm& x, const Operand& op) { vcmpps(k, x, op, 18); }
+void vcmple_oqsd(const Opmask& k, const Xmm& x, const Operand& op) { vcmpsd(k, x, op, 18); }
+void vcmple_oqss(const Opmask& k, const Xmm& x, const Operand& op) { vcmpss(k, x, op, 18); }
+void vcmplepd(const Opmask& k, const Xmm& x, const Operand& op) { vcmppd(k, x, op, 2); }
+void vcmpleps(const Opmask& k, const Xmm& x, const Operand& op) { vcmpps(k, x, op, 2); }
+void vcmplesd(const Opmask& k, const Xmm& x, const Operand& op) { vcmpsd(k, x, op, 2); }
+void vcmpless(const Opmask& k, const Xmm& x, const Operand& op) { vcmpss(k, x, op, 2); }
+void vcmplt_oqpd(const Opmask& k, const Xmm& x, const Operand& op) { vcmppd(k, x, op, 17); }
+void vcmplt_oqps(const Opmask& k, const Xmm& x, const Operand& op) { vcmpps(k, x, op, 17); }
+void vcmplt_oqsd(const Opmask& k, const Xmm& x, const Operand& op) { vcmpsd(k, x, op, 17); }
+void vcmplt_oqss(const Opmask& k, const Xmm& x, const Operand& op) { vcmpss(k, x, op, 17); }
+void vcmpltpd(const Opmask& k, const Xmm& x, const Operand& op) { vcmppd(k, x, op, 1); }
+void vcmpltps(const Opmask& k, const Xmm& x, const Operand& op) { vcmpps(k, x, op, 1); }
+void vcmpltsd(const Opmask& k, const Xmm& x, const Operand& op) { vcmpsd(k, x, op, 1); }
+void vcmpltss(const Opmask& k, const Xmm& x, const Operand& op) { vcmpss(k, x, op, 1); }
+void vcmpneq_oqpd(const Opmask& k, const Xmm& x, const Operand& op) { vcmppd(k, x, op, 12); }
+void vcmpneq_oqps(const Opmask& k, const Xmm& x, const Operand& op) { vcmpps(k, x, op, 12); }
+void vcmpneq_oqsd(const Opmask& k, const Xmm& x, const Operand& op) { vcmpsd(k, x, op, 12); }
+void vcmpneq_oqss(const Opmask& k, const Xmm& x, const Operand& op) { vcmpss(k, x, op, 12); }
+void vcmpneq_ospd(const Opmask& k, const Xmm& x, const Operand& op) { vcmppd(k, x, op, 28); }
+void vcmpneq_osps(const Opmask& k, const Xmm& x, const Operand& op) { vcmpps(k, x, op, 28); }
+void vcmpneq_ossd(const Opmask& k, const Xmm& x, const Operand& op) { vcmpsd(k, x, op, 28); }
+void vcmpneq_osss(const Opmask& k, const Xmm& x, const Operand& op) { vcmpss(k, x, op, 28); }
+void vcmpneq_uspd(const Opmask& k, const Xmm& x, const Operand& op) { vcmppd(k, x, op, 20); }
+void vcmpneq_usps(const Opmask& k, const Xmm& x, const Operand& op) { vcmpps(k, x, op, 20); }
+void vcmpneq_ussd(const Opmask& k, const Xmm& x, const Operand& op) { vcmpsd(k, x, op, 20); }
+void vcmpneq_usss(const Opmask& k, const Xmm& x, const Operand& op) { vcmpss(k, x, op, 20); }
+void vcmpneqpd(const Opmask& k, const Xmm& x, const Operand& op) { vcmppd(k, x, op, 4); }
+void vcmpneqps(const Opmask& k, const Xmm& x, const Operand& op) { vcmpps(k, x, op, 4); }
+void vcmpneqsd(const Opmask& k, const Xmm& x, const Operand& op) { vcmpsd(k, x, op, 4); }
+void vcmpneqss(const Opmask& k, const Xmm& x, const Operand& op) { vcmpss(k, x, op, 4); }
+void vcmpnge_uqpd(const Opmask& k, const Xmm& x, const Operand& op) { vcmppd(k, x, op, 25); }
+void vcmpnge_uqps(const Opmask& k, const Xmm& x, const Operand& op) { vcmpps(k, x, op, 25); }
+void vcmpnge_uqsd(const Opmask& k, const Xmm& x, const Operand& op) { vcmpsd(k, x, op, 25); }
+void vcmpnge_uqss(const Opmask& k, const Xmm& x, const Operand& op) { vcmpss(k, x, op, 25); }
+void vcmpngepd(const Opmask& k, const Xmm& x, const Operand& op) { vcmppd(k, x, op, 9); }
+void vcmpngeps(const Opmask& k, const Xmm& x, const Operand& op) { vcmpps(k, x, op, 9); }
+void vcmpngesd(const Opmask& k, const Xmm& x, const Operand& op) { vcmpsd(k, x, op, 9); }
+void vcmpngess(const Opmask& k, const Xmm& x, const Operand& op) { vcmpss(k, x, op, 9); }
+void vcmpngt_uqpd(const Opmask& k, const Xmm& x, const Operand& op) { vcmppd(k, x, op, 26); }
+void vcmpngt_uqps(const Opmask& k, const Xmm& x, const Operand& op) { vcmpps(k, x, op, 26); }
+void vcmpngt_uqsd(const Opmask& k, const Xmm& x, const Operand& op) { vcmpsd(k, x, op, 26); }
+void vcmpngt_uqss(const Opmask& k, const Xmm& x, const Operand& op) { vcmpss(k, x, op, 26); }
+void vcmpngtpd(const Opmask& k, const Xmm& x, const Operand& op) { vcmppd(k, x, op, 10); }
+void vcmpngtps(const Opmask& k, const Xmm& x, const Operand& op) { vcmpps(k, x, op, 10); }
+void vcmpngtsd(const Opmask& k, const Xmm& x, const Operand& op) { vcmpsd(k, x, op, 10); }
+void vcmpngtss(const Opmask& k, const Xmm& x, const Operand& op) { vcmpss(k, x, op, 10); }
+void vcmpnle_uqpd(const Opmask& k, const Xmm& x, const Operand& op) { vcmppd(k, x, op, 22); }
+void vcmpnle_uqps(const Opmask& k, const Xmm& x, const Operand& op) { vcmpps(k, x, op, 22); }
+void vcmpnle_uqsd(const Opmask& k, const Xmm& x, const Operand& op) { vcmpsd(k, x, op, 22); }
+void vcmpnle_uqss(const Opmask& k, const Xmm& x, const Operand& op) { vcmpss(k, x, op, 22); }
+void vcmpnlepd(const Opmask& k, const Xmm& x, const Operand& op) { vcmppd(k, x, op, 6); }
+void vcmpnleps(const Opmask& k, const Xmm& x, const Operand& op) { vcmpps(k, x, op, 6); }
+void vcmpnlesd(const Opmask& k, const Xmm& x, const Operand& op) { vcmpsd(k, x, op, 6); }
+void vcmpnless(const Opmask& k, const Xmm& x, const Operand& op) { vcmpss(k, x, op, 6); }
+void vcmpnlt_uqpd(const Opmask& k, const Xmm& x, const Operand& op) { vcmppd(k, x, op, 21); }
+void vcmpnlt_uqps(const Opmask& k, const Xmm& x, const Operand& op) { vcmpps(k, x, op, 21); }
+void vcmpnlt_uqsd(const Opmask& k, const Xmm& x, const Operand& op) { vcmpsd(k, x, op, 21); }
+void vcmpnlt_uqss(const Opmask& k, const Xmm& x, const Operand& op) { vcmpss(k, x, op, 21); }
+void vcmpnltpd(const Opmask& k, const Xmm& x, const Operand& op) { vcmppd(k, x, op, 5); }
+void vcmpnltps(const Opmask& k, const Xmm& x, const Operand& op) { vcmpps(k, x, op, 5); }
+void vcmpnltsd(const Opmask& k, const Xmm& x, const Operand& op) { vcmpsd(k, x, op, 5); }
+void vcmpnltss(const Opmask& k, const Xmm& x, const Operand& op) { vcmpss(k, x, op, 5); }
+void vcmpord_spd(const Opmask& k, const Xmm& x, const Operand& op) { vcmppd(k, x, op, 23); }
+void vcmpord_sps(const Opmask& k, const Xmm& x, const Operand& op) { vcmpps(k, x, op, 23); }
+void vcmpord_ssd(const Opmask& k, const Xmm& x, const Operand& op) { vcmpsd(k, x, op, 23); }
+void vcmpord_sss(const Opmask& k, const Xmm& x, const Operand& op) { vcmpss(k, x, op, 23); }
+void vcmpordpd(const Opmask& k, const Xmm& x, const Operand& op) { vcmppd(k, x, op, 7); }
+void vcmpordps(const Opmask& k, const Xmm& x, const Operand& op) { vcmpps(k, x, op, 7); }
+void vcmpordsd(const Opmask& k, const Xmm& x, const Operand& op) { vcmpsd(k, x, op, 7); }
+void vcmpordss(const Opmask& k, const Xmm& x, const Operand& op) { vcmpss(k, x, op, 7); }
+void vcmppd(const Opmask& k, const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_K_X_XM(k, x, op, T_66 | T_0F | T_EW1 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B64, 0xC2, imm);
+}
+void vcmpph(const Opmask& k, const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_K_X_XM(k, x, op, T_0F3A | T_EW0 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B16, 0xC2, imm);
+}
+void vcmpps(const Opmask& k, const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_K_X_XM(k, x, op, T_0F | T_EW0 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B32, 0xC2, imm);
+}
+void vcmpsd(const Opmask& k, const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_K_X_XM(k, x, op, T_N8 | T_F2 | T_0F | T_EW1 | T_SAE_Z | T_MUST_EVEX, 0xC2, imm);
+}
+void vcmpsh(const Opmask& k, const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_K_X_XM(k, x, op, T_N2 | T_F3 | T_0F3A | T_EW0 | T_SAE_X | T_MUST_EVEX, 0xC2, imm);
+}
+void vcmpss(const Opmask& k, const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_K_X_XM(k, x, op, T_N4 | T_F3 | T_0F | T_EW0 | T_SAE_Z | T_MUST_EVEX, 0xC2, imm);
+}
+void vcmptrue_uspd(const Opmask& k, const Xmm& x, const Operand& op) { vcmppd(k, x, op, 31); }
+void vcmptrue_usps(const Opmask& k, const Xmm& x, const Operand& op) { vcmpps(k, x, op, 31); }
+void vcmptrue_ussd(const Opmask& k, const Xmm& x, const Operand& op) { vcmpsd(k, x, op, 31); }
+void vcmptrue_usss(const Opmask& k, const Xmm& x, const Operand& op) { vcmpss(k, x, op, 31); }
+void vcmptruepd(const Opmask& k, const Xmm& x, const Operand& op) { vcmppd(k, x, op, 15); }
+void vcmptrueps(const Opmask& k, const Xmm& x, const Operand& op) { vcmpps(k, x, op, 15); }
+void vcmptruesd(const Opmask& k, const Xmm& x, const Operand& op) { vcmpsd(k, x, op, 15); }
+void vcmptruess(const Opmask& k, const Xmm& x, const Operand& op) { vcmpss(k, x, op, 15); }
+void vcmpunord_spd(const Opmask& k, const Xmm& x, const Operand& op) { vcmppd(k, x, op, 19); }
+void vcmpunord_sps(const Opmask& k, const Xmm& x, const Operand& op) { vcmpps(k, x, op, 19); }
+void vcmpunord_ssd(const Opmask& k, const Xmm& x, const Operand& op) { vcmpsd(k, x, op, 19); }
+void vcmpunord_sss(const Opmask& k, const Xmm& x, const Operand& op) { vcmpss(k, x, op, 19); }
+void vcmpunordpd(const Opmask& k, const Xmm& x, const Operand& op) { vcmppd(k, x, op, 3); }
+void vcmpunordps(const Opmask& k, const Xmm& x, const Operand& op) { vcmpps(k, x, op, 3); }
+void vcmpunordsd(const Opmask& k, const Xmm& x, const Operand& op) { vcmpsd(k, x, op, 3); }
+void vcmpunordss(const Opmask& k, const Xmm& x, const Operand& op) { vcmpss(k, x, op, 3); }
+void vcomish(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_MAP5 | T_MUST_EVEX | T_EW0 | T_SAE_X | T_N2, 0x2F);
+}
+void vcompressb(const Operand& op, const Xmm& x) {
+  opAVX_X_XM_IMM(x, op, T_N1 | T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX, 0x63);
+}
+void vcompresspd(const Operand& op, const Xmm& x) {
+  opAVX_X_XM_IMM(x, op, T_N8 | T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX, 0x8A);
+}
+void vcompressps(const Operand& op, const Xmm& x) {
+  opAVX_X_XM_IMM(x, op, T_N4 | T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX, 0x8A);
+}
+void vcompressw(const Operand& op, const Xmm& x) {
+  opAVX_X_XM_IMM(x, op, T_N2 | T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX, 0x63);
+}
+void vcvtdq2ph(const Xmm& x, const Operand& op) {
+  checkCvt4(x, op);
+  opCvt(x, op, T_N16 | T_N_VL | T_MAP5 | T_EW0 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B32, 0x5B);
+}
+void vcvtne2ps2bf16(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_F2 | T_0F38 | T_EW0 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B32, 0x72);
+}
+void vcvtpd2ph(const Xmm& x, const Operand& op) {
+  opCvt5(x, op, T_N16 | T_N_VL | T_66 | T_MAP5 | T_EW1 | T_ER_Z | T_MUST_EVEX | T_B64, 0x5A);
+}
+void vcvtpd2qq(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_66 | T_0F | T_EW1 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B64, 0x7B);
+}
+void vcvtpd2udq(const Xmm& x, const Operand& op) {
+  opCvt2(x, op, T_0F | T_EW1 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B64, 0x79);
+}
+void vcvtpd2uqq(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_66 | T_0F | T_EW1 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B64, 0x79);
+}
+void vcvtph2dq(const Xmm& x, const Operand& op) {
+  checkCvt1(x, op);
+  opVex(x, 0, op, T_N8 | T_N_VL | T_66 | T_MAP5 | T_EW0 | T_YMM | T_ER_Y | T_MUST_EVEX | T_B16, 0x5B);
+}
+void vcvtph2pd(const Xmm& x, const Operand& op) {
+  if (!op.isXMM() && !op.isMEM())
+    XBYAK_THROW(ERR_BAD_MEM_SIZE)
+    opVex(x, 0, op, T_N4 | T_N_VL | T_MAP5 | T_EW0 | T_YMM | T_SAE_X | T_MUST_EVEX | T_B16, 0x5A);
+}
+void vcvtph2psx(const Xmm& x, const Operand& op) {
+  checkCvt1(x, op);
+  opVex(x, 0, op, T_N8 | T_N_VL | T_66 | T_MAP6 | T_EW0 | T_YMM | T_SAE_Y | T_MUST_EVEX | T_B16, 0x13);
+}
+void vcvtph2qq(const Xmm& x, const Operand& op) {
+  if (!op.isXMM() && !op.isMEM())
+    XBYAK_THROW(ERR_BAD_MEM_SIZE)
+    opVex(x, 0, op, T_N4 | T_N_VL | T_66 | T_MAP5 | T_EW0 | T_YMM | T_ER_X | T_MUST_EVEX | T_B16, 0x7B);
+}
+void vcvtph2udq(const Xmm& x, const Operand& op) {
+  checkCvt1(x, op);
+  opVex(x, 0, op, T_N8 | T_N_VL | T_MAP5 | T_EW0 | T_YMM | T_ER_Y | T_MUST_EVEX | T_B16, 0x79);
+}
+void vcvtph2uqq(const Xmm& x, const Operand& op) {
+  if (!op.isXMM() && !op.isMEM())
+    XBYAK_THROW(ERR_BAD_MEM_SIZE)
+    opVex(x, 0, op, T_N4 | T_N_VL | T_66 | T_MAP5 | T_EW0 | T_YMM | T_ER_X | T_MUST_EVEX | T_B16, 0x79);
+}
+void vcvtph2uw(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_MAP5 | T_EW0 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B16, 0x7D);
+}
+void vcvtph2w(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_66 | T_MAP5 | T_EW0 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B16, 0x7D);
+}
+void vcvtps2phx(const Xmm& x, const Operand& op) {
+  checkCvt4(x, op);
+  opCvt(x, op, T_N16 | T_N_VL | T_66 | T_MAP5 | T_EW0 | T_ER_Z | T_MUST_EVEX | T_B32, 0x1D);
+}
+void vcvtps2qq(const Xmm& x, const Operand& op) {
+  checkCvt1(x, op);
+  opVex(x, 0, op, T_N8 | T_N_VL | T_66 | T_0F | T_EW0 | T_YMM | T_ER_Y | T_MUST_EVEX | T_B32, 0x7B);
+}
+void vcvtps2udq(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_0F | T_EW0 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B32, 0x79);
+}
+void vcvtps2uqq(const Xmm& x, const Operand& op) {
+  checkCvt1(x, op);
+  opVex(x, 0, op, T_N8 | T_N_VL | T_66 | T_0F | T_EW0 | T_YMM | T_ER_Y | T_MUST_EVEX | T_B32, 0x79);
+}
+void vcvtqq2pd(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_F3 | T_0F | T_EW1 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B64, 0xE6);
+}
+void vcvtqq2ph(const Xmm& x, const Operand& op) {
+  opCvt5(x, op, T_N16 | T_N_VL | T_MAP5 | T_EW1 | T_ER_Z | T_MUST_EVEX | T_B64, 0x5B);
+}
+void vcvtqq2ps(const Xmm& x, const Operand& op) {
+  opCvt2(x, op, T_0F | T_EW1 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B64, 0x5B);
+}
+void vcvtsd2sh(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N8 | T_F2 | T_MAP5 | T_EW1 | T_ER_X | T_MUST_EVEX, 0x5A);
+}
+void vcvtsd2usi(const Reg32e& r, const Operand& op) {
+  int type = (T_N8 | T_F2 | T_0F | T_ER_X | T_MUST_EVEX) | (r.isREG(64) ? T_EW1 : T_EW0);
+  opVex(r, &xm0, op, type, 0x79);
+}
+void vcvtsh2sd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N2 | T_F3 | T_MAP5 | T_EW0 | T_SAE_X | T_MUST_EVEX, 0x5A);
+}
+void vcvtsh2si(const Reg32e& r, const Operand& op) {
+  int type = (T_N2 | T_F3 | T_MAP5 | T_ER_X | T_MUST_EVEX) | (r.isREG(64) ? T_EW1 : T_EW0);
+  opVex(r, &xm0, op, type, 0x2D);
+}
+void vcvtsh2ss(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N2 | T_MAP6 | T_EW0 | T_SAE_X | T_MUST_EVEX, 0x13);
+}
+void vcvtsh2usi(const Reg32e& r, const Operand& op) {
+  int type = (T_N2 | T_F3 | T_MAP5 | T_ER_X | T_MUST_EVEX) | (r.isREG(64) ? T_EW1 : T_EW0);
+  opVex(r, &xm0, op, type, 0x79);
+}
+void vcvtsi2sh(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  if (!(x1.isXMM() && x2.isXMM() && op.isBit(32 | 64)))
+    XBYAK_THROW(ERR_BAD_COMBINATION)
+    int type = (T_F3 | T_MAP5 | T_ER_R | T_MUST_EVEX | T_M_K) | (op.isBit(32) ? (T_EW0 | T_N4) : (T_EW1 | T_N8));
+  opVex(x1, &x2, op, type, 0x2A);
+}
+void vcvtss2sh(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N4 | T_MAP5 | T_EW0 | T_ER_X | T_MUST_EVEX, 0x1D);
+}
+void vcvtss2usi(const Reg32e& r, const Operand& op) {
+  int type = (T_N4 | T_F3 | T_0F | T_ER_X | T_MUST_EVEX) | (r.isREG(64) ? T_EW1 : T_EW0);
+  opVex(r, &xm0, op, type, 0x79);
+}
+void vcvttpd2qq(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_66 | T_0F | T_EW1 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B64, 0x7A);
+}
+void vcvttpd2udq(const Xmm& x, const Operand& op) {
+  opCvt2(x, op, T_0F | T_EW1 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B64, 0x78);
+}
+void vcvttpd2uqq(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_66 | T_0F | T_EW1 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B64, 0x78);
+}
+void vcvttph2dq(const Xmm& x, const Operand& op) {
+  checkCvt1(x, op);
+  opVex(x, 0, op, T_N8 | T_N_VL | T_F3 | T_MAP5 | T_EW0 | T_YMM | T_SAE_Y | T_MUST_EVEX | T_B16, 0x5B);
+}
+void vcvttph2qq(const Xmm& x, const Operand& op) {
+  if (!op.isXMM() && !op.isMEM())
+    XBYAK_THROW(ERR_BAD_MEM_SIZE)
+    opVex(x, 0, op, T_N4 | T_N_VL | T_66 | T_MAP5 | T_EW0 | T_YMM | T_SAE_X | T_MUST_EVEX | T_B16, 0x7A);
+}
+void vcvttph2udq(const Xmm& x, const Operand& op) {
+  checkCvt1(x, op);
+  opVex(x, 0, op, T_N8 | T_N_VL | T_MAP5 | T_EW0 | T_YMM | T_SAE_Y | T_MUST_EVEX | T_B16, 0x78);
+}
+void vcvttph2uqq(const Xmm& x, const Operand& op) {
+  if (!op.isXMM() && !op.isMEM())
+    XBYAK_THROW(ERR_BAD_MEM_SIZE)
+    opVex(x, 0, op, T_N4 | T_N_VL | T_66 | T_MAP5 | T_EW0 | T_YMM | T_SAE_X | T_MUST_EVEX | T_B16, 0x78);
+}
+void vcvttph2uw(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_MAP5 | T_EW0 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B16, 0x7C);
+}
+void vcvttph2w(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_66 | T_MAP5 | T_EW0 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B16, 0x7C);
+}
+void vcvttps2qq(const Xmm& x, const Operand& op) {
+  checkCvt1(x, op);
+  opVex(x, 0, op, T_N8 | T_N_VL | T_66 | T_0F | T_EW0 | T_YMM | T_SAE_Y | T_MUST_EVEX | T_B32, 0x7A);
+}
+void vcvttps2udq(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_0F | T_EW0 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B32, 0x78);
+}
+void vcvttps2uqq(const Xmm& x, const Operand& op) {
+  checkCvt1(x, op);
+  opVex(x, 0, op, T_N8 | T_N_VL | T_66 | T_0F | T_EW0 | T_YMM | T_SAE_Y | T_MUST_EVEX | T_B32, 0x78);
+}
+void vcvttsd2usi(const Reg32e& r, const Operand& op) {
+  int type = (T_N8 | T_F2 | T_0F | T_SAE_X | T_MUST_EVEX) | (r.isREG(64) ? T_EW1 : T_EW0);
+  opVex(r, &xm0, op, type, 0x78);
+}
+void vcvttsh2si(const Reg32e& r, const Operand& op) {
+  int type = (T_N2 | T_F3 | T_MAP5 | T_EW0 | T_SAE_X | T_MUST_EVEX) | (r.isREG(64) ? T_EW1 : T_EW0);
+  opVex(r, &xm0, op, type, 0x2C);
+}
+void vcvttsh2usi(const Reg32e& r, const Operand& op) {
+  int type = (T_N2 | T_F3 | T_MAP5 | T_EW0 | T_SAE_X | T_MUST_EVEX) | (r.isREG(64) ? T_EW1 : T_EW0);
+  opVex(r, &xm0, op, type, 0x78);
+}
+void vcvttss2usi(const Reg32e& r, const Operand& op) {
+  int type = (T_N4 | T_F3 | T_0F | T_SAE_X | T_MUST_EVEX) | (r.isREG(64) ? T_EW1 : T_EW0);
+  opVex(r, &xm0, op, type, 0x78);
+}
+void vcvtudq2pd(const Xmm& x, const Operand& op) {
+  checkCvt1(x, op);
+  opVex(x, 0, op, T_N8 | T_N_VL | T_F3 | T_0F | T_EW0 | T_YMM | T_MUST_EVEX | T_B32, 0x7A);
+}
+void vcvtudq2ph(const Xmm& x, const Operand& op) {
+  checkCvt4(x, op);
+  opCvt(x, op, T_N16 | T_N_VL | T_F2 | T_MAP5 | T_EW0 | T_ER_Z | T_MUST_EVEX | T_B32, 0x7A);
+}
+void vcvtudq2ps(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_F2 | T_0F | T_EW0 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B32, 0x7A);
+}
+void vcvtuqq2pd(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_F3 | T_0F | T_EW1 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B64, 0x7A);
+}
+void vcvtuqq2ph(const Xmm& x, const Operand& op) {
+  opCvt5(x, op, T_N16 | T_N_VL | T_F2 | T_MAP5 | T_EW1 | T_ER_Z | T_MUST_EVEX | T_B64, 0x7A);
+}
+void vcvtuqq2ps(const Xmm& x, const Operand& op) {
+  opCvt2(x, op, T_F2 | T_0F | T_EW1 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B64, 0x7A);
+}
+void vcvtusi2sd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opCvt3(x1, x2, op, T_F2 | T_0F | T_MUST_EVEX, T_W1 | T_EW1 | T_ER_X | T_N8, T_W0 | T_EW0 | T_N4, 0x7B);
+}
+void vcvtusi2sh(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  if (!(x1.isXMM() && x2.isXMM() && op.isBit(32 | 64)))
+    XBYAK_THROW(ERR_BAD_COMBINATION)
+    int type = (T_F3 | T_MAP5 | T_ER_R | T_MUST_EVEX | T_M_K) | (op.isBit(32) ? (T_EW0 | T_N4) : (T_EW1 | T_N8));
+  opVex(x1, &x2, op, type, 0x7B);
+}
+void vcvtusi2ss(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opCvt3(x1, x2, op, T_F3 | T_0F | T_MUST_EVEX | T_ER_X, T_W1 | T_EW1 | T_N8, T_W0 | T_EW0 | T_N4, 0x7B);
+}
+void vcvtuw2ph(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_F2 | T_MAP5 | T_EW0 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B16, 0x7D);
+}
+void vcvtw2ph(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_F3 | T_MAP5 | T_EW0 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B16, 0x7D);
+}
+void vdbpsadbw(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F3A | T_EW0 | T_YMM | T_MUST_EVEX, 0x42, imm);
+}
+void vdivph(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_MAP5 | T_EW0 | T_YMM | T_MUST_EVEX | T_ER_Z | T_B16, 0x5E);
+}
+void vdivsh(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_MAP5 | T_F3 | T_EW0 | T_MUST_EVEX | T_ER_X | T_N2, 0x5E);
+}
+void vdpbf16ps(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_F3 | T_0F38 | T_EW0 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B32, 0x52);
+}
+void vexp2pd(const Zmm& z, const Operand& op) {
+  opAVX_X_XM_IMM(z, op, T_66 | T_0F38 | T_MUST_EVEX | T_YMM | T_EW1 | T_B64 | T_SAE_Z, 0xC8);
+}
+void vexp2ps(const Zmm& z, const Operand& op) {
+  opAVX_X_XM_IMM(z, op, T_66 | T_0F38 | T_MUST_EVEX | T_YMM | T_EW0 | T_B32 | T_SAE_Z, 0xC8);
+}
+void vexpandpd(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_N8 | T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX, 0x88);
+}
+void vexpandps(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_N4 | T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX, 0x88);
+}
+void vextractf32x4(const Operand& op, const Ymm& r, uint8_t imm) {
+  if (!op.is(Operand::MEM | Operand::XMM))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opVex(r, 0, op, T_N16 | T_66 | T_0F3A | T_EW0 | T_YMM | T_MUST_EVEX, 0x19, imm);
+}
+void vextractf32x8(const Operand& op, const Zmm& r, uint8_t imm) {
+  if (!op.is(Operand::MEM | Operand::YMM))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opVex(r, 0, op, T_N32 | T_66 | T_0F3A | T_EW0 | T_YMM | T_MUST_EVEX, 0x1B, imm);
+}
+void vextractf64x2(const Operand& op, const Ymm& r, uint8_t imm) {
+  if (!op.is(Operand::MEM | Operand::XMM))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opVex(r, 0, op, T_N16 | T_66 | T_0F3A | T_EW1 | T_YMM | T_MUST_EVEX, 0x19, imm);
+}
+void vextractf64x4(const Operand& op, const Zmm& r, uint8_t imm) {
+  if (!op.is(Operand::MEM | Operand::YMM))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opVex(r, 0, op, T_N32 | T_66 | T_0F3A | T_EW1 | T_YMM | T_MUST_EVEX, 0x1B, imm);
+}
+void vextracti32x4(const Operand& op, const Ymm& r, uint8_t imm) {
+  if (!op.is(Operand::MEM | Operand::XMM))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opVex(r, 0, op, T_N16 | T_66 | T_0F3A | T_EW0 | T_YMM | T_MUST_EVEX, 0x39, imm);
+}
+void vextracti32x8(const Operand& op, const Zmm& r, uint8_t imm) {
+  if (!op.is(Operand::MEM | Operand::YMM))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opVex(r, 0, op, T_N32 | T_66 | T_0F3A | T_EW0 | T_YMM | T_MUST_EVEX, 0x3B, imm);
+}
+void vextracti64x2(const Operand& op, const Ymm& r, uint8_t imm) {
+  if (!op.is(Operand::MEM | Operand::XMM))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opVex(r, 0, op, T_N16 | T_66 | T_0F3A | T_EW1 | T_YMM | T_MUST_EVEX, 0x39, imm);
+}
+void vextracti64x4(const Operand& op, const Zmm& r, uint8_t imm) {
+  if (!op.is(Operand::MEM | Operand::YMM))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opVex(r, 0, op, T_N32 | T_66 | T_0F3A | T_EW1 | T_YMM | T_MUST_EVEX, 0x3B, imm);
+}
+void vfcmaddcph(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_F2 | T_MAP6 | T_EW0 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B32, 0x56);
+}
+void vfcmulcph(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_F2 | T_MAP6 | T_EW0 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B32, 0xD6);
+}
+void vfixupimmpd(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F3A | T_EW1 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B64, 0x54, imm);
+}
+void vfixupimmps(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F3A | T_EW0 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B32, 0x54, imm);
+}
+void vfixupimmsd(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_N8 | T_66 | T_0F3A | T_EW1 | T_SAE_Z | T_MUST_EVEX, 0x55, imm);
+}
+void vfixupimmss(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_N4 | T_66 | T_0F3A | T_EW0 | T_SAE_Z | T_MUST_EVEX, 0x55, imm);
+}
+void vfmadd132ph(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_MAP6 | T_EW0 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B16, 0x98);
+}
+void vfmadd132sh(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N2 | T_66 | T_MAP6 | T_EW0 | T_ER_X | T_MUST_EVEX, 0x99);
+}
+void vfmadd213ph(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_MAP6 | T_EW0 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B16, 0xA8);
+}
+void vfmadd213sh(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N2 | T_66 | T_MAP6 | T_EW0 | T_ER_X | T_MUST_EVEX, 0xA9);
+}
+void vfmadd231ph(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_MAP6 | T_EW0 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B16, 0xB8);
+}
+void vfmadd231sh(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N2 | T_66 | T_MAP6 | T_EW0 | T_ER_X | T_MUST_EVEX, 0xB9);
+}
+void vfmaddcph(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_F3 | T_MAP6 | T_EW0 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B32, 0x56);
+}
+void vfmaddsub132ph(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_MAP6 | T_EW0 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B16, 0x96);
+}
+void vfmaddsub213ph(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_MAP6 | T_EW0 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B16, 0xA6);
+}
+void vfmaddsub231ph(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_MAP6 | T_EW0 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B16, 0xB6);
+}
+void vfmsub132ph(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_MAP6 | T_EW0 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B16, 0x9A);
+}
+void vfmsub132sh(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N2 | T_66 | T_MAP6 | T_EW0 | T_ER_X | T_MUST_EVEX, 0x9B);
+}
+void vfmsub213ph(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_MAP6 | T_EW0 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B16, 0xAA);
+}
+void vfmsub213sh(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N2 | T_66 | T_MAP6 | T_EW0 | T_ER_X | T_MUST_EVEX, 0xAB);
+}
+void vfmsub231ph(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_MAP6 | T_EW0 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B16, 0xBA);
+}
+void vfmsub231sh(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N2 | T_66 | T_MAP6 | T_EW0 | T_ER_X | T_MUST_EVEX, 0xBB);
+}
+void vfmsubadd132ph(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_MAP6 | T_EW0 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B16, 0x97);
+}
+void vfmsubadd213ph(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_MAP6 | T_EW0 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B16, 0xA7);
+}
+void vfmsubadd231ph(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_MAP6 | T_EW0 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B16, 0xB7);
+}
+void vfmulcph(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_F3 | T_MAP6 | T_EW0 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B32, 0xD6);
+}
+void vfnmadd132ph(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_MAP6 | T_EW0 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B16, 0x9C);
+}
+void vfnmadd132sh(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N2 | T_66 | T_MAP6 | T_EW0 | T_ER_X | T_MUST_EVEX, 0x9D);
+}
+void vfnmadd213ph(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_MAP6 | T_EW0 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B16, 0xAC);
+}
+void vfnmadd213sh(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N2 | T_66 | T_MAP6 | T_EW0 | T_ER_X | T_MUST_EVEX, 0xAD);
+}
+void vfnmadd231ph(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_MAP6 | T_EW0 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B16, 0xBC);
+}
+void vfnmadd231sh(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N2 | T_66 | T_MAP6 | T_EW0 | T_ER_X | T_MUST_EVEX, 0xBD);
+}
+void vfnmsub132ph(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_MAP6 | T_EW0 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B16, 0x9E);
+}
+void vfnmsub132sh(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N2 | T_66 | T_MAP6 | T_EW0 | T_ER_X | T_MUST_EVEX, 0x9F);
+}
+void vfnmsub213ph(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_MAP6 | T_EW0 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B16, 0xAE);
+}
+void vfnmsub213sh(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N2 | T_66 | T_MAP6 | T_EW0 | T_ER_X | T_MUST_EVEX, 0xAF);
+}
+void vfnmsub231ph(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_MAP6 | T_EW0 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B16, 0xBE);
+}
+void vfnmsub231sh(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N2 | T_66 | T_MAP6 | T_EW0 | T_ER_X | T_MUST_EVEX, 0xBF);
+}
+void vfpclasspd(const Opmask& k, const Operand& op, uint8_t imm) {
+  if (!op.isBit(128 | 256 | 512))
+    XBYAK_THROW(ERR_BAD_MEM_SIZE)
+    opVex(k.changeBit(op.getBit()), 0, op, T_66 | T_0F3A | T_MUST_EVEX | T_YMM | T_EW1 | T_B64, 0x66, imm);
+}
+void vfpclassph(const Opmask& k, const Operand& op, uint8_t imm) {
+  if (!op.isBit(128 | 256 | 512))
+    XBYAK_THROW(ERR_BAD_MEM_SIZE)
+    opVex(k.changeBit(op.getBit()), 0, op, T_0F3A | T_MUST_EVEX | T_YMM | T_EW0 | T_B16, 0x66, imm);
+}
+void vfpclassps(const Opmask& k, const Operand& op, uint8_t imm) {
+  if (!op.isBit(128 | 256 | 512))
+    XBYAK_THROW(ERR_BAD_MEM_SIZE)
+    opVex(k.changeBit(op.getBit()), 0, op, T_66 | T_0F3A | T_MUST_EVEX | T_YMM | T_EW0 | T_B32, 0x66, imm);
+}
+void vfpclasssd(const Opmask& k, const Operand& op, uint8_t imm) {
+  if (!op.isXMEM())
+    XBYAK_THROW(ERR_BAD_MEM_SIZE) opVex(k, 0, op, T_66 | T_0F3A | T_MUST_EVEX | T_EW1 | T_N8, 0x67, imm);
+}
+void vfpclasssh(const Opmask& k, const Operand& op, uint8_t imm) {
+  if (!op.isXMEM()) XBYAK_THROW(ERR_BAD_MEM_SIZE) opVex(k, 0, op, T_0F3A | T_MUST_EVEX | T_EW0 | T_N2, 0x67, imm);
+}
+void vfpclassss(const Opmask& k, const Operand& op, uint8_t imm) {
+  if (!op.isXMEM())
+    XBYAK_THROW(ERR_BAD_MEM_SIZE) opVex(k, 0, op, T_66 | T_0F3A | T_MUST_EVEX | T_EW0 | T_N4, 0x67, imm);
+}
+void vgatherdpd(const Xmm& x, const Address& addr) {
+  opGather2(x, addr, T_N8 | T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX | T_VSIB, 0x92, 1);
+}
+void vgatherdps(const Xmm& x, const Address& addr) {
+  opGather2(x, addr, T_N4 | T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_VSIB, 0x92, 0);
+}
+void vgatherpf0dpd(const Address& addr) {
+  opGatherFetch(addr, zm1, T_N8 | T_66 | T_0F38 | T_EW1 | T_MUST_EVEX | T_M_K | T_VSIB, 0xC6, Operand::YMM);
+}
+void vgatherpf0dps(const Address& addr) {
+  opGatherFetch(addr, zm1, T_N4 | T_66 | T_0F38 | T_EW0 | T_MUST_EVEX | T_M_K | T_VSIB, 0xC6, Operand::ZMM);
+}
+void vgatherpf0qpd(const Address& addr) {
+  opGatherFetch(addr, zm1, T_N8 | T_66 | T_0F38 | T_EW1 | T_MUST_EVEX | T_M_K | T_VSIB, 0xC7, Operand::ZMM);
+}
+void vgatherpf0qps(const Address& addr) {
+  opGatherFetch(addr, zm1, T_N4 | T_66 | T_0F38 | T_EW0 | T_MUST_EVEX | T_M_K | T_VSIB, 0xC7, Operand::ZMM);
+}
+void vgatherpf1dpd(const Address& addr) {
+  opGatherFetch(addr, zm2, T_N8 | T_66 | T_0F38 | T_EW1 | T_MUST_EVEX | T_M_K | T_VSIB, 0xC6, Operand::YMM);
+}
+void vgatherpf1dps(const Address& addr) {
+  opGatherFetch(addr, zm2, T_N4 | T_66 | T_0F38 | T_EW0 | T_MUST_EVEX | T_M_K | T_VSIB, 0xC6, Operand::ZMM);
+}
+void vgatherpf1qpd(const Address& addr) {
+  opGatherFetch(addr, zm2, T_N8 | T_66 | T_0F38 | T_EW1 | T_MUST_EVEX | T_M_K | T_VSIB, 0xC7, Operand::ZMM);
+}
+void vgatherpf1qps(const Address& addr) {
+  opGatherFetch(addr, zm2, T_N4 | T_66 | T_0F38 | T_EW0 | T_MUST_EVEX | T_M_K | T_VSIB, 0xC7, Operand::ZMM);
+}
+void vgatherqpd(const Xmm& x, const Address& addr) {
+  opGather2(x, addr, T_N8 | T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX | T_VSIB, 0x93, 0);
+}
+void vgatherqps(const Xmm& x, const Address& addr) {
+  opGather2(x, addr, T_N4 | T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_VSIB, 0x93, 2);
+}
+void vgetexppd(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B64, 0x42);
+}
+void vgetexpph(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_66 | T_MAP6 | T_EW0 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B16, 0x42);
+}
+void vgetexpps(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B32, 0x42);
+}
+void vgetexpsd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N8 | T_66 | T_0F38 | T_EW1 | T_SAE_X | T_MUST_EVEX, 0x43);
+}
+void vgetexpsh(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N2 | T_66 | T_MAP6 | T_EW0 | T_SAE_X | T_MUST_EVEX, 0x43);
+}
+void vgetexpss(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N4 | T_66 | T_0F38 | T_EW0 | T_SAE_X | T_MUST_EVEX, 0x43);
+}
+void vgetmantpd(const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_X_XM_IMM(x, op, T_66 | T_0F3A | T_EW1 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B64, 0x26, imm);
+}
+void vgetmantph(const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_X_XM_IMM(x, op, T_0F3A | T_EW0 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B16, 0x26, imm);
+}
+void vgetmantps(const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_X_XM_IMM(x, op, T_66 | T_0F3A | T_EW0 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B32, 0x26, imm);
+}
+void vgetmantsd(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_N8 | T_66 | T_0F3A | T_EW1 | T_SAE_X | T_MUST_EVEX, 0x27, imm);
+}
+void vgetmantsh(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_N2 | T_0F3A | T_EW0 | T_SAE_X | T_MUST_EVEX, 0x27, imm);
+}
+void vgetmantss(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_N4 | T_66 | T_0F3A | T_EW0 | T_SAE_X | T_MUST_EVEX, 0x27, imm);
+}
+void vinsertf32x4(const Ymm& r1, const Ymm& r2, const Operand& op, uint8_t imm) {
+  if (!(r1.getKind() == r2.getKind() && op.is(Operand::MEM | Operand::XMM)))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opVex(r1, &r2, op, T_N16 | T_66 | T_0F3A | T_EW0 | T_YMM | T_MUST_EVEX, 0x18, imm);
+}
+void vinsertf32x8(const Zmm& r1, const Zmm& r2, const Operand& op, uint8_t imm) {
+  if (!op.is(Operand::MEM | Operand::YMM))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opVex(r1, &r2, op, T_N32 | T_66 | T_0F3A | T_EW0 | T_YMM | T_MUST_EVEX, 0x1A, imm);
+}
+void vinsertf64x2(const Ymm& r1, const Ymm& r2, const Operand& op, uint8_t imm) {
+  if (!(r1.getKind() == r2.getKind() && op.is(Operand::MEM | Operand::XMM)))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opVex(r1, &r2, op, T_N16 | T_66 | T_0F3A | T_EW1 | T_YMM | T_MUST_EVEX, 0x18, imm);
+}
+void vinsertf64x4(const Zmm& r1, const Zmm& r2, const Operand& op, uint8_t imm) {
+  if (!op.is(Operand::MEM | Operand::YMM))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opVex(r1, &r2, op, T_N32 | T_66 | T_0F3A | T_EW1 | T_YMM | T_MUST_EVEX, 0x1A, imm);
+}
+void vinserti32x4(const Ymm& r1, const Ymm& r2, const Operand& op, uint8_t imm) {
+  if (!(r1.getKind() == r2.getKind() && op.is(Operand::MEM | Operand::XMM)))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opVex(r1, &r2, op, T_N16 | T_66 | T_0F3A | T_EW0 | T_YMM | T_MUST_EVEX, 0x38, imm);
+}
+void vinserti32x8(const Zmm& r1, const Zmm& r2, const Operand& op, uint8_t imm) {
+  if (!op.is(Operand::MEM | Operand::YMM))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opVex(r1, &r2, op, T_N32 | T_66 | T_0F3A | T_EW0 | T_YMM | T_MUST_EVEX, 0x3A, imm);
+}
+void vinserti64x2(const Ymm& r1, const Ymm& r2, const Operand& op, uint8_t imm) {
+  if (!(r1.getKind() == r2.getKind() && op.is(Operand::MEM | Operand::XMM)))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opVex(r1, &r2, op, T_N16 | T_66 | T_0F3A | T_EW1 | T_YMM | T_MUST_EVEX, 0x38, imm);
+}
+void vinserti64x4(const Zmm& r1, const Zmm& r2, const Operand& op, uint8_t imm) {
+  if (!op.is(Operand::MEM | Operand::YMM))
+    XBYAK_THROW(ERR_BAD_COMBINATION) opVex(r1, &r2, op, T_N32 | T_66 | T_0F3A | T_EW1 | T_YMM | T_MUST_EVEX, 0x3A, imm);
+}
+void vmaxph(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_MAP5 | T_EW0 | T_YMM | T_MUST_EVEX | T_ER_Z | T_B16, 0x5F);
+}
+void vmaxsh(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_MAP5 | T_F3 | T_EW0 | T_MUST_EVEX | T_ER_X | T_N2, 0x5F);
+}
+void vminph(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_MAP5 | T_EW0 | T_YMM | T_MUST_EVEX | T_ER_Z | T_B16, 0x5D);
+}
+void vminsh(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_MAP5 | T_F3 | T_EW0 | T_MUST_EVEX | T_ER_X | T_N2, 0x5D);
+}
+void vmovdqa32(const Address& addr, const Xmm& x) {
+  opAVX_X_XM_IMM(x, addr, T_66 | T_0F | T_EW0 | T_YMM | T_ER_X | T_ER_Y | T_ER_Z | T_MUST_EVEX | T_M_K, 0x7F);
+}
+void vmovdqa32(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_66 | T_0F | T_EW0 | T_YMM | T_ER_X | T_ER_Y | T_ER_Z | T_MUST_EVEX, 0x6F);
+}
+void vmovdqa64(const Address& addr, const Xmm& x) {
+  opAVX_X_XM_IMM(x, addr, T_66 | T_0F | T_EW1 | T_YMM | T_ER_X | T_ER_Y | T_ER_Z | T_MUST_EVEX | T_M_K, 0x7F);
+}
+void vmovdqa64(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_66 | T_0F | T_EW1 | T_YMM | T_ER_X | T_ER_Y | T_ER_Z | T_MUST_EVEX, 0x6F);
+}
+void vmovdqu16(const Address& addr, const Xmm& x) {
+  opAVX_X_XM_IMM(x, addr, T_F2 | T_0F | T_EW1 | T_YMM | T_ER_X | T_ER_Y | T_ER_Z | T_MUST_EVEX | T_M_K, 0x7F);
+}
+void vmovdqu16(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_F2 | T_0F | T_EW1 | T_YMM | T_ER_X | T_ER_Y | T_ER_Z | T_MUST_EVEX, 0x6F);
+}
+void vmovdqu32(const Address& addr, const Xmm& x) {
+  opAVX_X_XM_IMM(x, addr, T_F3 | T_0F | T_EW0 | T_YMM | T_ER_X | T_ER_Y | T_ER_Z | T_MUST_EVEX | T_M_K, 0x7F);
+}
+void vmovdqu32(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_F3 | T_0F | T_EW0 | T_YMM | T_ER_X | T_ER_Y | T_ER_Z | T_MUST_EVEX, 0x6F);
+}
+void vmovdqu64(const Address& addr, const Xmm& x) {
+  opAVX_X_XM_IMM(x, addr, T_F3 | T_0F | T_EW1 | T_YMM | T_ER_X | T_ER_Y | T_ER_Z | T_MUST_EVEX | T_M_K, 0x7F);
+}
+void vmovdqu64(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_F3 | T_0F | T_EW1 | T_YMM | T_ER_X | T_ER_Y | T_ER_Z | T_MUST_EVEX, 0x6F);
+}
+void vmovdqu8(const Address& addr, const Xmm& x) {
+  opAVX_X_XM_IMM(x, addr, T_F2 | T_0F | T_EW0 | T_YMM | T_ER_X | T_ER_Y | T_ER_Z | T_MUST_EVEX | T_M_K, 0x7F);
+}
+void vmovdqu8(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_F2 | T_0F | T_EW0 | T_YMM | T_ER_X | T_ER_Y | T_ER_Z | T_MUST_EVEX, 0x6F);
+}
+void vmovsh(const Address& addr, const Xmm& x) {
+  opAVX_X_XM_IMM(x, addr, T_N2 | T_F3 | T_MAP5 | T_EW0 | T_MUST_EVEX | T_M_K, 0x11);
+}
+void vmovsh(const Xmm& x, const Address& addr) {
+  opAVX_X_X_XM(x, xm0, addr, T_N2 | T_F3 | T_MAP5 | T_EW0 | T_MUST_EVEX, 0x10);
+}
+void vmovsh(const Xmm& x1, const Xmm& x2, const Xmm& x3) {
+  opAVX_X_X_XM(x1, x2, x3, T_N2 | T_F3 | T_MAP5 | T_EW0 | T_MUST_EVEX, 0x10);
+}
+void vmovw(const Address& addr, const Xmm& x) { opAVX_X_XM_IMM(x, addr, T_N2 | T_66 | T_MAP5 | T_MUST_EVEX, 0x7E); }
+void vmovw(const Reg32e& r, const Xmm& x) { opAVX_X_X_XM(x, xm0, r, T_N2 | T_66 | T_MAP5 | T_MUST_EVEX, 0x7E); }
+void vmovw(const Xmm& x, const Operand& op) {
+  if (!op.isREG(32 | 64) && !op.isMEM())
+    XBYAK_THROW(ERR_BAD_COMBINATION) opAVX_X_X_XM(x, xm0, op, T_N2 | T_66 | T_MAP5 | T_MUST_EVEX, 0x6E);
+}
+void vmulph(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_MAP5 | T_EW0 | T_YMM | T_MUST_EVEX | T_ER_Z | T_B16, 0x59);
+}
+void vmulsh(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_MAP5 | T_F3 | T_EW0 | T_MUST_EVEX | T_ER_X | T_N2, 0x59);
+}
+void vp2intersectd(const Opmask& k, const Xmm& x, const Operand& op) {
+  if (k.getOpmaskIdx() != 0)
+    XBYAK_THROW(ERR_OPMASK_IS_ALREADY_SET) opAVX_K_X_XM(k, x, op, T_F2 | T_0F38 | T_YMM | T_EVEX | T_EW0 | T_B32, 0x68);
+}
+void vp2intersectq(const Opmask& k, const Xmm& x, const Operand& op) {
+  if (k.getOpmaskIdx() != 0)
+    XBYAK_THROW(ERR_OPMASK_IS_ALREADY_SET) opAVX_K_X_XM(k, x, op, T_F2 | T_0F38 | T_YMM | T_EVEX | T_EW1 | T_B64, 0x68);
+}
+void vp4dpwssd(const Zmm& z1, const Zmm& z2, const Address& addr) {
+  opAVX_X_X_XM(z1, z2, addr, T_0F38 | T_F2 | T_EW0 | T_YMM | T_MUST_EVEX | T_N16, 0x52);
+}
+void vp4dpwssds(const Zmm& z1, const Zmm& z2, const Address& addr) {
+  opAVX_X_X_XM(z1, z2, addr, T_0F38 | T_F2 | T_EW0 | T_YMM | T_MUST_EVEX | T_N16, 0x53);
+}
+void vpabsq(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_66 | T_0F38 | T_MUST_EVEX | T_EW1 | T_B64 | T_YMM, 0x1F);
+}
+void vpandd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_EW0 | T_YMM | T_MUST_EVEX | T_B32, 0xDB);
+}
+void vpandnd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_EW0 | T_YMM | T_MUST_EVEX | T_B32, 0xDF);
+}
+void vpandnq(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_EW1 | T_YMM | T_MUST_EVEX | T_B64, 0xDF);
+}
+void vpandq(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_EW1 | T_YMM | T_MUST_EVEX | T_B64, 0xDB);
+}
+void vpblendmb(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX, 0x66);
+}
+void vpblendmd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_B32, 0x64);
+}
+void vpblendmq(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX | T_B64, 0x64);
+}
+void vpblendmw(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX, 0x66);
+}
+void vpbroadcastb(const Xmm& x, const Reg8& r) { opVex(x, 0, r, T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX, 0x7A); }
+void vpbroadcastd(const Xmm& x, const Reg32& r) { opVex(x, 0, r, T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX, 0x7C); }
+void vpbroadcastmb2q(const Xmm& x, const Opmask& k) {
+  opVex(x, 0, k, T_F3 | T_0F38 | T_YMM | T_MUST_EVEX | T_EW1, 0x2A);
+}
+void vpbroadcastmw2d(const Xmm& x, const Opmask& k) {
+  opVex(x, 0, k, T_F3 | T_0F38 | T_YMM | T_MUST_EVEX | T_EW0, 0x3A);
+}
+void vpbroadcastw(const Xmm& x, const Reg16& r) { opVex(x, 0, r, T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX, 0x7B); }
+void vpcmpb(const Opmask& k, const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_K_X_XM(k, x, op, T_66 | T_0F3A | T_EW0 | T_YMM | T_MUST_EVEX, 0x3F, imm);
+}
+void vpcmpd(const Opmask& k, const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_K_X_XM(k, x, op, T_66 | T_0F3A | T_EW0 | T_YMM | T_MUST_EVEX | T_B32, 0x1F, imm);
+}
+void vpcmpeqb(const Opmask& k, const Xmm& x, const Operand& op) {
+  opAVX_K_X_XM(k, x, op, T_66 | T_0F | T_YMM | T_MUST_EVEX, 0x74);
+}
+void vpcmpeqd(const Opmask& k, const Xmm& x, const Operand& op) {
+  opAVX_K_X_XM(k, x, op, T_66 | T_0F | T_YMM | T_MUST_EVEX | T_B32, 0x76);
+}
+void vpcmpeqq(const Opmask& k, const Xmm& x, const Operand& op) {
+  opAVX_K_X_XM(k, x, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX | T_B64, 0x29);
+}
+void vpcmpeqw(const Opmask& k, const Xmm& x, const Operand& op) {
+  opAVX_K_X_XM(k, x, op, T_66 | T_0F | T_YMM | T_MUST_EVEX, 0x75);
+}
+void vpcmpgtb(const Opmask& k, const Xmm& x, const Operand& op) {
+  opAVX_K_X_XM(k, x, op, T_66 | T_0F | T_YMM | T_MUST_EVEX, 0x64);
+}
+void vpcmpgtd(const Opmask& k, const Xmm& x, const Operand& op) {
+  opAVX_K_X_XM(k, x, op, T_66 | T_0F | T_EW0 | T_YMM | T_MUST_EVEX | T_B32, 0x66);
+}
+void vpcmpgtq(const Opmask& k, const Xmm& x, const Operand& op) {
+  opAVX_K_X_XM(k, x, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX | T_B64, 0x37);
+}
+void vpcmpgtw(const Opmask& k, const Xmm& x, const Operand& op) {
+  opAVX_K_X_XM(k, x, op, T_66 | T_0F | T_YMM | T_MUST_EVEX, 0x65);
+}
+void vpcmpq(const Opmask& k, const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_K_X_XM(k, x, op, T_66 | T_0F3A | T_EW1 | T_YMM | T_MUST_EVEX | T_B64, 0x1F, imm);
+}
+void vpcmpub(const Opmask& k, const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_K_X_XM(k, x, op, T_66 | T_0F3A | T_EW0 | T_YMM | T_MUST_EVEX, 0x3E, imm);
+}
+void vpcmpud(const Opmask& k, const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_K_X_XM(k, x, op, T_66 | T_0F3A | T_EW0 | T_YMM | T_MUST_EVEX | T_B32, 0x1E, imm);
+}
+void vpcmpuq(const Opmask& k, const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_K_X_XM(k, x, op, T_66 | T_0F3A | T_EW1 | T_YMM | T_MUST_EVEX | T_B64, 0x1E, imm);
+}
+void vpcmpuw(const Opmask& k, const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_K_X_XM(k, x, op, T_66 | T_0F3A | T_EW1 | T_YMM | T_MUST_EVEX, 0x3E, imm);
+}
+void vpcmpw(const Opmask& k, const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_K_X_XM(k, x, op, T_66 | T_0F3A | T_EW1 | T_YMM | T_MUST_EVEX, 0x3F, imm);
+}
+void vpcompressd(const Operand& op, const Xmm& x) {
+  opAVX_X_XM_IMM(x, op, T_N4 | T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX, 0x8B);
+}
+void vpcompressq(const Operand& op, const Xmm& x) {
+  opAVX_X_XM_IMM(x, op, T_N8 | T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX, 0x8B);
+}
+void vpconflictd(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_B32, 0xC4);
+}
+void vpconflictq(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX | T_B64, 0xC4);
+}
+void vpermb(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX, 0x8D);
+}
+void vpermi2b(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX, 0x75);
+}
+void vpermi2d(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_B32, 0x76);
+}
+void vpermi2pd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX | T_B64, 0x77);
+}
+void vpermi2ps(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_B32, 0x77);
+}
+void vpermi2q(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX | T_B64, 0x76);
+}
+void vpermi2w(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX, 0x75);
+}
+void vpermt2b(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX, 0x7D);
+}
+void vpermt2d(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_B32, 0x7E);
+}
+void vpermt2pd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX | T_B64, 0x7F);
+}
+void vpermt2ps(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_B32, 0x7F);
+}
+void vpermt2q(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX | T_B64, 0x7E);
+}
+void vpermt2w(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX, 0x7D);
+}
+void vpermw(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX, 0x8D);
+}
+void vpexpandb(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_N1 | T_66 | T_0F38 | T_EW0 | T_YMM | T_SAE_Z | T_MUST_EVEX, 0x62);
+}
+void vpexpandd(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_N4 | T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX, 0x89);
+}
+void vpexpandq(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_N8 | T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX, 0x89);
+}
+void vpexpandw(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_N2 | T_66 | T_0F38 | T_EW1 | T_YMM | T_SAE_Z | T_MUST_EVEX, 0x62);
+}
+void vpgatherdd(const Xmm& x, const Address& addr) {
+  opGather2(x, addr, T_N4 | T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_VSIB, 0x90, 0);
+}
+void vpgatherdq(const Xmm& x, const Address& addr) {
+  opGather2(x, addr, T_N8 | T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX | T_VSIB, 0x90, 1);
+}
+void vpgatherqd(const Xmm& x, const Address& addr) {
+  opGather2(x, addr, T_N4 | T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_VSIB, 0x91, 2);
+}
+void vpgatherqq(const Xmm& x, const Address& addr) {
+  opGather2(x, addr, T_N8 | T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX | T_VSIB, 0x91, 0);
+}
+void vplzcntd(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_B32, 0x44);
+}
+void vplzcntq(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX | T_B64, 0x44);
+}
+void vpmaxsq(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX | T_B64, 0x3D);
+}
+void vpmaxuq(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX | T_B64, 0x3F);
+}
+void vpminsq(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX | T_B64, 0x39);
+}
+void vpminuq(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX | T_B64, 0x3B);
+}
+void vpmovb2m(const Opmask& k, const Xmm& x) { opVex(k, 0, x, T_F3 | T_0F38 | T_MUST_EVEX | T_YMM | T_EW0, 0x29); }
+void vpmovd2m(const Opmask& k, const Xmm& x) { opVex(k, 0, x, T_F3 | T_0F38 | T_MUST_EVEX | T_YMM | T_EW0, 0x39); }
+void vpmovdb(const Operand& op, const Xmm& x) {
+  opVmov(op, x, T_N4 | T_N_VL | T_F3 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_M_K, 0x31, false);
+}
+void vpmovdw(const Operand& op, const Xmm& x) {
+  opVmov(op, x, T_N8 | T_N_VL | T_F3 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_M_K, 0x33, true);
+}
+void vpmovm2b(const Xmm& x, const Opmask& k) { opVex(x, 0, k, T_F3 | T_0F38 | T_MUST_EVEX | T_YMM | T_EW0, 0x28); }
+void vpmovm2d(const Xmm& x, const Opmask& k) { opVex(x, 0, k, T_F3 | T_0F38 | T_MUST_EVEX | T_YMM | T_EW0, 0x38); }
+void vpmovm2q(const Xmm& x, const Opmask& k) { opVex(x, 0, k, T_F3 | T_0F38 | T_MUST_EVEX | T_YMM | T_EW1, 0x38); }
+void vpmovm2w(const Xmm& x, const Opmask& k) { opVex(x, 0, k, T_F3 | T_0F38 | T_MUST_EVEX | T_YMM | T_EW1, 0x28); }
+void vpmovq2m(const Opmask& k, const Xmm& x) { opVex(k, 0, x, T_F3 | T_0F38 | T_MUST_EVEX | T_YMM | T_EW1, 0x39); }
+void vpmovqb(const Operand& op, const Xmm& x) {
+  opVmov(op, x, T_N2 | T_N_VL | T_F3 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_M_K, 0x32, false);
+}
+void vpmovqd(const Operand& op, const Xmm& x) {
+  opVmov(op, x, T_N8 | T_N_VL | T_F3 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_M_K, 0x35, true);
+}
+void vpmovqw(const Operand& op, const Xmm& x) {
+  opVmov(op, x, T_N4 | T_N_VL | T_F3 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_M_K, 0x34, false);
+}
+void vpmovsdb(const Operand& op, const Xmm& x) {
+  opVmov(op, x, T_N4 | T_N_VL | T_F3 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_M_K, 0x21, false);
+}
+void vpmovsdw(const Operand& op, const Xmm& x) {
+  opVmov(op, x, T_N8 | T_N_VL | T_F3 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_M_K, 0x23, true);
+}
+void vpmovsqb(const Operand& op, const Xmm& x) {
+  opVmov(op, x, T_N2 | T_N_VL | T_F3 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_M_K, 0x22, false);
+}
+void vpmovsqd(const Operand& op, const Xmm& x) {
+  opVmov(op, x, T_N8 | T_N_VL | T_F3 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_M_K, 0x25, true);
+}
+void vpmovsqw(const Operand& op, const Xmm& x) {
+  opVmov(op, x, T_N4 | T_N_VL | T_F3 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_M_K, 0x24, false);
+}
+void vpmovswb(const Operand& op, const Xmm& x) {
+  opVmov(op, x, T_N8 | T_N_VL | T_F3 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_M_K, 0x20, true);
+}
+void vpmovusdb(const Operand& op, const Xmm& x) {
+  opVmov(op, x, T_N4 | T_N_VL | T_F3 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_M_K, 0x11, false);
+}
+void vpmovusdw(const Operand& op, const Xmm& x) {
+  opVmov(op, x, T_N8 | T_N_VL | T_F3 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_M_K, 0x13, true);
+}
+void vpmovusqb(const Operand& op, const Xmm& x) {
+  opVmov(op, x, T_N2 | T_N_VL | T_F3 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_M_K, 0x12, false);
+}
+void vpmovusqd(const Operand& op, const Xmm& x) {
+  opVmov(op, x, T_N8 | T_N_VL | T_F3 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_M_K, 0x15, true);
+}
+void vpmovusqw(const Operand& op, const Xmm& x) {
+  opVmov(op, x, T_N4 | T_N_VL | T_F3 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_M_K, 0x14, false);
+}
+void vpmovuswb(const Operand& op, const Xmm& x) {
+  opVmov(op, x, T_N8 | T_N_VL | T_F3 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_M_K, 0x10, true);
+}
+void vpmovw2m(const Opmask& k, const Xmm& x) { opVex(k, 0, x, T_F3 | T_0F38 | T_MUST_EVEX | T_YMM | T_EW1, 0x29); }
+void vpmovwb(const Operand& op, const Xmm& x) {
+  opVmov(op, x, T_N8 | T_N_VL | T_F3 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_M_K, 0x30, true);
+}
+void vpmullq(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX | T_B64, 0x40);
+}
+void vpmultishiftqb(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX | T_B64, 0x83);
+}
+void vpopcntb(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_SAE_Z | T_MUST_EVEX, 0x54);
+}
+void vpopcntd(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B32, 0x55);
+}
+void vpopcntq(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B64, 0x55);
+}
+void vpopcntw(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_SAE_Z | T_MUST_EVEX, 0x54);
+}
+void vpord(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_EW0 | T_YMM | T_MUST_EVEX | T_B32, 0xEB);
+}
+void vporq(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_EW1 | T_YMM | T_MUST_EVEX | T_B64, 0xEB);
+}
+void vprold(const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(Xmm(x.getKind(), 1), x, op, T_66 | T_0F | T_EW0 | T_YMM | T_MUST_EVEX | T_B32, 0x72, imm);
+}
+void vprolq(const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(Xmm(x.getKind(), 1), x, op, T_66 | T_0F | T_EW1 | T_YMM | T_MUST_EVEX | T_B64, 0x72, imm);
+}
+void vprolvd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_B32, 0x15);
+}
+void vprolvq(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX | T_B64, 0x15);
+}
+void vprord(const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(Xmm(x.getKind(), 0), x, op, T_66 | T_0F | T_EW0 | T_YMM | T_MUST_EVEX | T_B32, 0x72, imm);
+}
+void vprorq(const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(Xmm(x.getKind(), 0), x, op, T_66 | T_0F | T_EW1 | T_YMM | T_MUST_EVEX | T_B64, 0x72, imm);
+}
+void vprorvd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_B32, 0x14);
+}
+void vprorvq(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX | T_B64, 0x14);
+}
+void vpscatterdd(const Address& addr, const Xmm& x) {
+  opGather2(x, addr, T_N4 | T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_M_K | T_VSIB, 0xA0, 0);
+}
+void vpscatterdq(const Address& addr, const Xmm& x) {
+  opGather2(x, addr, T_N8 | T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX | T_M_K | T_VSIB, 0xA0, 1);
+}
+void vpscatterqd(const Address& addr, const Xmm& x) {
+  opGather2(x, addr, T_N4 | T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_M_K | T_VSIB, 0xA1, 2);
+}
+void vpscatterqq(const Address& addr, const Xmm& x) {
+  opGather2(x, addr, T_N8 | T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX | T_M_K | T_VSIB, 0xA1, 0);
+}
+void vpshldd(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F3A | T_EW0 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B32, 0x71, imm);
+}
+void vpshldq(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F3A | T_EW1 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B64, 0x71, imm);
+}
+void vpshldvd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B32, 0x71);
+}
+void vpshldvq(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B64, 0x71);
+}
+void vpshldvw(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_SAE_Z | T_MUST_EVEX, 0x70);
+}
+void vpshldw(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F3A | T_EW1 | T_YMM | T_SAE_Z | T_MUST_EVEX, 0x70, imm);
+}
+void vpshrdd(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F3A | T_EW0 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B32, 0x73, imm);
+}
+void vpshrdq(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F3A | T_EW1 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B64, 0x73, imm);
+}
+void vpshrdvd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B32, 0x73);
+}
+void vpshrdvq(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B64, 0x73);
+}
+void vpshrdvw(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_SAE_Z | T_MUST_EVEX, 0x72);
+}
+void vpshrdw(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F3A | T_EW1 | T_YMM | T_SAE_Z | T_MUST_EVEX, 0x72, imm);
+}
+void vpshufbitqmb(const Opmask& k, const Xmm& x, const Operand& op) {
+  opVex(k, &x, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX, 0x8F);
+}
+void vpsllvw(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX, 0x12);
+}
+void vpsraq(const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(Xmm(x.getKind(), 4), x, op, T_66 | T_0F | T_EW1 | T_YMM | T_MUST_EVEX | T_B64, 0x72, imm);
+}
+void vpsraq(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N16 | T_66 | T_0F | T_EW1 | T_YMM | T_MUST_EVEX, 0xE2);
+}
+void vpsravq(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX | T_B64, 0x46);
+}
+void vpsravw(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX, 0x11);
+}
+void vpsrlvw(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX, 0x10);
+}
+void vpternlogd(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F3A | T_EW0 | T_YMM | T_MUST_EVEX | T_B32, 0x25, imm);
+}
+void vpternlogq(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F3A | T_EW1 | T_YMM | T_MUST_EVEX | T_B64, 0x25, imm);
+}
+void vptestmb(const Opmask& k, const Xmm& x, const Operand& op) {
+  opAVX_K_X_XM(k, x, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX, 0x26);
+}
+void vptestmd(const Opmask& k, const Xmm& x, const Operand& op) {
+  opAVX_K_X_XM(k, x, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_B32, 0x27);
+}
+void vptestmq(const Opmask& k, const Xmm& x, const Operand& op) {
+  opAVX_K_X_XM(k, x, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX | T_B64, 0x27);
+}
+void vptestmw(const Opmask& k, const Xmm& x, const Operand& op) {
+  opAVX_K_X_XM(k, x, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX, 0x26);
+}
+void vptestnmb(const Opmask& k, const Xmm& x, const Operand& op) {
+  opAVX_K_X_XM(k, x, op, T_F3 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX, 0x26);
+}
+void vptestnmd(const Opmask& k, const Xmm& x, const Operand& op) {
+  opAVX_K_X_XM(k, x, op, T_F3 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_B32, 0x27);
+}
+void vptestnmq(const Opmask& k, const Xmm& x, const Operand& op) {
+  opAVX_K_X_XM(k, x, op, T_F3 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX | T_B64, 0x27);
+}
+void vptestnmw(const Opmask& k, const Xmm& x, const Operand& op) {
+  opAVX_K_X_XM(k, x, op, T_F3 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX, 0x26);
+}
+void vpxord(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_EW0 | T_YMM | T_MUST_EVEX | T_B32, 0xEF);
+}
+void vpxorq(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F | T_EW1 | T_YMM | T_MUST_EVEX | T_B64, 0xEF);
+}
+void vrangepd(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F3A | T_EW1 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B64, 0x50, imm);
+}
+void vrangeps(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F3A | T_EW0 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B32, 0x50, imm);
+}
+void vrangesd(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_N8 | T_66 | T_0F3A | T_EW1 | T_SAE_X | T_MUST_EVEX, 0x51, imm);
+}
+void vrangess(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_N4 | T_66 | T_0F3A | T_EW0 | T_SAE_X | T_MUST_EVEX, 0x51, imm);
+}
+void vrcp14pd(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX | T_B64, 0x4C);
+}
+void vrcp14ps(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_B32, 0x4C);
+}
+void vrcp14sd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N8 | T_66 | T_0F38 | T_EW1 | T_MUST_EVEX, 0x4D);
+}
+void vrcp14ss(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N4 | T_66 | T_0F38 | T_EW0 | T_MUST_EVEX, 0x4D);
+}
+void vrcp28pd(const Zmm& z, const Operand& op) {
+  opAVX_X_XM_IMM(z, op, T_66 | T_0F38 | T_MUST_EVEX | T_YMM | T_EW1 | T_B64 | T_SAE_Z, 0xCA);
+}
+void vrcp28ps(const Zmm& z, const Operand& op) {
+  opAVX_X_XM_IMM(z, op, T_66 | T_0F38 | T_MUST_EVEX | T_YMM | T_EW0 | T_B32 | T_SAE_Z, 0xCA);
+}
+void vrcp28sd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N8 | T_66 | T_0F38 | T_EW1 | T_SAE_X | T_MUST_EVEX, 0xCB);
+}
+void vrcp28ss(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N4 | T_66 | T_0F38 | T_EW0 | T_SAE_X | T_MUST_EVEX, 0xCB);
+}
+void vrcpph(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_66 | T_MAP6 | T_EW0 | T_YMM | T_MUST_EVEX | T_B16, 0x4C);
+}
+void vrcpsh(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N2 | T_66 | T_MAP6 | T_EW0 | T_MUST_EVEX, 0x4D);
+}
+void vreducepd(const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_X_XM_IMM(x, op, T_66 | T_0F3A | T_EW1 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B64, 0x56, imm);
+}
+void vreduceph(const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_X_XM_IMM(x, op, T_0F3A | T_EW0 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B16, 0x56, imm);
+}
+void vreduceps(const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_X_XM_IMM(x, op, T_66 | T_0F3A | T_EW0 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B32, 0x56, imm);
+}
+void vreducesd(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_N8 | T_66 | T_0F3A | T_EW1 | T_SAE_X | T_MUST_EVEX, 0x57, imm);
+}
+void vreducesh(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_N2 | T_0F3A | T_EW0 | T_SAE_X | T_MUST_EVEX, 0x57, imm);
+}
+void vreducess(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_N4 | T_66 | T_0F3A | T_EW0 | T_SAE_X | T_MUST_EVEX, 0x57, imm);
+}
+void vrndscalepd(const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_X_XM_IMM(x, op, T_66 | T_0F3A | T_EW1 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B64, 0x09, imm);
+}
+void vrndscaleph(const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_X_XM_IMM(x, op, T_0F3A | T_EW0 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B16, 0x08, imm);
+}
+void vrndscaleps(const Xmm& x, const Operand& op, uint8_t imm) {
+  opAVX_X_XM_IMM(x, op, T_66 | T_0F3A | T_EW0 | T_YMM | T_SAE_Z | T_MUST_EVEX | T_B32, 0x08, imm);
+}
+void vrndscalesd(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_N8 | T_66 | T_0F3A | T_EW1 | T_SAE_X | T_MUST_EVEX, 0x0B, imm);
+}
+void vrndscalesh(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_N2 | T_0F3A | T_EW0 | T_SAE_X | T_MUST_EVEX, 0x0A, imm);
+}
+void vrndscaless(const Xmm& x1, const Xmm& x2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(x1, x2, op, T_N4 | T_66 | T_0F3A | T_EW0 | T_SAE_X | T_MUST_EVEX, 0x0A, imm);
+}
+void vrsqrt14pd(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX | T_B64, 0x4E);
+}
+void vrsqrt14ps(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_B32, 0x4E);
+}
+void vrsqrt14sd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N8 | T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX, 0x4F);
+}
+void vrsqrt14ss(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N4 | T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX, 0x4F);
+}
+void vrsqrt28pd(const Zmm& z, const Operand& op) {
+  opAVX_X_XM_IMM(z, op, T_66 | T_0F38 | T_MUST_EVEX | T_YMM | T_EW1 | T_B64 | T_SAE_Z, 0xCC);
+}
+void vrsqrt28ps(const Zmm& z, const Operand& op) {
+  opAVX_X_XM_IMM(z, op, T_66 | T_0F38 | T_MUST_EVEX | T_YMM | T_EW0 | T_B32 | T_SAE_Z, 0xCC);
+}
+void vrsqrt28sd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N8 | T_66 | T_0F38 | T_EW1 | T_SAE_X | T_MUST_EVEX, 0xCD);
+}
+void vrsqrt28ss(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N4 | T_66 | T_0F38 | T_EW0 | T_SAE_X | T_MUST_EVEX, 0xCD);
+}
+void vrsqrtph(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_66 | T_MAP6 | T_EW0 | T_YMM | T_MUST_EVEX | T_B16, 0x4E);
+}
+void vrsqrtsh(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N2 | T_66 | T_MAP6 | T_EW0 | T_MUST_EVEX, 0x4F);
+}
+void vscalefpd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW1 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B64, 0x2C);
+}
+void vscalefph(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_MAP6 | T_EW0 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B16, 0x2C);
+}
+void vscalefps(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_66 | T_0F38 | T_EW0 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B32, 0x2C);
+}
+void vscalefsd(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N8 | T_66 | T_0F38 | T_EW1 | T_ER_X | T_MUST_EVEX, 0x2D);
+}
+void vscalefsh(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N2 | T_66 | T_MAP6 | T_EW0 | T_ER_X | T_MUST_EVEX, 0x2D);
+}
+void vscalefss(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N4 | T_66 | T_0F38 | T_EW0 | T_ER_X | T_MUST_EVEX, 0x2D);
+}
+void vscatterdpd(const Address& addr, const Xmm& x) {
+  opGather2(x, addr, T_N8 | T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX | T_M_K | T_VSIB, 0xA2, 1);
+}
+void vscatterdps(const Address& addr, const Xmm& x) {
+  opGather2(x, addr, T_N4 | T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_M_K | T_VSIB, 0xA2, 0);
+}
+void vscatterpf0dpd(const Address& addr) {
+  opGatherFetch(addr, zm5, T_N8 | T_66 | T_0F38 | T_EW1 | T_MUST_EVEX | T_M_K | T_VSIB, 0xC6, Operand::YMM);
+}
+void vscatterpf0dps(const Address& addr) {
+  opGatherFetch(addr, zm5, T_N4 | T_66 | T_0F38 | T_EW0 | T_MUST_EVEX | T_M_K | T_VSIB, 0xC6, Operand::ZMM);
+}
+void vscatterpf0qpd(const Address& addr) {
+  opGatherFetch(addr, zm5, T_N8 | T_66 | T_0F38 | T_EW1 | T_MUST_EVEX | T_M_K | T_VSIB, 0xC7, Operand::ZMM);
+}
+void vscatterpf0qps(const Address& addr) {
+  opGatherFetch(addr, zm5, T_N4 | T_66 | T_0F38 | T_EW0 | T_MUST_EVEX | T_M_K | T_VSIB, 0xC7, Operand::ZMM);
+}
+void vscatterpf1dpd(const Address& addr) {
+  opGatherFetch(addr, zm6, T_N8 | T_66 | T_0F38 | T_EW1 | T_MUST_EVEX | T_M_K | T_VSIB, 0xC6, Operand::YMM);
+}
+void vscatterpf1dps(const Address& addr) {
+  opGatherFetch(addr, zm6, T_N4 | T_66 | T_0F38 | T_EW0 | T_MUST_EVEX | T_M_K | T_VSIB, 0xC6, Operand::ZMM);
+}
+void vscatterpf1qpd(const Address& addr) {
+  opGatherFetch(addr, zm6, T_N8 | T_66 | T_0F38 | T_EW1 | T_MUST_EVEX | T_M_K | T_VSIB, 0xC7, Operand::ZMM);
+}
+void vscatterpf1qps(const Address& addr) {
+  opGatherFetch(addr, zm6, T_N4 | T_66 | T_0F38 | T_EW0 | T_MUST_EVEX | T_M_K | T_VSIB, 0xC7, Operand::ZMM);
+}
+void vscatterqpd(const Address& addr, const Xmm& x) {
+  opGather2(x, addr, T_N8 | T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX | T_M_K | T_VSIB, 0xA3, 0);
+}
+void vscatterqps(const Address& addr, const Xmm& x) {
+  opGather2(x, addr, T_N4 | T_66 | T_0F38 | T_EW0 | T_YMM | T_MUST_EVEX | T_M_K | T_VSIB, 0xA3, 2);
+}
+void vshuff32x4(const Ymm& y1, const Ymm& y2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(y1, y2, op, T_66 | T_0F3A | T_YMM | T_MUST_EVEX | T_EW0 | T_B32, 0x23, imm);
+}
+void vshuff64x2(const Ymm& y1, const Ymm& y2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(y1, y2, op, T_66 | T_0F3A | T_YMM | T_MUST_EVEX | T_EW1 | T_B64, 0x23, imm);
+}
+void vshufi32x4(const Ymm& y1, const Ymm& y2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(y1, y2, op, T_66 | T_0F3A | T_YMM | T_MUST_EVEX | T_EW0 | T_B32, 0x43, imm);
+}
+void vshufi64x2(const Ymm& y1, const Ymm& y2, const Operand& op, uint8_t imm) {
+  opAVX_X_X_XM(y1, y2, op, T_66 | T_0F3A | T_YMM | T_MUST_EVEX | T_EW1 | T_B64, 0x43, imm);
+}
+void vsqrtph(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_MAP5 | T_EW0 | T_YMM | T_ER_Z | T_MUST_EVEX | T_B16, 0x51);
+}
+void vsqrtsh(const Xmm& x1, const Xmm& x2, const Operand& op) {
+  opAVX_X_X_XM(x1, x2, op, T_N2 | T_F3 | T_MAP5 | T_EW0 | T_ER_X | T_MUST_EVEX, 0x51);
+}
+void vsubph(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_MAP5 | T_EW0 | T_YMM | T_MUST_EVEX | T_ER_Z | T_B16, 0x5C);
+}
+void vsubsh(const Xmm& xmm, const Operand& op1, const Operand& op2 = Operand()) {
+  opAVX_X_X_XM(xmm, op1, op2, T_MAP5 | T_F3 | T_EW0 | T_MUST_EVEX | T_ER_X | T_N2, 0x5C);
+}
+void vucomish(const Xmm& x, const Operand& op) {
+  opAVX_X_XM_IMM(x, op, T_MAP5 | T_MUST_EVEX | T_EW0 | T_SAE_X | T_N2, 0x2E);
+}
+#ifdef XBYAK64
+void kmovq(const Opmask& k, const Reg64& r) { opVex(k, 0, r, T_L0 | T_0F | T_F2 | T_W1, 0x92); }
+void kmovq(const Reg64& r, const Opmask& k) { opVex(r, 0, k, T_L0 | T_0F | T_F2 | T_W1, 0x93); }
+void vpbroadcastq(const Xmm& x, const Reg64& r) { opVex(x, 0, r, T_66 | T_0F38 | T_EW1 | T_YMM | T_MUST_EVEX, 0x7C); }
+#endif
+#endif
diff --git a/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/xbyak/xbyak_util.h b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/xbyak/xbyak_util.h
new file mode 100644
index 0000000000000..f9e43afc8371f
--- /dev/null
+++ b/onnxruntime/core/mlas/lib/x86_64/jblas/jblas/xbyak/xbyak_util.h
@@ -0,0 +1,1160 @@
+//  Copyright (c) 2023 Intel Corporation
+//
+//  Licensed under the Apache License, Version 2.0 (the "License");
+//  you may not use this file except in compliance with the License.
+//  You may obtain a copy of the License at
+//
+//    http://www.apache.org/licenses/LICENSE-2.0
+//
+//  Unless required by applicable law or agreed to in writing, software
+//  distributed under the License is distributed on an "AS IS" BASIS,
+//  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+//  See the License for the specific language governing permissions and
+//  limitations under the License.
+#ifndef XBYAK_XBYAK_UTIL_H_
+#define XBYAK_XBYAK_UTIL_H_
+
+#ifdef XBYAK_ONLY_CLASS_CPU
+#include <stdint.h>
+#include <stdlib.h>
+#include <assert.h>
+#ifndef XBYAK_THROW
+#define XBYAK_THROW(x) ;
+#define XBYAK_THROW_RET(x, y) return y;
+#endif
+#ifndef XBYAK_CONSTEXPR
+#if ((__cplusplus >= 201402L) && !(!defined(__clang__) && defined(__GNUC__) && (__GNUC__ <= 5))) || \
+    (defined(_MSC_VER) && _MSC_VER >= 1910)
+#define XBYAK_CONSTEXPR constexpr
+#else
+#define XBYAK_CONSTEXPR
+#endif
+#endif
+#else
+#include <string.h>
+
+/**
+        utility class and functions for Xbyak
+        Xbyak::util::Clock ; rdtsc timer
+        Xbyak::util::Cpu ; detect CPU
+*/
+#include "xbyak.h"
+#endif  // XBYAK_ONLY_CLASS_CPU
+
+#if defined(__i386__) || defined(__x86_64__) || defined(_M_IX86) || defined(_M_X64)
+#define XBYAK_INTEL_CPU_SPECIFIC
+#endif
+
+#ifdef XBYAK_INTEL_CPU_SPECIFIC
+#ifdef _WIN32
+#if defined(_MSC_VER) && (_MSC_VER < 1400) && defined(XBYAK32)
+static inline __declspec(naked) void __cpuid(int[4], int) {
+  __asm {
+				push	ebx
+				push	esi
+				mov		eax, dword ptr [esp + 4 * 2 + 8]  // eaxIn
+				cpuid
+				mov		esi, dword ptr [esp + 4 * 2 + 4]  // data
+				mov		dword ptr [esi], eax
+				mov		dword ptr [esi + 4], ebx
+				mov		dword ptr [esi + 8], ecx
+				mov		dword ptr [esi + 12], edx
+				pop		esi
+				pop		ebx
+				ret
+  }
+}
+#else
+#include <intrin.h>  // for __cpuid
+#endif
+#else
+#ifndef __GNUC_PREREQ
+#define __GNUC_PREREQ(major, minor) ((((__GNUC__) << 16) + (__GNUC_MINOR__)) >= (((major) << 16) + (minor)))
+#endif
+#if __GNUC_PREREQ(4, 3) && !defined(__APPLE__)
+#if !defined(signature_VORTEX_ebx) && !defined(signature_NEXGEN_ebx) && \
+    !defined(signature_AMD_ebx)  // workaround for Bug 96238 - [i386] cpuid.h header needs include guards
+#include <cpuid.h>
+#endif
+#else
+#if defined(__APPLE__) && defined(XBYAK32)  // avoid err : can't find a register in class `BREG' while reloading `asm'
+#define __cpuid(eaxIn, a, b, c, d)                                         \
+  __asm__ __volatile__("pushl %%ebx\ncpuid\nmovl %%ebp, %%esi\npopl %%ebx" \
+                       : "=a"(a), "=S"(b), "=c"(c), "=d"(d)                \
+                       : "0"(eaxIn))
+#define __cpuid_count(eaxIn, ecxIn, a, b, c, d)                            \
+  __asm__ __volatile__("pushl %%ebx\ncpuid\nmovl %%ebp, %%esi\npopl %%ebx" \
+                       : "=a"(a), "=S"(b), "=c"(c), "=d"(d)                \
+                       : "0"(eaxIn), "2"(ecxIn))
+#else
+#define __cpuid(eaxIn, a, b, c, d) __asm__ __volatile__("cpuid\n" : "=a"(a), "=b"(b), "=c"(c), "=d"(d) : "0"(eaxIn))
+#define __cpuid_count(eaxIn, ecxIn, a, b, c, d) \
+  __asm__ __volatile__("cpuid\n" : "=a"(a), "=b"(b), "=c"(c), "=d"(d) : "0"(eaxIn), "2"(ecxIn))
+#endif
+#endif
+#endif
+#endif
+
+#ifdef XBYAK_USE_VTUNE
+// -I /opt/intel/vtune_amplifier/include/ -L /opt/intel/vtune_amplifier/lib64 -ljitprofiling -ldl
+#include <jitprofiling.h>
+#ifdef _MSC_VER
+#pragma comment(lib, "libittnotify.lib")
+#endif
+#ifdef __linux__
+#include <dlfcn.h>
+#endif
+#endif
+#ifdef __linux__
+#define XBYAK_USE_PERF
+#endif
+
+namespace Xbyak {
+namespace util {
+
+typedef enum { SmtLevel = 1, CoreLevel = 2 } IntelCpuTopologyLevel;
+
+namespace local {
+
+template <uint64_t L, uint64_t H = 0>
+struct TypeT {};
+
+template <uint64_t L1, uint64_t H1, uint64_t L2, uint64_t H2>
+XBYAK_CONSTEXPR TypeT<L1 | L2, H1 | H2> operator|(TypeT<L1, H1>, TypeT<L2, H2>) {
+  return TypeT<L1 | L2, H1 | H2>();
+}
+
+template <typename T>
+inline T max_(T x, T y) {
+  return x >= y ? x : y;
+}
+template <typename T>
+inline T min_(T x, T y) {
+  return x < y ? x : y;
+}
+
+}  // namespace local
+
+/**
+        CPU detection class
+        @note static inline const member is supported by c++17 or later, so use template hack
+*/
+class Cpu {
+ public:
+  class Type {
+    uint64_t L;
+    uint64_t H;
+
+   public:
+    Type(uint64_t L = 0, uint64_t H = 0) : L(L), H(H) {}
+    template <uint64_t L_, uint64_t H_>
+    Type(local::TypeT<L_, H_>) : L(L_), H(H_) {}
+    Type& operator&=(const Type& rhs) {
+      L &= rhs.L;
+      H &= rhs.H;
+      return *this;
+    }
+    Type& operator|=(const Type& rhs) {
+      L |= rhs.L;
+      H |= rhs.H;
+      return *this;
+    }
+    Type operator&(const Type& rhs) const {
+      Type t = *this;
+      t &= rhs;
+      return t;
+    }
+    Type operator|(const Type& rhs) const {
+      Type t = *this;
+      t |= rhs;
+      return t;
+    }
+    bool operator==(const Type& rhs) const { return H == rhs.H && L == rhs.L; }
+    bool operator!=(const Type& rhs) const { return !operator==(rhs); }
+    // without explicit because backward compatilibity
+    operator bool() const { return (H | L) != 0; }
+    uint64_t getL() const { return L; }
+    uint64_t getH() const { return H; }
+  };
+
+ private:
+  Type type_;
+  // system topology
+  bool x2APIC_supported_;
+  static const size_t maxTopologyLevels = 2;
+  uint32_t numCores_[maxTopologyLevels];
+
+  static const uint32_t maxNumberCacheLevels = 10;
+  uint32_t dataCacheSize_[maxNumberCacheLevels];
+  uint32_t coresSharignDataCache_[maxNumberCacheLevels];
+  uint32_t dataCacheLevels_;
+
+  uint32_t get32bitAsBE(const char* x) const { return x[0] | (x[1] << 8) | (x[2] << 16) | (x[3] << 24); }
+  uint32_t mask(int n) const { return (1U << n) - 1; }
+  void setFamily() {
+    uint32_t data[4] = {};
+    getCpuid(1, data);
+    stepping = data[0] & mask(4);
+    model = (data[0] >> 4) & mask(4);
+    family = (data[0] >> 8) & mask(4);
+    // type = (data[0] >> 12) & mask(2);
+    extModel = (data[0] >> 16) & mask(4);
+    extFamily = (data[0] >> 20) & mask(8);
+    if (family == 0x0f) {
+      displayFamily = family + extFamily;
+    } else {
+      displayFamily = family;
+    }
+    if (family == 6 || family == 0x0f) {
+      displayModel = (extModel << 4) + model;
+    } else {
+      displayModel = model;
+    }
+  }
+  uint32_t extractBit(uint32_t val, uint32_t base, uint32_t end) { return (val >> base) & ((1u << (end - base)) - 1); }
+  void setNumCores() {
+    if (!has(tINTEL) && !has(tAMD)) return;
+
+    uint32_t data[4] = {};
+    getCpuidEx(0x0, 0, data);
+    if (data[0] >= 0xB) {
+      /*
+             if leaf 11 exists(x2APIC is supported),
+             we use it to get the number of smt cores and cores on socket
+
+             leaf 0xB can be zeroed-out by a hypervisor
+     */
+      x2APIC_supported_ = true;
+      for (uint32_t i = 0; i < maxTopologyLevels; i++) {
+        getCpuidEx(0xB, i, data);
+        IntelCpuTopologyLevel level = (IntelCpuTopologyLevel)extractBit(data[2], 8, 15);
+        if (level == SmtLevel || level == CoreLevel) {
+          numCores_[level - 1] = extractBit(data[1], 0, 15);
+        }
+      }
+      /*
+              Fallback values in case a hypervisor has 0xB leaf zeroed-out.
+      */
+      numCores_[SmtLevel - 1] = local::max_(1u, numCores_[SmtLevel - 1]);
+      numCores_[CoreLevel - 1] = local::max_(numCores_[SmtLevel - 1], numCores_[CoreLevel - 1]);
+    } else {
+      /*
+              Failed to deremine num of cores without x2APIC support.
+              TODO: USE initial APIC ID to determine ncores.
+      */
+      numCores_[SmtLevel - 1] = 0;
+      numCores_[CoreLevel - 1] = 0;
+    }
+  }
+  void setCacheHierarchy() {
+    if (!has(tINTEL) && !has(tAMD)) return;
+
+    // https://github.com/amd/ZenDNN/blob/a08bf9a9efc160a69147cdecfb61cc85cc0d4928/src/cpu/x64/xbyak/xbyak_util.h#L236-L288
+    if (has(tAMD)) {
+      // There are 3 Data Cache Levels (L1, L2, L3)
+      dataCacheLevels_ = 3;
+      const uint32_t leaf = 0x8000001D;  // for modern AMD CPus
+      // Sub leaf value ranges from 0 to 3
+      // Sub leaf value 0 refers to L1 Data Cache
+      // Sub leaf value 1 refers to L1 Instruction Cache
+      // Sub leaf value 2 refers to L2 Cache
+      // Sub leaf value 3 refers to L3 Cache
+      // For legacy AMD CPU, use leaf 0x80000005 for L1 cache
+      // and 0x80000006 for L2 and L3 cache
+      int cache_index = 0;
+      for (uint32_t sub_leaf = 0; sub_leaf <= dataCacheLevels_; sub_leaf++) {
+        // Skip sub_leaf = 1 as it refers to
+        // L1 Instruction Cache (not required)
+        if (sub_leaf == 1) {
+          continue;
+        }
+        uint32_t data[4] = {};
+        getCpuidEx(leaf, sub_leaf, data);
+        // Cache Size = Line Size * Partitions * Associativity * Cache Sets
+        dataCacheSize_[cache_index] = (extractBit(data[1], 22, 31) + 1)    // Associativity-1
+                                      * (extractBit(data[1], 12, 21) + 1)  // Partitions-1
+                                      * (extractBit(data[1], 0, 11) + 1)   // Line Size
+                                      * (data[2] + 1);
+        // Calculate the number of cores sharing the current data cache
+        int smt_width = numCores_[0];
+        int logical_cores = numCores_[1];
+        int actual_logical_cores = extractBit(data[0], 14, 25) /* # of cores * # of threads */ + 1;
+        if (logical_cores != 0) {
+          actual_logical_cores = local::min_(actual_logical_cores, logical_cores);
+        }
+        coresSharignDataCache_[cache_index] = local::max_(actual_logical_cores / smt_width, 1);
+        ++cache_index;
+      }
+      return;
+    }
+    // intel
+    const uint32_t NO_CACHE = 0;
+    const uint32_t DATA_CACHE = 1;
+    //		const uint32_t INSTRUCTION_CACHE = 2;
+    const uint32_t UNIFIED_CACHE = 3;
+    uint32_t smt_width = 0;
+    uint32_t logical_cores = 0;
+    uint32_t data[4] = {};
+
+    if (x2APIC_supported_) {
+      smt_width = numCores_[0];
+      logical_cores = numCores_[1];
+    }
+
+    /*
+            Assumptions:
+            the first level of data cache is not shared (which is the
+            case for every existing architecture) and use this to
+            determine the SMT width for arch not supporting leaf 11.
+            when leaf 4 reports a number of core less than numCores_
+            on socket reported by leaf 11, then it is a correct number
+            of cores not an upperbound.
+    */
+    for (int i = 0; dataCacheLevels_ < maxNumberCacheLevels; i++) {
+      getCpuidEx(0x4, i, data);
+      uint32_t cacheType = extractBit(data[0], 0, 4);
+      if (cacheType == NO_CACHE) break;
+      if (cacheType == DATA_CACHE || cacheType == UNIFIED_CACHE) {
+        uint32_t actual_logical_cores = extractBit(data[0], 14, 25) + 1;
+        if (logical_cores != 0) {  // true only if leaf 0xB is supported and valid
+          actual_logical_cores = local::min_(actual_logical_cores, logical_cores);
+        }
+        assert(actual_logical_cores != 0);
+        dataCacheSize_[dataCacheLevels_] = (extractBit(data[1], 22, 31) + 1) * (extractBit(data[1], 12, 21) + 1) *
+                                           (extractBit(data[1], 0, 11) + 1) * (data[2] + 1);
+        if (cacheType == DATA_CACHE && smt_width == 0) smt_width = actual_logical_cores;
+        assert(smt_width != 0);
+        coresSharignDataCache_[dataCacheLevels_] = local::max_(actual_logical_cores / smt_width, 1u);
+        dataCacheLevels_++;
+      }
+    }
+  }
+
+ public:
+  int model;
+  int family;
+  int stepping;
+  int extModel;
+  int extFamily;
+  int displayFamily;  // family + extFamily
+  int displayModel;   // model + extModel
+
+  uint32_t getNumCores(IntelCpuTopologyLevel level) const {
+    if (!x2APIC_supported_) XBYAK_THROW_RET(ERR_X2APIC_IS_NOT_SUPPORTED, 0)
+    switch (level) {
+      case SmtLevel:
+        return numCores_[level - 1];
+      case CoreLevel:
+        return numCores_[level - 1] / numCores_[SmtLevel - 1];
+      default:
+        XBYAK_THROW_RET(ERR_X2APIC_IS_NOT_SUPPORTED, 0)
+    }
+  }
+
+  uint32_t getDataCacheLevels() const { return dataCacheLevels_; }
+  uint32_t getCoresSharingDataCache(uint32_t i) const {
+    if (i >= dataCacheLevels_) XBYAK_THROW_RET(ERR_BAD_PARAMETER, 0)
+    return coresSharignDataCache_[i];
+  }
+  uint32_t getDataCacheSize(uint32_t i) const {
+    if (i >= dataCacheLevels_) XBYAK_THROW_RET(ERR_BAD_PARAMETER, 0)
+    return dataCacheSize_[i];
+  }
+
+  /*
+          data[] = { eax, ebx, ecx, edx }
+  */
+  static inline void getCpuid(uint32_t eaxIn, uint32_t data[4]) {
+#ifdef XBYAK_INTEL_CPU_SPECIFIC
+#ifdef _WIN32
+    __cpuid(reinterpret_cast<int*>(data), eaxIn);
+#else
+    __cpuid(eaxIn, data[0], data[1], data[2], data[3]);
+#endif
+#else
+    (void)eaxIn;
+    (void)data;
+#endif
+  }
+  static inline void getCpuidEx(uint32_t eaxIn, uint32_t ecxIn, uint32_t data[4]) {
+#ifdef XBYAK_INTEL_CPU_SPECIFIC
+#ifdef _WIN32
+    __cpuidex(reinterpret_cast<int*>(data), eaxIn, ecxIn);
+#else
+    __cpuid_count(eaxIn, ecxIn, data[0], data[1], data[2], data[3]);
+#endif
+#else
+    (void)eaxIn;
+    (void)ecxIn;
+    (void)data;
+#endif
+  }
+  static inline uint64_t getXfeature() {
+#ifdef XBYAK_INTEL_CPU_SPECIFIC
+#ifdef _MSC_VER
+    return _xgetbv(0);
+#else
+    uint32_t eax, edx;
+    // xgetvb is not support on gcc 4.2
+    //		__asm__ volatile("xgetbv" : "=a"(eax), "=d"(edx) : "c"(0));
+    __asm__ volatile(".byte 0x0f, 0x01, 0xd0" : "=a"(eax), "=d"(edx) : "c"(0));
+    return ((uint64_t)edx << 32) | eax;
+#endif
+#else
+    return 0;
+#endif
+  }
+
+#define XBYAK_SPLIT_ID(id) ((0 <= id && id < 64) ? (1ull << (id % 64)) : 0), (id >= 64 ? (1ull << (id % 64)) : 0)
+#if (__cplusplus >= 201103) || (defined(_MSC_VER) && (_MSC_VER >= 1700)) /* VS2012 */
+#define XBYAK_DEFINE_TYPE(id, NAME) \
+  static const constexpr local::TypeT<XBYAK_SPLIT_ID(id)> NAME {}
+#else
+#define XBYAK_DEFINE_TYPE(id, NAME) static const local::TypeT<XBYAK_SPLIT_ID(id)> NAME
+#endif
+  XBYAK_DEFINE_TYPE(0, tMMX);
+  XBYAK_DEFINE_TYPE(1, tMMX2);
+  XBYAK_DEFINE_TYPE(2, tCMOV);
+  XBYAK_DEFINE_TYPE(3, tSSE);
+  XBYAK_DEFINE_TYPE(4, tSSE2);
+  XBYAK_DEFINE_TYPE(5, tSSE3);
+  XBYAK_DEFINE_TYPE(6, tSSSE3);
+  XBYAK_DEFINE_TYPE(7, tSSE41);
+  XBYAK_DEFINE_TYPE(8, tSSE42);
+  XBYAK_DEFINE_TYPE(9, tPOPCNT);
+  XBYAK_DEFINE_TYPE(10, tAESNI);
+  XBYAK_DEFINE_TYPE(11, tAVX512_FP16);
+  XBYAK_DEFINE_TYPE(12, tOSXSAVE);
+  XBYAK_DEFINE_TYPE(13, tPCLMULQDQ);
+  XBYAK_DEFINE_TYPE(14, tAVX);
+  XBYAK_DEFINE_TYPE(15, tFMA);
+  XBYAK_DEFINE_TYPE(16, t3DN);
+  XBYAK_DEFINE_TYPE(17, tE3DN);
+  XBYAK_DEFINE_TYPE(18, tWAITPKG);
+  XBYAK_DEFINE_TYPE(19, tRDTSCP);
+  XBYAK_DEFINE_TYPE(20, tAVX2);
+  XBYAK_DEFINE_TYPE(21, tBMI1);  // andn, bextr, blsi, blsmsk, blsr, tzcnt
+  XBYAK_DEFINE_TYPE(22, tBMI2);  // bzhi, mulx, pdep, pext, rorx, sarx, shlx, shrx
+  XBYAK_DEFINE_TYPE(23, tLZCNT);
+  XBYAK_DEFINE_TYPE(24, tINTEL);
+  XBYAK_DEFINE_TYPE(25, tAMD);
+  XBYAK_DEFINE_TYPE(26, tENHANCED_REP);  // enhanced rep movsb/stosb
+  XBYAK_DEFINE_TYPE(27, tRDRAND);
+  XBYAK_DEFINE_TYPE(28, tADX);     // adcx, adox
+  XBYAK_DEFINE_TYPE(29, tRDSEED);  // rdseed
+  XBYAK_DEFINE_TYPE(30, tSMAP);    // stac
+  XBYAK_DEFINE_TYPE(31, tHLE);     // xacquire, xrelease, xtest
+  XBYAK_DEFINE_TYPE(32, tRTM);     // xbegin, xend, xabort
+  XBYAK_DEFINE_TYPE(33, tF16C);    // vcvtph2ps, vcvtps2ph
+  XBYAK_DEFINE_TYPE(34, tMOVBE);   // mobve
+  XBYAK_DEFINE_TYPE(35, tAVX512F);
+  XBYAK_DEFINE_TYPE(36, tAVX512DQ);
+  XBYAK_DEFINE_TYPE(37, tAVX512_IFMA);
+  XBYAK_DEFINE_TYPE(37, tAVX512IFMA);  // = tAVX512_IFMA;
+  XBYAK_DEFINE_TYPE(38, tAVX512PF);
+  XBYAK_DEFINE_TYPE(39, tAVX512ER);
+  XBYAK_DEFINE_TYPE(40, tAVX512CD);
+  XBYAK_DEFINE_TYPE(41, tAVX512BW);
+  XBYAK_DEFINE_TYPE(42, tAVX512VL);
+  XBYAK_DEFINE_TYPE(43, tAVX512_VBMI);
+  XBYAK_DEFINE_TYPE(43, tAVX512VBMI);  // = tAVX512_VBMI; // changed by Intel's manual
+  XBYAK_DEFINE_TYPE(44, tAVX512_4VNNIW);
+  XBYAK_DEFINE_TYPE(45, tAVX512_4FMAPS);
+  XBYAK_DEFINE_TYPE(46, tPREFETCHWT1);
+  XBYAK_DEFINE_TYPE(47, tPREFETCHW);
+  XBYAK_DEFINE_TYPE(48, tSHA);
+  XBYAK_DEFINE_TYPE(49, tMPX);
+  XBYAK_DEFINE_TYPE(50, tAVX512_VBMI2);
+  XBYAK_DEFINE_TYPE(51, tGFNI);
+  XBYAK_DEFINE_TYPE(52, tVAES);
+  XBYAK_DEFINE_TYPE(53, tVPCLMULQDQ);
+  XBYAK_DEFINE_TYPE(54, tAVX512_VNNI);
+  XBYAK_DEFINE_TYPE(55, tAVX512_BITALG);
+  XBYAK_DEFINE_TYPE(56, tAVX512_VPOPCNTDQ);
+  XBYAK_DEFINE_TYPE(57, tAVX512_BF16);
+  XBYAK_DEFINE_TYPE(58, tAVX512_VP2INTERSECT);
+  XBYAK_DEFINE_TYPE(59, tAMX_TILE);
+  XBYAK_DEFINE_TYPE(60, tAMX_INT8);
+  XBYAK_DEFINE_TYPE(61, tAMX_BF16);
+  XBYAK_DEFINE_TYPE(62, tAVX_VNNI);
+  XBYAK_DEFINE_TYPE(63, tCLFLUSHOPT);
+  XBYAK_DEFINE_TYPE(64, tCLDEMOTE);
+  XBYAK_DEFINE_TYPE(65, tMOVDIRI);
+  XBYAK_DEFINE_TYPE(66, tMOVDIR64B);
+  XBYAK_DEFINE_TYPE(67, tCLZERO);  // AMD Zen
+  XBYAK_DEFINE_TYPE(68, tAMX_FP16);
+  XBYAK_DEFINE_TYPE(69, tAVX_VNNI_INT8);
+  XBYAK_DEFINE_TYPE(70, tAVX_NE_CONVERT);
+  XBYAK_DEFINE_TYPE(71, tAVX_IFMA);
+  XBYAK_DEFINE_TYPE(72, tRAO_INT);
+  XBYAK_DEFINE_TYPE(73, tCMPCCXADD);
+  XBYAK_DEFINE_TYPE(74, tPREFETCHITI);
+  XBYAK_DEFINE_TYPE(75, tSERIALIZE);
+  XBYAK_DEFINE_TYPE(76, tUINTR);
+  XBYAK_DEFINE_TYPE(77, tXSAVE);
+  XBYAK_DEFINE_TYPE(78, tSHA512);
+  XBYAK_DEFINE_TYPE(79, tSM3);
+  XBYAK_DEFINE_TYPE(80, tSM4);
+  XBYAK_DEFINE_TYPE(81, tAVX_VNNI_INT16);
+
+#undef XBYAK_SPLIT_ID
+#undef XBYAK_DEFINE_TYPE
+
+  Cpu()
+      : type_(),
+        x2APIC_supported_(false),
+        numCores_(),
+        dataCacheSize_(),
+        coresSharignDataCache_(),
+        dataCacheLevels_(0) {
+    uint32_t data[4] = {};
+    const uint32_t& EAX = data[0];
+    const uint32_t& EBX = data[1];
+    const uint32_t& ECX = data[2];
+    const uint32_t& EDX = data[3];
+    getCpuid(0, data);
+    const uint32_t maxNum = EAX;
+    static const char intel[] = "ntel";
+    static const char amd[] = "cAMD";
+    if (ECX == get32bitAsBE(amd)) {
+      type_ |= tAMD;
+      getCpuid(0x80000001, data);
+      if (EDX & (1U << 31)) {
+        type_ |= t3DN;
+        // 3DNow! implies support for PREFETCHW on AMD
+        type_ |= tPREFETCHW;
+      }
+
+      if (EDX & (1U << 29)) {
+        // Long mode implies support for PREFETCHW on AMD
+        type_ |= tPREFETCHW;
+      }
+    }
+    if (ECX == get32bitAsBE(intel)) {
+      type_ |= tINTEL;
+    }
+
+    // Extended flags information
+    getCpuid(0x80000000, data);
+    const uint32_t maxExtendedNum = EAX;
+    if (maxExtendedNum >= 0x80000001) {
+      getCpuid(0x80000001, data);
+
+      if (EDX & (1U << 31)) type_ |= t3DN;
+      if (EDX & (1U << 30)) type_ |= tE3DN;
+      if (EDX & (1U << 27)) type_ |= tRDTSCP;
+      if (EDX & (1U << 22)) type_ |= tMMX2;
+      if (EDX & (1U << 15)) type_ |= tCMOV;
+      if (ECX & (1U << 5)) type_ |= tLZCNT;
+      if (ECX & (1U << 8)) type_ |= tPREFETCHW;
+    }
+
+    if (maxExtendedNum >= 0x80000008) {
+      getCpuid(0x80000008, data);
+      if (EBX & (1U << 0)) type_ |= tCLZERO;
+    }
+
+    getCpuid(1, data);
+    if (ECX & (1U << 0)) type_ |= tSSE3;
+    if (ECX & (1U << 1)) type_ |= tPCLMULQDQ;
+    if (ECX & (1U << 9)) type_ |= tSSSE3;
+    if (ECX & (1U << 19)) type_ |= tSSE41;
+    if (ECX & (1U << 20)) type_ |= tSSE42;
+    if (ECX & (1U << 22)) type_ |= tMOVBE;
+    if (ECX & (1U << 23)) type_ |= tPOPCNT;
+    if (ECX & (1U << 25)) type_ |= tAESNI;
+    if (ECX & (1U << 26)) type_ |= tXSAVE;
+    if (ECX & (1U << 27)) type_ |= tOSXSAVE;
+    if (ECX & (1U << 30)) type_ |= tRDRAND;
+    if (ECX & (1U << 29)) type_ |= tF16C;
+
+    if (EDX & (1U << 15)) type_ |= tCMOV;
+    if (EDX & (1U << 23)) type_ |= tMMX;
+    if (EDX & (1U << 25)) type_ |= tMMX2 | tSSE;
+    if (EDX & (1U << 26)) type_ |= tSSE2;
+
+    if (type_ & tOSXSAVE) {
+      // check XFEATURE_ENABLED_MASK[2:1] = '11b'
+      uint64_t bv = getXfeature();
+      if ((bv & 6) == 6) {
+        if (ECX & (1U << 28)) type_ |= tAVX;
+        if (ECX & (1U << 12)) type_ |= tFMA;
+          // do *not* check AVX-512 state on macOS because it has on-demand AVX-512 support
+#if !defined(__APPLE__)
+        if (((bv >> 5) & 7) == 7)
+#endif
+        {
+          getCpuidEx(7, 0, data);
+          if (EBX & (1U << 16)) type_ |= tAVX512F;
+          if (type_ & tAVX512F) {
+            if (EBX & (1U << 17)) type_ |= tAVX512DQ;
+            if (EBX & (1U << 21)) type_ |= tAVX512_IFMA;
+            if (EBX & (1U << 26)) type_ |= tAVX512PF;
+            if (EBX & (1U << 27)) type_ |= tAVX512ER;
+            if (EBX & (1U << 28)) type_ |= tAVX512CD;
+            if (EBX & (1U << 30)) type_ |= tAVX512BW;
+            if (EBX & (1U << 31)) type_ |= tAVX512VL;
+            if (ECX & (1U << 1)) type_ |= tAVX512_VBMI;
+            if (ECX & (1U << 6)) type_ |= tAVX512_VBMI2;
+            if (ECX & (1U << 11)) type_ |= tAVX512_VNNI;
+            if (ECX & (1U << 12)) type_ |= tAVX512_BITALG;
+            if (ECX & (1U << 14)) type_ |= tAVX512_VPOPCNTDQ;
+            if (EDX & (1U << 2)) type_ |= tAVX512_4VNNIW;
+            if (EDX & (1U << 3)) type_ |= tAVX512_4FMAPS;
+            if (EDX & (1U << 8)) type_ |= tAVX512_VP2INTERSECT;
+            if ((type_ & tAVX512BW) && (EDX & (1U << 23))) type_ |= tAVX512_FP16;
+          }
+        }
+      }
+    }
+    if (maxNum >= 7) {
+      getCpuidEx(7, 0, data);
+      const uint32_t maxNumSubLeaves = EAX;
+      if (type_ & tAVX && (EBX & (1U << 5))) type_ |= tAVX2;
+      if (EBX & (1U << 3)) type_ |= tBMI1;
+      if (EBX & (1U << 8)) type_ |= tBMI2;
+      if (EBX & (1U << 9)) type_ |= tENHANCED_REP;
+      if (EBX & (1U << 18)) type_ |= tRDSEED;
+      if (EBX & (1U << 19)) type_ |= tADX;
+      if (EBX & (1U << 20)) type_ |= tSMAP;
+      if (EBX & (1U << 23)) type_ |= tCLFLUSHOPT;
+      if (EBX & (1U << 4)) type_ |= tHLE;
+      if (EBX & (1U << 11)) type_ |= tRTM;
+      if (EBX & (1U << 14)) type_ |= tMPX;
+      if (EBX & (1U << 29)) type_ |= tSHA;
+      if (ECX & (1U << 0)) type_ |= tPREFETCHWT1;
+      if (ECX & (1U << 5)) type_ |= tWAITPKG;
+      if (ECX & (1U << 8)) type_ |= tGFNI;
+      if (ECX & (1U << 9)) type_ |= tVAES;
+      if (ECX & (1U << 10)) type_ |= tVPCLMULQDQ;
+      if (ECX & (1U << 25)) type_ |= tCLDEMOTE;
+      if (ECX & (1U << 27)) type_ |= tMOVDIRI;
+      if (ECX & (1U << 28)) type_ |= tMOVDIR64B;
+      if (EDX & (1U << 5)) type_ |= tUINTR;
+      if (EDX & (1U << 14)) type_ |= tSERIALIZE;
+      if (EDX & (1U << 22)) type_ |= tAMX_BF16;
+      if (EDX & (1U << 24)) type_ |= tAMX_TILE;
+      if (EDX & (1U << 25)) type_ |= tAMX_INT8;
+      if (maxNumSubLeaves >= 1) {
+        getCpuidEx(7, 1, data);
+        if (EAX & (1U << 0)) type_ |= tSHA512;
+        if (EAX & (1U << 1)) type_ |= tSM3;
+        if (EAX & (1U << 2)) type_ |= tSM4;
+        if (EAX & (1U << 3)) type_ |= tRAO_INT;
+        if (EAX & (1U << 4)) type_ |= tAVX_VNNI;
+        if (type_ & tAVX512F) {
+          if (EAX & (1U << 5)) type_ |= tAVX512_BF16;
+        }
+        if (EAX & (1U << 7)) type_ |= tCMPCCXADD;
+        if (EAX & (1U << 21)) type_ |= tAMX_FP16;
+        if (EAX & (1U << 23)) type_ |= tAVX_IFMA;
+        if (EDX & (1U << 4)) type_ |= tAVX_VNNI_INT8;
+        if (EDX & (1U << 5)) type_ |= tAVX_NE_CONVERT;
+        if (EDX & (1U << 10)) type_ |= tAVX_VNNI_INT16;
+        if (EDX & (1U << 14)) type_ |= tPREFETCHITI;
+      }
+    }
+    setFamily();
+    setNumCores();
+    setCacheHierarchy();
+  }
+  void putFamily() const {
+#ifndef XBYAK_ONLY_CLASS_CPU
+    printf("family=%d, model=%X, stepping=%d, extFamily=%d, extModel=%X\n", family, model, stepping, extFamily,
+           extModel);
+    printf("display:family=%X, model=%X\n", displayFamily, displayModel);
+#endif
+  }
+  bool has(const Type& type) const { return (type & type_) == type; }
+};
+
+#ifndef XBYAK_ONLY_CLASS_CPU
+class Clock {
+ public:
+  static inline uint64_t getRdtsc() {
+#ifdef XBYAK_INTEL_CPU_SPECIFIC
+#ifdef _MSC_VER
+    return __rdtsc();
+#else
+    uint32_t eax, edx;
+    __asm__ volatile("rdtsc" : "=a"(eax), "=d"(edx));
+    return ((uint64_t)edx << 32) | eax;
+#endif
+#else
+    // TODO: Need another impl of Clock or rdtsc-equivalent for non-x86 cpu
+    return 0;
+#endif
+  }
+  Clock() : clock_(0), count_(0) {}
+  void begin() { clock_ -= getRdtsc(); }
+  void end() {
+    clock_ += getRdtsc();
+    count_++;
+  }
+  int getCount() const { return count_; }
+  uint64_t getClock() const { return clock_; }
+  void clear() {
+    count_ = 0;
+    clock_ = 0;
+  }
+
+ private:
+  uint64_t clock_;
+  int count_;
+};
+
+#ifdef XBYAK64
+const int UseRCX = 1 << 6;
+const int UseRDX = 1 << 7;
+
+class Pack {
+  static const size_t maxTblNum = 15;
+  Xbyak::Reg64 tbl_[maxTblNum];
+  size_t n_;
+
+ public:
+  Pack() : tbl_(), n_(0) {}
+  Pack(const Xbyak::Reg64* tbl, size_t n) { init(tbl, n); }
+  Pack(const Pack& rhs) : n_(rhs.n_) {
+    for (size_t i = 0; i < n_; i++) tbl_[i] = rhs.tbl_[i];
+  }
+  Pack& operator=(const Pack& rhs) {
+    n_ = rhs.n_;
+    for (size_t i = 0; i < n_; i++) tbl_[i] = rhs.tbl_[i];
+    return *this;
+  }
+  Pack(const Xbyak::Reg64& t0) {
+    n_ = 1;
+    tbl_[0] = t0;
+  }
+  Pack(const Xbyak::Reg64& t1, const Xbyak::Reg64& t0) {
+    n_ = 2;
+    tbl_[0] = t0;
+    tbl_[1] = t1;
+  }
+  Pack(const Xbyak::Reg64& t2, const Xbyak::Reg64& t1, const Xbyak::Reg64& t0) {
+    n_ = 3;
+    tbl_[0] = t0;
+    tbl_[1] = t1;
+    tbl_[2] = t2;
+  }
+  Pack(const Xbyak::Reg64& t3, const Xbyak::Reg64& t2, const Xbyak::Reg64& t1, const Xbyak::Reg64& t0) {
+    n_ = 4;
+    tbl_[0] = t0;
+    tbl_[1] = t1;
+    tbl_[2] = t2;
+    tbl_[3] = t3;
+  }
+  Pack(const Xbyak::Reg64& t4, const Xbyak::Reg64& t3, const Xbyak::Reg64& t2, const Xbyak::Reg64& t1,
+       const Xbyak::Reg64& t0) {
+    n_ = 5;
+    tbl_[0] = t0;
+    tbl_[1] = t1;
+    tbl_[2] = t2;
+    tbl_[3] = t3;
+    tbl_[4] = t4;
+  }
+  Pack(const Xbyak::Reg64& t5, const Xbyak::Reg64& t4, const Xbyak::Reg64& t3, const Xbyak::Reg64& t2,
+       const Xbyak::Reg64& t1, const Xbyak::Reg64& t0) {
+    n_ = 6;
+    tbl_[0] = t0;
+    tbl_[1] = t1;
+    tbl_[2] = t2;
+    tbl_[3] = t3;
+    tbl_[4] = t4;
+    tbl_[5] = t5;
+  }
+  Pack(const Xbyak::Reg64& t6, const Xbyak::Reg64& t5, const Xbyak::Reg64& t4, const Xbyak::Reg64& t3,
+       const Xbyak::Reg64& t2, const Xbyak::Reg64& t1, const Xbyak::Reg64& t0) {
+    n_ = 7;
+    tbl_[0] = t0;
+    tbl_[1] = t1;
+    tbl_[2] = t2;
+    tbl_[3] = t3;
+    tbl_[4] = t4;
+    tbl_[5] = t5;
+    tbl_[6] = t6;
+  }
+  Pack(const Xbyak::Reg64& t7, const Xbyak::Reg64& t6, const Xbyak::Reg64& t5, const Xbyak::Reg64& t4,
+       const Xbyak::Reg64& t3, const Xbyak::Reg64& t2, const Xbyak::Reg64& t1, const Xbyak::Reg64& t0) {
+    n_ = 8;
+    tbl_[0] = t0;
+    tbl_[1] = t1;
+    tbl_[2] = t2;
+    tbl_[3] = t3;
+    tbl_[4] = t4;
+    tbl_[5] = t5;
+    tbl_[6] = t6;
+    tbl_[7] = t7;
+  }
+  Pack(const Xbyak::Reg64& t8, const Xbyak::Reg64& t7, const Xbyak::Reg64& t6, const Xbyak::Reg64& t5,
+       const Xbyak::Reg64& t4, const Xbyak::Reg64& t3, const Xbyak::Reg64& t2, const Xbyak::Reg64& t1,
+       const Xbyak::Reg64& t0) {
+    n_ = 9;
+    tbl_[0] = t0;
+    tbl_[1] = t1;
+    tbl_[2] = t2;
+    tbl_[3] = t3;
+    tbl_[4] = t4;
+    tbl_[5] = t5;
+    tbl_[6] = t6;
+    tbl_[7] = t7;
+    tbl_[8] = t8;
+  }
+  Pack(const Xbyak::Reg64& t9, const Xbyak::Reg64& t8, const Xbyak::Reg64& t7, const Xbyak::Reg64& t6,
+       const Xbyak::Reg64& t5, const Xbyak::Reg64& t4, const Xbyak::Reg64& t3, const Xbyak::Reg64& t2,
+       const Xbyak::Reg64& t1, const Xbyak::Reg64& t0) {
+    n_ = 10;
+    tbl_[0] = t0;
+    tbl_[1] = t1;
+    tbl_[2] = t2;
+    tbl_[3] = t3;
+    tbl_[4] = t4;
+    tbl_[5] = t5;
+    tbl_[6] = t6;
+    tbl_[7] = t7;
+    tbl_[8] = t8;
+    tbl_[9] = t9;
+  }
+  Pack(const Xbyak::Reg64& ta, const Xbyak::Reg64& t9, const Xbyak::Reg64& t8, const Xbyak::Reg64& t7,
+       const Xbyak::Reg64& t6, const Xbyak::Reg64& t5, const Xbyak::Reg64& t4, const Xbyak::Reg64& t3,
+       const Xbyak::Reg64& t2, const Xbyak::Reg64& t1, const Xbyak::Reg64& t0) {
+    n_ = 11;
+    tbl_[0] = t0;
+    tbl_[1] = t1;
+    tbl_[2] = t2;
+    tbl_[3] = t3;
+    tbl_[4] = t4;
+    tbl_[5] = t5;
+    tbl_[6] = t6;
+    tbl_[7] = t7;
+    tbl_[8] = t8;
+    tbl_[9] = t9;
+    tbl_[10] = ta;
+  }
+  Pack(const Xbyak::Reg64& tb, const Xbyak::Reg64& ta, const Xbyak::Reg64& t9, const Xbyak::Reg64& t8,
+       const Xbyak::Reg64& t7, const Xbyak::Reg64& t6, const Xbyak::Reg64& t5, const Xbyak::Reg64& t4,
+       const Xbyak::Reg64& t3, const Xbyak::Reg64& t2, const Xbyak::Reg64& t1, const Xbyak::Reg64& t0) {
+    n_ = 12;
+    tbl_[0] = t0;
+    tbl_[1] = t1;
+    tbl_[2] = t2;
+    tbl_[3] = t3;
+    tbl_[4] = t4;
+    tbl_[5] = t5;
+    tbl_[6] = t6;
+    tbl_[7] = t7;
+    tbl_[8] = t8;
+    tbl_[9] = t9;
+    tbl_[10] = ta;
+    tbl_[11] = tb;
+  }
+  Pack& append(const Xbyak::Reg64& t) {
+    if (n_ == maxTblNum) {
+      fprintf(stderr, "ERR Pack::can't append\n");
+      XBYAK_THROW_RET(ERR_BAD_PARAMETER, *this)
+    }
+    tbl_[n_++] = t;
+    return *this;
+  }
+  void init(const Xbyak::Reg64* tbl, size_t n) {
+    if (n > maxTblNum) {
+      fprintf(stderr, "ERR Pack::init bad n=%d\n", (int)n);
+      XBYAK_THROW(ERR_BAD_PARAMETER)
+    }
+    n_ = n;
+    for (size_t i = 0; i < n; i++) {
+      tbl_[i] = tbl[i];
+    }
+  }
+  const Xbyak::Reg64& operator[](size_t n) const {
+    if (n >= n_) {
+      fprintf(stderr, "ERR Pack bad n=%d(%d)\n", (int)n, (int)n_);
+      XBYAK_THROW_RET(ERR_BAD_PARAMETER, rax)
+    }
+    return tbl_[n];
+  }
+  size_t size() const { return n_; }
+  /*
+          get tbl[pos, pos + num)
+  */
+  Pack sub(size_t pos, size_t num = size_t(-1)) const {
+    if (num == size_t(-1)) num = n_ - pos;
+    if (pos + num > n_) {
+      fprintf(stderr, "ERR Pack::sub bad pos=%d, num=%d\n", (int)pos, (int)num);
+      XBYAK_THROW_RET(ERR_BAD_PARAMETER, Pack())
+    }
+    Pack pack;
+    pack.n_ = num;
+    for (size_t i = 0; i < num; i++) {
+      pack.tbl_[i] = tbl_[pos + i];
+    }
+    return pack;
+  }
+  void put() const {
+    for (size_t i = 0; i < n_; i++) {
+      printf("%s ", tbl_[i].toString());
+    }
+    printf("\n");
+  }
+};
+
+class StackFrame {
+#ifdef XBYAK64_WIN
+  static const int noSaveNum = 6;
+  static const int rcxPos = 0;
+  static const int rdxPos = 1;
+#else
+  static const int noSaveNum = 8;
+  static const int rcxPos = 3;
+  static const int rdxPos = 2;
+#endif
+  static const int maxRegNum = 14;  // maxRegNum = 16 - rsp - rax
+  Xbyak::CodeGenerator* code_;
+  int pNum_;
+  int tNum_;
+  bool useRcx_;
+  bool useRdx_;
+  int saveNum_;
+  int P_;
+  bool makeEpilog_;
+  Xbyak::Reg64 pTbl_[4];
+  Xbyak::Reg64 tTbl_[maxRegNum];
+  Pack p_;
+  Pack t_;
+  StackFrame(const StackFrame&);
+  void operator=(const StackFrame&);
+
+ public:
+  const Pack& p;
+  const Pack& t;
+  /*
+          make stack frame
+          @param sf [in] this
+          @param pNum [in] num of function parameter(0 <= pNum <= 4)
+          @param tNum [in] num of temporary register(0 <= tNum, with UseRCX, UseRDX) #{pNum + tNum [+rcx] + [rdx]} <= 14
+          @param stackSizeByte [in] local stack size
+          @param makeEpilog [in] automatically call close() if true
+
+          you can use
+          rax
+          gp0, ..., gp(pNum - 1)
+          gt0, ..., gt(tNum-1)
+          rcx if tNum & UseRCX
+          rdx if tNum & UseRDX
+          rsp[0..stackSizeByte - 1]
+  */
+  StackFrame(Xbyak::CodeGenerator* code, int pNum, int tNum = 0, int stackSizeByte = 0, bool makeEpilog = true)
+      : code_(code),
+        pNum_(pNum),
+        tNum_(tNum & ~(UseRCX | UseRDX)),
+        useRcx_((tNum & UseRCX) != 0),
+        useRdx_((tNum & UseRDX) != 0),
+        saveNum_(0),
+        P_(0),
+        makeEpilog_(makeEpilog),
+        p(p_),
+        t(t_) {
+    using namespace Xbyak;
+    if (pNum < 0 || pNum > 4) XBYAK_THROW(ERR_BAD_PNUM)
+    const int allRegNum = pNum + tNum_ + (useRcx_ ? 1 : 0) + (useRdx_ ? 1 : 0);
+    if (tNum_ < 0 || allRegNum > maxRegNum) XBYAK_THROW(ERR_BAD_TNUM)
+    const Reg64& _rsp = code->rsp;
+    saveNum_ = local::max_(0, allRegNum - noSaveNum);
+    const int* tbl = getOrderTbl() + noSaveNum;
+    for (int i = 0; i < saveNum_; i++) {
+      code->push(Reg64(tbl[i]));
+    }
+    P_ = (stackSizeByte + 7) / 8;
+    if (P_ > 0 && (P_ & 1) == (saveNum_ & 1)) P_++;  // (rsp % 16) == 8, then increment P_ for 16 byte alignment
+    P_ *= 8;
+    if (P_ > 0) code->sub(_rsp, P_);
+    int pos = 0;
+    for (int i = 0; i < pNum; i++) {
+      pTbl_[i] = Xbyak::Reg64(getRegIdx(pos));
+    }
+    for (int i = 0; i < tNum_; i++) {
+      tTbl_[i] = Xbyak::Reg64(getRegIdx(pos));
+    }
+    if (useRcx_ && rcxPos < pNum) code_->mov(code_->r10, code_->rcx);
+    if (useRdx_ && rdxPos < pNum) code_->mov(code_->r11, code_->rdx);
+    p_.init(pTbl_, pNum);
+    t_.init(tTbl_, tNum_);
+  }
+  /*
+          make epilog manually
+          @param callRet [in] call ret() if true
+  */
+  void close(bool callRet = true) {
+    using namespace Xbyak;
+    const Reg64& _rsp = code_->rsp;
+    const int* tbl = getOrderTbl() + noSaveNum;
+    if (P_ > 0) code_->add(_rsp, P_);
+    for (int i = 0; i < saveNum_; i++) {
+      code_->pop(Reg64(tbl[saveNum_ - 1 - i]));
+    }
+
+    if (callRet) code_->ret();
+  }
+  ~StackFrame() {
+    if (!makeEpilog_) return;
+    close();
+  }
+
+ private:
+  const int* getOrderTbl() const {
+    using namespace Xbyak;
+    static const int tbl[] = {
+#ifdef XBYAK64_WIN
+        Operand::RCX, Operand::RDX, Operand::R8,  Operand::R9,  Operand::R10, Operand::R11, Operand::RDI, Operand::RSI,
+#else
+        Operand::RDI, Operand::RSI, Operand::RDX, Operand::RCX, Operand::R8,  Operand::R9, Operand::R10, Operand::R11,
+#endif
+        Operand::RBX, Operand::RBP, Operand::R12, Operand::R13, Operand::R14, Operand::R15};
+    return &tbl[0];
+  }
+  int getRegIdx(int& pos) const {
+    assert(pos < maxRegNum);
+    using namespace Xbyak;
+    const int* tbl = getOrderTbl();
+    int r = tbl[pos++];
+    if (useRcx_) {
+      if (r == Operand::RCX) {
+        return Operand::R10;
+      }
+      if (r == Operand::R10) {
+        r = tbl[pos++];
+      }
+    }
+    if (useRdx_) {
+      if (r == Operand::RDX) {
+        return Operand::R11;
+      }
+      if (r == Operand::R11) {
+        return tbl[pos++];
+      }
+    }
+    return r;
+  }
+};
+#endif
+
+class Profiler {
+  int mode_;
+  const char* suffix_;
+  const void* startAddr_;
+#ifdef XBYAK_USE_PERF
+  FILE* fp_;
+#endif
+ public:
+  enum { None = 0, Perf = 1, VTune = 2 };
+  Profiler()
+      : mode_(None),
+        suffix_(""),
+        startAddr_(0)
+#ifdef XBYAK_USE_PERF
+        ,
+        fp_(0)
+#endif
+  {
+  }
+  // append suffix to funcName
+  void setNameSuffix(const char* suffix) { suffix_ = suffix; }
+  void setStartAddr(const void* startAddr) { startAddr_ = startAddr; }
+  void init(int mode) {
+    mode_ = None;
+    switch (mode) {
+      default:
+      case None:
+        return;
+      case Perf:
+#ifdef XBYAK_USE_PERF
+        close();
+        {
+          const int pid = getpid();
+          char name[128];
+          snprintf(name, sizeof(name), "/tmp/perf-%d.map", pid);
+          fp_ = fopen(name, "a+");
+          if (fp_ == 0) {
+            fprintf(stderr, "can't open %s\n", name);
+            return;
+          }
+        }
+        mode_ = Perf;
+#endif
+        return;
+      case VTune:
+#ifdef XBYAK_USE_VTUNE
+        dlopen("dummy", RTLD_LAZY);  // force to load dlopen to enable jit profiling
+        if (iJIT_IsProfilingActive() != iJIT_SAMPLING_ON) {
+          fprintf(stderr, "VTune profiling is not active\n");
+          return;
+        }
+        mode_ = VTune;
+#endif
+        return;
+    }
+  }
+  ~Profiler() { close(); }
+  void close() {
+#ifdef XBYAK_USE_PERF
+    if (fp_ == 0) return;
+    fclose(fp_);
+    fp_ = 0;
+#endif
+  }
+  void set(const char* funcName, const void* startAddr, size_t funcSize) const {
+    if (mode_ == None) return;
+#if !defined(XBYAK_USE_PERF) && !defined(XBYAK_USE_VTUNE)
+    (void)funcName;
+    (void)startAddr;
+    (void)funcSize;
+#endif
+#ifdef XBYAK_USE_PERF
+    if (mode_ == Perf) {
+      if (fp_ == 0) return;
+      fprintf(fp_, "%llx %zx %s%s", (long long)startAddr, funcSize, funcName, suffix_);
+      /*
+              perf does not recognize the function name which is less than 3,
+              so append '_' at the end of the name if necessary
+      */
+      size_t n = strlen(funcName) + strlen(suffix_);
+      for (size_t i = n; i < 3; i++) {
+        fprintf(fp_, "_");
+      }
+      fprintf(fp_, "\n");
+      fflush(fp_);
+    }
+#endif
+#ifdef XBYAK_USE_VTUNE
+    if (mode_ != VTune) return;
+    char className[] = "";
+    char fileName[] = "";
+    iJIT_Method_Load jmethod = {};
+    jmethod.method_id = iJIT_GetNewMethodID();
+    jmethod.class_file_name = className;
+    jmethod.source_file_name = fileName;
+    jmethod.method_load_address = const_cast<void*>(startAddr);
+    jmethod.method_size = funcSize;
+    jmethod.line_number_size = 0;
+    char buf[128];
+    snprintf(buf, sizeof(buf), "%s%s", funcName, suffix_);
+    jmethod.method_name = buf;
+    iJIT_NotifyEvent(iJVM_EVENT_TYPE_METHOD_LOAD_FINISHED, (void*)&jmethod);
+#endif
+  }
+  /*
+          for continuous set
+          funcSize = endAddr - <previous set endAddr>
+  */
+  void set(const char* funcName, const void* endAddr) {
+    set(funcName, startAddr_, (size_t)endAddr - (size_t)startAddr_);
+    startAddr_ = endAddr;
+  }
+};
+#endif  // XBYAK_ONLY_CLASS_CPU
+
+}  // namespace util
+}  // namespace Xbyak
+
+#endif
diff --git a/onnxruntime/core/providers/cpu/cpu_execution_provider.cc b/onnxruntime/core/providers/cpu/cpu_execution_provider.cc
index 4553e7ee18913..1390f60243174 100644
--- a/onnxruntime/core/providers/cpu/cpu_execution_provider.cc
+++ b/onnxruntime/core/providers/cpu/cpu_execution_provider.cc
@@ -823,7 +823,7 @@ class ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCpuExecutionProvider, kOnnxDomain,
 class ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCpuExecutionProvider, kOnnxDomain, 16, int64_t, LessOrEqual);
 
 // Opset 17
-class ONNX_OPERATOR_KERNEL_CLASS_NAME(kCpuExecutionProvider, kOnnxDomain, 17, DFT);
+class ONNX_OPERATOR_VERSIONED_KERNEL_CLASS_NAME(kCpuExecutionProvider, kOnnxDomain, 17, 19, DFT);
 class ONNX_OPERATOR_KERNEL_CLASS_NAME(kCpuExecutionProvider, kOnnxDomain, 17, BlackmanWindow);
 class ONNX_OPERATOR_KERNEL_CLASS_NAME(kCpuExecutionProvider, kOnnxDomain, 17, HammingWindow);
 class ONNX_OPERATOR_KERNEL_CLASS_NAME(kCpuExecutionProvider, kOnnxDomain, 17, HannWindow);
@@ -960,6 +960,7 @@ class ONNX_OPERATOR_KERNEL_CLASS_NAME(kCpuExecutionProvider, kOnnxDomain, 19, Sh
 
 // Opset 20
 class ONNX_OPERATOR_KERNEL_CLASS_NAME(kCpuExecutionProvider, kOnnxDomain, 20, ConstantOfShape);
+class ONNX_OPERATOR_KERNEL_CLASS_NAME(kCpuExecutionProvider, kOnnxDomain, 20, DFT);
 class ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCpuExecutionProvider, kOnnxDomain, 20, float, GridSample);
 class ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCpuExecutionProvider, kOnnxDomain, 20, double, GridSample);
 class ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCpuExecutionProvider, kOnnxDomain, 20, float, AffineGrid);
@@ -2217,7 +2218,7 @@ Status RegisterOnnxOperatorKernels(KernelRegistry& kernel_registry) {
 
     // Opset 17
     BuildKernelCreateInfo<ONNX_OPERATOR_KERNEL_CLASS_NAME(kCpuExecutionProvider, kOnnxDomain, 17, BlackmanWindow)>,
-    BuildKernelCreateInfo<ONNX_OPERATOR_KERNEL_CLASS_NAME(kCpuExecutionProvider, kOnnxDomain, 17, DFT)>,
+    BuildKernelCreateInfo<ONNX_OPERATOR_VERSIONED_KERNEL_CLASS_NAME(kCpuExecutionProvider, kOnnxDomain, 17, 19, DFT)>,
     BuildKernelCreateInfo<ONNX_OPERATOR_KERNEL_CLASS_NAME(kCpuExecutionProvider, kOnnxDomain, 17, HammingWindow)>,
     BuildKernelCreateInfo<ONNX_OPERATOR_KERNEL_CLASS_NAME(kCpuExecutionProvider, kOnnxDomain, 17, HannWindow)>,
     BuildKernelCreateInfo<ONNX_OPERATOR_KERNEL_CLASS_NAME(kCpuExecutionProvider, kOnnxDomain, 17, MelWeightMatrix)>,
@@ -2403,6 +2404,7 @@ Status RegisterOnnxOperatorKernels(KernelRegistry& kernel_registry) {
 
     // Opset 20
     BuildKernelCreateInfo<ONNX_OPERATOR_KERNEL_CLASS_NAME(kCpuExecutionProvider, kOnnxDomain, 20, ConstantOfShape)>,
+    BuildKernelCreateInfo<ONNX_OPERATOR_KERNEL_CLASS_NAME(kCpuExecutionProvider, kOnnxDomain, 20, DFT)>,
     BuildKernelCreateInfo<ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCpuExecutionProvider, kOnnxDomain, 20, float, GridSample)>,
     BuildKernelCreateInfo<ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCpuExecutionProvider, kOnnxDomain, 20, double, GridSample)>,
     BuildKernelCreateInfo<ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCpuExecutionProvider, kOnnxDomain, 20, float, AffineGrid)>,
diff --git a/onnxruntime/core/providers/cpu/signal/dft.cc b/onnxruntime/core/providers/cpu/signal/dft.cc
index 8634e393b43d0..15bf633579e5f 100644
--- a/onnxruntime/core/providers/cpu/signal/dft.cc
+++ b/onnxruntime/core/providers/cpu/signal/dft.cc
@@ -19,7 +19,15 @@
 
 namespace onnxruntime {
 
-ONNX_CPU_OPERATOR_KERNEL(DFT, 17,
+ONNX_CPU_OPERATOR_VERSIONED_KERNEL(
+    DFT,
+    17, 19,
+    KernelDefBuilder()
+        .TypeConstraint("T1", BuildKernelDefConstraints<float, double>())
+        .TypeConstraint("T2", BuildKernelDefConstraints<int32_t, int64_t>()),
+    DFT);
+
+ONNX_CPU_OPERATOR_KERNEL(DFT, 20,
                          KernelDefBuilder()
                              .TypeConstraint("T1", BuildKernelDefConstraints<float, double>())
                              .TypeConstraint("T2", BuildKernelDefConstraints<int32_t, int64_t>()),
@@ -442,7 +450,13 @@ static Status discrete_fourier_transform(OpKernelContext* ctx, int64_t axis, boo
 }
 
 Status DFT::Compute(OpKernelContext* ctx) const {
-  ORT_RETURN_IF_ERROR(discrete_fourier_transform(ctx, axis_, is_onesided_, is_inverse_));
+  int64_t axis = axis_;
+  if (opset_ >= 20 && ctx->InputCount() >= 3) {
+    const Tensor* axes_tensor = ctx->Input<Tensor>(2);
+    axis = axes_tensor->Data<int64_t>()[0];
+  }
+
+  ORT_RETURN_IF_ERROR(discrete_fourier_transform(ctx, axis, is_onesided_, is_inverse_));
   return Status::OK();
 }
 
diff --git a/onnxruntime/core/providers/cpu/signal/dft.h b/onnxruntime/core/providers/cpu/signal/dft.h
index 71cac52e37e8f..967d4ec15524b 100644
--- a/onnxruntime/core/providers/cpu/signal/dft.h
+++ b/onnxruntime/core/providers/cpu/signal/dft.h
@@ -7,6 +7,7 @@
 namespace onnxruntime {
 
 class DFT final : public OpKernel {
+  int opset_;
   bool is_onesided_ = true;
   int64_t axis_ = 0;
   bool is_inverse_ = false;
@@ -14,7 +15,11 @@ class DFT final : public OpKernel {
  public:
   explicit DFT(const OpKernelInfo& info) : OpKernel(info) {
     is_onesided_ = static_cast<bool>(info.GetAttrOrDefault<int64_t>("onesided", 0));
-    axis_ = info.GetAttrOrDefault<int64_t>("axis", 1);
+    opset_ = info.node().SinceVersion();
+    if (opset_ < 20)
+      axis_ = info.GetAttrOrDefault<int64_t>("axis", 1);
+    else
+      axis_ = -2;  // default axis of DFT(20)
     is_inverse_ = info.GetAttrOrDefault<int64_t>("inverse", 0);
   }
   Status Compute(OpKernelContext* ctx) const override;
diff --git a/onnxruntime/core/providers/qnn/builder/onnx_ctx_model_helper.cc b/onnxruntime/core/providers/qnn/builder/onnx_ctx_model_helper.cc
index 234b957816662..b157396306d01 100644
--- a/onnxruntime/core/providers/qnn/builder/onnx_ctx_model_helper.cc
+++ b/onnxruntime/core/providers/qnn/builder/onnx_ctx_model_helper.cc
@@ -160,7 +160,7 @@ bool IsContextCacheFileExists(const std::string& customer_context_cache_path,
   if (!customer_context_cache_path.empty()) {
     context_cache_path = ToPathString(customer_context_cache_path);
   } else if (!model_pathstring.empty()) {
-    context_cache_path = model_pathstring + ToPathString("_qnn_ctx.onnx");
+    context_cache_path = model_pathstring + ToPathString("_ctx.onnx");
   }
 
   return std::filesystem::is_regular_file(context_cache_path) && std::filesystem::exists(context_cache_path);
diff --git a/onnxruntime/core/providers/qnn/qnn_execution_provider.cc b/onnxruntime/core/providers/qnn/qnn_execution_provider.cc
index 60f7bbe08cb6a..c72012fd4a19b 100644
--- a/onnxruntime/core/providers/qnn/qnn_execution_provider.cc
+++ b/onnxruntime/core/providers/qnn/qnn_execution_provider.cc
@@ -114,29 +114,23 @@ QNNExecutionProvider::QNNExecutionProvider(const ProviderOptions& provider_optio
   if (session_options) {
     disable_cpu_ep_fallback_ = session_options->config_options.GetConfigOrDefault(
                                    kOrtSessionOptionsDisableCPUEPFallback, "0") == "1";
-  }
-
-  static const std::string CONTEXT_CACHE_ENABLED = "qnn_context_cache_enable";
-  auto context_cache_enabled_pos = provider_options_map.find(CONTEXT_CACHE_ENABLED);
-  if (context_cache_enabled_pos != provider_options_map.end()) {
-    if (context_cache_enabled_pos->second == "1") {
-      context_cache_enabled_ = true;
-      LOGS_DEFAULT(VERBOSE) << "Context cache enabled.";
-    }
-  }
 
-  static const std::string CONTEXT_CACHE_PATH = "qnn_context_cache_path";
-  auto context_cache_path_pos = provider_options_map.find(CONTEXT_CACHE_PATH);
-  if (context_cache_path_pos != provider_options_map.end()) {
-    context_cache_path_cfg_ = context_cache_path_pos->second;
-    LOGS_DEFAULT(VERBOSE) << "User specified context cache path: " << context_cache_path_cfg_;
-  }
+    context_cache_enabled_ = session_options->config_options.GetConfigOrDefault(
+                                 kOrtSessionOptionEpContextEnable, "0") == "1";
+    LOGS_DEFAULT(VERBOSE) << "Context cache enable: " << context_cache_enabled_;
 
-  static const std::string CONTEXT_CACHE_EMBED_MODE = "qnn_context_embed_mode";
-  auto context_cache_embed_mode_pos = provider_options_map.find(CONTEXT_CACHE_EMBED_MODE);
-  if (context_cache_embed_mode_pos != provider_options_map.end()) {
-    qnn_context_embed_mode_ = context_cache_embed_mode_pos->second == "1";
+    std::string embed_mode = session_options->config_options.GetConfigOrDefault(
+        kOrtSessionOptionEpContextEmbedMode, "1");
+    if ("1" == embed_mode) {
+      qnn_context_embed_mode_ = true;
+    } else if ("0" == embed_mode) {
+      qnn_context_embed_mode_ = false;
+    } else {
+      LOGS_DEFAULT(VERBOSE) << "Invalid ep.context_embed_mode: " << embed_mode << " only 0 or 1 allowed. Set to 1.";
+    }
     LOGS_DEFAULT(VERBOSE) << "User specified context cache embed mode: " << qnn_context_embed_mode_;
+
+    context_cache_path_cfg_ = session_options->config_options.GetConfigOrDefault(kOrtSessionOptionEpContextFilePath, "");
   }
 
   static const std::string BACKEND_PATH = "backend_path";
diff --git a/onnxruntime/core/providers/tensorrt/tensorrt_execution_provider.cc b/onnxruntime/core/providers/tensorrt/tensorrt_execution_provider.cc
index f31bea3adfe56..684303a8b6448 100644
--- a/onnxruntime/core/providers/tensorrt/tensorrt_execution_provider.cc
+++ b/onnxruntime/core/providers/tensorrt/tensorrt_execution_provider.cc
@@ -3171,13 +3171,13 @@ common::Status TensorrtExecutionProvider::Compile(const std::vector<FusedNodeAnd
           trt_config->setFlag(nvinfer1::BuilderFlag::kSPARSE_WEIGHTS);
           LOGS_DEFAULT(VERBOSE) << "[TensorRT EP] Sparse weights are allowed";
         }
-
+#if NV_TENSORRT_MAJOR == 8 && NV_TENSORRT_MINOR == 5
         // enable builder heuristics
         if (trt_state->build_heuristics_enable) {
           trt_config->setFlag(nvinfer1::BuilderFlag::kENABLE_TACTIC_HEURISTIC);
           LOGS_DEFAULT(VERBOSE) << "[TensorRT EP] Builder heuristics are enabled";
         }
-#if NV_TENSORRT_MAJOR == 8 && NV_TENSORRT_MINOR > 5 || NV_TENSORRT_MAJOR > 8
+#elif NV_TENSORRT_MAJOR == 8 && NV_TENSORRT_MINOR > 5 || NV_TENSORRT_MAJOR > 8
         // switch optimizaion level
         if (trt_state->builder_optimization_level != 3) {
           trt_config->setBuilderOptimizationLevel(trt_state->builder_optimization_level);
diff --git a/onnxruntime/core/providers/tensorrt/tensorrt_execution_provider.h b/onnxruntime/core/providers/tensorrt/tensorrt_execution_provider.h
index e746371196c06..7eefdd3cba9e2 100644
--- a/onnxruntime/core/providers/tensorrt/tensorrt_execution_provider.h
+++ b/onnxruntime/core/providers/tensorrt/tensorrt_execution_provider.h
@@ -88,7 +88,7 @@ struct TensorrtInferDeleter {
   template <typename T>
   void operator()(T* obj) const {
     if (obj) {
-      obj->destroy();
+      delete obj;
     }
   }
 };
diff --git a/onnxruntime/python/tools/quantization/matmul_4bits_quantizer.py b/onnxruntime/python/tools/quantization/matmul_4bits_quantizer.py
index 1c3c212b54fa4..9f90196e301e5 100644
--- a/onnxruntime/python/tools/quantization/matmul_4bits_quantizer.py
+++ b/onnxruntime/python/tools/quantization/matmul_4bits_quantizer.py
@@ -193,9 +193,13 @@ def parse_args():
 
     parser.add_argument("--input_model", required=True, help="Path to the input model file")
     parser.add_argument("--output_model", required=True, help="Path to the output model file")
-    parser.add_argument("--block_size", required=False, default=32)
+    parser.add_argument("--block_size", required=False, default=32, type=int, help="Block size for quantization")
     parser.add_argument(
-        "--symmetric", required=False, default=True, help="Indicate whether to quantize the model symmetrically"
+        "--symmetric",
+        required=False,
+        default=True,
+        type=bool,
+        help="Indicate whether to quantize the model symmetrically",
     )
     parser.add_argument("-v", "--verbose", required=False, action="store_true")
     parser.set_defaults(verbose=False)
diff --git a/onnxruntime/python/tools/tensorrt/perf/benchmark.py b/onnxruntime/python/tools/tensorrt/perf/benchmark.py
index 0f06676641a96..b33491b356e86 100644
--- a/onnxruntime/python/tools/tensorrt/perf/benchmark.py
+++ b/onnxruntime/python/tools/tensorrt/perf/benchmark.py
@@ -1590,6 +1590,34 @@ def output_metrics(model_to_metrics, csv_filename):
     logger.info(f"Tensorrt ratio metrics are saved to csv file: {csv_filename}")
 
 
+def output_op_metrics(model_to_metrics, csv_filename):
+    with open(csv_filename, mode="w", newline="") as csv_file:
+        csv_writer = csv.writer(csv_file)
+        csv_writer.writerow([model_title, "Ep", "op percentage in each ep"])
+
+        for model, ep_info in model_to_metrics.items():
+            if cuda in ep_info:
+                cuda_data = ep_info[cuda]["ratio_of_ops_in_cuda_not_fallback_cpu"]
+                csv_writer.writerow([model, cuda, cuda_data])
+            if cuda_fp16 in ep_info:
+                cuda_fp16_data = ep_info[cuda_fp16]["ratio_of_ops_in_cuda_not_fallback_cpu"]
+                csv_writer.writerow([model, cuda_fp16, cuda_fp16_data])
+            if cuda in ep_info and trt in ep_info:
+                total_ops_in_cuda = ep_info[cuda]["total_ops"]
+                cuda_cpu_ops_in_trt = ep_info[trt]["total_ops"]
+                trt_data = (total_ops_in_cuda - cuda_cpu_ops_in_trt) / total_ops_in_cuda
+                csv_writer.writerow([model, trt, trt_data])
+            if cuda_fp16 in ep_info and trt_fp16 in ep_info:
+                total_ops_in_cuda = ep_info[cuda_fp16]["total_ops"]
+                cuda_cpu_ops_in_trt = ep_info[trt_fp16]["total_ops"]
+                trt_fp16_data = (total_ops_in_cuda - cuda_cpu_ops_in_trt) / total_ops_in_cuda
+                csv_writer.writerow([model, trt_fp16, trt_fp16_data])
+
+    logger.info(
+        f"op metrics for cuda/trt ep are saved to csv file: {csv_filename} and will be displayed at Perf Dashboard"
+    )
+
+
 def output_system_info(result, csv_filename):
     with open(csv_filename, mode="a", newline="") as csv_file:
         column_names = ["cpu_info", "cuda", "gpu_info", "linux_distro", "memory", "trt"]
diff --git a/onnxruntime/python/tools/tensorrt/perf/benchmark_wrapper.py b/onnxruntime/python/tools/tensorrt/perf/benchmark_wrapper.py
index 2948b9a8bda65..93d41551c7121 100644
--- a/onnxruntime/python/tools/tensorrt/perf/benchmark_wrapper.py
+++ b/onnxruntime/python/tools/tensorrt/perf/benchmark_wrapper.py
@@ -1,3 +1,7 @@
+# -------------------------------------------------------------------------
+# Copyright (c) Microsoft Corporation. All rights reserved.
+# Licensed under the MIT License.
+# --------------------------------------------------------------------------
 import argparse  # noqa: F401
 import copy  # noqa: F401
 import csv  # noqa: F401
@@ -65,6 +69,7 @@ def main():
 
     benchmark_fail_csv = fail_name + csv_ending  # noqa: F405
     benchmark_metrics_csv = metrics_name + csv_ending  # noqa: F405
+    benchmark_op_metrics_csv = op_metrics_name + csv_ending  # noqa: F405
     benchmark_success_csv = success_name + csv_ending  # noqa: F405
     benchmark_latency_csv = latency_name + csv_ending  # noqa: F405
     benchmark_status_csv = status_name + csv_ending  # noqa: F405
@@ -166,6 +171,9 @@ def main():
             model_to_metrics = read_map_from_file(METRICS_FILE)  # noqa: F405
             output_metrics(model_to_metrics, os.path.join(path, benchmark_metrics_csv))  # noqa: F405
             logger.info(f"\nSaved model metrics results to {benchmark_metrics_csv}")  # noqa: F405
+            # Output op metrics for dashboard display
+            output_op_metrics(model_to_metrics, os.path.join(path, benchmark_op_metrics_csv))  # noqa: F405
+            logger.info(f"\nSaved model op metrics results to {benchmark_op_metrics_csv}")  # noqa: F405
 
     if benchmark:
         logger.info("\n=========================================")  # noqa: F405
diff --git a/onnxruntime/python/tools/tensorrt/perf/mem_test/run.sh b/onnxruntime/python/tools/tensorrt/perf/mem_test/run.sh
index 9957b34c66a2e..4bd3345ed066f 100755
--- a/onnxruntime/python/tools/tensorrt/perf/mem_test/run.sh
+++ b/onnxruntime/python/tools/tensorrt/perf/mem_test/run.sh
@@ -14,7 +14,7 @@ s) ORT_SOURCE=${OPTARG};;
 esac
 done
 
-ONNX_MODEL_TAR_URL="https://github.com/onnx/models/raw/main/vision/classification/squeezenet/model/squeezenet1.0-7.tar.gz"
+ONNX_MODEL_TAR_URL="https://github.com/onnx/models/raw/main/archive/vision/classification/squeezenet/model/squeezenet1.0-7.tar.gz"
 MODEL_TAR_NAME="squeezenet1.0-7.tar.gz"
 ONNX_MODEL="squeezenet.onnx"
 ASAN_OPTIONS="protect_shadow_gap=0:new_delete_type_mismatch=0:log_path=asan.log"
diff --git a/onnxruntime/python/tools/tensorrt/perf/model_list.json b/onnxruntime/python/tools/tensorrt/perf/model_list.json
index c78b34435f3cf..d7c7d0b40e2fd 100644
--- a/onnxruntime/python/tools/tensorrt/perf/model_list.json
+++ b/onnxruntime/python/tools/tensorrt/perf/model_list.json
@@ -1,236 +1,236 @@
 [
-    {
-        "model_name": "FasterRCNN-10",
-        "working_directory": "./onnx-zoo-models/FasterRCNN-10",
-        "model_path": "./faster_rcnn_R_50_FPN_1x.onnx",
-        "test_data_path": "./"
-    },
-    {
-        "model_name": "MaskRCNN-10",
-        "working_directory": "./onnx-zoo-models/MaskRCNN-10/",
-        "model_path": "./mask_rcnn_R_50_FPN_1x.onnx",
-        "test_data_path": "./"
-    },
-    {
-        "model_name": "mobilenetv2-7",
-        "working_directory": "./onnx-zoo-models/mobilenetv2-7/",
-        "model_path": "./mobilenetv2-7/mobilenetv2-7.onnx",
-        "test_data_path": "./mobilenetv2-7/"
-    },
-    {
-        "model_name": "resnet50-v1-7",
-        "working_directory": "./onnx-zoo-models/resnet50-v1-7/",
-        "model_path": "./resnet50v1/resnet50-v1-7.onnx",
-        "test_data_path": "./resnet50v1/"
-    },
-    {
-        "model_name": "resnet101-v1-7",
-        "working_directory": "./onnx-zoo-models/resnet101-v1-7/",
-        "model_path": "./resnet101v1/resnet101-v1-7.onnx",
-        "test_data_path": "./resnet101v1/"
-    },
-    {
-        "model_name": "resnet152-v1-7",
-        "working_directory": "./onnx-zoo-models/resnet152-v1-7/",
-        "model_path": "./resnet152v1/resnet152-v1-7.onnx",
-        "test_data_path": "./resnet152v1/"
-    },
-    {
-        "model_name": "resnet18-v2-7",
-        "working_directory": "./onnx-zoo-models/resnet18-v2-7/",
-        "model_path": "./resnet18v2/resnet18-v2-7.onnx",
-        "test_data_path": "./resnet18v2/"
-    },
-    {
-        "model_name": "resnet34-v2-7",
-        "working_directory": "./onnx-zoo-models/resnet34-v2-7/",
-        "model_path": "./resnet34v2/resnet34-v2-7.onnx",
-        "test_data_path": "./resnet34v2/"
-    },
-    {
-        "model_name": "resnet50-v2-7",
-        "working_directory": "./onnx-zoo-models/resnet50-v2-7/",
-        "model_path": "./resnet50v2/resnet50-v2-7.onnx",
-        "test_data_path": "./resnet50v2/"
-    },
-    {
-        "model_name": "resnet101-v2-7",
-        "working_directory": "./onnx-zoo-models/resnet101-v2-7/",
-        "model_path": "./resnet101v2/resnet101-v2-7.onnx",
-        "test_data_path": "./resnet101v2/"
-    },
-    {
-        "model_name": "resnet152-v2-7",
-        "working_directory": "./onnx-zoo-models/resnet152-v2-7/",
-        "model_path": "./resnet152v2/resnet152-v2-7.onnx",
-        "test_data_path": "./resnet152v2/"
-    },
-    {
-        "model_name": "squeezenet1.1-7",
-        "working_directory": "./onnx-zoo-models/squeezenet1.1-7/",
-        "model_path": "./squeezenet1.1/squeezenet1.1.onnx",
-        "test_data_path": "./squeezenet1.1/"
-    },
-    {
-        "model_name": "vgg16-7",
-        "working_directory": "./onnx-zoo-models/vgg16-7/",
-        "model_path": "./vgg16/vgg16.onnx",
-        "test_data_path": "./vgg16/"
-    },
-    {
-        "model_name": "vgg19-bn-7",
-        "working_directory": "./onnx-zoo-models/vgg19-bn-7/",
-        "model_path": "./vgg19-bn/vgg19-bn.onnx",
-        "test_data_path": "./vgg19-bn/"
-    },
-    {
-        "model_name": "bvlcalexnet-9",
-        "working_directory": "./onnx-zoo-models/bvlcalexnet-9/",
-        "model_path": "./bvlc_alexnet/model.onnx",
-        "test_data_path": "./bvlc_alexnet/"
-    },
-    {
-        "model_name": "googlenet-9",
-        "working_directory": "./onnx-zoo-models/googlenet-9/",
-        "model_path": "./bvlc_googlenet/model.onnx",
-        "test_data_path": "./bvlc_googlenet/"
-    },
-    {
-        "model_name": "caffenet-9",
-        "working_directory": "./onnx-zoo-models/caffenet-9/",
-        "model_path": "./bvlc_reference_caffenet/model.onnx",
-        "test_data_path": "./bvlc_reference_caffenet/"
-    },
-    {
-        "model_name": "rcnn-ilsvrc13-9",
-        "working_directory": "./onnx-zoo-models/rcnn-ilsvrc13-9/",
-        "model_path": "./bvlc_reference_rcnn_ilsvrc13/model.onnx",
-        "test_data_path": "./bvlc_reference_rcnn_ilsvrc13/"
-    },
-    {
-        "model_name": "densenet-9",
-        "working_directory": "./onnx-zoo-models/densenet-9/",
-        "model_path": "./densenet121/model.onnx",
-        "test_data_path": "./densenet121/"
-    },
-    {
-        "model_name": "inception-v1-9",
-        "working_directory": "./onnx-zoo-models/inception-v1-9/",
-        "model_path": "./inception_v1/model.onnx",
-        "test_data_path": "./inception_v1/"
-    },
-    {
-        "model_name": "inception-v2-9",
-        "working_directory": "./onnx-zoo-models/inception-v2-9/",
-        "model_path": "./inception_v2/model.onnx",
-        "test_data_path": "./inception_v2/"
-    },
-    {
-        "model_name": "shufflenet-9",
-        "working_directory": "./onnx-zoo-models/shufflenet-9/",
-        "model_path": "./shufflenet/model.onnx",
-        "test_data_path": "./shufflenet/"
-    },
-    {
-        "model_name": "shufflenet-v2-10",
-        "working_directory": "./onnx-zoo-models/shufflenet-v2-10/",
-        "model_path": "./model/test_shufflenetv2/model.onnx",
-        "test_data_path": "./model/test_shufflenetv2/"
-    },
-    {
-        "model_name": "mnist-8",
-        "working_directory": "./onnx-zoo-models/mnist-8/",
-        "model_path": "./mnist/model.onnx",
-        "test_data_path": "./mnist/"
-    },
-    {
-        "model_name": "tinyyolov2-8",
-        "working_directory": "./onnx-zoo-models/tinyyolov2-8/",
-        "model_path": "./tiny_yolov2/Model.onnx",
-        "test_data_path": "./tiny_yolov2/"
-    },
-    {
-        "model_name": "ssd-10",
-        "working_directory": "./onnx-zoo-models/ssd-10/",
-        "model_path": "./model.onnx",
-        "test_data_path": "./"
-    },
-    {
-        "model_name": "ssd_mobilenet_v1_10",
-        "working_directory": "./onnx-zoo-models/ssd_mobilenet_v1_10/",
-        "model_path": "./ssd_mobilenet_v1/ssd_mobilenet_v1.onnx",
-        "test_data_path": "./ssd_mobilenet_v1/"
-    },
-    {
-        "model_name": "retinanet-9",
-        "working_directory": "./onnx-zoo-models/retinanet-9/",
-        "model_path": "./test_retinanet_resnet101/retinanet-9.onnx",
-        "test_data_path": "./test_retinanet_resnet101/"
-    },
-    {
-        "model_name": "yolov3-10",
-        "working_directory": "./onnx-zoo-models/yolov3-10/",
-        "model_path": "./yolov3/yolov3.onnx",
-        "test_data_path": "./yolov3/"
-    },
-    {
-        "model_name": "tiny-yolov3-11",
-        "working_directory": "./onnx-zoo-models/tiny-yolov3-11/",
-        "model_path": "./yolov3-tiny.onnx",
-        "test_data_path": "./"
-    },
-    {
-        "model_name": "yolov4",
-        "working_directory": "./onnx-zoo-models/yolov4/",
-        "model_path": "./yolov4/yolov4_shape.onnx",
-        "test_data_path": "./yolov4/"
-    },
-    {
-        "model_name": "ResNet101-DUC-7",
-        "working_directory": "./onnx-zoo-models/ResNet101-DUC-7/",
-        "model_path": "./ResNet101_DUC_HDC/ResNet101_DUC_HDC.onnx",
-        "test_data_path": "./ResNet101_DUC_HDC/"
-    },
-    {
-        "model_name": "emotion-ferplus-8",
-        "working_directory": "./onnx-zoo-models/emotion-ferplus-8/",
-        "model_path": "./emotion_ferplus/model.onnx",
-        "test_data_path": "./emotion_ferplus/"
-    },
-    {
-        "model_name": "bertsquad-10",
-        "working_directory": "./onnx-zoo-models/bertsquad-10/",
-        "model_path": "./bertsquad-10/bertsquad10.onnx",
-        "test_data_path": "./bertsquad-10/"
-    },
-    {
-        "model_name": "gpt2-lm-head-10",
-        "working_directory": "./onnx-zoo-models/gpt2-lm-head-10/",
-        "model_path": "./GPT-2-LM-HEAD/model.onnx",
-        "test_data_path": "./GPT-2-LM-HEAD/"
-    },
-    {
-        "model_name": "gpt2-10",
-        "working_directory": "./onnx-zoo-models/gpt2-10/",
-        "model_path": "./GPT2/model.onnx",
-        "test_data_path": "./GPT2/"
-    },
-    {
-        "model_name": "zfnet512-9",
-        "working_directory": "./onnx-zoo-models/zfnet512-9/",
-        "model_path": "./zfnet512/model.onnx",
-        "test_data_path": "./zfnet512/"
-    },
-    {
-        "model_name": "arcfaceresnet100-8",
-        "working_directory": "./onnx-zoo-models/arcfaceresnet100-8/",
-        "model_path": "./resnet100/resnet100.onnx",
-        "test_data_path": "./resnet100/"
-    },
-    {
-        "model_name": "mosaic-9",
-        "working_directory": "./onnx-zoo-models/mosaic-9/",
-        "model_path": "./mosaic/mosaic.onnx",
-        "test_data_path": "./mosaic/"
-    }
-]
+  {
+    "model_name": "FasterRCNN-10",
+    "working_directory": "./onnx-zoo-models/FasterRCNN-10",
+    "model_path": "./faster_rcnn_R_50_FPN_1x.onnx",
+    "test_data_path": "./"
+  },
+  {
+    "model_name": "MaskRCNN-10",
+    "working_directory": "./onnx-zoo-models/MaskRCNN-10/",
+    "model_path": "./mask_rcnn_R_50_FPN_1x.onnx",
+    "test_data_path": "./"
+  },
+  {
+    "model_name": "mobilenetv2-7",
+    "working_directory": "./onnx-zoo-models/mobilenetv2-7/",
+    "model_path": "./mobilenetv2-7/mobilenetv2-7.onnx",
+    "test_data_path": "./mobilenetv2-7/"
+  },
+  {
+    "model_name": "resnet50-v1-7",
+    "working_directory": "./onnx-zoo-models/resnet50-v1-7/",
+    "model_path": "./resnet50v1/resnet50-v1-7.onnx",
+    "test_data_path": "./resnet50v1/"
+  },
+  {
+    "model_name": "resnet101-v1-7",
+    "working_directory": "./onnx-zoo-models/resnet101-v1-7/",
+    "model_path": "./resnet101v1/resnet101-v1-7.onnx",
+    "test_data_path": "./resnet101v1/"
+  },
+  {
+    "model_name": "resnet152-v1-7",
+    "working_directory": "./onnx-zoo-models/resnet152-v1-7/",
+    "model_path": "./resnet152v1/resnet152-v1-7.onnx",
+    "test_data_path": "./resnet152v1/"
+  },
+  {
+    "model_name": "resnet18-v2-7",
+    "working_directory": "./onnx-zoo-models/resnet18-v2-7/",
+    "model_path": "./resnet18v2/resnet18-v2-7.onnx",
+    "test_data_path": "./resnet18v2/"
+  },
+  {
+    "model_name": "resnet34-v2-7",
+    "working_directory": "./onnx-zoo-models/resnet34-v2-7/",
+    "model_path": "./resnet34v2/resnet34-v2-7.onnx",
+    "test_data_path": "./resnet34v2/"
+  },
+  {
+    "model_name": "resnet50-v2-7",
+    "working_directory": "./onnx-zoo-models/resnet50-v2-7/",
+    "model_path": "./resnet50v2/resnet50-v2-7.onnx",
+    "test_data_path": "./resnet50v2/"
+  },
+  {
+    "model_name": "resnet101-v2-7",
+    "working_directory": "./onnx-zoo-models/resnet101-v2-7/",
+    "model_path": "./resnet101v2/resnet101-v2-7.onnx",
+    "test_data_path": "./resnet101v2/"
+  },
+  {
+    "model_name": "resnet152-v2-7",
+    "working_directory": "./onnx-zoo-models/resnet152-v2-7/",
+    "model_path": "./resnet152v2/resnet152-v2-7.onnx",
+    "test_data_path": "./resnet152v2/"
+  },
+  {
+    "model_name": "squeezenet1.1-7",
+    "working_directory": "./onnx-zoo-models/squeezenet1.1-7/",
+    "model_path": "./squeezenet1.1/squeezenet1.1.onnx",
+    "test_data_path": "./squeezenet1.1/"
+  },
+  {
+    "model_name": "vgg16-7",
+    "working_directory": "./onnx-zoo-models/vgg16-7/",
+    "model_path": "./vgg16/vgg16.onnx",
+    "test_data_path": "./vgg16/"
+  },
+  {
+    "model_name": "vgg19-bn-7",
+    "working_directory": "./onnx-zoo-models/vgg19-bn-7/",
+    "model_path": "./vgg19-bn/vgg19-bn.onnx",
+    "test_data_path": "./vgg19-bn/"
+  },
+  {
+    "model_name": "bvlcalexnet-9",
+    "working_directory": "./onnx-zoo-models/bvlcalexnet-9/",
+    "model_path": "./bvlc_alexnet/model.onnx",
+    "test_data_path": "./bvlc_alexnet/"
+  },
+  {
+    "model_name": "googlenet-9",
+    "working_directory": "./onnx-zoo-models/googlenet-9/",
+    "model_path": "./bvlc_googlenet/model.onnx",
+    "test_data_path": "./bvlc_googlenet/"
+  },
+  {
+    "model_name": "caffenet-9",
+    "working_directory": "./onnx-zoo-models/caffenet-9/",
+    "model_path": "./bvlc_reference_caffenet/model.onnx",
+    "test_data_path": "./bvlc_reference_caffenet/"
+  },
+  {
+    "model_name": "rcnn-ilsvrc13-9",
+    "working_directory": "./onnx-zoo-models/rcnn-ilsvrc13-9/",
+    "model_path": "./bvlc_reference_rcnn_ilsvrc13/model.onnx",
+    "test_data_path": "./bvlc_reference_rcnn_ilsvrc13/"
+  },
+  {
+    "model_name": "densenet-9",
+    "working_directory": "./onnx-zoo-models/densenet-9/",
+    "model_path": "./densenet121/model.onnx",
+    "test_data_path": "./densenet121/"
+  },
+  {
+    "model_name": "inception-v1-9",
+    "working_directory": "./onnx-zoo-models/inception-v1-9/",
+    "model_path": "./inception_v1/model.onnx",
+    "test_data_path": "./inception_v1/"
+  },
+  {
+    "model_name": "inception-v2-9",
+    "working_directory": "./onnx-zoo-models/inception-v2-9/",
+    "model_path": "./inception_v2/model.onnx",
+    "test_data_path": "./inception_v2/"
+  },
+  {
+    "model_name": "shufflenet-9",
+    "working_directory": "./onnx-zoo-models/shufflenet-9/",
+    "model_path": "./shufflenet/model.onnx",
+    "test_data_path": "./shufflenet/"
+  },
+  {
+    "model_name": "shufflenet-v2-10",
+    "working_directory": "./onnx-zoo-models/shufflenet-v2-10/",
+    "model_path": "./model/test_shufflenetv2/model.onnx",
+    "test_data_path": "./model/test_shufflenetv2/"
+  },
+  {
+    "model_name": "mnist-8",
+    "working_directory": "./onnx-zoo-models/mnist-8/",
+    "model_path": "./mnist/model.onnx",
+    "test_data_path": "./mnist/"
+  },
+  {
+    "model_name": "tinyyolov2-8",
+    "working_directory": "./onnx-zoo-models/tinyyolov2-8/",
+    "model_path": "./tiny_yolov2/Model.onnx",
+    "test_data_path": "./tiny_yolov2/"
+  },
+  {
+    "model_name": "ssd-10",
+    "working_directory": "./onnx-zoo-models/ssd-10/",
+    "model_path": "./model.onnx",
+    "test_data_path": "./"
+  },
+  {
+    "model_name": "ssd_mobilenet_v1_10",
+    "working_directory": "./onnx-zoo-models/ssd_mobilenet_v1_10/",
+    "model_path": "./ssd_mobilenet_v1/ssd_mobilenet_v1.onnx",
+    "test_data_path": "./ssd_mobilenet_v1/"
+  },
+  {
+    "model_name": "retinanet-9",
+    "working_directory": "./onnx-zoo-models/retinanet-9/",
+    "model_path": "./test_retinanet_resnet101/retinanet-9.onnx",
+    "test_data_path": "./test_retinanet_resnet101/"
+  },
+  {
+    "model_name": "yolov3-10",
+    "working_directory": "./onnx-zoo-models/yolov3-10/",
+    "model_path": "./yolov3/yolov3.onnx",
+    "test_data_path": "./yolov3/"
+  },
+  {
+    "model_name": "tiny-yolov3-11",
+    "working_directory": "./onnx-zoo-models/tiny-yolov3-11/",
+    "model_path": "./yolov3-tiny.onnx",
+    "test_data_path": "./"
+  },
+  {
+    "model_name": "yolov4",
+    "working_directory": "./onnx-zoo-models/yolov4/",
+    "model_path": "./yolov4/yolov4_shape.onnx",
+    "test_data_path": "./yolov4/"
+  },
+  {
+    "model_name": "ResNet101-DUC-7",
+    "working_directory": "./onnx-zoo-models/ResNet101-DUC-7/",
+    "model_path": "./ResNet101_DUC_HDC/ResNet101_DUC_HDC.onnx",
+    "test_data_path": "./ResNet101_DUC_HDC/"
+  },
+  {
+    "model_name": "emotion-ferplus-8",
+    "working_directory": "./onnx-zoo-models/emotion-ferplus-8/",
+    "model_path": "./emotion_ferplus/model.onnx",
+    "test_data_path": "./emotion_ferplus/"
+  },
+  {
+    "model_name": "bertsquad-10",
+    "working_directory": "./onnx-zoo-models/bertsquad-10/",
+    "model_path": "./bertsquad-10/bertsquad10.onnx",
+    "test_data_path": "./bertsquad-10/"
+  },
+  {
+    "model_name": "gpt2-lm-head-10",
+    "working_directory": "./onnx-zoo-models/gpt2-lm-head-10/",
+    "model_path": "./GPT-2-LM-HEAD/model.onnx",
+    "test_data_path": "./GPT-2-LM-HEAD/"
+  },
+  {
+    "model_name": "gpt2-10",
+    "working_directory": "./onnx-zoo-models/gpt2-10/",
+    "model_path": "./GPT2/model.onnx",
+    "test_data_path": "./GPT2/"
+  },
+  {
+    "model_name": "zfnet512-9",
+    "working_directory": "./onnx-zoo-models/zfnet512-9/",
+    "model_path": "./zfnet512/model.onnx",
+    "test_data_path": "./zfnet512/"
+  },
+  {
+    "model_name": "arcfaceresnet100-8",
+    "working_directory": "./onnx-zoo-models/arcfaceresnet100-8/",
+    "model_path": "./resnet100/resnet100.onnx",
+    "test_data_path": "./resnet100/"
+  },
+  {
+    "model_name": "mosaic-9",
+    "working_directory": "./onnx-zoo-models/mosaic-9/",
+    "model_path": "./mosaic/mosaic.onnx",
+    "test_data_path": "./mosaic/"
+  }
+]
\ No newline at end of file
diff --git a/onnxruntime/python/tools/tensorrt/perf/perf_utils.py b/onnxruntime/python/tools/tensorrt/perf/perf_utils.py
index c639c6c73c82b..c447bf9cffe27 100644
--- a/onnxruntime/python/tools/tensorrt/perf/perf_utils.py
+++ b/onnxruntime/python/tools/tensorrt/perf/perf_utils.py
@@ -39,6 +39,7 @@
 specs_name = "specs"
 session_name = "session"
 session_over_time_name = "session_over_time"
+op_metrics_name = "op_metrics"
 
 # column names
 model_title = "Model"
diff --git a/onnxruntime/python/tools/tensorrt/perf/post.py b/onnxruntime/python/tools/tensorrt/perf/post.py
index 350e8b3914ab7..0f5614bd5160f 100644
--- a/onnxruntime/python/tools/tensorrt/perf/post.py
+++ b/onnxruntime/python/tools/tensorrt/perf/post.py
@@ -24,6 +24,7 @@
     memory_name,
     memory_over_time_name,
     model_title,
+    op_metrics_name,
     ort_provider_list,
     provider_list,
     second,
@@ -415,6 +416,7 @@ def main():
             specs_name,
             session_name,
             session_over_time_name,
+            op_metrics_name,
         ]
 
         table_results = {}
@@ -457,6 +459,11 @@ def main():
                     table_results[status_name] = pd.concat(
                         [table_results[status_name], get_status(table, model_group)], ignore_index=True
                     )
+                elif op_metrics_name in csv:
+                    table = table.assign(Group=model_group)
+                    table_results[op_metrics_name] = pd.concat(
+                        [table_results[op_metrics_name], table], ignore_index=True
+                    )
             os.chdir(result_file)
 
         if not table_results[memory_name].empty:
diff --git a/onnxruntime/python/tools/transformers/models/stable_diffusion/README.md b/onnxruntime/python/tools/transformers/models/stable_diffusion/README.md
index 5927a469ca3e4..b10c10c87ee57 100644
--- a/onnxruntime/python/tools/transformers/models/stable_diffusion/README.md
+++ b/onnxruntime/python/tools/transformers/models/stable_diffusion/README.md
@@ -21,7 +21,7 @@ These optimizations are firstly carried out on CUDA EP. They may not work on oth
 | [demo_txt2img.py](./demo_txt2img.py)           | Demo of text to image generation using Stable Diffusion models except XL.                 |
 | [optimize_pipeline.py](./optimize_pipeline.py) | Optimize Stable Diffusion ONNX models exported from Huggingface diffusers or optimum      |
 | [benchmark.py](./benchmark.py)                 | Benchmark latency and memory of OnnxRuntime, xFormers or PyTorch 2.0 on stable diffusion. |
-| [benchmark_turbo.py](./benchmark_controlnet.py)| Benchmark latency of PyTorch or Stable-Fast with canny control net.                       |
+| [benchmark_controlnet.py](./benchmark_controlnet.py)| Benchmark latency of canny control net.                                              |
 
 ## Run demo with docker
 
@@ -379,97 +379,6 @@ Common settings for below test results:
 | ------------------------------ | ---------------------- | ------ | ----- | ----- | ----------- | ----------- |
 | runwayml/stable-diffusion-v1-5 | TRUE                   | 512    | 512   | 50    | 5           | 1           |
 
-#### Results of RTX 3060 (Windows 11)
-
-| engine      | version                 | provider              | batch size | average latency | first run memory MB | second run memory MB |
-| ----------- | ----------------------- | --------------------- | ---------- | --------------- | ------------------- | -------------------- |
-| onnxruntime | 1.14.1                  | CUDA                  | 1          | 4.8             | 4,117               | 4,625                |
-| torch       | 2.0.0+cu117             | default               | 1          | 5.6             | 4,325               | 4,047                |
-| torch       | 1.13.1+cu117            | xformers              | 1          | 6.0             | 9,124               | 9,130                |
-| onnxruntime | 1.14.1                  | CUDA                  | 4          | 17.7            | 6,659               | 6,659                |
-| torch       | 2.0.0+cu117             | default               | 4          | 20.1            | 6,421               | 6,907                |
-| torch       | 1.13.1+cu117            | xformers              | 4          | 21.6            | 10,407              | 10,409               |
-| onnxruntime | 1.14.1                  | CUDA                  | 8          | 33.5            | 6,663               | 6,663                |
-| torch       | 2.0.0+cu117             | default               | 8          | 39.5            | 10,767              | 10,813               |
-| torch       | 1.13.1+cu117            | xformers              | 8          | 41.1            | 10,825              | 9,255                |
-
-
-#### Results of A100-SXM4-40GB (Ubuntu 20.04)
-| engine      | version                 | provider              | batch size | average latency | first run memory MB | second run memory MB |
-| ----------- | ----------------------- | --------------------- | ---------- | --------------- | ------------------- | -------------------- |
-| onnxruntime | 1.14.1                  | CUDA                  | 1          | 1.1             | 6,883               | 7,395                |
-| torch       | 2.0.0+cu117             | default               | 1          | 1.5             | 13,828              | 4,400                |
-| torch       | 2.0.0+cu117             | compile               | 1          | 1.8             | 13,892              | 4,386                |
-| onnxruntime | 1.14.1                  | CUDA                  | 4          | 3.7             | 7,381               | 7,381                |
-| torch       | 2.0.0+cu117             | default               | 4          | 3.9             | 31,278              | 6,870                |
-| torch       | 2.0.0+cu117             | compile               | 4          | 3.4             | 31,364              | 6,880                |
-| onnxruntime | 1.14.1                  | CUDA                  | 8          | 6.9             | 7,411               | 7,411                |
-| torch       | 2.0.0+cu117             | default               | 8          | 7.6             | 31,660              | 10,122               |
-| torch       | 2.0.0+cu117             | compile               | 8          | 6.5             | 31,800              | 10,308               |
-| onnxruntime | 1.14.1                  | CUDA                  | 16         | 13.6            | 11,479              | 11,479               |
-| torch       | 2.0.0+cu117             | default               | 16         | 14.8            | 32,306              | 16,520               |
-| torch       | 2.0.0+cu117             | compile               | 16         | 12.6            | 32,636              | 16,898               |
-
-#### Results of A100-PCIE-80GB (Ubuntu 20.04)
-| engine      | version                 | provider              | batch size | average latency | first run memory MB | second run memory MB |
-| ----------- | ----------------------- | --------------------- | ---------- | --------------- | ------------------- | -------------------- |
-| tensorrt    | 8.6.1                   | default               | 1          | 1.00            | 9,056               | 9,056                |
-| onnxruntime | 1.16.0 nightly          | tensorrt              | 1          | 1.09            | 11,250              | 11,250               |
-| onnxruntime | 1.16.0 nightly          | tensorrt (cuda graph) | 1          | 0.96            | 11,382              | 11,382               |
-| onnxruntime | 1.16.0 nightly          | cuda                  | 1          | 1.11            | 4,760               | 5,144                |
-| onnxruntime | 1.16.0 nightly          | cuda (cuda graph)     | 1          | 1.04            | 5,230               | 5,390                |
-| tensorrt    | 8.6.1                   | default               | 4          | 3.39            | 9,072               | 9,072                |
-| onnxruntime | 1.16.0 nightly          | tensorrt              | 4          | 3.60            | 11,266              | 11,266               |
-| onnxruntime | 1.16.0 nightly          | tensorrt (cuda graph) | 4          | 3.43            | 11,428              | 11,428               |
-
-#### Results of V100-PCIE-16GB (Ubuntu 20.04)
-
-Results from Standard_NC6s_v3 Azure virtual machine:
-
-| engine      | version                 | provider              | batch size | average latency | first run memory MB | second run memory MB |
-| ----------- | ----------------------- | --------------------- | ---------- | --------------- | ------------------- | -------------------- |
-| onnxruntime | 1.14.1                  | CUDA                  | 1          | 2.7             | 12,646              | 7,152                |
-| torch       | 2.0.0+cu117             | compile               | 1          | 3.2             | 13,317              | 3,909                |
-| torch       | 2.0.0+cu117             | default               | 1          | 2.7             | 13,343              | 3,921                |
-| torch       | 1.13.1+cu117            | xformers              | 1          | 3.5             | 14,979              | 10,449               |
-| onnxruntime | 1.14.1                  | CUDA                  | 4          | 8.4             | 7,114               | 7,114                |
-| torch       | 2.0.0+cu117             | compile               | 4          | 8.0             | 13,897              | 6,821                |
-| torch       | 2.0.0+cu117             | default               | 4          | 8.7             | 13,873              | 6,607                |
-| torch       | 1.13.1+cu117            | xformers              | 4          | 9.1             | 12,969              | 8,421                |
-| onnxruntime | 1.14.1                  | CUDA                  | 8          | 15.9            | 7,120               | 7,120                |
-| torch       | 2.0.0+cu117             | compile               | 8          | 15.5            | 14,669              | 10,355               |
-| torch       | 2.0.0+cu117             | default               | 8          | 17.0            | 14,469              | 9,657                |
-| torch       | 1.13.1+cu117            | xformers              | 8          | 17.4            | 15,593              | 9,133                |
-
-#### Results of T4 (Ubuntu 20.04)
-
-To make the result stable, we lock the frequency of T4 GPU like
-`sudo nvidia-smi --lock-gpu-clocks=990` for fair comparison. See [nvidia blog](https://developer.nvidia.com/blog/advanced-api-performance-setstablepowerstate/) for more information. Note that performance might be slightly better without locking frequency.
-
-Results are from Standard_NC4as_T4_v3 Azure virtual machine:
-
-| engine      | version                 | provider              | batch size | average latency | first run memory MB | second run memory MB |
-| ----------- | ----------------------- | --------------------- | ---------- | --------------- | ------------------- | -------------------- |
-| onnxruntime | 1.14.1                  | CUDA                  | 1          | 5.6             | 4,925               | 4,925                |
-| onnxruntime | 1.15.1                  | CUDA                  | 1          | 5.5             | 3,738               | 4,250                |
-| onnxruntime | 1.15.1 (tensorrt 8.6.1) | Tensorrt              | 1          | 4.8             | 10,710              | 10,710               |
-| onnxruntime | 1.16.0 nightly          | Tensorrt (cuda graph) | 1          | 4.7             | 11,746              | 10,746               |
-| tensorrt    | 8.6.1                   | default               | 1          | 5.0             | 8,530               | 8,530                |
-| torch       | 1.13.1+cu117            | xformers              | 1          | 6.9             | 14,845              | 10,317               |
-| torch       | 2.0.0+cu117             | compile               | 1          | 6.0             | 12,989              | 3,841                |
-| torch       | 2.0.0+cu117             | default               | 1          | 6.4             | 12,987              | 3,841                |
-| onnxruntime | 1.14.1                  | CUDA                  | 4          | 23.0            | 6,977               | 6,977                |
-| onnxruntime | 1.15.1                  | CUDA                  | 4          | 22.6            | 6,298               | 6,298                |
-| onnxruntime | 1.15.1 (tensorrt 8.6.1) | Tensorrt              | 4          | 21.8            | 10,746              | 10,746               |
-| tensorrt    | 8.6.1                   | default               | 4          | 22.2            | 8,542               | 8,542                |
-| torch       | 1.13.1+cu117            | xformers              | 4          | 25.8            | 12,819              | 8,269                |
-| torch       | 2.0.0+cu117             | compile               | 4          | 22.2            | 14,637              | 6,583                |
-| torch       | 2.0.0+cu117             | default               | 4          | 25.2            | 14,409              | 6,355                |
-| onnxruntime | 1.14.1                  | CUDA                  | 8          | 46.4            | 6,779               | 6,779                |
-| torch       | 1.13.1+cu117            | xformers              | 8          | 51.4            | 14,827              | 9,001                |
-| torch       | 2.0.0+cu117             | compile               | 8          | 46.5            | 12,595              | 10,171               |
-| torch       | 2.0.0+cu117             | default               | 8          | 50.7            | 11,955              | 9,531                |
-
 #### Results of MI250X, 1 GCD (Ubuntu 20.04)
 
 | engine      | version                 | provider              | batch size | average latency | first run memory MB | second run memory MB |
diff --git a/onnxruntime/python/tools/transformers/models/stable_diffusion/benchmark.py b/onnxruntime/python/tools/transformers/models/stable_diffusion/benchmark.py
index 1f1db914e274b..6c337af78e0a9 100755
--- a/onnxruntime/python/tools/transformers/models/stable_diffusion/benchmark.py
+++ b/onnxruntime/python/tools/transformers/models/stable_diffusion/benchmark.py
@@ -301,67 +301,95 @@ def run_ort(
     return result
 
 
-def export_and_run_ort(
-    version: str,
-    provider: str,
-    batch_size: int,
-    disable_safety_checker: bool,
-    height: int,
-    width: int,
-    steps: int,
-    num_prompts: int,
-    batch_count: int,
-    start_memory,
-    memory_monitor_type,
-    enable_cuda_graph: bool,
+def get_optimum_ort_pipeline(
+    model_name: str,
+    directory: str,
+    provider="CUDAExecutionProvider",
+    disable_safety_checker: bool = True,
 ):
-    assert provider == "CUDAExecutionProvider"
+    from optimum.onnxruntime import ORTStableDiffusionPipeline, ORTStableDiffusionXLPipeline
+
+    if directory is not None and os.path.exists(directory):
+        if "xl" in model_name:
+            pipeline = ORTStableDiffusionXLPipeline.from_pretrained(
+                directory,
+                provider=provider,
+                session_options=None,
+                use_io_binding=False,
+            )
+        else:
+            pipeline = ORTStableDiffusionPipeline.from_pretrained(
+                directory,
+                provider=provider,
+                use_io_binding=False,
+            )
+    elif "xl" in model_name:
+        pipeline = ORTStableDiffusionXLPipeline.from_pretrained(
+            model_name,
+            export=True,
+            provider=provider,
+            session_options=None,
+            use_io_binding=False,
+        )
+        pipeline.save_pretrained(directory)
+    else:
+        pipeline = ORTStableDiffusionPipeline.from_pretrained(
+            model_name,
+            export=True,
+            provider=provider,
+            use_io_binding=False,
+        )
+        pipeline.save_pretrained(directory)
 
-    from diffusers import DDIMScheduler
-    from diffusion_models import PipelineInfo
-    from onnxruntime_cuda_txt2img import OnnxruntimeCudaStableDiffusionPipeline
+    if disable_safety_checker:
+        pipeline.safety_checker = None
+        pipeline.feature_extractor = None
 
-    pipeline_info = PipelineInfo(version)
-    model_name = pipeline_info.name()
+    return pipeline
 
-    scheduler = DDIMScheduler.from_pretrained(model_name, subfolder="scheduler")
-    pipe = OnnxruntimeCudaStableDiffusionPipeline.from_pretrained(
-        model_name,
-        scheduler=scheduler,
-        requires_safety_checker=not disable_safety_checker,
-        enable_cuda_graph=enable_cuda_graph,
-        pipeline_info=pipeline_info,
-    )
 
-    # re-use cached folder to save ONNX models
-    pipe.set_cached_folder(model_name)
+def run_optimum_ort_pipeline(
+    pipe,
+    batch_size: int,
+    image_filename_prefix: str,
+    height,
+    width,
+    steps,
+    num_prompts,
+    batch_count,
+    start_memory,
+    memory_monitor_type,
+):
+    from optimum.onnxruntime import ORTStableDiffusionPipeline, ORTStableDiffusionXLPipeline
+
+    assert isinstance(pipe, (ORTStableDiffusionPipeline, ORTStableDiffusionXLPipeline))
 
-    pipe = pipe.to("cuda", torch_dtype=torch.float16)
+    prompts = example_prompts()
 
     def warmup():
-        pipe(["warm up"] * batch_size, image_height=height, image_width=width, num_inference_steps=steps)
+        pipe("warm up", height, width, num_inference_steps=steps, num_images_per_prompt=batch_size)
 
-    # Run warm up, and measure GPU memory of two runs
-    # The first run has algo search so it might need more memory
+    # Run warm up, and measure GPU memory of two runs.
+    # The first run has algo search for cuDNN/MIOpen, so it might need more memory.
     first_run_memory = measure_gpu_memory(memory_monitor_type, warmup, start_memory)
     second_run_memory = measure_gpu_memory(memory_monitor_type, warmup, start_memory)
 
-    # An extra warm up run is needed for cuda graph
     warmup()
 
-    image_filename_prefix = get_image_filename_prefix("ort_cuda", model_name, batch_size, disable_safety_checker)
-
     latency_list = []
-    prompts, negative_prompt = example_prompts()
     for i, prompt in enumerate(prompts):
         if i >= num_prompts:
             break
         for j in range(batch_count):
             inference_start = time.time()
             images = pipe(
-                [prompt] * batch_size,
-                negative_prompt=[negative_prompt] * batch_size,
+                prompt,
+                height,
+                width,
                 num_inference_steps=steps,
+                negative_prompt=None,
+                guidance_scale=0.0,  # 7.5
+                num_images_per_prompt=batch_size,
             ).images
             inference_end = time.time()
             latency = inference_end - inference_start
@@ -373,11 +401,8 @@ def warmup():
     from onnxruntime import __version__ as ort_version
 
     return {
-        "model_name": model_name,
-        "engine": "onnxruntime",
+        "engine": "optimum_ort",
         "version": ort_version,
-        "provider": provider.replace("ExecutionProvider", ""),
-        "directory": pipe.engine_dir,
         "height": height,
         "width": width,
         "steps": steps,
@@ -388,13 +413,13 @@ def warmup():
         "median_latency": statistics.median(latency_list),
         "first_run_memory_MB": first_run_memory,
         "second_run_memory_MB": second_run_memory,
-        "disable_safety_checker": disable_safety_checker,
-        "enable_cuda_graph": enable_cuda_graph,
     }
 
 
-def run_ort_trt(
-    version: str,
+def run_optimum_ort(
+    model_name: str,
+    directory: str,
+    provider: str,
     batch_size: int,
     disable_safety_checker: bool,
     height: int,
@@ -404,92 +429,36 @@ def run_ort_trt(
     batch_count: int,
     start_memory,
     memory_monitor_type,
-    max_batch_size: int,
-    enable_cuda_graph: bool,
 ):
-    from diffusers import DDIMScheduler
-    from diffusion_models import PipelineInfo
-    from onnxruntime_tensorrt_txt2img import OnnxruntimeTensorRTStableDiffusionPipeline
-
-    pipeline_info = PipelineInfo(version)
-    model_name = pipeline_info.name()
-
-    assert batch_size <= max_batch_size
+    load_start = time.time()
+    pipe = get_optimum_ort_pipeline(model_name, directory, provider, disable_safety_checker)
+    load_end = time.time()
+    print(f"Model loading took {load_end - load_start} seconds")
 
-    scheduler = DDIMScheduler.from_pretrained(model_name, subfolder="scheduler")
-    pipe = OnnxruntimeTensorRTStableDiffusionPipeline.from_pretrained(
-        model_name,
-        revision="fp16",
-        torch_dtype=torch.float16,
-        scheduler=scheduler,
-        requires_safety_checker=not disable_safety_checker,
-        image_height=height,
-        image_width=width,
-        max_batch_size=max_batch_size,
-        onnx_opset=17,
-        enable_cuda_graph=enable_cuda_graph,
-        pipeline_info=pipeline_info,
+    image_filename_prefix = get_image_filename_prefix("optimum", model_name, batch_size, disable_safety_checker)
+    result = run_optimum_ort_pipeline(
+        pipe,
+        batch_size,
+        image_filename_prefix,
+        height,
+        width,
+        steps,
+        num_prompts,
+        batch_count,
+        start_memory,
+        memory_monitor_type,
     )
 
-    # re-use cached folder to save ONNX models and TensorRT Engines
-    pipe.set_cached_folder(model_name, revision="fp16")
-
-    pipe = pipe.to("cuda")
-
-    def warmup():
-        pipe(["warm up"] * batch_size, negative_prompt=["negative"] * batch_size, num_inference_steps=steps)
-
-    # Run warm up, and measure GPU memory of two runs
-    # The first run has algo search so it might need more memory
-    first_run_memory = measure_gpu_memory(memory_monitor_type, warmup, start_memory)
-    second_run_memory = measure_gpu_memory(memory_monitor_type, warmup, start_memory)
-
-    warmup()
-
-    image_filename_prefix = get_image_filename_prefix("ort_trt", model_name, batch_size, disable_safety_checker)
-
-    latency_list = []
-    prompts, negative_prompt = example_prompts()
-    for i, prompt in enumerate(prompts):
-        if i >= num_prompts:
-            break
-        for j in range(batch_count):
-            inference_start = time.time()
-            images = pipe(
-                [prompt] * batch_size,
-                negative_prompt=[negative_prompt] * batch_size,
-                num_inference_steps=steps,
-            ).images
-            inference_end = time.time()
-            latency = inference_end - inference_start
-            latency_list.append(latency)
-            print(f"Inference took {latency:.3f} seconds")
-            for k, image in enumerate(images):
-                image.save(f"{image_filename_prefix}_{i}_{j}_{k}.jpg")
-
-    from tensorrt import __version__ as trt_version
-
-    from onnxruntime import __version__ as ort_version
-
-    return {
-        "model_name": model_name,
-        "engine": "onnxruntime",
-        "version": ort_version,
-        "provider": f"tensorrt({trt_version})",
-        "directory": pipe.engine_dir,
-        "height": height,
-        "width": width,
-        "steps": steps,
-        "batch_size": batch_size,
-        "batch_count": batch_count,
-        "num_prompts": num_prompts,
-        "average_latency": sum(latency_list) / len(latency_list),
-        "median_latency": statistics.median(latency_list),
-        "first_run_memory_MB": first_run_memory,
-        "second_run_memory_MB": second_run_memory,
-        "disable_safety_checker": disable_safety_checker,
-        "enable_cuda_graph": enable_cuda_graph,
-    }
+    result.update(
+        {
+            "model_name": model_name,
+            "directory": directory,
+            "provider": provider.replace("ExecutionProvider", ""),
+            "disable_safety_checker": disable_safety_checker,
+            "enable_cuda_graph": False,
+        }
+    )
+    return result
 
 
 def run_ort_trt_static(
@@ -523,17 +492,16 @@ def run_ort_trt_static(
     short_name = pipeline_info.short_name()
 
     from engine_builder import EngineType, get_engine_paths
-    from pipeline_txt2img import Txt2ImgPipeline
+    from pipeline_stable_diffusion import StableDiffusionPipeline
 
     engine_type = EngineType.ORT_TRT
     onnx_dir, engine_dir, output_dir, framework_model_dir, _ = get_engine_paths(work_dir, pipeline_info, engine_type)
 
     # Initialize pipeline
-    pipeline = Txt2ImgPipeline(
+    pipeline = StableDiffusionPipeline(
         pipeline_info,
         scheduler="DDIM",
         output_dir=output_dir,
-        hf_token=None,
         verbose=False,
         nvtx_profile=nvtx_profile,
         max_batch_size=max_batch_size,
@@ -551,7 +519,6 @@ def run_ort_trt_static(
         opt_image_height=height,
         opt_image_width=width,
         opt_batch_size=batch_size,
-        force_engine_rebuild=False,
         static_batch=True,
         static_image_shape=True,
         max_workspace_size=0,
@@ -592,15 +559,11 @@ def warmup():
                 denoising_steps=steps,
                 guidance=7.5,
                 seed=123,
-                warmup=True,
             )
-            images = pipeline.to_pil_image(
-                images
-            )  # include image conversion time to pil image for apple-to-apple compare
             inference_end = time.time()
             latency = inference_end - inference_start
             latency_list.append(latency)
-            print(f"End2End took {latency:.3f} seconds. Inference latency: {pipeline_time:.1f} ms")
+            print(f"End2End took {latency:.3f} seconds. Inference latency: {pipeline_time}")
             for k, image in enumerate(images):
                 image.save(f"{image_filename_prefix}_{i}_{j}_{k}.jpg")
 
@@ -664,7 +627,7 @@ def run_tensorrt_static(
     pipeline_info = PipelineInfo(version)
 
     from engine_builder import EngineType, get_engine_paths
-    from pipeline_txt2img import Txt2ImgPipeline
+    from pipeline_stable_diffusion import StableDiffusionPipeline
 
     engine_type = EngineType.TRT
     onnx_dir, engine_dir, output_dir, framework_model_dir, timing_cache = get_engine_paths(
@@ -672,11 +635,10 @@ def run_tensorrt_static(
     )
 
     # Initialize pipeline
-    pipeline = Txt2ImgPipeline(
+    pipeline = StableDiffusionPipeline(
         pipeline_info,
         scheduler="DDIM",
         output_dir=output_dir,
-        hf_token=None,
         verbose=False,
         nvtx_profile=nvtx_profile,
         max_batch_size=max_batch_size,
@@ -693,16 +655,10 @@ def run_tensorrt_static(
         opt_batch_size=batch_size,
         opt_image_height=height,
         opt_image_width=width,
-        force_export=False,
-        force_optimize=False,
-        force_build=False,
         static_batch=True,
         static_shape=True,
-        enable_refit=False,
-        enable_preview=False,
         enable_all_tactics=False,
         timing_cache=timing_cache,
-        onnx_refit_dir=None,
     )
 
     # activate engines
@@ -744,15 +700,11 @@ def warmup():
                 denoising_steps=steps,
                 guidance=7.5,
                 seed=123,
-                warmup=True,
             )
-            images = pipeline.to_pil_image(
-                images
-            )  # include image conversion time to pil image for apple-to-apple compare
             inference_end = time.time()
             latency = inference_end - inference_start
             latency_list.append(latency)
-            print(f"End2End took {latency:.3f} seconds. Inference latency: {pipeline_time:.1f} ms")
+            print(f"End2End took {latency:.3f} seconds. Inference latency: {pipeline_time}")
             for k, image in enumerate(images):
                 image.save(f"{image_filename_prefix}_{i}_{j}_{k}.jpg")
 
@@ -828,7 +780,6 @@ def init_pipeline(pipeline_class, pipeline_info):
             pipeline_info,
             scheduler="DDIM",
             output_dir=output_dir,
-            hf_token=None,
             verbose=False,
             nvtx_profile=nvtx_profile,
             max_batch_size=max_batch_size,
@@ -845,66 +796,39 @@ def init_pipeline(pipeline_class, pipeline_info):
             opt_batch_size=batch_size,
             opt_image_height=height,
             opt_image_width=width,
-            force_export=False,
-            force_optimize=False,
-            force_build=False,
             static_batch=True,
             static_shape=True,
-            enable_refit=False,
-            enable_preview=False,
             enable_all_tactics=False,
             timing_cache=timing_cache,
-            onnx_refit_dir=None,
         )
         return pipeline
 
-    from pipeline_img2img_xl import Img2ImgXLPipeline
-    from pipeline_txt2img_xl import Txt2ImgXLPipeline
-
-    base_pipeline_info = PipelineInfo(version)
-    demo_base = init_pipeline(Txt2ImgXLPipeline, base_pipeline_info)
+    from pipeline_stable_diffusion import StableDiffusionPipeline
 
-    refiner_pipeline_info = PipelineInfo(version, is_refiner=True)
-    demo_refiner = init_pipeline(Img2ImgXLPipeline, refiner_pipeline_info)
+    pipeline_info = PipelineInfo(version)
+    pipeline = init_pipeline(StableDiffusionPipeline, pipeline_info)
 
-    max_device_memory = max(demo_base.backend.max_device_memory(), demo_refiner.backend.max_device_memory())
+    max_device_memory = max(pipeline.backend.max_device_memory(), pipeline.backend.max_device_memory())
     _, shared_device_memory = cudart.cudaMalloc(max_device_memory)
-    demo_base.backend.activate_engines(shared_device_memory)
-    demo_refiner.backend.activate_engines(shared_device_memory)
+    pipeline.backend.activate_engines(shared_device_memory)
 
     # Here we use static batch and image size, so the resource allocation only need done once.
     # For dynamic batch and image size, some cost (like memory allocation) shall be included in latency.
-    demo_base.load_resources(image_height, image_width, batch_size)
-    demo_refiner.load_resources(image_height, image_width, batch_size)
+    pipeline.load_resources(image_height, image_width, batch_size)
 
-    def run_sd_xl_inference(prompt, negative_prompt, seed=None, warmup=False):
-        images, time_base = demo_base.run(
+    def run_sd_xl_inference(prompt, negative_prompt, seed=None):
+        return pipeline.run(
             prompt,
             negative_prompt,
             image_height,
             image_width,
             denoising_steps=steps,
             guidance=5.0,
-            warmup=warmup,
             seed=seed,
-            return_type="latent",
         )
 
-        images, time_refiner = demo_refiner.run(
-            prompt,
-            negative_prompt,
-            images,
-            image_height,
-            image_width,
-            denoising_steps=steps,
-            guidance=5.0,
-            warmup=warmup,
-            seed=seed,
-        )
-        return images, time_base + time_refiner
-
     def warmup():
-        run_sd_xl_inference(["warm up"] * batch_size, ["negative"] * batch_size, warmup=True)
+        run_sd_xl_inference(["warm up"] * batch_size, ["negative"] * batch_size)
 
     # Run warm up, and measure GPU memory of two runs
     # The first run has algo search so it might need more memory
@@ -913,7 +837,7 @@ def warmup():
 
     warmup()
 
-    model_name = refiner_pipeline_info.name()
+    model_name = pipeline_info.name()
     image_filename_prefix = get_image_filename_prefix("trt", model_name, batch_size, disable_safety_checker)
 
     latency_list = []
@@ -926,23 +850,17 @@ def warmup():
             # Use warmup mode here since non-warmup mode will save image to disk.
             if nvtx_profile:
                 cudart.cudaProfilerStart()
-            images, pipeline_time = run_sd_xl_inference(
-                [prompt] * batch_size, [negative_prompt] * batch_size, seed=123, warmup=True
-            )
+            images, pipeline_time = run_sd_xl_inference([prompt] * batch_size, [negative_prompt] * batch_size, seed=123)
             if nvtx_profile:
                 cudart.cudaProfilerStop()
-            images = demo_refiner.to_pil_image(
-                images
-            )  # include image conversion time to pil image for apple-to-apple compare
             inference_end = time.time()
             latency = inference_end - inference_start
             latency_list.append(latency)
-            print(f"End2End took {latency:.3f} seconds. Inference latency: {pipeline_time:.1f} ms")
+            print(f"End2End took {latency:.3f} seconds. Inference latency: {pipeline_time}")
             for k, image in enumerate(images):
                 image.save(f"{image_filename_prefix}_{i}_{j}_{k}.png")
 
-    demo_base.teardown()
-    demo_refiner.teardown()
+    pipeline.teardown()
 
     return {
         "model_name": model_name,
@@ -979,97 +897,39 @@ def run_ort_trt_xl(
     nvtx_profile: bool = False,
     use_cuda_graph=True,
 ):
-    from cuda import cudart
+    from demo_utils import initialize_pipeline
+    from engine_builder import EngineType
+
+    pipeline = initialize_pipeline(
+        version=version,
+        engine_type=EngineType.ORT_TRT,
+        work_dir=work_dir,
+        height=height,
+        width=width,
+        use_cuda_graph=use_cuda_graph,
+        max_batch_size=max_batch_size,
+        opt_batch_size=batch_size,
+    )
 
-    # Validate image dimensions
-    image_height = height
-    image_width = width
-    if image_height % 8 != 0 or image_width % 8 != 0:
-        raise ValueError(
-            f"Image height and width have to be divisible by 8 but specified as: {image_height} and {image_width}."
-        )
+    from cuda import cudart
 
     assert batch_size <= max_batch_size
 
-    from engine_builder import EngineType, get_engine_paths
-
-    def init_pipeline(pipeline_class, pipeline_info):
-        engine_type = EngineType.ORT_TRT
-
-        onnx_dir, engine_dir, output_dir, framework_model_dir, _ = get_engine_paths(
-            work_dir, pipeline_info, engine_type
-        )
-
-        # Initialize pipeline
-        pipeline = pipeline_class(
-            pipeline_info,
-            scheduler="DDIM",
-            output_dir=output_dir,
-            hf_token=None,
-            verbose=False,
-            nvtx_profile=nvtx_profile,
-            max_batch_size=max_batch_size,
-            use_cuda_graph=use_cuda_graph,
-            framework_model_dir=framework_model_dir,
-            engine_type=engine_type,
-        )
-
-        pipeline.backend.build_engines(
-            engine_dir,
-            framework_model_dir,
-            onnx_dir,
-            17,
-            opt_image_height=height,
-            opt_image_width=width,
-            opt_batch_size=batch_size,
-            force_engine_rebuild=False,
-            static_batch=True,
-            static_image_shape=True,
-            max_workspace_size=0,
-            device_id=torch.cuda.current_device(),  # TODO: might not work with CUDA_VISIBLE_DEVICES
-        )
-        return pipeline
-
-    from diffusion_models import PipelineInfo
-    from pipeline_img2img_xl import Img2ImgXLPipeline
-    from pipeline_txt2img_xl import Txt2ImgXLPipeline
-
-    base_pipeline_info = PipelineInfo(version)
-    demo_base = init_pipeline(Txt2ImgXLPipeline, base_pipeline_info)
-
-    refiner_pipeline_info = PipelineInfo(version, is_refiner=True)
-    demo_refiner = init_pipeline(Img2ImgXLPipeline, refiner_pipeline_info)
-
-    demo_base.load_resources(image_height, image_width, batch_size)
-    demo_refiner.load_resources(image_height, image_width, batch_size)
+    pipeline.load_resources(height, width, batch_size)
 
-    def run_sd_xl_inference(prompt, negative_prompt, seed=None, warmup=False):
-        images, time_base = demo_base.run(
+    def run_sd_xl_inference(prompt, negative_prompt, seed=None):
+        return pipeline.run(
             prompt,
             negative_prompt,
-            image_height,
-            image_width,
-            denoising_steps=steps,
-            guidance=5.0,
-            warmup=warmup,
-            seed=seed,
-            return_type="latent",
-        )
-        images, time_refiner = demo_refiner.run(
-            prompt,
-            negative_prompt,
-            images,
-            image_height,
-            image_width,
+            height,
+            width,
             denoising_steps=steps,
             guidance=5.0,
-            warmup=warmup,
             seed=seed,
         )
-        return images, time_base + time_refiner
 
     def warmup():
-        run_sd_xl_inference(["warm up"] * batch_size, ["negative"] * batch_size, warmup=True)
+        run_sd_xl_inference(["warm up"] * batch_size, ["negative"] * batch_size)
 
     # Run warm up, and measure GPU memory of two runs
     # The first run has algo search so it might need more memory
@@ -1078,7 +938,7 @@ def warmup():
 
     warmup()
 
-    model_name = refiner_pipeline_info.name()
+    model_name = pipeline.pipeline_info.name()
     image_filename_prefix = get_image_filename_prefix("ort_trt", model_name, batch_size, disable_safety_checker)
 
     latency_list = []
@@ -1091,25 +951,19 @@ def warmup():
             # Use warmup mode here since non-warmup mode will save image to disk.
             if nvtx_profile:
                 cudart.cudaProfilerStart()
-            images, pipeline_time = run_sd_xl_inference(
-                [prompt] * batch_size, [negative_prompt] * batch_size, seed=123, warmup=True
-            )
+            images, pipeline_time = run_sd_xl_inference([prompt] * batch_size, [negative_prompt] * batch_size, seed=123)
             if nvtx_profile:
                 cudart.cudaProfilerStop()
-            images = demo_refiner.to_pil_image(
-                images
-            )  # include image conversion time to pil image for apple-to-apple compare
             inference_end = time.time()
             latency = inference_end - inference_start
             latency_list.append(latency)
-            print(f"End2End took {latency:.3f} seconds. Inference latency: {pipeline_time:.1f} ms")
+            print(f"End2End took {latency:.3f} seconds. Inference latency: {pipeline_time}")
             for k, image in enumerate(images):
                 filename = f"{image_filename_prefix}_{i}_{j}_{k}.png"
                 image.save(filename)
                 print("Image saved to", filename)
 
-    demo_base.teardown()
-    demo_refiner.teardown()
+    pipeline.teardown()
 
     from tensorrt import __version__ as trt_version
 
@@ -1209,7 +1063,7 @@ def parse_arguments():
         required=False,
         type=str,
         default="onnxruntime",
-        choices=["onnxruntime", "torch", "tensorrt"],
+        choices=["onnxruntime", "optimum", "torch", "tensorrt"],
         help="Engines to benchmark. Default is onnxruntime.",
     )
 
@@ -1423,26 +1277,6 @@ def main():
                 nvtx_profile=False,
                 use_cuda_graph=args.enable_cuda_graph,
             )
-        elif args.tuning:
-            print(
-                "Testing OnnxruntimeTensorRTStableDiffusionPipeline with {}.".format(
-                    "static input shape" if args.enable_cuda_graph else "dynamic batch size"
-                )
-            )
-            result = run_ort_trt(
-                version=args.version,
-                batch_size=args.batch_size,
-                disable_safety_checker=not args.enable_safety_checker,
-                height=args.height,
-                width=args.width,
-                steps=args.steps,
-                num_prompts=args.num_prompts,
-                batch_count=args.batch_count,
-                start_memory=start_memory,
-                memory_monitor_type=memory_monitor_type,
-                max_batch_size=args.max_trt_batch_size,
-                enable_cuda_graph=args.enable_cuda_graph,
-            )
         else:
             print("Testing Txt2ImgPipeline with static input shape. Backend is ORT TensorRT EP.")
             result = run_ort_trt_static(
@@ -1461,15 +1295,13 @@ def main():
                 nvtx_profile=False,
                 use_cuda_graph=args.enable_cuda_graph,
             )
+    elif args.engine == "optimum" and provider == "CUDAExecutionProvider":
+        if "xl" in args.version:
+            os.environ["ORT_ENABLE_FUSED_CAUSAL_ATTENTION"] = "1"
 
-    elif args.engine == "onnxruntime" and provider == "CUDAExecutionProvider" and args.pipeline is None:
-        print(
-            "Testing OnnxruntimeCudaStableDiffusionPipeline with {} input shape. Backend is ORT CUDA EP.".format(
-                "static" if args.enable_cuda_graph else "dynamic"
-            )
-        )
-        result = export_and_run_ort(
-            version=args.version,
+        result = run_optimum_ort(
+            model_name=sd_model,
+            directory=args.pipeline,
             provider=provider,
             batch_size=args.batch_size,
             disable_safety_checker=not args.enable_safety_checker,
@@ -1480,7 +1312,6 @@ def main():
             batch_count=args.batch_count,
             start_memory=start_memory,
             memory_monitor_type=memory_monitor_type,
-            enable_cuda_graph=args.enable_cuda_graph,
         )
     elif args.engine == "onnxruntime":
         assert args.pipeline and os.path.isdir(
diff --git a/onnxruntime/python/tools/transformers/models/stable_diffusion/benchmark_controlnet.py b/onnxruntime/python/tools/transformers/models/stable_diffusion/benchmark_controlnet.py
index 39b963313ea64..52c64fb7e8e0b 100644
--- a/onnxruntime/python/tools/transformers/models/stable_diffusion/benchmark_controlnet.py
+++ b/onnxruntime/python/tools/transformers/models/stable_diffusion/benchmark_controlnet.py
@@ -9,6 +9,7 @@
 from statistics import mean
 
 import torch
+from demo_utils import PipelineInfo
 from diffusers import (
     AutoencoderKL,
     ControlNetModel,
@@ -16,6 +17,8 @@
     EulerAncestralDiscreteScheduler,
     StableDiffusionXLControlNetPipeline,
 )
+from engine_builder import EngineType, get_engine_paths
+from pipeline_stable_diffusion import StableDiffusionPipeline
 
 """
 Benchmark script for SDXL-Turbo with control net for engines like PyTorch or Stable Fast.
@@ -120,6 +123,111 @@ def load_pipeline(name, engine, use_control_net=False, use_nhwc=False, enable_cu
     return pipeline
 
 
+def get_prompt():
+    return "little cute gremlin wearing a jacket, cinematic, vivid colors, intricate masterpiece, golden ratio, highly detailed"
+
+
+def load_ort_cuda_pipeline(name, engine, use_control_net=False, enable_cuda_graph=True, work_dir="."):
+    version = PipelineInfo.supported_models()[name]
+    guidance_scale = 0.0
+    pipeline_info = PipelineInfo(
+        version,
+        use_vae=True,
+        use_fp16_vae=True,
+        do_classifier_free_guidance=(guidance_scale > 1.0),
+        controlnet=["canny"] if use_control_net else [],
+    )
+
+    engine_type = EngineType.ORT_CUDA if engine == "ort_cuda" else EngineType.ORT_TRT
+    onnx_dir, engine_dir, output_dir, framework_model_dir, _ = get_engine_paths(
+        work_dir=work_dir, pipeline_info=pipeline_info, engine_type=engine_type
+    )
+
+    pipeline = StableDiffusionPipeline(
+        pipeline_info,
+        scheduler="EulerA",
+        max_batch_size=32,
+        use_cuda_graph=enable_cuda_graph,
+        framework_model_dir=framework_model_dir,
+        output_dir=output_dir,
+        engine_type=engine_type,
+    )
+
+    pipeline.backend.build_engines(
+        engine_dir=engine_dir,
+        framework_model_dir=framework_model_dir,
+        onnx_dir=onnx_dir,
+        device_id=torch.cuda.current_device(),
+    )
+
+    return pipeline
+
+
+def test_ort_cuda(
+    pipeline,
+    batch_size=1,
+    steps=4,
+    control_image=None,
+    warmup_runs=3,
+    test_runs=10,
+    seed=123,
+    verbose=False,
+    image_height=512,
+    image_width=512,
+):
+    if batch_size > 4 and pipeline.pipeline_info.version == "xl-1.0":
+        pipeline.backend.enable_vae_slicing()
+
+    pipeline.load_resources(image_height, image_width, batch_size)
+
+    warmup_prompt = "warm up"
+    for _ in range(warmup_runs):
+        images, _ = pipeline.run(
+            [warmup_prompt] * batch_size,
+            [""] * batch_size,
+            image_height=image_height,
+            image_width=image_width,
+            denoising_steps=steps,
+            guidance=0.0,
+            seed=seed,
+            controlnet_images=[control_image],
+            controlnet_scales=torch.FloatTensor([0.5]),
+            output_type="image",
+        )
+        assert len(images) == batch_size
+
+    generator = torch.Generator(device="cuda")
+    generator.manual_seed(seed)
+
+    prompt = get_prompt()
+
+    latency_list = []
+    images = None
+    for _ in range(test_runs):
+        torch.cuda.synchronize()
+        start_time = time.perf_counter()
+        images, _ = pipeline.run(
+            [prompt] * batch_size,
+            [""] * batch_size,
+            image_height=image_height,
+            image_width=image_width,
+            denoising_steps=steps,
+            guidance=0.0,
+            seed=seed,
+            controlnet_images=[control_image],
+            controlnet_scales=torch.FloatTensor([0.5]),
+            output_type="pil",
+        )
+        torch.cuda.synchronize()
+        seconds = time.perf_counter() - start_time
+        latency_list.append(seconds)
+
+    if verbose:
+        print(latency_list)
+
+    return images, latency_list
+
+
 def test(pipeline, batch_size=1, steps=4, control_image=None, warmup_runs=3, test_runs=10, seed=123, verbose=False):
     control_net_args = {}
     if hasattr(pipeline, "controlnet"):
@@ -130,33 +238,33 @@ def test(pipeline, batch_size=1, steps=4, control_image=None, warmup_runs=3, tes
 
     warmup_prompt = "warm up"
     for _ in range(warmup_runs):
-        image = pipeline(
+        images = pipeline(
             prompt=warmup_prompt,
             num_inference_steps=steps,
             num_images_per_prompt=batch_size,
             guidance_scale=0.0,
             **control_net_args,
         ).images
-        assert len(image) == batch_size
+        assert len(images) == batch_size
 
     generator = torch.Generator(device="cuda")
     generator.manual_seed(seed)
 
-    prompt = "little cute gremlin wearing a jacket, cinematic, vivid colors, intricate masterpiece, golden ratio, highly detailed"
+    prompt = get_prompt()
 
     latency_list = []
-    image = None
+    images = None
     for _ in range(test_runs):
         torch.cuda.synchronize()
         start_time = time.perf_counter()
-        image = pipeline(
+        images = pipeline(
             prompt=prompt,
             num_inference_steps=steps,
             num_images_per_prompt=batch_size,
             guidance_scale=0.0,
             generator=generator,
             **control_net_args,
-        ).images[0]
+        ).images
         torch.cuda.synchronize()
         seconds = time.perf_counter() - start_time
         latency_list.append(seconds)
@@ -164,7 +272,7 @@ def test(pipeline, batch_size=1, steps=4, control_image=None, warmup_runs=3, tes
     if verbose:
         print(latency_list)
 
-    return image, latency_list
+    return images, latency_list
 
 
 def arguments():
@@ -175,17 +283,25 @@ def arguments():
         "--engine",
         type=str,
         default="torch",
-        choices=["torch", "stable_fast"],
-        help="Backend engine: torch or stable_fast",
+        choices=["torch", "stable_fast", "ort_cuda", "ort_trt"],
+        help="Backend engine: torch, stable_fast or ort_cuda",
     )
 
     parser.add_argument(
         "--name",
         type=str,
+        choices=list(PipelineInfo.supported_models().keys()),
         default="stabilityai/sdxl-turbo",
         help="Stable diffusion model name. Default is stabilityai/sdxl-turbo",
     )
 
+    parser.add_argument(
+        "--work-dir",
+        type=str,
+        default=".",
+        help="working directory for ort_cuda or ort_trt",
+    )
+
     parser.add_argument(
         "--use_control_net",
         action="store_true",
@@ -239,21 +355,39 @@ def main():
     args = arguments()
 
     with torch.no_grad():
-        pipeline = load_pipeline(
-            args.name,
-            args.engine,
-            use_control_net=args.use_control_net,
-            use_nhwc=args.use_nhwc,
-            enable_cuda_graph=args.enable_cuda_graph,
-        )
+        if args.engine == "ort_cuda":
+            pipeline = load_ort_cuda_pipeline(
+                args.name,
+                args.engine,
+                use_control_net=args.use_control_net,
+                enable_cuda_graph=args.enable_cuda_graph,
+                work_dir=args.work_dir,
+            )
+        else:
+            pipeline = load_pipeline(
+                args.name,
+                args.engine,
+                use_control_net=args.use_control_net,
+                use_nhwc=args.use_nhwc,
+                enable_cuda_graph=args.enable_cuda_graph,
+            )
 
         canny_image = get_canny_image()
 
-        if args.engine == "stable_fast":
+        if args.engine == "ort_cuda":
+            images, latency_list = test_ort_cuda(
+                pipeline,
+                args.batch_size,
+                args.steps,
+                control_image=canny_image,
+                warmup_runs=args.warmup_runs,
+                verbose=args.verbose,
+            )
+        elif args.engine == "stable_fast":
             from sfast.utils.compute_precision import low_compute_precision
 
             with low_compute_precision():
-                image, latency_list = test(
+                images, latency_list = test(
                     pipeline,
                     args.batch_size,
                     args.steps,
@@ -262,7 +396,7 @@ def main():
                     verbose=args.verbose,
                 )
         else:
-            image, latency_list = test(
+            images, latency_list = test(
                 pipeline,
                 args.batch_size,
                 args.steps,
@@ -272,8 +406,8 @@ def main():
             )
 
         # Save the first output image to inspect the result.
-        if image:
-            image.save(
+        if images:
+            images[0].save(
                 f"{args.engine}_{args.name.replace('/', '_')}_{args.batch_size}_{args.steps}_c{int(args.use_control_net)}.png"
             )
 
diff --git a/onnxruntime/python/tools/transformers/models/stable_diffusion/demo_txt2img.py b/onnxruntime/python/tools/transformers/models/stable_diffusion/demo_txt2img.py
index c18747d5c6518..40692701c28d6 100644
--- a/onnxruntime/python/tools/transformers/models/stable_diffusion/demo_txt2img.py
+++ b/onnxruntime/python/tools/transformers/models/stable_diffusion/demo_txt2img.py
@@ -26,15 +26,11 @@
     add_controlnet_arguments,
     arg_parser,
     get_metadata,
-    init_pipeline,
-    max_batch,
+    load_pipelines,
     parse_arguments,
     process_controlnet_arguments,
     repeat_prompt,
 )
-from diffusion_models import PipelineInfo
-from engine_builder import EngineType, get_engine_type
-from pipeline_txt2img import Txt2ImgPipeline
 
 if __name__ == "__main__":
     coloredlogs.install(fmt="%(funcName)20s: %(message)s")
@@ -45,83 +41,26 @@
 
     controlnet_images, controlnet_scale = process_controlnet_arguments(args)
 
-    prompt, negative_prompt = repeat_prompt(args)
-
-    image_height = args.height
-    image_width = args.width
-
-    # Register TensorRT plugins
-    engine_type = get_engine_type(args.engine)
-    if engine_type == EngineType.TRT:
-        from trt_utilities import init_trt_plugins
-
-        init_trt_plugins()
-
-    max_batch_size = max_batch(args)
+    pipeline, refiner = load_pipelines(args)
+    assert refiner is None
 
+    prompt, negative_prompt = repeat_prompt(args)
     batch_size = len(prompt)
-    if batch_size > max_batch_size:
-        raise ValueError(
-            f"Batch size {len(prompt)} is larger than allowed {max_batch_size}. If dynamic shape is used, then maximum batch size is 4"
-        )
-
-    # For TensorRT,  performance of engine built with dynamic shape is very sensitive to the range of image size.
-    # Here, we reduce the range of image size for TensorRT to trade-off flexibility and performance.
-    # This range can cover common used shape of landscape 512x768, portrait 768x512, or square 512x512 and 768x768.
-    min_image_size = 512 if args.engine != "ORT_CUDA" else 256
-    max_image_size = 768 if args.engine != "ORT_CUDA" else 1024
-    pipeline_info = PipelineInfo(
-        args.version,
-        min_image_size=min_image_size,
-        max_image_size=max_image_size,
-        do_classifier_free_guidance=(args.guidance > 1.0),
-        controlnet=args.controlnet_type,
-        lora_weights=args.lora_weights,
-        lora_scale=args.lora_scale,
-    )
-
-    # Ideally, the optimized batch size and image size for TRT engine shall align with user's preference. That is to
-    # optimize the shape used most frequently. We can let user config it when we develop a UI plugin.
-    # In this demo, we optimize batch size 1 and image size 512x512 (or 768x768 for SD 2.0/2.1) for dynamic engine.
-    # This is mainly for benchmark purpose to simulate the case that we have no knowledge of user's preference.
-    opt_batch_size = 1 if args.build_dynamic_batch else batch_size
-    opt_image_height = pipeline_info.default_image_size() if args.build_dynamic_shape else args.height
-    opt_image_width = pipeline_info.default_image_size() if args.build_dynamic_shape else args.width
-
-    pipeline = init_pipeline(
-        Txt2ImgPipeline,
-        pipeline_info,
-        engine_type,
-        args,
-        max_batch_size,
-        opt_batch_size,
-        opt_image_height,
-        opt_image_width,
-    )
-
-    if engine_type == EngineType.TRT:
-        max_device_memory = max(pipeline.backend.max_device_memory(), pipeline.backend.max_device_memory())
-        _, shared_device_memory = cudart.cudaMalloc(max_device_memory)
-        pipeline.backend.activate_engines(shared_device_memory)
-
-    if engine_type == EngineType.ORT_CUDA and args.enable_vae_slicing:
-        pipeline.backend.enable_vae_slicing()
-
-    pipeline.load_resources(image_height, image_width, batch_size)
+    pipeline.load_resources(args.height, args.width, batch_size)
 
     def run_inference(warmup=False):
         return pipeline.run(
             prompt,
             negative_prompt,
-            image_height,
-            image_width,
-            warmup=warmup,
+            args.height,
+            args.width,
             denoising_steps=args.denoising_steps,
             guidance=args.guidance,
             seed=args.seed,
             controlnet_images=controlnet_images,
             controlnet_scales=controlnet_scale,
-            return_type="image",
+            show_latency=not warmup,
+            output_type="pil",
         )
 
     if not args.disable_cuda_graph:
diff --git a/onnxruntime/python/tools/transformers/models/stable_diffusion/demo_txt2img_xl.py b/onnxruntime/python/tools/transformers/models/stable_diffusion/demo_txt2img_xl.py
index b691f5115e6d3..19bbb45d77c93 100644
--- a/onnxruntime/python/tools/transformers/models/stable_diffusion/demo_txt2img_xl.py
+++ b/onnxruntime/python/tools/transformers/models/stable_diffusion/demo_txt2img_xl.py
@@ -26,107 +26,11 @@
     add_controlnet_arguments,
     arg_parser,
     get_metadata,
-    init_pipeline,
-    max_batch,
+    load_pipelines,
     parse_arguments,
     process_controlnet_arguments,
     repeat_prompt,
 )
-from diffusion_models import PipelineInfo
-from engine_builder import EngineType, get_engine_type
-from pipeline_img2img_xl import Img2ImgXLPipeline
-from pipeline_txt2img_xl import Txt2ImgXLPipeline
-
-
-def load_pipelines(args, batch_size):
-    # Register TensorRT plugins
-    engine_type = get_engine_type(args.engine)
-    if engine_type == EngineType.TRT:
-        from trt_utilities import init_trt_plugins
-
-        init_trt_plugins()
-
-    max_batch_size = max_batch(args)
-
-    if batch_size > max_batch_size:
-        raise ValueError(f"Batch size {batch_size} is larger than allowed {max_batch_size}.")
-
-    # For TensorRT,  performance of engine built with dynamic shape is very sensitive to the range of image size.
-    # Here, we reduce the range of image size for TensorRT to trade-off flexibility and performance.
-    # This range can cover most frequent shape of landscape (832x1216), portrait (1216x832) or square (1024x1024).
-    if args.version == "xl-turbo":
-        min_image_size = 512
-        max_image_size = 768 if args.engine != "ORT_CUDA" else 1024
-    else:
-        min_image_size = 832 if args.engine != "ORT_CUDA" else 512
-        max_image_size = 1216 if args.engine != "ORT_CUDA" else 2048
-
-    # No VAE decoder in base when it outputs latent instead of image.
-    base_info = PipelineInfo(
-        args.version,
-        use_vae=not args.enable_refiner,
-        min_image_size=min_image_size,
-        max_image_size=max_image_size,
-        use_lcm=args.lcm,
-        do_classifier_free_guidance=(args.guidance > 1.0),
-        controlnet=args.controlnet_type,
-        lora_weights=args.lora_weights,
-        lora_scale=args.lora_scale,
-    )
-
-    # Ideally, the optimized batch size and image size for TRT engine shall align with user's preference. That is to
-    # optimize the shape used most frequently. We can let user config it when we develop a UI plugin.
-    # In this demo, we optimize batch size 1 and image size 1024x1024 for SD XL dynamic engine.
-    # This is mainly for benchmark purpose to simulate the case that we have no knowledge of user's preference.
-    opt_batch_size = 1 if args.build_dynamic_batch else batch_size
-    opt_image_height = base_info.default_image_size() if args.build_dynamic_shape else args.height
-    opt_image_width = base_info.default_image_size() if args.build_dynamic_shape else args.width
-
-    base = init_pipeline(
-        Txt2ImgXLPipeline,
-        base_info,
-        engine_type,
-        args,
-        max_batch_size,
-        opt_batch_size,
-        opt_image_height,
-        opt_image_width,
-    )
-
-    refiner = None
-    if args.enable_refiner:
-        refiner_version = "xl-1.0"  # Allow SDXL Turbo to use refiner.
-        refiner_info = PipelineInfo(
-            refiner_version, is_refiner=True, min_image_size=min_image_size, max_image_size=max_image_size
-        )
-        refiner = init_pipeline(
-            Img2ImgXLPipeline,
-            refiner_info,
-            engine_type,
-            args,
-            max_batch_size,
-            opt_batch_size,
-            opt_image_height,
-            opt_image_width,
-        )
-
-    if engine_type == EngineType.TRT:
-        max_device_memory = max(base.backend.max_device_memory(), (refiner or base).backend.max_device_memory())
-        _, shared_device_memory = cudart.cudaMalloc(max_device_memory)
-        base.backend.activate_engines(shared_device_memory)
-        if refiner:
-            refiner.backend.activate_engines(shared_device_memory)
-
-    if engine_type == EngineType.ORT_CUDA:
-        enable_vae_slicing = args.enable_vae_slicing
-        if batch_size > 4 and not enable_vae_slicing and (args.height >= 1024 and args.width >= 1024):
-            print(
-                "Updating enable_vae_slicing to be True to avoid cuDNN error for batch size > 4 and resolution >= 1024."
-            )
-            enable_vae_slicing = True
-        if enable_vae_slicing:
-            (refiner or base).backend.enable_vae_slicing()
-    return base, refiner
 
 
 def run_pipelines(
@@ -145,13 +49,13 @@ def run_base_and_refiner(warmup=False):
             negative_prompt,
             image_height,
             image_width,
-            warmup=warmup,
             denoising_steps=args.denoising_steps,
             guidance=args.guidance,
             seed=args.seed,
             controlnet_images=controlnet_image,
             controlnet_scales=controlnet_scale,
-            return_type="latent" if refiner else "image",
+            show_latency=not warmup,
+            output_type="latent" if refiner else "pil",
         )
         if refiner is None:
             return images, base_perf
@@ -162,14 +66,14 @@ def run_base_and_refiner(warmup=False):
         images, refiner_perf = refiner.run(
             prompt,
             negative_prompt,
-            images,
             image_height,
             image_width,
-            warmup=warmup,
             denoising_steps=args.refiner_denoising_steps,
+            image=images,
             strength=args.strength,
             guidance=args.refiner_guidance,
             seed=seed,
+            show_latency=not warmup,
         )
 
         perf_data = None
@@ -309,6 +213,32 @@ def run_dynamic_shape_demo(args):
         refiner.teardown()
 
 
+def run_turbo_demo(args):
+    """Run demo of generating images with test prompts with ORT CUDA provider."""
+    args.engine = "ORT_CUDA"
+    args.disable_cuda_graph = True
+    base, refiner = load_pipelines(args, 1)
+
+    from datasets import load_dataset
+
+    dataset = load_dataset("Gustavosta/Stable-Diffusion-Prompts")
+    num_rows = dataset["test"].num_rows
+    batch_size = args.batch_size
+    num_batch = int(num_rows / batch_size)
+    args.batch_size = 1
+    for i in range(num_batch):
+        args.prompt = [dataset["test"][i]["Prompt"] for i in range(i * batch_size, (i + 1) * batch_size)]
+        base.set_scheduler(args.scheduler)
+        if refiner:
+            refiner.set_scheduler(args.refiner_scheduler)
+        prompt, negative_prompt = repeat_prompt(args)
+        run_pipelines(args, base, refiner, prompt, negative_prompt, is_warm_up=False)
+
+    base.teardown()
+    if refiner:
+        refiner.teardown()
+
+
 if __name__ == "__main__":
     coloredlogs.install(fmt="%(funcName)20s: %(message)s")
 
@@ -318,6 +248,9 @@ def run_dynamic_shape_demo(args):
 
     no_prompt = isinstance(args.prompt, list) and len(args.prompt) == 1 and not args.prompt[0]
     if no_prompt:
-        run_dynamic_shape_demo(args)
+        if args.version == "xl-turbo":
+            run_turbo_demo(args)
+        else:
+            run_dynamic_shape_demo(args)
     else:
         run_demo(args)
diff --git a/onnxruntime/python/tools/transformers/models/stable_diffusion/demo_utils.py b/onnxruntime/python/tools/transformers/models/stable_diffusion/demo_utils.py
index c0395b5e4642f..965a2598a2488 100644
--- a/onnxruntime/python/tools/transformers/models/stable_diffusion/demo_utils.py
+++ b/onnxruntime/python/tools/transformers/models/stable_diffusion/demo_utils.py
@@ -29,9 +29,11 @@
 import cv2
 import numpy as np
 import torch
+from cuda import cudart
 from diffusion_models import PipelineInfo
-from engine_builder import EngineType, get_engine_paths
+from engine_builder import EngineType, get_engine_paths, get_engine_type
 from PIL import Image
+from pipeline_stable_diffusion import StableDiffusionPipeline
 
 
 class RawTextArgumentDefaultsHelpFormatter(argparse.ArgumentDefaultsHelpFormatter, argparse.RawTextHelpFormatter):
@@ -40,7 +42,8 @@ class RawTextArgumentDefaultsHelpFormatter(argparse.ArgumentDefaultsHelpFormatte
 
 def arg_parser(description: str):
     return argparse.ArgumentParser(
-        description=description, formatter_class=RawTextArgumentDefaultsHelpFormatter, add_help=False
+        description=description,
+        formatter_class=RawTextArgumentDefaultsHelpFormatter,
     )
 
 
@@ -65,8 +68,7 @@ def set_default_arguments(args):
 
 
 def parse_arguments(is_xl: bool, parser):
-    engines = ["ORT_CUDA", "ORT_TRT", "TRT"]
-    parser.add_argument("--help", action="store_true", help="show this help message and exit")
+    engines = ["ORT_CUDA", "ORT_TRT", "TRT", "TORCH"]
 
     parser.add_argument(
         "-e",
@@ -89,14 +91,14 @@ def parse_arguments(is_xl: bool, parser):
     )
 
     parser.add_argument(
-        "-h",
+        "-y",
         "--height",
         type=int,
         default=None,
         help="Height of image to generate (must be multiple of 8).",
     )
     parser.add_argument(
-        "-w", "--width", type=int, default=None, help="Height of image to generate (must be multiple of 8)."
+        "-x", "--width", type=int, default=None, help="Height of image to generate (must be multiple of 8)."
     )
 
     parser.add_argument(
@@ -115,6 +117,13 @@ def parse_arguments(is_xl: bool, parser):
         help="Root Directory to store torch or ONNX models, built engines and output images etc.",
     )
 
+    parser.add_argument(
+        "-i",
+        "--engine-dir",
+        default=None,
+        help="Root Directory to store built engines or optimized ONNX models etc.",
+    )
+
     parser.add_argument("prompt", nargs="*", default=[""], help="Text prompt(s) to guide image generation.")
 
     parser.add_argument(
@@ -208,23 +217,8 @@ def parse_arguments(is_xl: bool, parser):
         choices=range(14, 18),
         help="Select ONNX opset version to target for exported models.",
     )
-    parser.add_argument(
-        "--force-onnx-export", action="store_true", help="Force ONNX export of CLIP, UNET, and VAE models."
-    )
-    parser.add_argument(
-        "--force-onnx-optimize", action="store_true", help="Force ONNX optimizations for CLIP, UNET, and VAE models."
-    )
-
-    # Framework model ckpt
-    parser.add_argument(
-        "--framework-model-dir",
-        default="pytorch_model",
-        help="Directory for HF saved models. Default is pytorch_model.",
-    )
-    parser.add_argument("--hf-token", type=str, help="HuggingFace API access token for downloading model checkpoints.")
 
     # Engine build options.
-    parser.add_argument("--force-engine-build", action="store_true", help="Force rebuilding the TensorRT engine.")
     parser.add_argument(
         "-db",
         "--build-dynamic-batch",
@@ -252,34 +246,14 @@ def parse_arguments(is_xl: bool, parser):
 
     # TensorRT only options
     group = parser.add_argument_group("Options for TensorRT (--engine=TRT) only")
-    group.add_argument("--onnx-refit-dir", help="ONNX models to load the weights from.")
-    group.add_argument(
-        "--build-enable-refit", action="store_true", help="Enable Refit option in TensorRT engines during build."
-    )
-    group.add_argument(
-        "--build-preview-features", action="store_true", help="Build TensorRT engines with preview features."
-    )
     group.add_argument(
         "--build-all-tactics", action="store_true", help="Build TensorRT engines using all tactic sources."
     )
 
     args = parser.parse_args()
-    if args.help:
-        parser.print_help()
-        sys.exit()
 
     set_default_arguments(args)
 
-    if (
-        args.engine in ["ORT_CUDA", "ORT_TRT"]
-        and (args.force_onnx_export or args.force_onnx_optimize)
-        and not args.force_engine_build
-    ):
-        raise ValueError(
-            "For ORT_CUDA or ORT_TRT, --force_onnx_export and --force_onnx_optimize are not supported. "
-            "Please use --force_engine_build instead."
-        )
-
     # Validate image dimensions
     if args.height % 64 != 0 or args.width % 64 != 0:
         raise ValueError(
@@ -404,79 +378,224 @@ def repeat_prompt(args):
     return prompt, negative_prompt
 
 
-def init_pipeline(
-    pipeline_class, pipeline_info, engine_type, args, max_batch_size, opt_batch_size, opt_image_height, opt_image_width
+def initialize_pipeline(
+    version="xl-turbo",
+    is_refiner: bool = False,
+    is_inpaint: bool = False,
+    engine_type=EngineType.ORT_CUDA,
+    work_dir: str = ".",
+    engine_dir=None,
+    onnx_opset: int = 17,
+    scheduler="EulerA",
+    height=512,
+    width=512,
+    nvtx_profile=False,
+    use_cuda_graph=True,
+    build_dynamic_batch=False,
+    build_dynamic_shape=False,
+    min_image_size: int = 512,
+    max_image_size: int = 1024,
+    max_batch_size: int = 16,
+    opt_batch_size: int = 1,
+    build_all_tactics=False,
+    do_classifier_free_guidance=False,
+    lcm=False,
+    controlnet=None,
+    lora_weights=None,
+    lora_scale=1.0,
+    use_fp16_vae=True,
+    use_vae=True,
 ):
+    pipeline_info = PipelineInfo(
+        version,
+        is_refiner=is_refiner,
+        is_inpaint=is_inpaint,
+        use_vae=use_vae,
+        min_image_size=min_image_size,
+        max_image_size=max_image_size,
+        use_fp16_vae=use_fp16_vae,
+        use_lcm=lcm,
+        do_classifier_free_guidance=do_classifier_free_guidance,
+        controlnet=controlnet,
+        lora_weights=lora_weights,
+        lora_scale=lora_scale,
+    )
+
+    input_engine_dir = engine_dir
+
     onnx_dir, engine_dir, output_dir, framework_model_dir, timing_cache = get_engine_paths(
-        work_dir=args.work_dir, pipeline_info=pipeline_info, engine_type=engine_type
+        work_dir=work_dir, pipeline_info=pipeline_info, engine_type=engine_type
     )
 
-    # Initialize demo
-    pipeline = pipeline_class(
+    pipeline = StableDiffusionPipeline(
         pipeline_info,
-        scheduler=args.refiner_scheduler if pipeline_info.is_xl_refiner() else args.scheduler,
+        scheduler=scheduler,
         output_dir=output_dir,
-        hf_token=args.hf_token,
         verbose=False,
-        nvtx_profile=args.nvtx_profile,
+        nvtx_profile=nvtx_profile,
         max_batch_size=max_batch_size,
-        use_cuda_graph=not args.disable_cuda_graph,
+        use_cuda_graph=use_cuda_graph,
         framework_model_dir=framework_model_dir,
         engine_type=engine_type,
     )
 
+    import_engine_dir = None
+    if input_engine_dir:
+        if not os.path.exists(input_engine_dir):
+            raise RuntimeError(f"--engine_dir directory does not exist: {input_engine_dir}")
+
+        # Support importing from optimized diffusers onnx pipeline
+        if engine_type == EngineType.ORT_CUDA and os.path.exists(os.path.join(input_engine_dir, "model_index.json")):
+            import_engine_dir = input_engine_dir
+        else:
+            engine_dir = input_engine_dir
+
+    opt_image_height = pipeline_info.default_image_size() if build_dynamic_shape else height
+    opt_image_width = pipeline_info.default_image_size() if build_dynamic_shape else width
+
     if engine_type == EngineType.ORT_CUDA:
-        # Build CUDA EP engines and load pytorch modules
         pipeline.backend.build_engines(
             engine_dir=engine_dir,
             framework_model_dir=framework_model_dir,
             onnx_dir=onnx_dir,
-            tmp_dir=os.path.join(args.work_dir or ".", engine_type.name, pipeline_info.short_name(), "tmp"),
-            force_engine_rebuild=args.force_engine_build,
+            tmp_dir=os.path.join(work_dir or ".", engine_type.name, pipeline_info.short_name(), "tmp"),
             device_id=torch.cuda.current_device(),
+            import_engine_dir=import_engine_dir,
         )
     elif engine_type == EngineType.ORT_TRT:
-        # Build TensorRT EP engines and load pytorch modules
         pipeline.backend.build_engines(
             engine_dir,
             framework_model_dir,
             onnx_dir,
-            args.onnx_opset,
+            onnx_opset,
             opt_image_height=opt_image_height,
             opt_image_width=opt_image_width,
             opt_batch_size=opt_batch_size,
-            force_engine_rebuild=args.force_engine_build,
-            static_batch=not args.build_dynamic_batch,
-            static_image_shape=not args.build_dynamic_shape,
+            static_batch=not build_dynamic_batch,
+            static_image_shape=not build_dynamic_shape,
             max_workspace_size=0,
             device_id=torch.cuda.current_device(),
             timing_cache=timing_cache,
         )
     elif engine_type == EngineType.TRT:
-        # Load TensorRT engines and pytorch modules
         pipeline.backend.load_engines(
             engine_dir,
             framework_model_dir,
             onnx_dir,
-            args.onnx_opset,
+            onnx_opset,
             opt_batch_size=opt_batch_size,
             opt_image_height=opt_image_height,
             opt_image_width=opt_image_width,
-            force_export=args.force_onnx_export,
-            force_optimize=args.force_onnx_optimize,
-            force_build=args.force_engine_build,
-            static_batch=not args.build_dynamic_batch,
-            static_shape=not args.build_dynamic_shape,
-            enable_refit=args.build_enable_refit,
-            enable_preview=args.build_preview_features,
-            enable_all_tactics=args.build_all_tactics,
+            static_batch=not build_dynamic_batch,
+            static_shape=not build_dynamic_shape,
+            enable_all_tactics=build_all_tactics,
             timing_cache=timing_cache,
-            onnx_refit_dir=args.onnx_refit_dir,
         )
+    elif engine_type == EngineType.TORCH:
+        pipeline.backend.build_engines(framework_model_dir)
+    else:
+        raise RuntimeError("invalid engine type")
 
     return pipeline
 
 
+def load_pipelines(args, batch_size=None):
+    engine_type = get_engine_type(args.engine)
+
+    # Register TensorRT plugins
+    if engine_type == EngineType.TRT:
+        from trt_utilities import init_trt_plugins
+
+        init_trt_plugins()
+
+    max_batch_size = max_batch(args)
+
+    if batch_size is None:
+        assert isinstance(args.prompt, list)
+        batch_size = len(args.prompt) * args.batch_size
+
+    if batch_size > max_batch_size:
+        raise ValueError(f"Batch size {batch_size} is larger than allowed {max_batch_size}.")
+
+    # For TensorRT,  performance of engine built with dynamic shape is very sensitive to the range of image size.
+    # Here, we reduce the range of image size for TensorRT to trade-off flexibility and performance.
+    # This range can cover most frequent shape of landscape (832x1216), portrait (1216x832) or square (1024x1024).
+    if args.version == "xl-turbo":
+        min_image_size = 512
+        max_image_size = 768 if args.engine != "ORT_CUDA" else 1024
+    elif args.version == "xl-1.0":
+        min_image_size = 832 if args.engine != "ORT_CUDA" else 512
+        max_image_size = 1216 if args.engine != "ORT_CUDA" else 2048
+    else:
+        # This range can cover common used shape of landscape 512x768, portrait 768x512, or square 512x512 and 768x768.
+        min_image_size = 512 if args.engine != "ORT_CUDA" else 256
+        max_image_size = 768 if args.engine != "ORT_CUDA" else 1024
+
+    params = {
+        "version": args.version,
+        "is_refiner": False,
+        "is_inpaint": False,
+        "engine_type": engine_type,
+        "work_dir": args.work_dir,
+        "engine_dir": args.engine_dir,
+        "onnx_opset": args.onnx_opset,
+        "scheduler": args.scheduler,
+        "height": args.height,
+        "width": args.width,
+        "nvtx_profile": args.nvtx_profile,
+        "use_cuda_graph": not args.disable_cuda_graph,
+        "build_dynamic_batch": args.build_dynamic_batch,
+        "build_dynamic_shape": args.build_dynamic_shape,
+        "min_image_size": min_image_size,
+        "max_image_size": max_image_size,
+        "max_batch_size": max_batch_size,
+        "opt_batch_size": 1 if args.build_dynamic_batch else batch_size,
+        "build_all_tactics": args.build_all_tactics,
+        "do_classifier_free_guidance": args.guidance > 1.0,
+        "controlnet": args.controlnet_type,
+        "lora_weights": args.lora_weights,
+        "lora_scale": args.lora_scale,
+        "use_fp16_vae": "xl" in args.version,
+        "use_vae": True,
+    }
+
+    if "xl" in args.version:
+        params["lcm"] = args.lcm
+        params["use_vae"] = not args.enable_refiner
+    base = initialize_pipeline(**params)
+
+    refiner = None
+    if "xl" in args.version and args.enable_refiner:
+        params["version"] = "xl-1.0"  # Allow SDXL Turbo to use refiner.
+        params["is_refiner"] = True
+        params["scheduler"] = args.refiner_scheduler
+        params["do_classifier_free_guidance"] = args.refiner_guidance > 1.0
+        params["lcm"] = False
+        params["controlnet"] = None
+        params["lora_weights"] = None
+        params["use_vae"] = True
+        params["use_fp16_vae"] = True
+        refiner = initialize_pipeline(**params)
+
+    if engine_type == EngineType.TRT:
+        max_device_memory = max(base.backend.max_device_memory(), (refiner or base).backend.max_device_memory())
+        _, shared_device_memory = cudart.cudaMalloc(max_device_memory)
+        base.backend.activate_engines(shared_device_memory)
+        if refiner:
+            refiner.backend.activate_engines(shared_device_memory)
+
+    if engine_type == EngineType.ORT_CUDA:
+        enable_vae_slicing = args.enable_vae_slicing
+        if batch_size > 4 and not enable_vae_slicing and (args.height >= 1024 and args.width >= 1024):
+            print(
+                "Updating enable_vae_slicing to be True to avoid cuDNN error for batch size > 4 and resolution >= 1024."
+            )
+            enable_vae_slicing = True
+        if enable_vae_slicing:
+            (refiner or base).backend.enable_vae_slicing()
+    return base, refiner
+
+
 def get_depth_image(image):
     """
     Create depth map for SDXL depth control net.
@@ -542,7 +661,7 @@ def add_controlnet_arguments(parser, is_xl: bool = False):
     """
     Add control net related arguments.
     """
-    group = parser.add_argument_group("Options for ControlNet (only supports SD 1.5 or XL).")
+    group = parser.add_argument_group("Options for ControlNet (supports 1.5, sd-turbo, xl-turbo, xl-1.0).")
 
     group.add_argument(
         "-ci",
@@ -622,7 +741,7 @@ def process_controlnet_arguments(args):
     if len(args.controlnet_type) == 0:
         return None, None
 
-    if args.version not in ["1.5", "xl-1.0", "xl-turbo"]:
+    if args.version not in ["1.5", "xl-1.0", "xl-turbo", "sd-turbo"]:
         raise ValueError("This demo only supports ControlNet in Stable Diffusion 1.5, XL or Turbo.")
 
     is_xl = "xl" in args.version
diff --git a/onnxruntime/python/tools/transformers/models/stable_diffusion/diffusion_models.py b/onnxruntime/python/tools/transformers/models/stable_diffusion/diffusion_models.py
index 9f3c5a8c938c6..10af22e44d3a5 100644
--- a/onnxruntime/python/tools/transformers/models/stable_diffusion/diffusion_models.py
+++ b/onnxruntime/python/tools/transformers/models/stable_diffusion/diffusion_models.py
@@ -87,7 +87,7 @@ def __init__(
         version: str,
         is_inpaint: bool = False,
         is_refiner: bool = False,
-        use_vae=False,
+        use_vae=True,  # TODO: this has couple with output type of pipeline
         min_image_size=256,
         max_image_size=1024,
         use_fp16_vae=True,
@@ -161,6 +161,23 @@ def custom_unet(self) -> Optional[str]:
     def supported_versions(is_xl: bool):
         return ["xl-1.0", "xl-turbo"] if is_xl else ["1.4", "1.5", "2.0-base", "2.0", "2.1", "2.1-base", "sd-turbo"]
 
+    @staticmethod
+    def supported_models():
+        return {
+            "CompVis/stable-diffusion-v1-4": "1.4",
+            "runwayml/stable-diffusion-v1-5": "1.5",
+            "stabilityai/stable-diffusion-2-base": "2.0-base",
+            "stabilityai/stable-diffusion-2": "2.0",
+            "stabilityai/stable-diffusion-2-1": "2.1",
+            "stabilityai/stable-diffusion-2-1-base": "2.1",
+            "stabilityai/stable-diffusion-xl-base-1.0": "xl-1.0",
+            "stabilityai/stable-diffusion-xl-refiner-1.0": "xl-1.0",
+            "stabilityai/sdxl-turbo": "xl-turbo",
+            "stabilityai/sd-turbo": "sd-turbo",
+            # "runwayml/stable-diffusion-inpainting": "1.5",
+            # "stabilityai/stable-diffusion-2-inpainting": "2.0",
+        }
+
     def name(self) -> str:
         if self.version == "1.4":
             if self.is_inpaint():
@@ -329,7 +346,7 @@ def get_ort_optimizer(self):
     def get_model(self):
         return self.model
 
-    def from_pretrained(self, model_class, framework_model_dir, hf_token, subfolder=None, model_name=None, **kwargs):
+    def from_pretrained(self, model_class, framework_model_dir, subfolder=None, model_name=None, **kwargs):
         if model_name is None:
             model_name = self.pipeline_info.name()
 
@@ -343,7 +360,6 @@ def from_pretrained(self, model_class, framework_model_dir, hf_token, subfolder=
                 model_name,
                 subfolder=subfolder,
                 use_safetensors=self.pipeline_info.use_safetensors(),
-                use_auth_token=hf_token,
                 **kwargs,
             ).to(self.device)
             model.save_pretrained(model_dir)
@@ -353,7 +369,7 @@ def from_pretrained(self, model_class, framework_model_dir, hf_token, subfolder=
             model = model_class.from_pretrained(model_dir).to(self.device)
         return model
 
-    def load_model(self, framework_model_dir: str, hf_token: str, subfolder: str):
+    def load_model(self, framework_model_dir: str, subfolder: str):
         pass
 
     def get_input_names(self) -> List[str]:
@@ -405,8 +421,7 @@ def get_shape_dict(self, batch_size, image_height, image_width):
 
     def fp32_input_output_names(self) -> List[str]:
         """For CUDA EP, we export ONNX model with FP32 first, then convert it to mixed precision model.
-        This is a list of input or output names that are kept as float32 during converting.
-        For the first version, we will use same data type as TensorRT.
+        This is a list of input or output names that are kept as float32 in optimized model.
         """
         return []
 
@@ -519,7 +534,7 @@ def get_output_names(self):
         return ["text_embeddings"]
 
     def get_dynamic_axes(self):
-        return {"input_ids": {0: "B"}, "text_embeddings": {0: "B"}}
+        return {"input_ids": {0: "B", 1: "S"}, "text_embeddings": {0: "B", 1: "S"}}
 
     def get_input_profile(self, batch_size, image_height, image_width, static_batch, static_image_shape):
         self.check_dims(batch_size, image_height, image_width)
@@ -581,7 +596,7 @@ def add_hidden_states_graph_output(self, model: ModelProto, optimized_onnx_path,
             onnx.helper.make_tensor_value_info(
                 graph_output_name,
                 graph.output[0].type.tensor_type.elem_type,
-                ["B", self.text_maxlen, self.embedding_dim],
+                ["B", "S", self.embedding_dim],
             )
         )
 
@@ -660,8 +675,8 @@ def optimize_trt(self, input_onnx_path, optimized_onnx_path):
         else:
             onnx.save(onnx_opt_graph, optimized_onnx_path)
 
-    def load_model(self, framework_model_dir, hf_token, subfolder="text_encoder"):
-        return self.from_pretrained(CLIPTextModel, framework_model_dir, hf_token, subfolder)
+    def load_model(self, framework_model_dir, subfolder="text_encoder"):
+        return self.from_pretrained(CLIPTextModel, framework_model_dir, subfolder)
 
 
 class CLIPWithProj(CLIP):
@@ -682,8 +697,8 @@ def __init__(
             clip_skip=clip_skip,
         )
 
-    def load_model(self, framework_model_dir, hf_token, subfolder="text_encoder_2"):
-        return self.from_pretrained(CLIPTextModelWithProjection, framework_model_dir, hf_token, subfolder)
+    def load_model(self, framework_model_dir, subfolder="text_encoder_2"):
+        return self.from_pretrained(CLIPTextModelWithProjection, framework_model_dir, subfolder)
 
     def get_shape_dict(self, batch_size, image_height, image_width):
         self.check_dims(batch_size, image_height, image_width)
@@ -816,10 +831,10 @@ def __init__(
         self.unet_dim = unet_dim
         self.controlnet = pipeline_info.controlnet_name()
 
-    def load_model(self, framework_model_dir, hf_token, subfolder="unet"):
+    def load_model(self, framework_model_dir, subfolder="unet"):
         options = {"variant": "fp16", "torch_dtype": torch.float16}
 
-        model = self.from_pretrained(UNet2DConditionModel, framework_model_dir, hf_token, subfolder, **options)
+        model = self.from_pretrained(UNet2DConditionModel, framework_model_dir, subfolder, **options)
 
         if self.controlnet:
             controlnet_list = []
@@ -827,7 +842,6 @@ def load_model(self, framework_model_dir, hf_token, subfolder="unet"):
                 controlnet = self.from_pretrained(
                     ControlNetModel,
                     framework_model_dir,
-                    hf_token,
                     subfolder=None,
                     model_name=name,
                     torch_dtype=torch.float16,
@@ -929,10 +943,8 @@ def get_sample_input(self, batch_size, image_height, image_width):
         dtype = torch.float16 if self.fp16 else torch.float32
         m = self.get_batch_multiplier()
         output = (
-            torch.randn(
-                m * batch_size, self.unet_dim, latent_height, latent_width, dtype=torch.float32, device=self.device
-            ),
-            torch.tensor([1.0], dtype=torch.float32, device=self.device),
+            torch.randn(m * batch_size, self.unet_dim, latent_height, latent_width, dtype=dtype, device=self.device),
+            torch.tensor([1.0], dtype=dtype, device=self.device),
             torch.randn(m * batch_size, self.text_maxlen, self.embedding_dim, dtype=dtype, device=self.device),
         )
 
@@ -946,9 +958,6 @@ def get_sample_input(self, batch_size, image_height, image_width):
             )
         return output
 
-    def fp32_input_output_names(self) -> List[str]:
-        return ["sample", "timestep"]
-
 
 class UNetXL(BaseModel):
     def __init__(
@@ -977,7 +986,7 @@ def __init__(
         self.custom_unet = pipeline_info.custom_unet()
         self.controlnet = pipeline_info.controlnet_name()
 
-    def load_model(self, framework_model_dir, hf_token, subfolder="unet", always_download_fp16=True):
+    def load_model(self, framework_model_dir, subfolder="unet", always_download_fp16=True):
         options = {"variant": "fp16", "torch_dtype": torch.float16} if self.fp16 or always_download_fp16 else {}
 
         if self.custom_unet:
@@ -989,7 +998,7 @@ def load_model(self, framework_model_dir, hf_token, subfolder="unet", always_dow
                 unet = UNet2DConditionModel.from_pretrained(model_dir, **options)
             model = unet.to(self.device)
         else:
-            model = self.from_pretrained(UNet2DConditionModel, framework_model_dir, hf_token, subfolder, **options)
+            model = self.from_pretrained(UNet2DConditionModel, framework_model_dir, subfolder, **options)
 
         if always_download_fp16 and not self.fp16:
             model = model.to(torch.float32)
@@ -1107,9 +1116,9 @@ def get_sample_input(self, batch_size, image_height, image_width):
         if not self.controlnet:
             return (
                 torch.randn(
-                    m * batch_size, self.unet_dim, latent_height, latent_width, dtype=torch.float32, device=self.device
+                    m * batch_size, self.unet_dim, latent_height, latent_width, dtype=dtype, device=self.device
                 ),
-                torch.tensor([1.0], dtype=torch.float32, device=self.device),
+                torch.tensor([1.0], dtype=dtype, device=self.device),
                 torch.randn(m * batch_size, self.text_maxlen, self.embedding_dim, dtype=dtype, device=self.device),
                 {
                     "added_cond_kwargs": {
@@ -1122,9 +1131,9 @@ def get_sample_input(self, batch_size, image_height, image_width):
             # sample, timestep, encoder_hidden_states, text_embeds, time_ids, controlnet_images, controlnet_scales,
             return (
                 torch.randn(
-                    m * batch_size, self.unet_dim, latent_height, latent_width, dtype=torch.float32, device=self.device
+                    m * batch_size, self.unet_dim, latent_height, latent_width, dtype=dtype, device=self.device
                 ),
-                torch.tensor([1.0], dtype=torch.float32, device=self.device),
+                torch.tensor([1.0], dtype=dtype, device=self.device),
                 torch.randn(m * batch_size, self.text_maxlen, self.embedding_dim, dtype=dtype, device=self.device),
                 torch.randn(m * batch_size, 1280, dtype=dtype, device=self.device),
                 torch.randn(m * batch_size, self.time_dim, dtype=dtype, device=self.device),
@@ -1134,9 +1143,6 @@ def get_sample_input(self, batch_size, image_height, image_width):
                 torch.randn(len(self.controlnet), dtype=dtype, device=self.device),
             )
 
-    def fp32_input_output_names(self) -> List[str]:
-        return ["sample", "timestep"]
-
 
 # VAE Decoder
 class VAE(BaseModel):
@@ -1160,7 +1166,7 @@ def __init__(
         # For SD XL, need custom trained fp16 model to speed up, and avoid overflow at the same time.
         self.custom_fp16_vae = custom_fp16_vae
 
-    def load_model(self, framework_model_dir, hf_token: Optional[str] = None, subfolder: str = "vae_decoder"):
+    def load_model(self, framework_model_dir, subfolder: str = "vae_decoder"):
         model_name = self.custom_fp16_vae or self.pipeline_info.name()
 
         model_dir = os.path.join(framework_model_dir, model_name, subfolder)
@@ -1172,7 +1178,6 @@ def load_model(self, framework_model_dir, hf_token: Optional[str] = None, subfol
                     self.pipeline_info.name(),
                     subfolder="vae",
                     use_safetensors=self.pipeline_info.use_safetensors(),
-                    use_auth_token=hf_token,
                 ).to(self.device)
             vae.save_pretrained(model_dir)
         else:
@@ -1225,13 +1230,14 @@ def get_shape_dict(self, batch_size, image_height, image_width):
 
     def get_sample_input(self, batch_size, image_height, image_width):
         latent_height, latent_width = self.check_dims(batch_size, image_height, image_width)
-        return (torch.randn(batch_size, 4, latent_height, latent_width, dtype=torch.float32, device=self.device),)
+        dtype = torch.float16 if self.fp16 else torch.float32
+        return (torch.randn(batch_size, 4, latent_height, latent_width, dtype=dtype, device=self.device),)
 
     def fp32_input_output_names(self) -> List[str]:
-        return [] if self.fp16 else ["latent", "images"]
+        return []
 
 
-def get_tokenizer(pipeline_info: PipelineInfo, framework_model_dir, hf_token, subfolder="tokenizer"):
+def get_tokenizer(pipeline_info: PipelineInfo, framework_model_dir, subfolder="tokenizer"):
     tokenizer_dir = os.path.join(framework_model_dir, pipeline_info.name(), subfolder)
 
     if not os.path.exists(tokenizer_dir):
@@ -1239,7 +1245,6 @@ def get_tokenizer(pipeline_info: PipelineInfo, framework_model_dir, hf_token, su
             pipeline_info.name(),
             subfolder=subfolder,
             use_safetensors=pipeline_info.is_xl(),
-            use_auth_token=hf_token,
         )
         model.save_pretrained(tokenizer_dir)
     else:
@@ -1266,8 +1271,8 @@ def __init__(self, pipeline_info: PipelineInfo, model, device, max_batch_size):
             max_batch_size=max_batch_size,
         )
 
-    def load_model(self, framework_model_dir, hf_token, subfolder="vae_encoder"):
-        vae = self.from_pretrained(AutoencoderKL, framework_model_dir, hf_token, subfolder)
+    def load_model(self, framework_model_dir, subfolder="vae_encoder"):
+        vae = self.from_pretrained(AutoencoderKL, framework_model_dir, subfolder)
         return TorchVAEEncoder(vae)
 
     def get_input_names(self):
diff --git a/onnxruntime/python/tools/transformers/models/stable_diffusion/engine_builder.py b/onnxruntime/python/tools/transformers/models/stable_diffusion/engine_builder.py
index ffa986f53304c..46a83f5dc228d 100644
--- a/onnxruntime/python/tools/transformers/models/stable_diffusion/engine_builder.py
+++ b/onnxruntime/python/tools/transformers/models/stable_diffusion/engine_builder.py
@@ -34,7 +34,6 @@ def __init__(
         pipeline_info: PipelineInfo,
         device="cuda",
         max_batch_size=16,
-        hf_token=None,
         use_cuda_graph=False,
     ):
         """
@@ -47,21 +46,18 @@ def __init__(
                 device to run engine
             max_batch_size (int):
                 Maximum batch size for dynamic batch engine.
-            hf_token (str):
-                HuggingFace User Access Token to use for downloading Stable Diffusion model checkpoints.
             use_cuda_graph (bool):
                 Use CUDA graph to capture engine execution and then launch inference
         """
         self.engine_type = engine_type
         self.pipeline_info = pipeline_info
         self.max_batch_size = max_batch_size
-        self.hf_token = hf_token
         self.use_cuda_graph = use_cuda_graph
         self.device = torch.device(device)
         self.torch_device = torch.device(device, torch.cuda.current_device())
         self.stages = pipeline_info.stages()
 
-        self.vae_torch_fallback = self.pipeline_info.vae_torch_fallback()
+        self.vae_torch_fallback = self.pipeline_info.vae_torch_fallback() and self.engine_type != EngineType.TORCH
         self.custom_fp16_vae = self.pipeline_info.custom_fp16_vae()
 
         self.models = {}
@@ -87,24 +83,36 @@ def teardown(self):
             del engine
         self.engines = {}
 
+    def get_diffusers_module_name(self, model_name):
+        name_mapping = {
+            "clip": "text_encoder",
+            "clip2": "text_encoder_2",
+            "unet": "unet",
+            "unetxl": "unet",
+            "vae": "vae_decoder",
+        }
+        return name_mapping[model_name] if model_name in name_mapping else model_name
+
     def get_cached_model_name(self, model_name):
+        model_name = self.get_diffusers_module_name(model_name)
+        is_unet = model_name == "unet"
         hash_source = []
-        if model_name in ["clip", "clip2", "unet", "unetxl"] and self.pipeline_info.lora_weights:
+        if model_name in ["text_encoder", "text_encoder_2", "unet"] and self.pipeline_info.lora_weights:
             if self.pipeline_info.lora_weights in [
                 "latent-consistency/lcm-lora-sdxl",
                 "latent-consistency/lcm-lora-sdv1-5",
             ]:
-                if model_name in ["unet", "unetxl"]:
-                    model_name = model_name + "_lcm-lora"
+                if is_unet:
+                    model_name = "unet_lcm-lora"
             else:
                 model_name = model_name + "_lora"
                 hash_source.append(self.pipeline_info.lora_weights)
 
         # TODO(tianleiwu): save custom model to a directory named by its original model.
-        if model_name == "unetxl" and self.pipeline_info.custom_unet():
+        if is_unet and self.pipeline_info.custom_unet():
             model_name = model_name + "_lcm"
 
-        if model_name in ["unet", "unetxl"] and self.pipeline_info.controlnet:
+        if model_name in ["unet"] and self.pipeline_info.controlnet:
             model_name = model_name + "_" + "_".join(self.pipeline_info.controlnet)
 
         if hash_source:
@@ -118,8 +126,9 @@ def get_cached_model_name(self, model_name):
 
     def get_model_dir(self, model_name, root_dir, opt=True, suffix="", create=True):
         engine_name = self.engine_type.name.lower()
-        # TODO: Need not add engine name for ORT_CUDA
-        directory_name = self.get_cached_model_name(model_name) + (f".{engine_name}" if opt else "") + suffix
+        if engine_name != "ort_cuda" and not suffix:
+            suffix = f".{engine_name}" if opt else ""
+        directory_name = self.get_cached_model_name(model_name) + suffix
         onnx_model_dir = os.path.join(root_dir, directory_name)
         if create:
             os.makedirs(onnx_model_dir, exist_ok=True)
@@ -160,14 +169,14 @@ def get_or_load_model(self, pipeline, model_name, model_obj, framework_model_dir
                 model = pipeline.unet
                 pipeline.unet = None
         else:
-            model = model_obj.load_model(framework_model_dir, self.hf_token)
+            model = model_obj.load_model(framework_model_dir)
 
         return model.to(self.torch_device)
 
     def load_models(self, framework_model_dir: str):
-        # For TRT or ORT_TRT, we will export fp16 torch model for UNet.
+        # For TRT or ORT_TRT, we will export fp16 torch model for UNet and VAE
         # For ORT_CUDA, we export fp32 model first, then optimize to fp16.
-        export_fp16_unet = self.engine_type in [EngineType.ORT_TRT, EngineType.TRT]
+        export_fp16 = self.engine_type in [EngineType.ORT_TRT, EngineType.TRT]
 
         if "clip" in self.stages:
             self.models["clip"] = CLIP(
@@ -192,7 +201,7 @@ def load_models(self, framework_model_dir: str):
                 self.pipeline_info,
                 None,  # not loaded yet
                 device=self.torch_device,
-                fp16=export_fp16_unet,
+                fp16=export_fp16,
                 max_batch_size=self.max_batch_size,
                 unet_dim=(9 if self.pipeline_info.is_inpaint() else 4),
             )
@@ -202,7 +211,7 @@ def load_models(self, framework_model_dir: str):
                 self.pipeline_info,
                 None,  # not loaded yet
                 device=self.torch_device,
-                fp16=export_fp16_unet,
+                fp16=export_fp16,
                 max_batch_size=self.max_batch_size,
                 unet_dim=4,
                 time_dim=(5 if self.pipeline_info.is_xl_refiner() else 6),
@@ -215,13 +224,17 @@ def load_models(self, framework_model_dir: str):
                 None,  # not loaded yet
                 device=self.torch_device,
                 max_batch_size=self.max_batch_size,
+                fp16=export_fp16,
                 custom_fp16_vae=self.custom_fp16_vae,
             )
 
             if self.vae_torch_fallback:
-                self.torch_models["vae"] = self.models["vae"].load_model(framework_model_dir, self.hf_token)
+                self.torch_models["vae"] = self.models["vae"].load_model(framework_model_dir)
 
     def load_resources(self, image_height, image_width, batch_size):
+        if self.engine_type == EngineType.TORCH:
+            return
+
         # Allocate buffers for I/O bindings
         for model_name, obj in self.models.items():
             if model_name == "vae" and self.vae_torch_fallback:
@@ -232,13 +245,22 @@ def load_resources(self, image_height, image_width, batch_size):
             )
 
     def _vae_decode(self, latents):
-        if self.vae_torch_fallback:
+        if self.engine_type == EngineType.TORCH:
+            if self.pipeline_info.is_xl() and not self.custom_fp16_vae:  # need upcast
+                latents = latents.to(dtype=torch.float32)
+                images = self.engines["vae"](latents)["sample"]
+            else:
+                images = self.engines["vae"](latents)["sample"]
+        elif self.vae_torch_fallback:
             if not self.custom_fp16_vae:
                 latents = latents.to(dtype=torch.float32)
                 self.torch_models["vae"] = self.torch_models["vae"].to(dtype=torch.float32)
             images = self.torch_models["vae"](latents)["sample"]
         else:
-            images = self.run_engine("vae", {"latent": latents})["images"]
+            if self.pipeline_info.is_xl() and not self.custom_fp16_vae:  # need upcast
+                images = self.run_engine("vae", {"latent": latents.to(dtype=torch.float32)})["images"]
+            else:
+                images = self.run_engine("vae", {"latent": latents})["images"]
 
         return images
 
diff --git a/onnxruntime/python/tools/transformers/models/stable_diffusion/engine_builder_ort_cuda.py b/onnxruntime/python/tools/transformers/models/stable_diffusion/engine_builder_ort_cuda.py
index 2ac9a45577676..6ab4858f11f23 100644
--- a/onnxruntime/python/tools/transformers/models/stable_diffusion/engine_builder_ort_cuda.py
+++ b/onnxruntime/python/tools/transformers/models/stable_diffusion/engine_builder_ort_cuda.py
@@ -6,15 +6,17 @@
 import gc
 import logging
 import os
-import shutil
 from typing import List, Optional
 
+import onnx
 import torch
 from diffusion_models import PipelineInfo
 from engine_builder import EngineBuilder, EngineType
-from ort_utils import CudaSession
+from packaging import version
 
 import onnxruntime as ort
+from onnxruntime.transformers.io_binding_helper import CudaSession
+from onnxruntime.transformers.onnx_model import OnnxModel
 
 logger = logging.getLogger(__name__)
 
@@ -83,7 +85,6 @@ def __init__(
         self,
         pipeline_info: PipelineInfo,
         max_batch_size=16,
-        hf_token=None,
         device="cuda",
         use_cuda_graph=False,
     ):
@@ -95,8 +96,6 @@ def __init__(
                 Version and Type of pipeline.
             max_batch_size (int):
                 Maximum batch size for dynamic batch engine.
-            hf_token (str):
-                HuggingFace User Access Token to use for downloading Stable Diffusion model checkpoints.
             device (str):
                 device to run.
             use_cuda_graph (bool):
@@ -106,7 +105,6 @@ def __init__(
             EngineType.ORT_CUDA,
             pipeline_info,
             max_batch_size=max_batch_size,
-            hf_token=hf_token,
             device=device,
             use_cuda_graph=use_cuda_graph,
         )
@@ -153,6 +151,65 @@ def configure_xl(self, onnx_opset_version: int):
             use_cuda_graph=self.use_cuda_graph,
         )
 
+    def optimized_onnx_path(self, engine_dir, model_name):
+        suffix = "" if self.model_config[model_name].fp16 else ".fp32"
+        return self.get_onnx_path(model_name, engine_dir, opt=True, suffix=suffix)
+
+    def import_diffusers_engine(self, diffusers_onnx_dir: str, engine_dir: str):
+        """Import optimized onnx models for diffusers from Olive or optimize_pipeline tools.
+
+        Args:
+            diffusers_onnx_dir (str): optimized onnx directory of Olive
+            engine_dir (str): the directory to store imported onnx
+        """
+        if version.parse(ort.__version__) < version.parse("1.17.0"):
+            print("Skip importing since onnxruntime-gpu version < 1.17.0.")
+            return
+
+        for model_name, model_obj in self.models.items():
+            onnx_import_path = self.optimized_onnx_path(diffusers_onnx_dir, model_name)
+            if not os.path.exists(onnx_import_path):
+                print(f"{onnx_import_path} not existed. Skip importing.")
+                continue
+
+            onnx_opt_path = self.optimized_onnx_path(engine_dir, model_name)
+            if os.path.exists(onnx_opt_path):
+                print(f"{onnx_opt_path} existed. Skip importing.")
+                continue
+
+            if model_name == "vae" and self.pipeline_info.is_xl():
+                print(f"Skip importing VAE since it is not fully compatible with float16: {onnx_import_path}.")
+                continue
+
+            model = OnnxModel(onnx.load(onnx_import_path, load_external_data=True))
+
+            if model_name in ["clip", "clip2"]:
+                hidden_states_per_layer = []
+                for output in model.graph().output:
+                    if output.name.startswith("hidden_states."):
+                        hidden_states_per_layer.append(output.name)
+                if hidden_states_per_layer:
+                    kept_hidden_states = hidden_states_per_layer[-2 - model_obj.clip_skip]
+                    model.rename_graph_output(kept_hidden_states, "hidden_states")
+
+                model.rename_graph_output(
+                    "last_hidden_state" if model_name == "clip" else "text_embeds", "text_embeddings"
+                )
+                model.prune_graph(
+                    ["text_embeddings", "hidden_states"] if hidden_states_per_layer else ["text_embeddings"]
+                )
+
+                if model_name == "clip2":
+                    model.change_graph_input_type(model.find_graph_input("input_ids"), onnx.TensorProto.INT32)
+
+                model.save_model_to_file(onnx_opt_path, use_external_data_format=(model_name == "clip2"))
+            elif model_name in ["unet", "unetxl"]:
+                model.rename_graph_output("out_sample", "latent")
+                model.save_model_to_file(onnx_opt_path, use_external_data_format=True)
+
+            del model
+            continue
+
     def build_engines(
         self,
         engine_dir: str,
@@ -160,21 +217,13 @@ def build_engines(
         onnx_dir: str,
         tmp_dir: Optional[str] = None,
         onnx_opset_version: int = 17,
-        force_engine_rebuild: bool = False,
         device_id: int = 0,
-        save_fp32_intermediate_model=False,
+        save_fp32_intermediate_model: bool = False,
+        import_engine_dir: Optional[str] = None,
     ):
         self.torch_device = torch.device("cuda", device_id)
         self.load_models(framework_model_dir)
 
-        if force_engine_rebuild:
-            if os.path.isdir(onnx_dir):
-                logger.info("Remove existing directory %s since force_engine_rebuild is enabled", onnx_dir)
-                shutil.rmtree(onnx_dir)
-            if os.path.isdir(engine_dir):
-                logger.info("Remove existing directory %s since force_engine_rebuild is enabled", engine_dir)
-                shutil.rmtree(engine_dir)
-
         if not os.path.isdir(engine_dir):
             os.makedirs(engine_dir)
 
@@ -188,6 +237,13 @@ def build_engines(
             if model_name not in self.model_config:
                 self.model_config[model_name] = _ModelConfig(onnx_opset_version, self.use_cuda_graph)
 
+        # Import Engine
+        if import_engine_dir:
+            if self.pipeline_info.is_xl():
+                self.import_diffusers_engine(import_engine_dir, engine_dir)
+            else:
+                print(f"Only support importing SDXL onnx. Ignore --engine-dir {import_engine_dir}")
+
         # Load lora only when we need export text encoder or UNet to ONNX.
         load_lora = False
         if self.pipeline_info.lora_weights:
@@ -195,9 +251,7 @@ def build_engines(
                 if model_name not in ["clip", "clip2", "unet", "unetxl"]:
                     continue
                 onnx_path = self.get_onnx_path(model_name, onnx_dir, opt=False)
-
-                suffix = ".fp16" if self.model_config[model_name].fp16 else ".fp32"
-                onnx_opt_path = self.get_onnx_path(model_name, engine_dir, opt=True, suffix=suffix)
+                onnx_opt_path = self.optimized_onnx_path(engine_dir, model_name)
                 if not os.path.exists(onnx_opt_path):
                     if not os.path.exists(onnx_path):
                         load_lora = True
@@ -212,8 +266,7 @@ def build_engines(
                 continue
 
             onnx_path = self.get_onnx_path(model_name, onnx_dir, opt=False)
-            suffix = ".fp16" if self.model_config[model_name].fp16 else ".fp32"
-            onnx_opt_path = self.get_onnx_path(model_name, engine_dir, opt=True, suffix=suffix)
+            onnx_opt_path = self.optimized_onnx_path(engine_dir, model_name)
             if not os.path.exists(onnx_opt_path):
                 if not os.path.exists(onnx_path):
                     print("----")
@@ -280,7 +333,7 @@ def build_engines(
                         fp32_op_list=self.model_config[model_name].force_fp32_ops,
                         optimize_by_ort=optimize_by_ort,
                         optimize_by_fusion=not use_fp32_intermediate,
-                        tmp_dir=self.get_model_dir(model_name, tmp_dir, opt=False, suffix=".fp16", create=False),
+                        tmp_dir=self.get_model_dir(model_name, tmp_dir, opt=False, suffix=".ort", create=False),
                     )
                 else:
                     logger.info("Found cached optimized model: %s", onnx_opt_path)
@@ -291,9 +344,7 @@ def build_engines(
             if model_name == "vae" and self.vae_torch_fallback:
                 continue
 
-            suffix = ".fp16" if self.model_config[model_name].fp16 else ".fp32"
-            onnx_opt_path = self.get_onnx_path(model_name, engine_dir, opt=True, suffix=suffix)
-
+            onnx_opt_path = self.optimized_onnx_path(engine_dir, model_name)
             use_cuda_graph = self.model_config[model_name].use_cuda_graph
 
             engine = OrtCudaEngine(
@@ -308,7 +359,5 @@ def build_engines(
 
         self.engines = built_engines
 
-        return built_engines
-
     def run_engine(self, model_name, feed_dict):
         return self.engines[model_name].infer(feed_dict)
diff --git a/onnxruntime/python/tools/transformers/models/stable_diffusion/engine_builder_ort_trt.py b/onnxruntime/python/tools/transformers/models/stable_diffusion/engine_builder_ort_trt.py
index 8c637007b840d..a606b88c82245 100644
--- a/onnxruntime/python/tools/transformers/models/stable_diffusion/engine_builder_ort_trt.py
+++ b/onnxruntime/python/tools/transformers/models/stable_diffusion/engine_builder_ort_trt.py
@@ -6,16 +6,15 @@
 import gc
 import logging
 import os
-import shutil
 
 import torch
 from cuda import cudart
 from diffusion_models import PipelineInfo
 from engine_builder import EngineBuilder, EngineType
-from ort_utils import CudaSession
 from packaging import version
 
 import onnxruntime as ort
+from onnxruntime.transformers.io_binding_helper import CudaSession
 
 logger = logging.getLogger(__name__)
 
@@ -110,7 +109,6 @@ def __init__(
         self,
         pipeline_info: PipelineInfo,
         max_batch_size=16,
-        hf_token=None,
         device="cuda",
         use_cuda_graph=False,
     ):
@@ -122,8 +120,6 @@ def __init__(
                 Version and Type of pipeline.
             max_batch_size (int):
                 Maximum batch size for dynamic batch engine.
-            hf_token (str):
-                HuggingFace User Access Token to use for downloading Stable Diffusion model checkpoints.
             device (str):
                 device to run.
             use_cuda_graph (bool):
@@ -133,7 +129,6 @@ def __init__(
             EngineType.ORT_TRT,
             pipeline_info,
             max_batch_size=max_batch_size,
-            hf_token=hf_token,
             device=device,
             use_cuda_graph=use_cuda_graph,
         )
@@ -165,7 +160,6 @@ def build_engines(
         opt_image_height,
         opt_image_width,
         opt_batch_size=1,
-        force_engine_rebuild=False,
         static_batch=False,
         static_image_shape=True,
         max_workspace_size=0,
@@ -175,14 +169,6 @@ def build_engines(
         self.torch_device = torch.device("cuda", device_id)
         self.load_models(framework_model_dir)
 
-        if force_engine_rebuild:
-            if os.path.isdir(onnx_dir):
-                logger.info("Remove existing directory %s since force_engine_rebuild is enabled", onnx_dir)
-                shutil.rmtree(onnx_dir)
-            if os.path.isdir(engine_dir):
-                logger.info("Remove existing directory %s since force_engine_rebuild is enabled", engine_dir)
-                shutil.rmtree(engine_dir)
-
         if not os.path.isdir(engine_dir):
             os.makedirs(engine_dir)
 
@@ -298,7 +284,5 @@ def build_engines(
 
         self.engines = built_engines
 
-        return built_engines
-
     def run_engine(self, model_name, feed_dict):
         return self.engines[model_name].infer(feed_dict)
diff --git a/onnxruntime/python/tools/transformers/models/stable_diffusion/engine_builder_tensorrt.py b/onnxruntime/python/tools/transformers/models/stable_diffusion/engine_builder_tensorrt.py
index bac1a8bb8140d..438145fc2c57a 100644
--- a/onnxruntime/python/tools/transformers/models/stable_diffusion/engine_builder_tensorrt.py
+++ b/onnxruntime/python/tools/transformers/models/stable_diffusion/engine_builder_tensorrt.py
@@ -26,8 +26,6 @@
 from collections import OrderedDict
 
 import numpy as np
-import onnx
-import onnx_graphsurgeon as gs
 import tensorrt as trt
 import torch
 from cuda import cudart
@@ -43,7 +41,6 @@
     network_from_onnx_path,
     save_engine,
 )
-from trt_utilities import TRT_LOGGER
 
 # Map of numpy dtype -> torch dtype
 numpy_to_torch_dtype_dict = {
@@ -83,115 +80,11 @@ def __del__(self):
         del self.buffers
         del self.tensors
 
-    def refit(self, onnx_path, onnx_refit_path):
-        def convert_int64(arr):
-            if len(arr.shape) == 0:
-                return np.int32(arr)
-            return arr
-
-        def add_to_map(refit_dict, name, values):
-            if name in refit_dict:
-                assert refit_dict[name] is None
-                if values.dtype == np.int64:
-                    values = convert_int64(values)
-                refit_dict[name] = values
-
-        print(f"Refitting TensorRT engine with {onnx_refit_path} weights")
-        refit_nodes = gs.import_onnx(onnx.load(onnx_refit_path)).toposort().nodes
-
-        # Construct mapping from weight names in refit model -> original model
-        name_map = {}
-        for n, node in enumerate(gs.import_onnx(onnx.load(onnx_path)).toposort().nodes):
-            refit_node = refit_nodes[n]
-            assert node.op == refit_node.op
-            # Constant nodes in ONNX do not have inputs but have a constant output
-            if node.op == "Constant":
-                name_map[refit_node.outputs[0].name] = node.outputs[0].name
-            # Handle scale and bias weights
-            elif node.op == "Conv":
-                if node.inputs[1].__class__ == gs.Constant:
-                    name_map[refit_node.name + "_TRTKERNEL"] = node.name + "_TRTKERNEL"
-                if node.inputs[2].__class__ == gs.Constant:
-                    name_map[refit_node.name + "_TRTBIAS"] = node.name + "_TRTBIAS"
-            # For all other nodes: find node inputs that are initializers (gs.Constant)
-            else:
-                for i, inp in enumerate(node.inputs):
-                    if inp.__class__ == gs.Constant:
-                        name_map[refit_node.inputs[i].name] = inp.name
-
-        def map_name(name):
-            if name in name_map:
-                return name_map[name]
-            return name
-
-        # Construct refit dictionary
-        refit_dict = {}
-        refitter = trt.Refitter(self.engine, TRT_LOGGER)
-        all_weights = refitter.get_all()
-        for layer_name, role in zip(all_weights[0], all_weights[1]):
-            # for specialized roles, use a unique name in the map:
-            if role == trt.WeightsRole.KERNEL:
-                name = layer_name + "_TRTKERNEL"
-            elif role == trt.WeightsRole.BIAS:
-                name = layer_name + "_TRTBIAS"
-            else:
-                name = layer_name
-
-            assert name not in refit_dict, "Found duplicate layer: " + name
-            refit_dict[name] = None
-
-        for n in refit_nodes:
-            # Constant nodes in ONNX do not have inputs but have a constant output
-            if n.op == "Constant":
-                name = map_name(n.outputs[0].name)
-                print(f"Add Constant {name}\n")
-                add_to_map(refit_dict, name, n.outputs[0].values)
-
-            # Handle scale and bias weights
-            elif n.op == "Conv":
-                if n.inputs[1].__class__ == gs.Constant:
-                    name = map_name(n.name + "_TRTKERNEL")
-                    add_to_map(refit_dict, name, n.inputs[1].values)
-
-                if n.inputs[2].__class__ == gs.Constant:
-                    name = map_name(n.name + "_TRTBIAS")
-                    add_to_map(refit_dict, name, n.inputs[2].values)
-
-            # For all other nodes: find node inputs that are initializers (AKA gs.Constant)
-            else:
-                for inp in n.inputs:
-                    name = map_name(inp.name)
-                    if inp.__class__ == gs.Constant:
-                        add_to_map(refit_dict, name, inp.values)
-
-        for layer_name, weights_role in zip(all_weights[0], all_weights[1]):
-            if weights_role == trt.WeightsRole.KERNEL:
-                custom_name = layer_name + "_TRTKERNEL"
-            elif weights_role == trt.WeightsRole.BIAS:
-                custom_name = layer_name + "_TRTBIAS"
-            else:
-                custom_name = layer_name
-
-            # Skip refitting Trilu for now; scalar weights of type int64 value 1 - for clip model
-            if layer_name.startswith("onnx::Trilu"):
-                continue
-
-            if refit_dict[custom_name] is not None:
-                refitter.set_weights(layer_name, weights_role, refit_dict[custom_name])
-            else:
-                print(f"[W] No refit weights for layer: {layer_name}")
-
-        if not refitter.refit_cuda_engine():
-            print("Failed to refit!")
-            exit(0)
-
     def build(
         self,
         onnx_path,
         fp16,
         input_profile=None,
-        enable_refit=False,
-        enable_preview=False,
         enable_all_tactics=False,
         timing_cache=None,
         update_output_names=None,
@@ -214,7 +107,7 @@ def build(
         engine = engine_from_network(
             network,
             config=CreateConfig(
-                fp16=fp16, refittable=enable_refit, profiles=[p], load_timing_cache=timing_cache, **config_kwargs
+                fp16=fp16, refittable=False, profiles=[p], load_timing_cache=timing_cache, **config_kwargs
             ),
             save_timing_cache=timing_cache,
         )
@@ -294,7 +187,6 @@ def __init__(
         self,
         pipeline_info: PipelineInfo,
         max_batch_size=16,
-        hf_token=None,
         device="cuda",
         use_cuda_graph=False,
     ):
@@ -306,8 +198,6 @@ def __init__(
                 Version and Type of pipeline.
             max_batch_size (int):
                 Maximum batch size for dynamic batch engine.
-            hf_token (str):
-                HuggingFace User Access Token to use for downloading Stable Diffusion model checkpoints.
             device (str):
                 device to run.
             use_cuda_graph (bool):
@@ -317,7 +207,6 @@ def __init__(
             EngineType.TRT,
             pipeline_info,
             max_batch_size=max_batch_size,
-            hf_token=hf_token,
             device=device,
             use_cuda_graph=use_cuda_graph,
         )
@@ -348,16 +237,10 @@ def load_engines(
         opt_batch_size,
         opt_image_height,
         opt_image_width,
-        force_export=False,
-        force_optimize=False,
-        force_build=False,
         static_batch=False,
         static_shape=True,
-        enable_refit=False,
-        enable_preview=False,
         enable_all_tactics=False,
         timing_cache=None,
-        onnx_refit_dir=None,
     ):
         """
         Build and load engines for TensorRT accelerated inference.
@@ -378,26 +261,14 @@ def load_engines(
                 Image height to optimize for during engine building. Must be a multiple of 8.
             opt_image_width (int):
                 Image width to optimize for during engine building. Must be a multiple of 8.
-            force_export (bool):
-                Force re-exporting the ONNX models.
-            force_optimize (bool):
-                Force re-optimizing the ONNX models.
-            force_build (bool):
-                Force re-building the TensorRT engine.
             static_batch (bool):
                 Build engine only for specified opt_batch_size.
             static_shape (bool):
                 Build engine only for specified opt_image_height & opt_image_width. Default = True.
-            enable_refit (bool):
-                Build engines with refit option enabled.
-            enable_preview (bool):
-                Enable TensorRT preview features.
             enable_all_tactics (bool):
                 Enable all tactic sources during TensorRT engine builds.
             timing_cache (str):
                 Path to the timing cache to accelerate build or None
-            onnx_refit_dir (str):
-                Directory containing refit ONNX models.
         """
         # Create directory
         for directory in [engine_dir, onnx_dir]:
@@ -417,11 +288,11 @@ def load_engines(
                     opt_batch_size, opt_image_height, opt_image_width, static_batch, static_shape
                 )
                 engine_path = self.get_engine_path(engine_dir, model_name, profile_id)
-                if force_export or force_build or not os.path.exists(engine_path):
+                if not os.path.exists(engine_path):
                     onnx_path = self.get_onnx_path(model_name, onnx_dir, opt=False)
                     onnx_opt_path = self.get_onnx_path(model_name, onnx_dir, opt=True)
-                    if force_export or not os.path.exists(onnx_opt_path):
-                        if force_export or not os.path.exists(onnx_path):
+                    if not os.path.exists(onnx_opt_path):
+                        if not os.path.exists(onnx_path):
                             load_lora = True
                             break
 
@@ -436,11 +307,11 @@ def load_engines(
                 opt_batch_size, opt_image_height, opt_image_width, static_batch, static_shape
             )
             engine_path = self.get_engine_path(engine_dir, model_name, profile_id)
-            if force_export or force_build or not os.path.exists(engine_path):
+            if not os.path.exists(engine_path):
                 onnx_path = self.get_onnx_path(model_name, onnx_dir, opt=False)
                 onnx_opt_path = self.get_onnx_path(model_name, onnx_dir, opt=True)
-                if force_export or not os.path.exists(onnx_opt_path):
-                    if force_export or not os.path.exists(onnx_path):
+                if not os.path.exists(onnx_opt_path):
+                    if not os.path.exists(onnx_path):
                         print(f"Exporting model: {onnx_path}")
                         model = self.get_or_load_model(pipe, model_name, model_obj, framework_model_dir)
 
@@ -464,7 +335,7 @@ def load_engines(
                         print(f"Found cached model: {onnx_path}")
 
                     # Optimize onnx
-                    if force_optimize or not os.path.exists(onnx_opt_path):
+                    if not os.path.exists(onnx_opt_path):
                         print(f"Generating optimizing model: {onnx_opt_path}")
                         model_obj.optimize_trt(onnx_path, onnx_opt_path)
                     else:
@@ -482,7 +353,7 @@ def load_engines(
             engine = TensorrtEngine(engine_path)
             onnx_opt_path = self.get_onnx_path(model_name, onnx_dir, opt=True)
 
-            if force_build or not os.path.exists(engine.engine_path):
+            if not os.path.exists(engine.engine_path):
                 engine.build(
                     onnx_opt_path,
                     fp16=True,
@@ -493,8 +364,6 @@ def load_engines(
                         static_batch,
                         static_shape,
                     ),
-                    enable_refit=enable_refit,
-                    enable_preview=enable_preview,
                     enable_all_tactics=enable_all_tactics,
                     timing_cache=timing_cache,
                     update_output_names=None,
@@ -506,10 +375,6 @@ def load_engines(
             if model_name == "vae" and self.vae_torch_fallback:
                 continue
             self.engines[model_name].load()
-            if onnx_refit_dir:
-                onnx_refit_path = self.get_onnx_path(model_name, onnx_refit_dir, opt=True)
-                if os.path.exists(onnx_refit_path):
-                    self.engines[model_name].refit(onnx_opt_path, onnx_refit_path)
 
     def max_device_memory(self):
         max_device_memory = 0
diff --git a/onnxruntime/python/tools/transformers/models/stable_diffusion/engine_builder_torch.py b/onnxruntime/python/tools/transformers/models/stable_diffusion/engine_builder_torch.py
new file mode 100644
index 0000000000000..84b9ec27b801e
--- /dev/null
+++ b/onnxruntime/python/tools/transformers/models/stable_diffusion/engine_builder_torch.py
@@ -0,0 +1,108 @@
+# -------------------------------------------------------------------------
+# Copyright (c) Microsoft Corporation.  All rights reserved.
+# Licensed under the MIT License.
+# --------------------------------------------------------------------------
+import logging
+
+from diffusion_models import PipelineInfo
+from engine_builder import EngineBuilder, EngineType
+
+logger = logging.getLogger(__name__)
+
+
+class TorchEngineBuilder(EngineBuilder):
+    def __init__(
+        self,
+        pipeline_info: PipelineInfo,
+        max_batch_size=16,
+        device="cuda",
+        use_cuda_graph=False,
+    ):
+        """
+        Initializes the ONNX Runtime TensorRT ExecutionProvider Engine Builder.
+
+        Args:
+            pipeline_info (PipelineInfo):
+                Version and Type of pipeline.
+            max_batch_size (int):
+                Maximum batch size for dynamic batch engine.
+            device (str):
+                device to run.
+            use_cuda_graph (bool):
+                Use CUDA graph to capture engine execution and then launch inference
+        """
+        super().__init__(
+            EngineType.TORCH,
+            pipeline_info,
+            max_batch_size=max_batch_size,
+            device=device,
+            use_cuda_graph=use_cuda_graph,
+        )
+
+        self.compile_config = {}
+        if use_cuda_graph:
+            self.compile_config = {
+                "clip": {"mode": "reduce-overhead", "dynamic": False},
+                "clip2": {"mode": "reduce-overhead", "dynamic": False},
+                "unet": {"mode": "reduce-overhead", "fullgraph": True, "dynamic": False},
+                "unetxl": {"mode": "reduce-overhead", "fullgraph": True, "dynamic": False},
+                "vae": {"mode": "reduce-overhead", "fullgraph": False, "dynamic": False},
+            }
+
+    def build_engines(
+        self,
+        framework_model_dir: str,
+    ):
+        import torch
+
+        self.torch_device = torch.device("cuda", torch.cuda.current_device())
+        self.load_models(framework_model_dir)
+
+        pipe = self.load_pipeline_with_lora() if self.pipeline_info.lora_weights else None
+
+        built_engines = {}
+        for model_name, model_obj in self.models.items():
+            model = self.get_or_load_model(pipe, model_name, model_obj, framework_model_dir)
+            if self.pipeline_info.is_xl() and not self.custom_fp16_vae:
+                model = model.to(device=self.torch_device, dtype=torch.float32)
+            else:
+                model = model.to(device=self.torch_device, dtype=torch.float16)
+
+            if model_name in self.compile_config:
+                compile_config = self.compile_config[model_name]
+                if model_name in ["unet", "unetxl"]:
+                    model.to(memory_format=torch.channels_last)
+                engine = torch.compile(model, **compile_config)
+                built_engines[model_name] = engine
+            else:  # eager mode
+                built_engines[model_name] = model
+
+        self.engines = built_engines
+
+    def run_engine(self, model_name, feed_dict):
+        if model_name in ["unet", "unetxl"]:
+            if "controlnet_images" in feed_dict:
+                return {"latent": self.engines[model_name](**feed_dict)}
+
+            if model_name == "unetxl":
+                added_cond_kwargs = {k: feed_dict[k] for k in feed_dict if k in ["text_embeds", "time_ids"]}
+                return {
+                    "latent": self.engines[model_name](
+                        feed_dict["sample"],
+                        feed_dict["timestep"],
+                        feed_dict["encoder_hidden_states"],
+                        added_cond_kwargs=added_cond_kwargs,
+                        return_dict=False,
+                    )[0]
+                }
+
+            return {
+                "latent": self.engines[model_name](
+                    feed_dict["sample"], feed_dict["timestep"], feed_dict["encoder_hidden_states"], return_dict=False
+                )[0]
+            }
+
+        if model_name in ["vae_encoder"]:
+            return {"latent": self.engines[model_name](feed_dict["images"])}
+
+        raise RuntimeError(f"Shall not reach here: {model_name}")
diff --git a/onnxruntime/python/tools/transformers/models/stable_diffusion/onnxruntime_cuda_txt2img.py b/onnxruntime/python/tools/transformers/models/stable_diffusion/onnxruntime_cuda_txt2img.py
deleted file mode 100644
index 37785869a355b..0000000000000
--- a/onnxruntime/python/tools/transformers/models/stable_diffusion/onnxruntime_cuda_txt2img.py
+++ /dev/null
@@ -1,292 +0,0 @@
-# -------------------------------------------------------------------------
-# Copyright (c) Microsoft Corporation.  All rights reserved.
-# Licensed under the MIT License.
-# --------------------------------------------------------------------------
-#
-# Copyright 2023 The HuggingFace Inc. team.
-# SPDX-FileCopyrightText: Copyright (c) 1993-2023 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
-# SPDX-License-Identifier: Apache-2.0
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-"""
-Stable diffusion text to image pipeline using ONNX Runtime CUDA execution provider.
-Based on https://github.com/huggingface/diffusers/blob/v0.17.1/examples/community/stable_diffusion_tensorrt_txt2img.py
-Modifications: (1) Create ONNX Runtime session (2) Use I/O Binding of ONNX Runtime for inference
-
-Installation instructions
-pip install torch==1.13.1+cu117 --extra-index-url https://download.pytorch.org/whl/cu117
-pip install --upgrade transformers diffusers>=0.16.0
-pip install numpy>=1.24.1 onnx>=1.13.0 coloredlogs protobuf==3.20.3 psutil sympy
-pip install onnxruntime-gpu
-"""
-
-import logging
-import os
-from typing import List, Optional, Union
-
-import torch
-from diffusers.models import AutoencoderKL, UNet2DConditionModel
-from diffusers.pipelines.stable_diffusion import (
-    StableDiffusionPipeline,
-    StableDiffusionPipelineOutput,
-    StableDiffusionSafetyChecker,
-)
-from diffusers.schedulers import DDIMScheduler
-from diffusion_models import CLIP, VAE, PipelineInfo, UNet
-from ort_utils import Engines, StableDiffusionPipelineMixin
-from transformers import CLIPFeatureExtractor, CLIPTextModel, CLIPTokenizer
-
-logger = logging.getLogger(__name__)
-
-
-class OnnxruntimeCudaStableDiffusionPipeline(StableDiffusionPipelineMixin, StableDiffusionPipeline):
-    r"""
-    Pipeline for text-to-image generation using CUDA provider in ONNX Runtime.
-    This pipeline inherits from [`StableDiffusionPipeline`]. Check the documentation in super class for most parameters.
-    """
-
-    def __init__(
-        self,
-        vae: AutoencoderKL,
-        text_encoder: CLIPTextModel,
-        tokenizer: CLIPTokenizer,
-        unet: UNet2DConditionModel,
-        scheduler: DDIMScheduler,
-        safety_checker: StableDiffusionSafetyChecker,
-        feature_extractor: CLIPFeatureExtractor,
-        requires_safety_checker: bool = True,
-        # ONNX export parameters
-        onnx_opset: int = 14,
-        onnx_dir: str = "onnx_ort",
-        # Onnxruntime execution provider parameters
-        engine_dir: str = "ORT_CUDA",
-        force_engine_rebuild: bool = False,
-        enable_cuda_graph: bool = False,
-        pipeline_info: PipelineInfo = None,
-    ):
-        super().__init__(
-            vae, text_encoder, tokenizer, unet, scheduler, safety_checker, feature_extractor, requires_safety_checker
-        )
-
-        self.vae.forward = self.vae.decode
-        self.unet_in_channels = unet.config.in_channels
-
-        self.inpaint = False
-        self.onnx_dir = onnx_dir
-        self.engine_dir = engine_dir
-        self.force_engine_rebuild = force_engine_rebuild
-        self.enable_cuda_graph = enable_cuda_graph
-
-        self.max_batch_size = 16
-
-        self.models = {}  # loaded in __load_models()
-        self.engines = Engines("CUDAExecutionProvider", onnx_opset)
-
-        self.fp16 = False
-
-        self.pipeline_info = pipeline_info
-
-    def load_models(self):
-        assert self.pipeline_info.clip_embedding_dim() == self.text_encoder.config.hidden_size
-
-        stages = self.pipeline_info.stages()
-        if "clip" in stages:
-            self.models["clip"] = CLIP(
-                self.pipeline_info,
-                self.text_encoder,
-                device=self.torch_device,
-                max_batch_size=self.max_batch_size,
-                clip_skip=0,
-            )
-
-        if "unet" in stages:
-            self.models["unet"] = UNet(
-                self.pipeline_info,
-                self.unet,
-                device=self.torch_device,
-                fp16=False,
-                max_batch_size=self.max_batch_size,
-                unet_dim=(9 if self.pipeline_info.is_inpaint() else 4),
-            )
-
-        if "vae" in stages:
-            self.models["vae"] = VAE(
-                self.pipeline_info,
-                self.vae,
-                device=self.torch_device,
-                max_batch_size=self.max_batch_size,
-            )
-
-    def to(
-        self,
-        torch_device: Union[str, torch.device],
-        torch_dtype: Optional[torch.dtype] = None,
-        silence_dtype_warnings: bool = False,
-    ):
-        self.onnx_dir = os.path.join(self.cached_folder, self.onnx_dir)
-        self.engine_dir = os.path.join(self.cached_folder, self.engine_dir)
-
-        # set device
-        self.torch_device = torch.device(torch_device)
-
-        # load models
-        self.fp16 = torch_dtype == torch.float16
-        self.load_models()
-
-        # build engines
-        self.engines.build(
-            self.models,
-            self.engine_dir,
-            self.onnx_dir,
-            force_engine_rebuild=self.force_engine_rebuild,
-            fp16=self.fp16,
-            device_id=self.torch_device.index or torch.cuda.current_device(),
-            enable_cuda_graph=self.enable_cuda_graph,
-        )
-
-        # Load the remaining modules to GPU.
-        self.text_encoder = None
-        self.vae = None
-        self.unet = None
-        super().to(torch_device, torch_dtype, silence_dtype_warnings=silence_dtype_warnings)
-
-        self.torch_device = self._execution_device
-        logger.info(f"Running inference on device: {self.torch_device}")
-
-        return self
-
-    def __allocate_buffers(self, image_height, image_width, batch_size):
-        # Allocate output tensors for I/O bindings
-        for model_name, obj in self.models.items():
-            self.engines.get_engine(model_name).allocate_buffers(
-                obj.get_shape_dict(batch_size, image_height, image_width)
-            )
-
-    @torch.no_grad()
-    def __call__(
-        self,
-        prompt: Optional[Union[str, List[str]]] = None,
-        num_inference_steps: int = 50,
-        guidance_scale: float = 7.5,
-        negative_prompt: Optional[Union[str, List[str]]] = None,
-        generator: Optional[Union[torch.Generator, List[torch.Generator]]] = None,
-        image_height: int = 512,
-        image_width: int = 512,
-    ):
-        r"""
-        Function invoked when calling the pipeline for generation.
-
-        Args:
-            prompt (`str` or `List[str]`, *optional*):
-                The prompt or prompts to guide the image generation. If not defined, one has to pass `prompt_embeds`.
-                instead.
-            num_inference_steps (`int`, *optional*, defaults to 50):
-                The number of denoising steps. More denoising steps usually lead to a higher quality image at the
-                expense of slower inference.
-            guidance_scale (`float`, *optional*, defaults to 7.5):
-                Guidance scale as defined in [Classifier-Free Diffusion Guidance](https://arxiv.org/abs/2207.12598).
-                `guidance_scale` is defined as `w` of equation 2. of [Imagen
-                Paper](https://arxiv.org/pdf/2205.11487.pdf). Guidance scale is enabled by setting `guidance_scale >
-                1`. Higher guidance scale encourages to generate images that are closely linked to the text `prompt`,
-                usually at the expense of lower image quality.
-            negative_prompt (`str` or `List[str]`, *optional*):
-                The prompt or prompts not to guide the image generation. If not defined, one has to pass
-                `negative_prompt_embeds`. instead. If not defined, one has to pass `negative_prompt_embeds`. instead.
-                Ignored when not using guidance (i.e., ignored if `guidance_scale` is less than `1`).
-            generator (`torch.Generator` or `List[torch.Generator]`, *optional*):
-                One or a list of [torch generator(s)](https://pytorch.org/docs/stable/generated/torch.Generator.html)
-                to make generation deterministic.
-        """
-        self.generator = generator
-        self.denoising_steps = num_inference_steps
-        self.guidance_scale = guidance_scale
-
-        # Pre-compute latent input scales and linear multistep coefficients
-        self.scheduler.set_timesteps(self.denoising_steps, device=self.torch_device)
-
-        # Define call parameters
-        if prompt is not None and isinstance(prompt, str):
-            batch_size = 1
-            prompt = [prompt]
-        elif prompt is not None and isinstance(prompt, list):
-            batch_size = len(prompt)
-        else:
-            raise ValueError(f"Expected prompt to be of type list or str but got {type(prompt)}")
-
-        if negative_prompt is None:
-            negative_prompt = [""] * batch_size
-
-        if negative_prompt is not None and isinstance(negative_prompt, str):
-            negative_prompt = [negative_prompt]
-
-        assert len(prompt) == len(negative_prompt)
-
-        if batch_size > self.max_batch_size:
-            raise ValueError(
-                f"Batch size {len(prompt)} is larger than allowed {self.max_batch_size}. If dynamic shape is used, then maximum batch size is 4"
-            )
-
-        self.__allocate_buffers(image_height, image_width, batch_size)
-
-        with torch.inference_mode(), torch.autocast("cuda"):
-            # CLIP text encoder
-            text_embeddings = self.encode_prompt(self.engines.get_engine("clip"), prompt, negative_prompt)
-
-            # Pre-initialize latents
-            num_channels_latents = self.unet_in_channels
-            latents = self.prepare_latents(
-                batch_size,
-                num_channels_latents,
-                image_height,
-                image_width,
-                torch.float16 if self.fp16 else torch.float32,
-                self.torch_device,
-                generator,
-            )
-
-            # UNet denoiser
-            latents = self.denoise_latent(
-                self.engines.get_engine("unet"), latents, text_embeddings, timestep_fp16=self.fp16
-            )
-
-            # VAE decode latent
-            images = self.decode_latent(self.engines.get_engine("vae"), latents)
-
-        images, has_nsfw_concept = self.run_safety_checker(images, self.torch_device, text_embeddings.dtype)
-        images = self.numpy_to_pil(images)
-        return StableDiffusionPipelineOutput(images=images, nsfw_content_detected=has_nsfw_concept)
-
-
-def example():
-    pipeline_info = PipelineInfo("1.5")
-    model_name_or_path = pipeline_info.name()
-    scheduler = DDIMScheduler.from_pretrained(model_name_or_path, subfolder="scheduler")
-    pipe = OnnxruntimeCudaStableDiffusionPipeline.from_pretrained(
-        model_name_or_path,
-        scheduler=scheduler,
-        pipeline_info=pipeline_info,
-    )
-
-    # re-use cached folder to save ONNX models
-    pipe.set_cached_folder(model_name_or_path, resume_download=True, local_files_only=True)
-
-    pipe = pipe.to("cuda", torch_dtype=torch.float16)
-
-    prompt = "photorealistic new zealand hills"
-    image = pipe(prompt).images[0]
-    image.save("ort_cuda_txt2img_new_zealand_hills.png")
-
-
-if __name__ == "__main__":
-    example()
diff --git a/onnxruntime/python/tools/transformers/models/stable_diffusion/onnxruntime_tensorrt_txt2img.py b/onnxruntime/python/tools/transformers/models/stable_diffusion/onnxruntime_tensorrt_txt2img.py
deleted file mode 100644
index c663e37c7ea7d..0000000000000
--- a/onnxruntime/python/tools/transformers/models/stable_diffusion/onnxruntime_tensorrt_txt2img.py
+++ /dev/null
@@ -1,261 +0,0 @@
-# -------------------------------------------------------------------------
-# Copyright (c) Microsoft Corporation.  All rights reserved.
-# Licensed under the MIT License.
-# --------------------------------------------------------------------------
-#
-# Copyright 2023 The HuggingFace Inc. team.
-# SPDX-FileCopyrightText: Copyright (c) 1993-2023 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
-# SPDX-License-Identifier: Apache-2.0
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-"""
-Stable diffusion text to image pipeline using ONNX Runtime TensorRT execution provider.
-Based on https://github.com/huggingface/diffusers/blob/v0.17.1/examples/community/stable_diffusion_tensorrt_txt2img.py
-Modifications: (1) Create ONNX Runtime session (2) Use I/O Binding of ONNX Runtime for inference
-
-Installation instructions
-pip install torch==1.13.1+cu117 --extra-index-url https://download.pytorch.org/whl/cu117
-pip install --upgrade transformers diffusers>=0.16.0
-pip install --upgrade tensorrt>=8.6.1
-pip install --upgrade polygraphy>=0.47.0 onnx-graphsurgeon --extra-index-url https://pypi.ngc.nvidia.com
-pip install onnxruntime-gpu
-"""
-
-import logging
-import os
-from typing import List, Optional, Union
-
-import torch
-from diffusers.models import AutoencoderKL, UNet2DConditionModel
-from diffusers.pipelines.stable_diffusion import (
-    StableDiffusionPipeline,
-    StableDiffusionPipelineOutput,
-    StableDiffusionSafetyChecker,
-)
-from diffusers.schedulers import DDIMScheduler
-from diffusion_models import PipelineInfo
-from engine_builder_ort_trt import OrtTensorrtEngineBuilder
-from ort_utils import StableDiffusionPipelineMixin
-from transformers import CLIPFeatureExtractor, CLIPTextModel, CLIPTokenizer
-
-logger = logging.getLogger(__name__)
-
-
-class OnnxruntimeTensorRTStableDiffusionPipeline(StableDiffusionPipelineMixin, StableDiffusionPipeline):
-    r"""
-    Pipeline for text-to-image generation using TensorRT execution provider in ONNX Runtime.
-
-    This pipeline inherits from [`StableDiffusionPipeline`]. Check the documentation in super class for most parameters.
-    """
-
-    def __init__(
-        self,
-        vae: AutoencoderKL,
-        text_encoder: CLIPTextModel,
-        tokenizer: CLIPTokenizer,
-        unet: UNet2DConditionModel,
-        scheduler: DDIMScheduler,
-        safety_checker: StableDiffusionSafetyChecker,
-        feature_extractor: CLIPFeatureExtractor,
-        requires_safety_checker: bool = True,
-        image_height: int = 768,
-        image_width: int = 768,
-        max_batch_size: int = 16,
-        # ONNX export parameters
-        onnx_opset: int = 17,
-        onnx_dir: str = "onnx_trt",
-        # TensorRT engine build parameters
-        engine_dir: str = "ORT_TRT",  # use short name here to avoid path exceeds 260 chars in Windows.
-        force_engine_rebuild: bool = False,
-        enable_cuda_graph: bool = False,
-        pipeline_info: Optional[PipelineInfo] = None,
-    ):
-        super().__init__(
-            vae, text_encoder, tokenizer, unet, scheduler, safety_checker, feature_extractor, requires_safety_checker
-        )
-
-        self.vae.forward = self.vae.decode
-
-        self.image_height = image_height
-        self.image_width = image_width
-        self.onnx_opset = onnx_opset
-        self.onnx_dir = onnx_dir
-        self.engine_dir = engine_dir
-        self.force_engine_rebuild = force_engine_rebuild
-
-        # Although cuda graph requires static input shape, engine built with dynamic batch gets better performance in T4.
-        # Use static batch could reduce GPU memory footprint.
-        self.build_static_batch = enable_cuda_graph
-
-        # TODO: support dynamic image shape.
-        self.build_dynamic_shape = False
-
-        self.max_batch_size = max_batch_size
-        # Restrict batch size to 4 for larger image dimensions as a walkaround for TensorRT limitation.
-        if self.build_dynamic_shape or self.image_height > 512 or self.image_width > 512:
-            self.max_batch_size = 4
-
-        self.engines = {}  # loaded in build_engines()
-        self.engine_builder = OrtTensorrtEngineBuilder(
-            pipeline_info, max_batch_size=max_batch_size, use_cuda_graph=enable_cuda_graph
-        )
-
-        self.pipeline_info = pipeline_info
-        self.stages = pipeline_info.stages()
-
-    def to(
-        self,
-        torch_device: Optional[Union[str, torch.device]] = None,
-        silence_dtype_warnings: bool = False,
-    ):
-        super().to(torch_device, silence_dtype_warnings=silence_dtype_warnings)
-
-        self.onnx_dir = os.path.join(self.cached_folder, self.onnx_dir)
-        self.engine_dir = os.path.join(self.cached_folder, self.engine_dir)
-
-        # set device
-        self.torch_device = self._execution_device
-        logger.info(f"Running inference on device: {self.torch_device}")
-
-        self.engines = self.engine_builder.build_engines(
-            self.engine_dir,
-            None,
-            self.onnx_dir,
-            self.onnx_opset,
-            opt_image_height=self.image_height,
-            opt_image_width=self.image_width,
-            force_engine_rebuild=self.force_engine_rebuild,
-            static_batch=self.build_static_batch,
-            static_image_shape=not self.build_dynamic_shape,
-            device_id=self.torch_device.index,
-        )
-
-        return self
-
-    @torch.no_grad()
-    def __call__(
-        self,
-        prompt: Optional[Union[str, List[str]]] = None,
-        num_inference_steps: int = 50,
-        guidance_scale: float = 7.5,
-        negative_prompt: Optional[Union[str, List[str]]] = None,
-        generator: Optional[Union[torch.Generator, List[torch.Generator]]] = None,
-    ):
-        r"""
-        Function invoked when calling the pipeline for generation.
-
-        Args:
-            prompt (`str` or `List[str]`, *optional*):
-                The prompt or prompts to guide the image generation. If not defined, one has to pass `prompt_embeds`.
-                instead.
-            num_inference_steps (`int`, *optional*, defaults to 50):
-                The number of denoising steps. More denoising steps usually lead to a higher quality image at the
-                expense of slower inference.
-            guidance_scale (`float`, *optional*, defaults to 7.5):
-                Guidance scale as defined in [Classifier-Free Diffusion Guidance](https://arxiv.org/abs/2207.12598).
-                `guidance_scale` is defined as `w` of equation 2. of [Imagen
-                Paper](https://arxiv.org/pdf/2205.11487.pdf). Guidance scale is enabled by setting `guidance_scale >
-                1`. Higher guidance scale encourages to generate images that are closely linked to the text `prompt`,
-                usually at the expense of lower image quality.
-            negative_prompt (`str` or `List[str]`, *optional*):
-                The prompt or prompts not to guide the image generation. If not defined, one has to pass
-                `negative_prompt_embeds`. instead. If not defined, one has to pass `negative_prompt_embeds`. instead.
-                Ignored when not using guidance (i.e., ignored if `guidance_scale` is less than `1`).
-            generator (`torch.Generator` or `List[torch.Generator]`, *optional*):
-                One or a list of [torch generator(s)](https://pytorch.org/docs/stable/generated/torch.Generator.html)
-                to make generation deterministic.
-
-        """
-        self.generator = generator
-        self.denoising_steps = num_inference_steps
-        self.guidance_scale = guidance_scale
-
-        # Pre-compute latent input scales and linear multistep coefficients
-        self.scheduler.set_timesteps(self.denoising_steps, device=self.torch_device)
-
-        # Define call parameters
-        if prompt is not None and isinstance(prompt, str):
-            batch_size = 1
-            prompt = [prompt]
-        elif prompt is not None and isinstance(prompt, list):
-            batch_size = len(prompt)
-        else:
-            raise ValueError(f"Expected prompt to be of type list or str but got {type(prompt)}")
-
-        if negative_prompt is None:
-            negative_prompt = [""] * batch_size
-
-        if negative_prompt is not None and isinstance(negative_prompt, str):
-            negative_prompt = [negative_prompt]
-
-        assert len(prompt) == len(negative_prompt)
-
-        if batch_size > self.max_batch_size:
-            raise ValueError(
-                f"Batch size {len(prompt)} is larger than allowed {self.max_batch_size}. If dynamic shape is used, then maximum batch size is 4"
-            )
-
-        self.engine_builder.load_resources(self.image_height, self.image_width, batch_size)
-
-        with torch.inference_mode(), torch.autocast("cuda"):
-            # CLIP text encoder
-            text_embeddings = self.encode_prompt(self.engines["clip"], prompt, negative_prompt)
-
-            # Pre-initialize latents
-            num_channels_latents = self.unet.config.in_channels
-            latents = self.prepare_latents(
-                batch_size,
-                num_channels_latents,
-                self.image_height,
-                self.image_width,
-                torch.float32,
-                self.torch_device,
-                generator,
-            )
-
-            # UNet denoiser
-            latents = self.denoise_latent(self.engines["unet"], latents, text_embeddings)
-
-            # VAE decode latent
-            images = self.decode_latent(self.engines["vae"], latents)
-
-        images, has_nsfw_concept = self.run_safety_checker(images, self.torch_device, text_embeddings.dtype)
-        images = self.numpy_to_pil(images)
-        return StableDiffusionPipelineOutput(images=images, nsfw_content_detected=has_nsfw_concept)
-
-
-if __name__ == "__main__":
-    pipeline_info = PipelineInfo("1.5")
-    model_name_or_path = pipeline_info.name()
-    scheduler = DDIMScheduler.from_pretrained(model_name_or_path, subfolder="scheduler")
-
-    pipe = OnnxruntimeTensorRTStableDiffusionPipeline.from_pretrained(
-        model_name_or_path,
-        revision="fp16",
-        torch_dtype=torch.float16,
-        scheduler=scheduler,
-        image_height=512,
-        image_width=512,
-        max_batch_size=4,
-        pipeline_info=pipeline_info,
-    )
-
-    # re-use cached folder to save ONNX models and TensorRT Engines
-    pipe.set_cached_folder(model_name_or_path, revision="fp16")
-
-    pipe = pipe.to("cuda")
-
-    prompt = "photorealistic new zealand hills"
-    image = pipe(prompt).images[0]
-    image.save("ort_trt_txt2img_new_zealand_hills.png")
diff --git a/onnxruntime/python/tools/transformers/models/stable_diffusion/ort_utils.py b/onnxruntime/python/tools/transformers/models/stable_diffusion/ort_utils.py
deleted file mode 100644
index 0afa13a0f4dca..0000000000000
--- a/onnxruntime/python/tools/transformers/models/stable_diffusion/ort_utils.py
+++ /dev/null
@@ -1,262 +0,0 @@
-# -------------------------------------------------------------------------
-# Copyright (c) Microsoft Corporation.  All rights reserved.
-# Licensed under the MIT License.
-# --------------------------------------------------------------------------
-
-import gc
-import logging
-import os
-import shutil
-import sys
-from typing import Union
-
-import torch
-
-import onnxruntime as ort
-
-logger = logging.getLogger(__name__)
-
-
-def add_transformers_dir_to_path():
-    sys.path.append(os.path.dirname(__file__))
-
-    transformers_dir = os.path.normpath(os.path.join(os.path.dirname(__file__), "..", ".."))
-    if transformers_dir not in sys.path:
-        sys.path.append(transformers_dir)
-
-
-add_transformers_dir_to_path()
-from io_binding_helper import CudaSession  # noqa: E402. Walk-around to test locally
-
-
-# -----------------------------------------------------------------------------------------------------
-# Utilities for CUDA EP
-# -----------------------------------------------------------------------------------------------------
-class Engine(CudaSession):
-    def __init__(self, engine_path, provider: str, device_id: int = 0, enable_cuda_graph=False):
-        self.engine_path = engine_path
-        self.provider = provider
-        self.provider_options = CudaSession.get_cuda_provider_options(device_id, enable_cuda_graph)
-
-        device = torch.device("cuda", device_id)
-        ort_session = ort.InferenceSession(
-            self.engine_path,
-            providers=[
-                (provider, self.provider_options),
-                "CPUExecutionProvider",
-            ],
-        )
-
-        super().__init__(ort_session, device, enable_cuda_graph)
-
-
-class Engines:
-    def __init__(self, provider, onnx_opset: int = 14):
-        self.provider = provider
-        self.engines = {}
-        self.onnx_opset = onnx_opset
-
-    @staticmethod
-    def get_onnx_path(onnx_dir, model_name):
-        return os.path.join(onnx_dir, model_name + ".onnx")
-
-    @staticmethod
-    def get_engine_path(engine_dir, model_name, profile_id):
-        return os.path.join(engine_dir, model_name + profile_id + ".onnx")
-
-    def build(
-        self,
-        models,
-        engine_dir: str,
-        onnx_dir: str,
-        force_engine_rebuild: bool = False,
-        fp16: bool = True,
-        device_id: int = 0,
-        enable_cuda_graph: bool = False,
-    ):
-        profile_id = "_fp16" if fp16 else "_fp32"
-
-        if force_engine_rebuild:
-            if os.path.isdir(onnx_dir):
-                logger.info("Remove existing directory %s since force_engine_rebuild is enabled", onnx_dir)
-                shutil.rmtree(onnx_dir)
-            if os.path.isdir(engine_dir):
-                logger.info("Remove existing directory %s since force_engine_rebuild is enabled", engine_dir)
-                shutil.rmtree(engine_dir)
-
-        if not os.path.isdir(engine_dir):
-            os.makedirs(engine_dir)
-
-        if not os.path.isdir(onnx_dir):
-            os.makedirs(onnx_dir)
-
-        # Export models to ONNX
-        for model_name, model_obj in models.items():
-            onnx_path = Engines.get_onnx_path(onnx_dir, model_name)
-            onnx_opt_path = Engines.get_engine_path(engine_dir, model_name, profile_id)
-            if os.path.exists(onnx_opt_path):
-                logger.info("Found cached optimized model: %s", onnx_opt_path)
-            else:
-                if os.path.exists(onnx_path):
-                    logger.info("Found cached model: %s", onnx_path)
-                else:
-                    logger.info("Exporting model: %s", onnx_path)
-                    model = model_obj.get_model().to(model_obj.device)
-                    with torch.inference_mode():
-                        inputs = model_obj.get_sample_input(1, 512, 512)
-                        fp32_inputs = tuple(
-                            [
-                                (tensor.to(torch.float32) if tensor.dtype == torch.float16 else tensor)
-                                for tensor in inputs
-                            ]
-                        )
-
-                        torch.onnx.export(
-                            model,
-                            fp32_inputs,
-                            onnx_path,
-                            export_params=True,
-                            opset_version=self.onnx_opset,
-                            do_constant_folding=True,
-                            input_names=model_obj.get_input_names(),
-                            output_names=model_obj.get_output_names(),
-                            dynamic_axes=model_obj.get_dynamic_axes(),
-                        )
-                    del model
-                    torch.cuda.empty_cache()
-                    gc.collect()
-
-                # Optimize onnx
-                logger.info("Generating optimized model: %s", onnx_opt_path)
-                model_obj.optimize_ort(onnx_path, onnx_opt_path, to_fp16=fp16)
-
-        for model_name in models:
-            engine_path = Engines.get_engine_path(engine_dir, model_name, profile_id)
-            engine = Engine(engine_path, self.provider, device_id=device_id, enable_cuda_graph=enable_cuda_graph)
-            logger.info("%s options for %s: %s", self.provider, model_name, engine.provider_options)
-            self.engines[model_name] = engine
-
-    def get_engine(self, model_name):
-        return self.engines[model_name]
-
-
-def run_engine(engine, feed_dict):
-    return engine.infer(feed_dict)
-
-
-# -----------------------------------------------------------------------------------------------------
-# Utilities for both CUDA and TensorRT EP
-# -----------------------------------------------------------------------------------------------------
-
-
-class StableDiffusionPipelineMixin:
-    def __init__(self, *args, **kwargs):
-        super().__init__(*args, **kwargs)
-
-    def encode_prompt(self, clip_engine, prompt, negative_prompt):
-        """
-        Encodes the prompt into text encoder hidden states.
-        """
-
-        # Tokenize prompt
-        text_input_ids = (
-            self.tokenizer(
-                prompt,
-                padding="max_length",
-                max_length=self.tokenizer.model_max_length,
-                truncation=True,
-                return_tensors="pt",
-            )
-            .input_ids.type(torch.int32)
-            .to(self.torch_device)
-        )
-
-        # NOTE: output tensor for CLIP must be cloned because it will be overwritten when called again for negative prompt
-        text_embeddings = run_engine(clip_engine, {"input_ids": text_input_ids})["text_embeddings"].clone()
-
-        # Tokenize negative prompt
-        uncond_input_ids = (
-            self.tokenizer(
-                negative_prompt,
-                padding="max_length",
-                max_length=self.tokenizer.model_max_length,
-                truncation=True,
-                return_tensors="pt",
-            )
-            .input_ids.type(torch.int32)
-            .to(self.torch_device)
-        )
-
-        uncond_embeddings = run_engine(clip_engine, {"input_ids": uncond_input_ids})["text_embeddings"]
-
-        # Concatenate the unconditional and text embeddings into a single batch to avoid doing two forward passes for classifier free guidance
-        text_embeddings = torch.cat([uncond_embeddings, text_embeddings]).to(dtype=torch.float16)
-
-        return text_embeddings
-
-    def denoise_latent(
-        self,
-        unet_engine,
-        latents,
-        text_embeddings,
-        timesteps=None,
-        mask=None,
-        masked_image_latents=None,
-        timestep_fp16=False,
-    ):
-        if not isinstance(timesteps, torch.Tensor):
-            timesteps = self.scheduler.timesteps
-
-        for _step_index, timestep in enumerate(timesteps):
-            # Expand the latents if we are doing classifier free guidance
-            latent_model_input = torch.cat([latents] * 2)
-            latent_model_input = self.scheduler.scale_model_input(latent_model_input, timestep)
-            if isinstance(mask, torch.Tensor):
-                latent_model_input = torch.cat([latent_model_input, mask, masked_image_latents], dim=1)
-
-            # Predict the noise residual
-            timestep_float = timestep.to(torch.float16) if timestep_fp16 else timestep.to(torch.float32)
-
-            noise_pred = run_engine(
-                unet_engine,
-                {"sample": latent_model_input, "timestep": timestep_float, "encoder_hidden_states": text_embeddings},
-            )["latent"]
-
-            # Perform guidance
-            noise_pred_uncond, noise_pred_text = noise_pred.chunk(2)
-            noise_pred = noise_pred_uncond + self.guidance_scale * (noise_pred_text - noise_pred_uncond)
-
-            latents = self.scheduler.step(noise_pred, timestep, latents).prev_sample
-
-        latents = 1.0 / 0.18215 * latents
-        return latents
-
-    def decode_latent(self, vae_engine, latents):
-        images = run_engine(vae_engine, {"latent": latents})["images"]
-        images = (images / 2 + 0.5).clamp(0, 1)
-        return images.cpu().permute(0, 2, 3, 1).float().numpy()
-
-    def set_cached_folder(self, pretrained_model_name_or_path: Union[str, os.PathLike], **kwargs):
-        from diffusers.utils import DIFFUSERS_CACHE
-        from huggingface_hub import snapshot_download
-
-        cache_dir = kwargs.pop("cache_dir", DIFFUSERS_CACHE)
-        resume_download = kwargs.pop("resume_download", False)
-        proxies = kwargs.pop("proxies", None)
-        local_files_only = kwargs.pop("local_files_only", False)
-        use_auth_token = kwargs.pop("use_auth_token", None)
-        revision = kwargs.pop("revision", None)
-
-        self.cached_folder = (
-            pretrained_model_name_or_path
-            if os.path.isdir(pretrained_model_name_or_path)
-            else snapshot_download(
-                pretrained_model_name_or_path,
-                cache_dir=cache_dir,
-                resume_download=resume_download,
-                proxies=proxies,
-                local_files_only=local_files_only,
-                use_auth_token=use_auth_token,
-                revision=revision,
-            )
-        )
diff --git a/onnxruntime/python/tools/transformers/models/stable_diffusion/pipeline_img2img_xl.py b/onnxruntime/python/tools/transformers/models/stable_diffusion/pipeline_img2img_xl.py
deleted file mode 100644
index 31ede1ba901f2..0000000000000
--- a/onnxruntime/python/tools/transformers/models/stable_diffusion/pipeline_img2img_xl.py
+++ /dev/null
@@ -1,236 +0,0 @@
-# -------------------------------------------------------------------------
-# Copyright (c) Microsoft Corporation.  All rights reserved.
-# Licensed under the MIT License.
-# --------------------------------------------------------------------------
-# Modified from TensorRT demo diffusion, which has the following license:
-#
-# SPDX-FileCopyrightText: Copyright (c) 1993-2023 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
-# SPDX-License-Identifier: Apache-2.0
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-# --------------------------------------------------------------------------
-
-import time
-
-import torch
-from diffusion_models import PipelineInfo
-from pipeline_stable_diffusion import StableDiffusionPipeline
-
-
-class Img2ImgXLPipeline(StableDiffusionPipeline):
-    """
-    Stable Diffusion Img2Img XL pipeline.
-    """
-
-    def __init__(self, pipeline_info: PipelineInfo, *args, **kwargs):
-        """
-        Initializes the Img2Img XL Diffusion pipeline.
-
-        Args:
-            pipeline_info (PipelineInfo):
-                Version and Type of stable diffusion pipeline.
-        """
-        assert pipeline_info.is_xl_refiner()
-
-        super().__init__(pipeline_info, *args, **kwargs)
-
-        self.requires_aesthetics_score = True
-
-    def _get_add_time_ids(
-        self, original_size, crops_coords_top_left, target_size, aesthetic_score, negative_aesthetic_score, dtype
-    ):
-        if self.requires_aesthetics_score:
-            add_time_ids = list(original_size + crops_coords_top_left + (aesthetic_score,))
-            add_neg_time_ids = list(original_size + crops_coords_top_left + (negative_aesthetic_score,))
-        else:
-            add_time_ids = list(original_size + crops_coords_top_left + target_size)
-            add_neg_time_ids = list(original_size + crops_coords_top_left + target_size)
-        add_time_ids = torch.tensor([add_time_ids], dtype=dtype)
-        add_neg_time_ids = torch.tensor([add_neg_time_ids], dtype=dtype)
-        add_time_ids = torch.cat([add_neg_time_ids, add_time_ids], dim=0).to(device=self.device)
-        return add_time_ids
-
-    def _infer(
-        self,
-        prompt,
-        negative_prompt,
-        init_image,
-        image_height,
-        image_width,
-        denoising_steps=30,
-        strength=0.3,
-        guidance=5.0,
-        seed=None,
-        warmup=False,
-        return_type="image",
-    ):
-        assert negative_prompt is None or len(prompt) == len(negative_prompt)
-
-        original_size = (image_height, image_width)
-        crops_coords_top_left = (0, 0)
-        target_size = (image_height, image_width)
-
-        aesthetic_score = 6.0
-        negative_aesthetic_score = 2.5
-
-        self.set_denoising_steps(denoising_steps)
-        self.set_random_seed(seed)
-
-        with torch.inference_mode(), torch.autocast("cuda"):
-            batch_size = len(prompt)
-
-            torch.cuda.synchronize()
-            e2e_tic = time.perf_counter()
-
-            # Initialize timesteps
-            timesteps, t_start = self.initialize_timesteps(self.denoising_steps, strength)
-
-            latent_timestep = timesteps[:1].repeat(batch_size)
-
-            # CLIP text encoder 2
-            text_embeddings, pooled_embeddings2 = self.encode_prompt(
-                prompt,
-                negative_prompt,
-                encoder="clip2",
-                tokenizer=self.tokenizer2,
-                pooled_outputs=True,
-                output_hidden_states=True,
-            )
-
-            # Time embeddings
-            add_time_ids = self._get_add_time_ids(
-                original_size,
-                crops_coords_top_left,
-                target_size,
-                aesthetic_score,
-                negative_aesthetic_score,
-                dtype=text_embeddings.dtype,
-            )
-
-            add_time_ids = add_time_ids.repeat(batch_size, 1)
-
-            add_kwargs = {"text_embeds": pooled_embeddings2, "time_ids": add_time_ids}
-
-            # Pre-process input image
-            init_image = self.preprocess_images(batch_size, (init_image,))[0]
-
-            # VAE encode init image
-            if init_image.shape[1] == 4:
-                init_latents = init_image
-            else:
-                init_latents = self.encode_image(init_image)
-
-            # Add noise to latents using timesteps
-            noise = torch.randn(init_latents.shape, device=self.device, dtype=torch.float32, generator=self.generator)
-            latents = self.scheduler.add_noise(init_latents, noise, t_start, latent_timestep)
-
-            # UNet denoiser
-            latents = self.denoise_latent(
-                latents,
-                text_embeddings,
-                timesteps=timesteps,
-                step_offset=t_start,
-                denoiser="unetxl",
-                guidance=guidance,
-                add_kwargs=add_kwargs,
-            )
-
-        with torch.inference_mode():
-            # VAE decode latent
-            if return_type == "latent":
-                images = latents
-            else:
-                images = self.decode_latent(latents / self.vae_scaling_factor)
-
-            torch.cuda.synchronize()
-            e2e_toc = time.perf_counter()
-
-            perf_data = None
-            if not warmup:
-                print("SD-XL Refiner Pipeline")
-                perf_data = self.print_summary(e2e_tic, e2e_toc, batch_size)
-
-        return images, perf_data
-
-    def run(
-        self,
-        prompt,
-        negative_prompt,
-        init_image,
-        image_height,
-        image_width,
-        denoising_steps=30,
-        guidance=5.0,
-        strength=0.3,
-        seed=None,
-        warmup=False,
-        return_type="image",
-    ):
-        """
-        Run the diffusion pipeline.
-
-        Args:
-            prompt (str):
-                The text prompt to guide image generation.
-            negative_prompt (str):
-                The prompt not to guide the image generation.
-            init_image (tuple[torch.Tensor]):
-                Image from base pipeline.
-            image_height (int):
-                Height (in pixels) of the image to be generated. Must be a multiple of 8.
-            image_width (int):
-                Width (in pixels) of the image to be generated. Must be a multiple of 8.
-            denoising_steps (int):
-                Number of denoising steps. More steps usually lead to higher quality image at the expense of slower inference.
-            guidance (float):
-                Higher guidance scale encourages to generate images that are closely linked to the text prompt.
-            seed (int):
-                Seed for the random generator
-            warmup (bool):
-                Indicate if this is a warmup run.
-            return_type (str):
-                It can be "latent" or "image".
-        """
-
-        if self.is_backend_tensorrt():
-            import tensorrt as trt
-            from trt_utilities import TRT_LOGGER
-
-            with trt.Runtime(TRT_LOGGER):
-                return self._infer(
-                    prompt,
-                    negative_prompt,
-                    init_image,
-                    image_height,
-                    image_width,
-                    denoising_steps=denoising_steps,
-                    strength=strength,
-                    guidance=guidance,
-                    seed=seed,
-                    warmup=warmup,
-                    return_type=return_type,
-                )
-        else:
-            return self._infer(
-                prompt,
-                negative_prompt,
-                init_image,
-                image_height,
-                image_width,
-                denoising_steps=denoising_steps,
-                strength=strength,
-                guidance=guidance,
-                seed=seed,
-                warmup=warmup,
-                return_type=return_type,
-            )
diff --git a/onnxruntime/python/tools/transformers/models/stable_diffusion/pipeline_stable_diffusion.py b/onnxruntime/python/tools/transformers/models/stable_diffusion/pipeline_stable_diffusion.py
index e18a68d3edef8..104ce984bd401 100644
--- a/onnxruntime/python/tools/transformers/models/stable_diffusion/pipeline_stable_diffusion.py
+++ b/onnxruntime/python/tools/transformers/models/stable_diffusion/pipeline_stable_diffusion.py
@@ -23,7 +23,8 @@
 import os
 import pathlib
 import random
-from typing import Any, Dict, List
+import time
+from typing import Any, Dict, List, Optional
 
 import numpy as np
 import nvtx
@@ -35,6 +36,8 @@
 from engine_builder_ort_cuda import OrtCudaEngineBuilder
 from engine_builder_ort_trt import OrtTensorrtEngineBuilder
 from engine_builder_tensorrt import TensorrtEngineBuilder
+from engine_builder_torch import TorchEngineBuilder
+from PIL import Image
 
 
 class StableDiffusionPipeline:
@@ -49,12 +52,11 @@ def __init__(
         scheduler="DDIM",
         device="cuda",
         output_dir=".",
-        hf_token=None,
         verbose=False,
         nvtx_profile=False,
         use_cuda_graph=False,
         framework_model_dir="pytorch_model",
-        engine_type: EngineType = EngineType.ORT_TRT,
+        engine_type: EngineType = EngineType.ORT_CUDA,
     ):
         """
         Initializes the Diffusion pipeline.
@@ -70,8 +72,6 @@ def __init__(
                 PyTorch device to run inference. Default: 'cuda'
             output_dir (str):
                 Output directory for log files and image artifacts
-            hf_token (str):
-                HuggingFace User Access Token to use for downloading Stable Diffusion model checkpoints.
             verbose (bool):
                 Enable verbose logging.
             nvtx_profile (bool):
@@ -98,7 +98,6 @@ def __init__(
                 print(f"[I] Create directory: {directory}")
                 pathlib.Path(directory).mkdir(parents=True)
 
-        self.hf_token = hf_token
         self.device = device
         self.torch_device = torch.device(device, torch.cuda.current_device())
         self.verbose = verbose
@@ -118,24 +117,22 @@ def __init__(
         # backend engine
         self.engine_type = engine_type
         if engine_type == EngineType.TRT:
-            self.backend = TensorrtEngineBuilder(pipeline_info, max_batch_size, hf_token, device, use_cuda_graph)
+            self.backend = TensorrtEngineBuilder(pipeline_info, max_batch_size, device, use_cuda_graph)
         elif engine_type == EngineType.ORT_TRT:
-            self.backend = OrtTensorrtEngineBuilder(pipeline_info, max_batch_size, hf_token, device, use_cuda_graph)
+            self.backend = OrtTensorrtEngineBuilder(pipeline_info, max_batch_size, device, use_cuda_graph)
         elif engine_type == EngineType.ORT_CUDA:
-            self.backend = OrtCudaEngineBuilder(pipeline_info, max_batch_size, hf_token, device, use_cuda_graph)
+            self.backend = OrtCudaEngineBuilder(pipeline_info, max_batch_size, device, use_cuda_graph)
+        elif engine_type == EngineType.TORCH:
+            self.backend = TorchEngineBuilder(pipeline_info, max_batch_size, device, use_cuda_graph)
         else:
             raise RuntimeError(f"Backend engine type {engine_type.name} is not supported")
 
         # Load text tokenizer
         if not self.pipeline_info.is_xl_refiner():
-            self.tokenizer = get_tokenizer(
-                self.pipeline_info, self.framework_model_dir, self.hf_token, subfolder="tokenizer"
-            )
+            self.tokenizer = get_tokenizer(self.pipeline_info, self.framework_model_dir, subfolder="tokenizer")
 
         if self.pipeline_info.is_xl():
-            self.tokenizer2 = get_tokenizer(
-                self.pipeline_info, self.framework_model_dir, self.hf_token, subfolder="tokenizer_2"
-            )
+            self.tokenizer2 = get_tokenizer(self.pipeline_info, self.framework_model_dir, subfolder="tokenizer_2")
 
         self.control_image_processor = None
         if self.pipeline_info.is_xl() and self.pipeline_info.controlnet:
@@ -147,7 +144,7 @@ def __init__(
 
         # Create CUDA events
         self.events = {}
-        for stage in ["clip", "denoise", "vae", "vae_encoder"]:
+        for stage in ["clip", "denoise", "vae", "vae_encoder", "pil"]:
             for marker in ["start", "stop"]:
                 self.events[stage + "-" + marker] = cudart.cudaEventCreate()[1]
         self.markers = {}
@@ -211,7 +208,7 @@ def run_engine(self, model_name, feed_dict):
         return self.backend.run_engine(model_name, feed_dict)
 
     def initialize_latents(self, batch_size, unet_channels, latent_height, latent_width):
-        latents_dtype = torch.float32  # text_embeddings.dtype
+        latents_dtype = torch.float16
         latents_shape = (batch_size, unet_channels, latent_height, latent_width)
         latents = torch.randn(latents_shape, device=self.device, dtype=latents_dtype, generator=self.generator)
         # Scale the initial noise by the standard deviation required by the scheduler
@@ -219,6 +216,7 @@ def initialize_latents(self, batch_size, unet_channels, latent_height, latent_wi
         return latents
 
     def initialize_timesteps(self, timesteps, strength):
+        """Initialize timesteps for refiner."""
         self.scheduler.set_timesteps(timesteps)
         offset = self.scheduler.steps_offset if hasattr(self.scheduler, "steps_offset") else 0
         init_timestep = int(timesteps * strength) + offset
@@ -227,6 +225,51 @@ def initialize_timesteps(self, timesteps, strength):
         timesteps = self.scheduler.timesteps[t_start:].to(self.device)
         return timesteps, t_start
 
+    def initialize_refiner(self, batch_size, image, strength):
+        """Add noise to a reference image."""
+        # Initialize timesteps
+        timesteps, t_start = self.initialize_timesteps(self.denoising_steps, strength)
+
+        latent_timestep = timesteps[:1].repeat(batch_size)
+
+        # Pre-process input image
+        image = self.preprocess_images(batch_size, (image,))[0]
+
+        # VAE encode init image
+        if image.shape[1] == 4:
+            init_latents = image
+        else:
+            init_latents = self.encode_image(image)
+
+        # Add noise to latents using timesteps
+        noise = torch.randn(init_latents.shape, device=self.device, dtype=torch.float16, generator=self.generator)
+
+        latents = self.scheduler.add_noise(init_latents, noise, t_start, latent_timestep)
+
+        return timesteps, t_start, latents
+
+    def _get_add_time_ids(
+        self,
+        original_size,
+        crops_coords_top_left,
+        target_size,
+        aesthetic_score,
+        negative_aesthetic_score,
+        dtype,
+        requires_aesthetics_score,
+    ):
+        if requires_aesthetics_score:
+            add_time_ids = list(original_size + crops_coords_top_left + (aesthetic_score,))
+            add_neg_time_ids = list(original_size + crops_coords_top_left + (negative_aesthetic_score,))
+        else:
+            add_time_ids = list(original_size + crops_coords_top_left + target_size)
+            add_neg_time_ids = list(original_size + crops_coords_top_left + target_size)
+
+        add_time_ids = torch.tensor([add_time_ids], dtype=dtype)
+        add_neg_time_ids = torch.tensor([add_neg_time_ids], dtype=dtype)
+
+        return add_time_ids, add_neg_time_ids
+
     def start_profile(self, name, color="blue"):
         if self.nvtx_profile:
             self.markers[name] = nvtx.start_range(message=name, color=color)
@@ -245,7 +288,7 @@ def preprocess_images(self, batch_size, images=()):
         self.start_profile("preprocess", color="pink")
         init_images = []
         for i in images:
-            image = i.to(self.device).float()
+            image = i.to(self.device)
             if image.shape[0] != batch_size:
                 image = image.repeat(batch_size, 1, 1, 1)
             init_images.append(image)
@@ -296,30 +339,46 @@ def encode_prompt(
         output_hidden_states=False,
         force_zeros_for_empty_prompt=False,
         do_classifier_free_guidance=True,
+        dtype=torch.float16,
     ):
         if tokenizer is None:
             tokenizer = self.tokenizer
 
         self.start_profile("clip", color="green")
 
-        # Tokenize prompt
-        text_input_ids = (
-            tokenizer(
-                prompt,
-                padding="max_length",
-                max_length=tokenizer.model_max_length,
-                truncation=True,
-                return_tensors="pt",
+        def tokenize(prompt, output_hidden_states):
+            text_input_ids = (
+                tokenizer(
+                    prompt,
+                    padding="max_length",
+                    max_length=tokenizer.model_max_length,
+                    truncation=True,
+                    return_tensors="pt",
+                )
+                .input_ids.type(torch.int32)
+                .to(self.device)
             )
-            .input_ids.type(torch.int32)
-            .to(self.device)
-        )
+
+            hidden_states = None
+            if self.engine_type == EngineType.TORCH:
+                outputs = self.backend.engines[encoder](text_input_ids)
+                text_embeddings = outputs[0]
+                if output_hidden_states:
+                    hidden_states = outputs["last_hidden_state"]
+            else:
+                outputs = self.run_engine(encoder, {"input_ids": text_input_ids})
+                text_embeddings = outputs["text_embeddings"]
+                if output_hidden_states:
+                    hidden_states = outputs["hidden_states"]
+            return text_embeddings, hidden_states
+
+        # Tokenize prompt
+        text_embeddings, hidden_states = tokenize(prompt, output_hidden_states)
 
         # NOTE: output tensor for CLIP must be cloned because it will be overwritten when called again for negative prompt
-        outputs = self.run_engine(encoder, {"input_ids": text_input_ids})
-        text_embeddings = outputs["text_embeddings"].clone()
-        if output_hidden_states:
-            hidden_states = outputs["hidden_states"].clone()
+        text_embeddings = text_embeddings.clone()
+        if hidden_states is not None:
+            hidden_states = hidden_states.clone()
 
         # Note: negative prompt embedding is not needed for SD XL when guidance <= 1
         if do_classifier_free_guidance:
@@ -331,40 +390,26 @@ def encode_prompt(
                     uncond_hidden_states = torch.zeros_like(hidden_states)
             else:
                 # Tokenize negative prompt
-                uncond_input_ids = (
-                    tokenizer(
-                        negative_prompt,
-                        padding="max_length",
-                        max_length=tokenizer.model_max_length,
-                        truncation=True,
-                        return_tensors="pt",
-                    )
-                    .input_ids.type(torch.int32)
-                    .to(self.device)
-                )
-
-                outputs = self.run_engine(encoder, {"input_ids": uncond_input_ids})
-                uncond_embeddings = outputs["text_embeddings"]
-                if output_hidden_states:
-                    uncond_hidden_states = outputs["hidden_states"]
+                uncond_embeddings, uncond_hidden_states = tokenize(negative_prompt, output_hidden_states)
 
             # Concatenate the unconditional and text embeddings into a single batch to avoid doing two forward passes for classifier free guidance
             text_embeddings = torch.cat([uncond_embeddings, text_embeddings])
 
-        if pooled_outputs:
-            pooled_output = text_embeddings
-
-        if output_hidden_states:
-            if do_classifier_free_guidance:
-                text_embeddings = torch.cat([uncond_hidden_states, hidden_states])
-            else:
-                text_embeddings = hidden_states
+            if output_hidden_states:
+                hidden_states = torch.cat([uncond_hidden_states, hidden_states])
 
         self.stop_profile("clip")
 
         if pooled_outputs:
-            return text_embeddings.to(dtype=torch.float16), pooled_output.to(dtype=torch.float16)
-        return text_embeddings.to(dtype=torch.float16)
+            # For text encoder in sdxl base
+            return hidden_states.to(dtype=dtype), text_embeddings.to(dtype=dtype)
+
+        if output_hidden_states:
+            # For text encoder 2 in sdxl base or refiner
+            return hidden_states.to(dtype=dtype)
+
+        # For text encoder in sd 1.5
+        return text_embeddings.to(dtype=dtype)
 
     def denoise_latent(
         self,
@@ -373,8 +418,6 @@ def denoise_latent(
         denoiser="unet",
         timesteps=None,
         step_offset=0,
-        mask=None,
-        masked_image_latents=None,
         guidance=7.5,
         add_kwargs=None,
     ):
@@ -393,18 +436,13 @@ def denoise_latent(
                 latent_model_input, step_offset + step_index, timestep
             )
 
-            if isinstance(mask, torch.Tensor):
-                latent_model_input = torch.cat([latent_model_input, mask, masked_image_latents], dim=1)
-
             # Predict the noise residual
             if self.nvtx_profile:
                 nvtx_unet = nvtx.start_range(message="unet", color="blue")
 
-            timestep_float = timestep.float() if timestep.dtype != torch.float32 else timestep
-
             params = {
                 "sample": latent_model_input,
-                "timestep": timestep_float,
+                "timestep": timestep.to(latents.dtype),
                 "encoder_hidden_states": text_embeddings,
             }
 
@@ -434,9 +472,9 @@ def denoise_latent(
         self.stop_profile("denoise")
         return latents
 
-    def encode_image(self, init_image):
+    def encode_image(self, image):
         self.start_profile("vae_encoder", color="red")
-        init_latents = self.run_engine("vae_encoder", {"images": init_image})["latent"]
+        init_latents = self.run_engine("vae_encoder", {"images": image})["latent"]
         init_latents = self.vae_scaling_factor * init_latents
         self.stop_profile("vae_encoder")
         return init_latents
@@ -447,7 +485,7 @@ def decode_latent(self, latents):
         self.stop_profile("vae")
         return images
 
-    def print_summary(self, tic, toc, batch_size, vae_enc=False) -> Dict[str, Any]:
+    def print_summary(self, tic, toc, batch_size, vae_enc=False, pil=False) -> Dict[str, Any]:
         throughput = batch_size / (toc - tic)
         latency_clip = cudart.cudaEventElapsedTime(self.events["clip-start"], self.events["clip-stop"])[1]
         latency_unet = cudart.cudaEventElapsedTime(self.events["denoise-start"], self.events["denoise-stop"])[1]
@@ -457,6 +495,8 @@ def print_summary(self, tic, toc, batch_size, vae_enc=False) -> Dict[str, Any]:
             if vae_enc
             else None
         )
+        latency_pil = cudart.cudaEventElapsedTime(self.events["pil-start"], self.events["pil-stop"])[1] if pil else None
+
         latency = (toc - tic) * 1000.0
 
         print("|----------------|--------------|")
@@ -472,9 +512,11 @@ def print_summary(self, tic, toc, batch_size, vae_enc=False) -> Dict[str, Any]:
             )
         )
         print("| {:^14} | {:>9.2f} ms |".format("VAE-Dec", latency_vae))
-
+        pipeline = "Refiner" if self.pipeline_info.is_xl_refiner() else "Pipeline"
+        if pil:
+            print("| {:^14} | {:>9.2f} ms |".format("PIL", latency_pil))
         print("|----------------|--------------|")
-        print("| {:^14} | {:>9.2f} ms |".format("Pipeline", latency))
+        print(f"| {pipeline:^14} | {latency:>9.2f} ms |")
         print("|----------------|--------------|")
         print(f"Throughput: {throughput:.2f} image/s")
 
@@ -482,6 +524,7 @@ def print_summary(self, tic, toc, batch_size, vae_enc=False) -> Dict[str, Any]:
             "latency_clip": latency_clip,
             "latency_unet": latency_unet,
             "latency_vae": latency_vae,
+            "latency_pil": latency_pil,
             "latency": latency,
             "throughput": throughput,
         }
@@ -490,15 +533,19 @@ def print_summary(self, tic, toc, batch_size, vae_enc=False) -> Dict[str, Any]:
         return perf_data
 
     @staticmethod
-    def to_pil_image(images):
+    def pt_to_pil(images):
         images = (
             ((images + 1) * 255 / 2).clamp(0, 255).detach().permute(0, 2, 3, 1).round().type(torch.uint8).cpu().numpy()
         )
-
-        from PIL import Image
-
         return [Image.fromarray(images[i]) for i in range(images.shape[0])]
 
+    @staticmethod
+    def pt_to_numpy(images: torch.FloatTensor):
+        """
+        Convert a PyTorch tensor to a NumPy image.
+        """
+        return ((images + 1) / 2).clamp(0, 1).detach().permute(0, 2, 3, 1).float().cpu().numpy()
+
     def metadata(self) -> Dict[str, Any]:
         return {
             "actual_steps": self.actual_steps,
@@ -509,7 +556,6 @@ def metadata(self) -> Dict[str, Any]:
         }
 
     def save_images(self, images: List, prompt: List[str], negative_prompt: List[str], metadata: Dict[str, Any]):
-        images = self.to_pil_image(images)
         session_id = str(random.randint(1000, 9999))
         for i, image in enumerate(images):
             seed = str(self.get_current_seed())
@@ -527,3 +573,249 @@ def save_images(self, images: List, prompt: List[str], negative_prompt: List[str
             info.add_text("negative_prompt", negative_prompt[i])
 
             image.save(image_path, "PNG", pnginfo=info)
+
+    def _infer(
+        self,
+        prompt,
+        negative_prompt,
+        image_height,
+        image_width,
+        denoising_steps=30,
+        guidance=5.0,
+        seed=None,
+        image=None,
+        strength=0.3,
+        controlnet_images=None,
+        controlnet_scales=None,
+        show_latency=False,
+        output_type="pil",
+    ):
+        if show_latency:
+            torch.cuda.synchronize()
+            start_time = time.perf_counter()
+
+        assert len(prompt) == len(negative_prompt)
+        batch_size = len(prompt)
+
+        self.set_denoising_steps(denoising_steps)
+        self.set_random_seed(seed)
+
+        timesteps = None
+        step_offset = 0
+        with torch.inference_mode(), torch.autocast("cuda"):
+            if image is not None:
+                timesteps, step_offset, latents = self.initialize_refiner(
+                    batch_size=batch_size,
+                    image=image,
+                    strength=strength,
+                )
+            else:
+                # Pre-initialize latents
+                latents = self.initialize_latents(
+                    batch_size=batch_size,
+                    unet_channels=4,
+                    latent_height=(image_height // 8),
+                    latent_width=(image_width // 8),
+                )
+
+            do_classifier_free_guidance = guidance > 1.0
+            if not self.pipeline_info.is_xl():
+                denoiser = "unet"
+                text_embeddings = self.encode_prompt(
+                    prompt,
+                    negative_prompt,
+                    do_classifier_free_guidance=do_classifier_free_guidance,
+                    dtype=latents.dtype,
+                )
+                add_kwargs = {}
+            else:
+                denoiser = "unetxl"
+
+                # Time embeddings
+                original_size = (image_height, image_width)
+                crops_coords_top_left = (0, 0)
+                target_size = (image_height, image_width)
+                aesthetic_score = 6.0
+                negative_aesthetic_score = 2.5
+                add_time_ids, add_negative_time_ids = self._get_add_time_ids(
+                    original_size,
+                    crops_coords_top_left,
+                    target_size,
+                    aesthetic_score,
+                    negative_aesthetic_score,
+                    dtype=latents.dtype,
+                    requires_aesthetics_score=self.pipeline_info.is_xl_refiner(),
+                )
+                if do_classifier_free_guidance:
+                    add_time_ids = torch.cat([add_negative_time_ids, add_time_ids], dim=0)
+                add_time_ids = add_time_ids.to(device=self.device).repeat(batch_size, 1)
+
+                if self.pipeline_info.is_xl_refiner():
+                    # CLIP text encoder 2
+                    text_embeddings, pooled_embeddings2 = self.encode_prompt(
+                        prompt,
+                        negative_prompt,
+                        encoder="clip2",
+                        tokenizer=self.tokenizer2,
+                        pooled_outputs=True,
+                        output_hidden_states=True,
+                        dtype=latents.dtype,
+                    )
+                    add_kwargs = {"text_embeds": pooled_embeddings2, "time_ids": add_time_ids}
+                else:  # XL Base
+                    # CLIP text encoder
+                    text_embeddings = self.encode_prompt(
+                        prompt,
+                        negative_prompt,
+                        encoder="clip",
+                        tokenizer=self.tokenizer,
+                        output_hidden_states=True,
+                        force_zeros_for_empty_prompt=True,
+                        do_classifier_free_guidance=do_classifier_free_guidance,
+                        dtype=latents.dtype,
+                    )
+                    # CLIP text encoder 2
+                    text_embeddings2, pooled_embeddings2 = self.encode_prompt(
+                        prompt,
+                        negative_prompt,
+                        encoder="clip2",
+                        tokenizer=self.tokenizer2,
+                        pooled_outputs=True,
+                        output_hidden_states=True,
+                        force_zeros_for_empty_prompt=True,
+                        do_classifier_free_guidance=do_classifier_free_guidance,
+                        dtype=latents.dtype,
+                    )
+
+                    # Merged text embeddings
+                    text_embeddings = torch.cat([text_embeddings, text_embeddings2], dim=-1)
+
+                    add_kwargs = {"text_embeds": pooled_embeddings2, "time_ids": add_time_ids}
+
+            if self.pipeline_info.controlnet:
+                controlnet_images = self.preprocess_controlnet_images(
+                    latents.shape[0],
+                    controlnet_images,
+                    do_classifier_free_guidance=do_classifier_free_guidance,
+                    height=image_height,
+                    width=image_width,
+                )
+                add_kwargs.update(
+                    {
+                        "controlnet_images": controlnet_images,
+                        "controlnet_scales": controlnet_scales.to(controlnet_images.dtype).to(controlnet_images.device),
+                    }
+                )
+
+            # UNet denoiser
+            latents = self.denoise_latent(
+                latents,
+                text_embeddings,
+                timesteps=timesteps,
+                step_offset=step_offset,
+                denoiser=denoiser,
+                guidance=guidance,
+                add_kwargs=add_kwargs,
+            )
+
+        with torch.inference_mode():
+            # VAE decode latent
+            if output_type == "latent":
+                images = latents
+            else:
+                images = self.decode_latent(latents / self.vae_scaling_factor)
+                if output_type == "pil":
+                    self.start_profile("pil", color="green")
+                    images = self.pt_to_pil(images)
+                    self.stop_profile("pil")
+
+        perf_data = None
+        if show_latency:
+            torch.cuda.synchronize()
+            end_time = time.perf_counter()
+            perf_data = self.print_summary(
+                start_time, end_time, batch_size, vae_enc=self.pipeline_info.is_xl_refiner(), pil=(output_type == "pil")
+            )
+
+        return images, perf_data
+
+    def run(
+        self,
+        prompt: List[str],
+        negative_prompt: List[str],
+        image_height: int,
+        image_width: int,
+        denoising_steps: int = 30,
+        guidance: float = 5.0,
+        seed: Optional[int] = None,
+        image: Optional[torch.Tensor] = None,
+        strength: float = 0.3,
+        controlnet_images: Optional[torch.Tensor] = None,
+        controlnet_scales: Optional[torch.Tensor] = None,
+        show_latency: bool = False,
+        output_type: str = "pil",
+    ):
+        """
+        Run the diffusion pipeline.
+
+        Args:
+            prompt (List[str]):
+                The text prompt to guide image generation.
+            negative_prompt (List[str]):
+                The prompt not to guide the image generation.
+            image_height (int):
+                Height (in pixels) of the image to be generated. Must be a multiple of 8.
+            image_width (int):
+                Width (in pixels) of the image to be generated. Must be a multiple of 8.
+            denoising_steps (int):
+                Number of denoising steps. More steps usually lead to higher quality image at the expense of slower inference.
+            guidance (float):
+                Higher guidance scale encourages to generate images that are closely linked to the text prompt.
+            seed (int):
+                Seed for the random generator
+            image (tuple[torch.Tensor]):
+                Reference image.
+            strength (float):
+                Indicates extent to transform the reference image, which is used as a starting point,
+                and more noise is added the higher the strength.
+            show_latency (bool):
+                Whether return latency data.
+            output_type (str):
+                It can be "latent", "pt" or "pil".
+        """
+        if self.is_backend_tensorrt():
+            import tensorrt as trt
+            from trt_utilities import TRT_LOGGER
+
+            with trt.Runtime(TRT_LOGGER):
+                return self._infer(
+                    prompt,
+                    negative_prompt,
+                    image_height,
+                    image_width,
+                    denoising_steps=denoising_steps,
+                    guidance=guidance,
+                    seed=seed,
+                    image=image,
+                    strength=strength,
+                    controlnet_images=controlnet_images,
+                    controlnet_scales=controlnet_scales,
+                    show_latency=show_latency,
+                    output_type=output_type,
+                )
+        else:
+            return self._infer(
+                prompt,
+                negative_prompt,
+                image_height,
+                image_width,
+                denoising_steps=denoising_steps,
+                guidance=guidance,
+                seed=seed,
+                image=image,
+                strength=strength,
+                controlnet_images=controlnet_images,
+                controlnet_scales=controlnet_scales,
+                show_latency=show_latency,
+                output_type=output_type,
+            )
diff --git a/onnxruntime/python/tools/transformers/models/stable_diffusion/pipeline_txt2img.py b/onnxruntime/python/tools/transformers/models/stable_diffusion/pipeline_txt2img.py
deleted file mode 100644
index 2d2fdb542c845..0000000000000
--- a/onnxruntime/python/tools/transformers/models/stable_diffusion/pipeline_txt2img.py
+++ /dev/null
@@ -1,178 +0,0 @@
-# -------------------------------------------------------------------------
-# Copyright (c) Microsoft Corporation.  All rights reserved.
-# Licensed under the MIT License.
-# --------------------------------------------------------------------------
-# Modified from TensorRT demo diffusion, which has the following license:
-#
-# SPDX-FileCopyrightText: Copyright (c) 1993-2023 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
-# SPDX-License-Identifier: Apache-2.0
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-# --------------------------------------------------------------------------
-
-import time
-
-import torch
-from diffusion_models import PipelineInfo
-from pipeline_stable_diffusion import StableDiffusionPipeline
-
-
-class Txt2ImgPipeline(StableDiffusionPipeline):
-    """
-    Stable Diffusion Txt2Img pipeline using NVidia TensorRT.
-    """
-
-    def __init__(self, pipeline_info: PipelineInfo, **kwargs):
-        """
-        Initializes the Txt2Img Diffusion pipeline.
-
-        Args:
-            pipeline_info (PipelineInfo):
-                Version and Type of stable diffusion pipeline.
-        """
-        super().__init__(pipeline_info, **kwargs)
-
-    def _infer(
-        self,
-        prompt,
-        negative_prompt,
-        image_height,
-        image_width,
-        denoising_steps=50,
-        guidance=7.5,
-        seed=None,
-        controlnet_images=None,
-        controlnet_scales=None,
-        warmup=False,
-        return_type="latent",
-    ):
-        assert len(prompt) == len(negative_prompt)
-        batch_size = len(prompt)
-
-        self.set_denoising_steps(denoising_steps)
-        self.set_random_seed(seed)
-
-        with torch.inference_mode(), torch.autocast("cuda"):
-            # Pre-initialize latents
-            latents = self.initialize_latents(
-                batch_size=batch_size,
-                unet_channels=4,
-                latent_height=(image_height // 8),
-                latent_width=(image_width // 8),
-            )
-
-            torch.cuda.synchronize()
-            e2e_tic = time.perf_counter()
-
-            # CLIP text encoder
-            do_classifier_free_guidance = guidance > 1.0
-            text_embeddings = self.encode_prompt(
-                prompt,
-                negative_prompt,
-                do_classifier_free_guidance=do_classifier_free_guidance,
-            )
-
-            add_kwargs = None
-            if self.pipeline_info.controlnet:
-                controlnet_images = self.preprocess_controlnet_images(
-                    latents.shape[0], controlnet_images, do_classifier_free_guidance=do_classifier_free_guidance
-                )
-                add_kwargs = {
-                    "controlnet_images": controlnet_images,
-                    "controlnet_scales": controlnet_scales.to(controlnet_images.dtype).to(controlnet_images.device),
-                }
-
-            # UNet denoiser
-            latents = self.denoise_latent(latents, text_embeddings, guidance=guidance, add_kwargs=add_kwargs)
-
-            # VAE decode latent
-            images = self.decode_latent(latents / self.vae_scaling_factor)
-
-            torch.cuda.synchronize()
-            e2e_toc = time.perf_counter()
-
-            perf_data = None
-            if not warmup:
-                perf_data = self.print_summary(e2e_tic, e2e_toc, batch_size)
-
-            return images, perf_data
-
-    def run(
-        self,
-        prompt,
-        negative_prompt,
-        image_height,
-        image_width,
-        denoising_steps=30,
-        guidance=7.5,
-        seed=None,
-        controlnet_images=None,
-        controlnet_scales=None,
-        warmup=False,
-        return_type="image",
-    ):
-        """
-        Run the diffusion pipeline.
-
-        Args:
-            prompt (str):
-                The text prompt to guide image generation.
-            negative_prompt (str):
-                The prompt not to guide the image generation.
-            image_height (int):
-                Height (in pixels) of the image to be generated. Must be a multiple of 8.
-            image_width (int):
-                Width (in pixels) of the image to be generated. Must be a multiple of 8.
-            denoising_steps (int):
-                Number of denoising steps. More steps usually lead to higher quality image at the expense of slower inference.
-            guidance (float):
-                Higher guidance scale encourages to generate images that are closely linked to the text prompt.
-            seed (int):
-                Seed for the random generator
-            warmup (bool):
-                Indicate if this is a warmup run.
-            return_type (str):
-                type of return. The value can be "latent" or "image".
-        """
-        if self.is_backend_tensorrt():
-            import tensorrt as trt
-            from trt_utilities import TRT_LOGGER
-
-            with trt.Runtime(TRT_LOGGER):
-                return self._infer(
-                    prompt,
-                    negative_prompt,
-                    image_height,
-                    image_width,
-                    denoising_steps=denoising_steps,
-                    guidance=guidance,
-                    seed=seed,
-                    controlnet_images=controlnet_images,
-                    controlnet_scales=controlnet_scales,
-                    warmup=warmup,
-                    return_type=return_type,
-                )
-        else:
-            return self._infer(
-                prompt,
-                negative_prompt,
-                image_height,
-                image_width,
-                denoising_steps=denoising_steps,
-                guidance=guidance,
-                seed=seed,
-                controlnet_images=controlnet_images,
-                controlnet_scales=controlnet_scales,
-                warmup=warmup,
-                return_type=return_type,
-            )
diff --git a/onnxruntime/python/tools/transformers/models/stable_diffusion/pipeline_txt2img_xl.py b/onnxruntime/python/tools/transformers/models/stable_diffusion/pipeline_txt2img_xl.py
deleted file mode 100644
index fa0035494217b..0000000000000
--- a/onnxruntime/python/tools/transformers/models/stable_diffusion/pipeline_txt2img_xl.py
+++ /dev/null
@@ -1,231 +0,0 @@
-# -------------------------------------------------------------------------
-# Copyright (c) Microsoft Corporation.  All rights reserved.
-# Licensed under the MIT License.
-# --------------------------------------------------------------------------
-# Modified from TensorRT demo diffusion, which has the following license:
-#
-# SPDX-FileCopyrightText: Copyright (c) 1993-2023 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
-# SPDX-License-Identifier: Apache-2.0
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-# --------------------------------------------------------------------------
-
-import time
-
-import torch
-from diffusion_models import PipelineInfo
-from pipeline_stable_diffusion import StableDiffusionPipeline
-
-
-class Txt2ImgXLPipeline(StableDiffusionPipeline):
-    """
-    Stable Diffusion Txt2Img XL pipeline.
-    """
-
-    def __init__(self, pipeline_info: PipelineInfo, *args, **kwargs):
-        """
-        Initializes the Txt2Img XL Diffusion pipeline.
-
-        Args:
-            pipeline_info (PipelineInfo):
-                Version and Type of stable diffusion pipeline.
-        """
-        assert pipeline_info.is_xl_base_or_turbo()
-
-        super().__init__(pipeline_info, *args, **kwargs)
-
-    def _get_add_time_ids(self, original_size, crops_coords_top_left, target_size, dtype):
-        add_time_ids = list(original_size + crops_coords_top_left + target_size)
-        add_time_ids = torch.tensor([add_time_ids], dtype=dtype)
-        return add_time_ids
-
-    def _infer(
-        self,
-        prompt,
-        negative_prompt,
-        image_height,
-        image_width,
-        denoising_steps=30,
-        guidance=5.0,
-        seed=None,
-        controlnet_images=None,
-        controlnet_scales=None,
-        warmup=False,
-        return_type="image",
-    ):
-        assert len(prompt) == len(negative_prompt)
-        do_classifier_free_guidance = guidance > 1.0
-        original_size = (image_height, image_width)
-        crops_coords_top_left = (0, 0)
-        target_size = (image_height, image_width)
-        batch_size = len(prompt)
-
-        self.set_denoising_steps(denoising_steps)
-        self.set_random_seed(seed)
-
-        with torch.inference_mode(), torch.autocast("cuda"):
-            # Pre-initialize latents
-            latents = self.initialize_latents(
-                batch_size=batch_size,
-                unet_channels=4,
-                latent_height=(image_height // 8),
-                latent_width=(image_width // 8),
-            )
-
-            torch.cuda.synchronize()
-            e2e_tic = time.perf_counter()
-
-            # CLIP text encoder
-            text_embeddings = self.encode_prompt(
-                prompt,
-                negative_prompt,
-                encoder="clip",
-                tokenizer=self.tokenizer,
-                output_hidden_states=True,
-                force_zeros_for_empty_prompt=True,
-                do_classifier_free_guidance=do_classifier_free_guidance,
-            )
-            # CLIP text encoder 2
-            text_embeddings2, pooled_embeddings2 = self.encode_prompt(
-                prompt,
-                negative_prompt,
-                encoder="clip2",
-                tokenizer=self.tokenizer2,
-                pooled_outputs=True,
-                output_hidden_states=True,
-                force_zeros_for_empty_prompt=True,
-                do_classifier_free_guidance=do_classifier_free_guidance,
-            )
-
-            # Merged text embeddings
-            text_embeddings = torch.cat([text_embeddings, text_embeddings2], dim=-1)
-
-            # Time embeddings
-            add_time_ids = self._get_add_time_ids(
-                original_size, crops_coords_top_left, target_size, dtype=text_embeddings.dtype
-            )
-            add_time_ids = add_time_ids.repeat(batch_size, 1)
-            if do_classifier_free_guidance:
-                add_time_ids = torch.cat([add_time_ids, add_time_ids], dim=0)
-
-            add_kwargs = {"text_embeds": pooled_embeddings2, "time_ids": add_time_ids.to(self.device)}
-            if self.pipeline_info.controlnet:
-                controlnet_images = self.preprocess_controlnet_images(
-                    latents.shape[0],
-                    controlnet_images,
-                    do_classifier_free_guidance=do_classifier_free_guidance,
-                    height=image_height,
-                    width=image_width,
-                )
-                add_kwargs.update(
-                    {
-                        "controlnet_images": controlnet_images,
-                        "controlnet_scales": controlnet_scales.to(controlnet_images.dtype).to(controlnet_images.device),
-                    }
-                )
-
-            # UNet denoiser
-            latents = self.denoise_latent(
-                latents,
-                text_embeddings,
-                denoiser="unetxl",
-                guidance=guidance,
-                add_kwargs=add_kwargs,
-            )
-
-            # VAE decode latent
-            if return_type == "latent":
-                images = latents
-            else:
-                images = self.decode_latent(latents / self.vae_scaling_factor)
-
-            torch.cuda.synchronize()
-            e2e_toc = time.perf_counter()
-
-            perf_data = None
-            if not warmup:
-                print("SD-XL Base Pipeline")
-                perf_data = self.print_summary(e2e_tic, e2e_toc, batch_size)
-
-            return images, perf_data
-
-    def run(
-        self,
-        prompt,
-        negative_prompt,
-        image_height,
-        image_width,
-        denoising_steps=30,
-        guidance=5.0,
-        seed=None,
-        controlnet_images=None,
-        controlnet_scales=None,
-        warmup=False,
-        return_type="image",
-    ):
-        """
-        Run the diffusion pipeline.
-
-        Args:
-            prompt (str):
-                The text prompt to guide image generation.
-            negative_prompt (str):
-                The prompt not to guide the image generation.
-            image_height (int):
-                Height (in pixels) of the image to be generated. Must be a multiple of 8.
-            image_width (int):
-                Width (in pixels) of the image to be generated. Must be a multiple of 8.
-            denoising_steps (int):
-                Number of denoising steps. More steps usually lead to higher quality image at the expense of slower inference.
-            guidance (float):
-                Higher guidance scale encourages to generate images that are closely linked to the text prompt.
-            seed (int):
-                Seed for the random generator
-            warmup (bool):
-                Indicate if this is a warmup run.
-            return_type (str):
-                It can be "latent" or "image".
-        """
-
-        if self.is_backend_tensorrt():
-            import tensorrt as trt
-            from trt_utilities import TRT_LOGGER
-
-            with trt.Runtime(TRT_LOGGER):
-                return self._infer(
-                    prompt,
-                    negative_prompt,
-                    image_height,
-                    image_width,
-                    denoising_steps=denoising_steps,
-                    guidance=guidance,
-                    seed=seed,
-                    controlnet_images=controlnet_images,
-                    controlnet_scales=controlnet_scales,
-                    warmup=warmup,
-                    return_type=return_type,
-                )
-        else:
-            return self._infer(
-                prompt,
-                negative_prompt,
-                image_height,
-                image_width,
-                denoising_steps=denoising_steps,
-                guidance=guidance,
-                seed=seed,
-                controlnet_images=controlnet_images,
-                controlnet_scales=controlnet_scales,
-                warmup=warmup,
-                return_type=return_type,
-            )
diff --git a/onnxruntime/python/tools/transformers/models/stable_diffusion/requirements.txt b/onnxruntime/python/tools/transformers/models/stable_diffusion/requirements.txt
index 8865c1505c34c..d2488fe6d6db9 100644
--- a/onnxruntime/python/tools/transformers/models/stable_diffusion/requirements.txt
+++ b/onnxruntime/python/tools/transformers/models/stable_diffusion/requirements.txt
@@ -1,5 +1,5 @@
 diffusers==0.24.0
-transformers==4.35.2
+transformers==4.36.0
 numpy>=1.24.1
 accelerate
 onnx==1.14.1
diff --git a/onnxruntime/python/tools/transformers/onnx_model.py b/onnxruntime/python/tools/transformers/onnx_model.py
index 7bdbc08cf733a..37b39c91b5c15 100644
--- a/onnxruntime/python/tools/transformers/onnx_model.py
+++ b/onnxruntime/python/tools/transformers/onnx_model.py
@@ -1311,3 +1311,119 @@ def use_float16(self):
             queue = sub_graphs
 
         return False
+
+    def change_graph_input_type(
+        self,
+        graph_input: ValueInfoProto,
+        new_type: int,
+    ):
+        """Change graph input type, and add Cast node if needed.
+
+        Args:
+            graph_input (ValueInfoProto): input of the graph
+            new_type (int): new data type like TensorProto.INT32.
+
+        Returns:
+            NodeProto: a new Cast node that added. None if Cast node is not added.
+            List[NodeProto]: Cast nodes that have been removed.
+        """
+        assert isinstance(graph_input, ValueInfoProto)
+        assert self.find_graph_input(graph_input.name)
+
+        if graph_input.type.tensor_type.elem_type == int(new_type):
+            return None, []
+
+        graph = self.graph()
+        new_cast_node = None
+        nodes_to_remove = []
+
+        input_name_to_nodes = self.input_name_to_nodes()
+        if graph_input.name in input_name_to_nodes:
+            nodes = input_name_to_nodes[graph_input.name]
+
+            # For children that is not Cast node, insert a Cast node to convert int32 to original data type.
+            nodes_not_cast = [node for node in nodes if node.op_type != "Cast"]
+            if nodes_not_cast:
+                node_name = self.create_node_name("Cast")
+                output_name = node_name + "_" + graph_input.name
+                new_value_info = graph.value_info.add()
+                new_value_info.CopyFrom(graph_input)
+                new_value_info.name = output_name
+                new_cast_node = helper.make_node(
+                    "Cast",
+                    [graph_input.name],
+                    [output_name],
+                    to=int(graph_input.type.tensor_type.elem_type),
+                    name=node_name,
+                )
+                graph.node.extend([new_cast_node])
+
+                for node in nodes_not_cast:
+                    OnnxModel.replace_node_input(node, graph_input.name, output_name)
+
+            # For children that is Cast node, no need to insert Cast.
+            # When the children is Cast to int32, we can remove that Cast node since input type is int32 now.
+            nodes_cast = [node for node in nodes if node.op_type == "Cast"]
+            for node in nodes_cast:
+                if OnnxModel.get_node_attribute(node, "to") == int(new_type):
+                    self.replace_input_of_all_nodes(node.output[0], graph_input.name)
+                if not self.find_graph_output(node.output[0]):
+                    nodes_to_remove.append(node)
+            if nodes_to_remove:
+                self.remove_nodes(nodes_to_remove)
+
+        graph_input.type.tensor_type.elem_type = int(new_type)
+        return new_cast_node, nodes_to_remove
+
+    def change_graph_output_type(
+        self,
+        graph_output: ValueInfoProto,
+        new_type: int,
+    ):
+        """Change graph input type, and add Cast node if needed.
+
+        Args:
+            graph_input (str | ValueInfoProto): output of the graph
+            new_type (int): new data type.
+
+        Returns:
+            NodeProto: a new Cast node that added. None if Cast node is not added.
+        """
+        assert isinstance(graph_output, ValueInfoProto)
+        assert self.find_graph_output(graph_output.name)
+
+        if graph_output.type.tensor_type.elem_type == int(new_type):
+            return None
+
+        cast_node = None
+        graph = self.graph()
+
+        # Add a cast node
+        node_name = self.create_node_name("Cast")
+        input_name = node_name + "_" + graph_output.name
+        self.replace_input_of_all_nodes(graph_output.name, input_name)
+        new_value_info = graph.value_info.add()
+        new_value_info.CopyFrom(graph_output)
+        new_value_info.name = input_name
+        cast_node = helper.make_node(
+            "Cast",
+            [input_name],
+            [graph_output.name],
+            to=int(new_type),
+            name=node_name,
+        )
+        graph.node.extend([cast_node])
+        graph_output.type.tensor_type.elem_type = int(new_type)
+        return cast_node
+
+    def rename_graph_output(self, old_name: str, new_name: str):
+        if new_name in self.output_name_to_node():
+            raise RuntimeError("{new_name} exists in graph")
+
+        graph = self.graph()
+        for output in graph.output:
+            if output.name == old_name:
+                logger.debug("replace output name from %s to %s", old_name, new_name)
+                self.replace_input_of_all_nodes(old_name, new_name)
+                self.replace_output_of_all_nodes(old_name, new_name)
+                output.name = new_name
diff --git a/onnxruntime/python/tools/transformers/onnx_model_bert.py b/onnxruntime/python/tools/transformers/onnx_model_bert.py
index 882100a0d019e..51deb67ce5bf3 100644
--- a/onnxruntime/python/tools/transformers/onnx_model_bert.py
+++ b/onnxruntime/python/tools/transformers/onnx_model_bert.py
@@ -27,7 +27,7 @@
 from fusion_simplified_layernorm import FusionSimplifiedLayerNormalization, FusionSkipSimplifiedLayerNormalization
 from fusion_skiplayernorm import FusionBiasSkipLayerNormalization, FusionSkipLayerNormalization
 from fusion_utils import FusionUtils
-from onnx import GraphProto, ModelProto, TensorProto, ValueInfoProto, helper
+from onnx import ModelProto, TensorProto, helper
 from onnx_model import OnnxModel
 
 logger = getLogger(__name__)
@@ -170,78 +170,13 @@ def get_graph_inputs_from_fused_nodes(self, casted: bool):
         inputs += self.get_graph_inputs_from_node_type("Attention", [3], casted)
         return inputs
 
-    def change_graph_input_type(
-        self,
-        graph: GraphProto,
-        graph_input: ValueInfoProto,
-        new_type: int = TensorProto.INT32,
-    ):
-        """Change graph input type, and add Cast node if needed.
-
-        Args:
-            graph (GraphProto): graph
-            graph_input (TensorProto): input of the graph
-            new_type (int, optional): new data type. Defaults to TensorProto.INT32.
-
-        Returns:
-            NodeProto: a new Cast node that added. None if Cast node is not added.
-            List[NodeProto]: Cast nodes that have been removed.
-        """
-        assert isinstance(graph, GraphProto)
-        assert isinstance(graph_input, ValueInfoProto)
-        assert self.find_graph_input(graph_input.name)
-
-        if graph_input.type.tensor_type.elem_type == int(new_type):
-            return None, []
-
-        new_cast_node = None
-        nodes_to_remove = []
-
-        input_name_to_nodes = self.input_name_to_nodes()
-        if graph_input.name in input_name_to_nodes:
-            nodes = input_name_to_nodes[graph_input.name]
-
-            # For children that is not Cast node, insert a Cast node to convert int32 to original data type.
-            nodes_not_cast = [node for node in nodes if node.op_type != "Cast"]
-            if nodes_not_cast:
-                node_name = self.create_node_name("Cast")
-                output_name = node_name + "_" + graph_input.name
-                new_value_info = graph.value_info.add()
-                new_value_info.CopyFrom(graph_input)
-                new_value_info.name = output_name
-                new_cast_node = helper.make_node(
-                    "Cast",
-                    [graph_input.name],
-                    [output_name],
-                    to=int(graph_input.type.tensor_type.elem_type),
-                    name=node_name,
-                )
-                graph.node.extend([new_cast_node])
-
-                for node in nodes_not_cast:
-                    OnnxModel.replace_node_input(node, graph_input.name, output_name)
-
-            # For children that is Cast node, no need to insert Cast.
-            # When the children is Cast to int32, we can remove that Cast node since input type is int32 now.
-            nodes_cast = [node for node in nodes if node.op_type == "Cast"]
-            for node in nodes_cast:
-                if OnnxModel.get_node_attribute(node, "to") == int(new_type):
-                    self.replace_input_of_all_nodes(node.output[0], graph_input.name)
-                if not self.find_graph_output(node.output[0]):
-                    nodes_to_remove.append(node)
-            if nodes_to_remove:
-                self.remove_nodes(nodes_to_remove)
-
-        graph_input.type.tensor_type.elem_type = int(new_type)
-        return new_cast_node, nodes_to_remove
-
     def change_graph_inputs_to_int32(self):
         """Change data type of all graph inputs to int32 type, and add Cast node if needed."""
         graph = self.graph()
         add_cast_count = 0
         remove_cast_count = 0
         for graph_input in graph.input:
-            new_node, removed_nodes = self.change_graph_input_type(graph, graph_input, TensorProto.INT32)
+            new_node, removed_nodes = self.change_graph_input_type(graph_input, TensorProto.INT32)
             if new_node:
                 add_cast_count += 1
             remove_cast_count += len(removed_nodes)
diff --git a/onnxruntime/test/contrib_ops/matmul_4bits_test.cc b/onnxruntime/test/contrib_ops/matmul_4bits_test.cc
index 3c6217915bef0..0b7a6fd3e7bc5 100644
--- a/onnxruntime/test/contrib_ops/matmul_4bits_test.cc
+++ b/onnxruntime/test/contrib_ops/matmul_4bits_test.cc
@@ -5,6 +5,7 @@
 
 #include "core/common/span_utils.h"
 #include "core/framework/tensor.h"
+#include "core/mlas/inc/mlas_qnbit.h"
 #include "core/mlas/inc/mlas_q4.h"
 #include "core/mlas/inc/mlas.h"
 #include "core/session/inference_session.h"
@@ -62,7 +63,8 @@ void QuantizeDequantize(std::vector<float>& raw_vals,
       tp.get());
 }
 
-void RunTest(int64_t M, int64_t N, int64_t K, int64_t block_size, bool has_zeropoint, bool use_float16) {
+void RunTest(int64_t M, int64_t N, int64_t K, int64_t block_size, MLAS_SQNBIT_COMPUTE_TYPE comp_type,
+             bool has_zeropoint, bool use_float16) {
   RandomValueGenerator random{1234};
   std::vector<float> input0_vals(random.Gaussian<float>(std::vector<int64_t>({M, K}), 0.0f, 0.25f));
   std::vector<float> input1_f_vals(random.Gaussian<float>(std::vector<int64_t>({K, N}), 0.0f, 0.25f));
@@ -108,6 +110,7 @@ void RunTest(int64_t M, int64_t N, int64_t K, int64_t block_size, bool has_zerop
   test.AddAttribute<int64_t>("N", N);
   test.AddAttribute<int64_t>("block_size", block_size);
   test.AddAttribute<int64_t>("bits", QBits);
+  test.AddAttribute<int64_t>("accuracy_level", comp_type);
   if (use_float16) {
     test.AddInput<MLFloat16>("A", {M, K}, ToFloat16(input0_vals), false);
     test.AddInput<uint8_t>("B", {q_cols, q_rows}, input1_vals, true);
@@ -131,6 +134,9 @@ void RunTest(int64_t M, int64_t N, int64_t K, int64_t block_size, bool has_zerop
     }
 
     test.AddOutput<float>("Y", {M, N}, expected_vals);
+    if (comp_type == CompInt8) {
+      test.SetOutputAbsErr("Y", 0.1f);
+    }
 
     test.Run();
   }
@@ -141,8 +147,10 @@ TEST(MatMulNBits, Float32) {
     for (auto N : {1, 2, 32, 288}) {
       for (auto K : {16, 32, 64, 128, 256, 1024, 93, 1234}) {
         for (auto block_size : {16, 32, 64, 128}) {
-          RunTest(M, N, K, block_size, false, false);
-          RunTest(M, N, K, block_size, true, false);
+          for (auto comp : {CompUndef, CompFp32, CompInt8}) {
+            RunTest(M, N, K, block_size, comp, false, false);
+            RunTest(M, N, K, block_size, comp, true, false);
+          }
         }
       }
     }
@@ -155,14 +163,183 @@ TEST(MatMulNBits, Float16) {
     for (auto N : {1, 2, 32, 288}) {
       for (auto K : {16, 32, 64, 128, 256, 1024, 93, 1234}) {
         for (auto block_size : {16, 32, 64, 128}) {
-          RunTest(M, N, K, block_size, false, true);
-          RunTest(M, N, K, block_size, true, true);
+          RunTest(M, N, K, block_size, CompUndef, false, true);
+          RunTest(M, N, K, block_size, CompUndef, true, true);
         }
       }
     }
   }
 }
 
+#endif
+
+void RunSharedPrepackedWeightsTest(int64_t M, int64_t N, int64_t K, int block_size, bool is_asym,
+                                   MLAS_SQNBIT_COMPUTE_TYPE acc_lvl) {
+  // (M x K) X (K x N)
+
+  OpTester test("MatMulNBits", 1, kMSDomain);
+  test.AddAttribute<int64_t>("accuracy_level", int64_t(acc_lvl));
+  test.AddAttribute<int64_t>("block_size", int64_t(block_size));
+  test.AddAttribute<int64_t>("bits", QBits);
+  test.AddAttribute<int64_t>("N", N);
+  test.AddAttribute<int64_t>("K", K);
+
+  std::vector<float> input0_vals(M * K);
+  float fv = -135.f;
+  for (auto& f : input0_vals) {
+    f = fv / 127;
+    fv++;
+    if (fv > 135.f) {
+      fv = -135.f;
+    }
+  }
+
+  size_t kblks = K / block_size;
+  std::vector<uint8_t> input1_vals(N * K / 2);
+  for (size_t i = 0; i < input1_vals.size(); i++) {
+    input1_vals[i] = uint8_t(i);
+  }
+  std::vector<float> input2_vals(N * kblks, 0.002f);
+  for (size_t i = 0; i < N * kblks; i++) {
+    input2_vals[i] += (i % 100) * 0.00003f;
+  }
+  std::vector<uint8_t> input3_vals(N * kblks / 2, static_cast<uint8_t>(0x88));
+
+  std::vector<float> input1_f_vals(N * K);
+  if (is_asym) {
+    for (size_t i = 0; i < N * kblks; i += 2) {
+      input3_vals[i / 2] = static_cast<uint8_t>(i + 1);
+    }
+    for (int64_t i = 0; i < K; i += 2) {
+      for (int64_t j = 0; j < N; j++) {
+        auto srcv = input1_vals[j * K / 2 + i / 2];
+        auto koff = i % (block_size * 2);
+        auto zpv = input3_vals[j * kblks / 2 + i / block_size / 2];
+        auto zp0 = koff < block_size ? (zpv & 0xf) - 8 : ((zpv & 0xf0) >> 4) - 8;
+        auto src0 = (srcv & 0xf) - 8;
+        auto src1 = ((srcv & 0xf0) >> 4) - 8;
+        auto scale0 = input2_vals[j * kblks + i / block_size];
+        auto scale1 = input2_vals[j * kblks + (i + 1) / block_size];
+        input1_f_vals[i * N + j] = (static_cast<float>(src0) - zp0) * scale0;
+        input1_f_vals[(i + 1) * N + j] = (static_cast<float>(src1) - zp0) * scale1;
+      }
+    }
+  } else {
+    for (int64_t i = 0; i < K; i += 2) {
+      for (int64_t j = 0; j < N; j++) {
+        auto srcv = input1_vals[j * K / 2 + i / 2];
+        auto src0 = (srcv & 0xf) - 8;
+        auto src1 = ((srcv & 0xf0) >> 4) - 8;
+        auto scale0 = input2_vals[j * kblks + i / block_size];
+        auto scale1 = input2_vals[j * kblks + (i + 1) / block_size];
+        input1_f_vals[i * N + j] = static_cast<float>(src0) * scale0;
+        input1_f_vals[(i + 1) * N + j] = static_cast<float>(src1) * scale1;
+      }
+    }
+  }
+
+  std::vector<float> expected_vals(M * N);
+  for (int64_t m = 0; m < M; m++) {
+    for (int64_t n = 0; n < N; n++) {
+      float sum = 0.0f;
+      for (int64_t k = 0; k < K; k++) {
+        sum += input0_vals[m * K + k] * input1_f_vals[k * N + n];
+      }
+      expected_vals[m * N + n] = sum;
+    }
+  }
+
+  test.AddInput<float>("A", {M, K}, input0_vals, false);
+
+  test.AddInput<uint8_t>("B", {N, static_cast<int64_t>(kblks), static_cast<int64_t>(block_size / 2)}, input1_vals,
+                         true);
+  test.AddInput<float>("scales", {N, static_cast<int64_t>(kblks)}, input2_vals, true);
+  if (is_asym) {
+    test.AddInput<uint8_t>("zero_points", {N, static_cast<int64_t>(kblks / 2)}, input3_vals, true);
+  }
+  test.AddOutput<float>("Y", {M, N}, expected_vals, false);
+  if (acc_lvl == CompInt8) {
+    test.SetOutputAbsErr("Y", 0.1f);
+  }
+
+  OrtValue b, scale, zp;
+  Tensor::InitOrtValue(DataTypeImpl::GetType<uint8_t>(),
+                       TensorShape({N, static_cast<int64_t>(kblks), static_cast<int64_t>(block_size / 2)}),
+                       input1_vals.data(), OrtMemoryInfo(CPU, OrtAllocatorType::OrtDeviceAllocator), b);
+
+  Tensor::InitOrtValue(DataTypeImpl::GetType<float>(), TensorShape({N, static_cast<int64_t>(kblks)}),
+                       input2_vals.data(), OrtMemoryInfo(CPU, OrtAllocatorType::OrtDeviceAllocator), scale);
+  if (is_asym) {
+    Tensor::InitOrtValue(DataTypeImpl::GetType<uint8_t>(), TensorShape({N, static_cast<int64_t>(kblks / 2)}),
+                         input3_vals.data(), OrtMemoryInfo(CPU, OrtAllocatorType::OrtDeviceAllocator), zp);
+  }
+  SessionOptions so;
+  // Set up B as a shared initializer to be shared between sessions
+  ASSERT_EQ(so.AddInitializer("B", &b), Status::OK());
+  ASSERT_EQ(so.AddInitializer("scales", &scale), Status::OK());
+  if (is_asym) {
+    ASSERT_EQ(so.AddInitializer("zero_points", &zp), Status::OK());
+  }
+
+  // We want all sessions running using this OpTester to be able to share pre-packed weights if applicable
+  test.EnableSharingOfPrePackedWeightsAcrossSessions();
+
+  // Pre-packing is limited just to the CPU EP for now and we will only test the CPU EP
+  // and we want to ensure that it is available in this build
+  auto cpu_ep = []() -> std::vector<std::unique_ptr<IExecutionProvider>> {
+    std::vector<std::unique_ptr<IExecutionProvider>> execution_providers;
+    execution_providers.push_back(DefaultCpuExecutionProvider());
+    return execution_providers;
+  };
+
+  size_t number_of_pre_packed_weights_counter_session_1 = 0;
+  size_t number_of_shared_pre_packed_weights_counter = 0;
+
+  // Session 1
+  {
+    auto ep_vec = cpu_ep();
+    test.Run(so, OpTester::ExpectResult::kExpectSuccess, "", {}, nullptr, &ep_vec, {},
+             &number_of_pre_packed_weights_counter_session_1, &number_of_shared_pre_packed_weights_counter);
+    // Assert that no pre-packed weights have been shared thus far
+    ASSERT_EQ(number_of_shared_pre_packed_weights_counter, static_cast<size_t>(0));
+  }
+
+  auto number_of_elements_in_shared_prepacked_buffers_container = test.GetNumPrePackedWeightsShared();
+  // Assert that the number of elements in the shared container
+  // is the same as the number of weights that have been pre-packed
+  ASSERT_EQ(number_of_pre_packed_weights_counter_session_1, number_of_elements_in_shared_prepacked_buffers_container);
+
+  // On some platforms/architectures MLAS may choose to not do any pre-packing and the number of elements
+  // that have been pre-packed will be zero in which case we do not continue with the testing
+  // of "sharing" of pre-packed weights as there are no pre-packed weights to be shared at all.
+  if (number_of_pre_packed_weights_counter_session_1 == 0) return;
+
+  // Session 2
+  {
+    size_t number_of_pre_packed_weights_counter_session_2 = 0;
+    auto ep_vec = cpu_ep();
+    test.Run(so, OpTester::ExpectResult::kExpectSuccess, "", {}, nullptr, &ep_vec, {},
+             &number_of_pre_packed_weights_counter_session_2, &number_of_shared_pre_packed_weights_counter);
+
+    // Assert that the same number of weights were pre-packed in both sessions
+    ASSERT_EQ(number_of_pre_packed_weights_counter_session_1, number_of_pre_packed_weights_counter_session_2);
+
+    // Assert that the number of pre-packed weights that were shared equals
+    // the number of pre-packed weights in the second session
+    ASSERT_EQ(number_of_pre_packed_weights_counter_session_2,
+              static_cast<size_t>(number_of_shared_pre_packed_weights_counter));
+  }
+}
+
+#ifdef MLAS_JBLAS
+TEST(MatMulNBits, SharedPrepackedWeights) {
+  RunSharedPrepackedWeightsTest(2, 4096, 4096, 32, true, CompFp32);
+  RunSharedPrepackedWeightsTest(2, 4096, 4096, 32, false, CompFp32);
+  RunSharedPrepackedWeightsTest(2, 4096, 4096, 128, false, CompFp32);
+  RunSharedPrepackedWeightsTest(2, 4096, 4096, 128, false, CompInt8);
+  RunSharedPrepackedWeightsTest(2, 4096, 4096, 1024, false, CompInt8);
+  RunSharedPrepackedWeightsTest(2, 4096, 4096, 4096, false, CompInt8);
+}
 #endif
 }  // namespace test
 }  // namespace onnxruntime
diff --git a/onnxruntime/test/mlas/bench/bench_sqnbitgemm.cpp b/onnxruntime/test/mlas/bench/bench_sqnbitgemm.cpp
index 2f2635dab0512..cf67ef6f82051 100644
--- a/onnxruntime/test/mlas/bench/bench_sqnbitgemm.cpp
+++ b/onnxruntime/test/mlas/bench/bench_sqnbitgemm.cpp
@@ -84,3 +84,57 @@ BENCHMARK(SQNBITGEMM<4, 128, false>)->Apply(GemmSizeProducts)->UseRealTime();
 BENCHMARK(SQNBITGEMM<4, 128, true>)->Apply(GemmSizeProducts)->UseRealTime();
 BENCHMARK(SQNBITGEMM<4, 256, false>)->Apply(GemmSizeProducts)->UseRealTime();
 BENCHMARK(SQNBITGEMM<4, 256, true>)->Apply(GemmSizeProducts)->UseRealTime();
+
+#ifdef MLAS_JBLAS
+void Q4GEMM_Jblas(benchmark::State& state, int block_size, bool is_asym, MLAS_SQNBIT_COMPUTE_TYPE cmp_type) {
+  if (state.range(0) <= 0) throw std::invalid_argument("M must greater than 0!");
+  if (state.range(1) <= 0) throw std::invalid_argument("N must greater than 0!");
+  if (state.range(2) <= 0) throw std::invalid_argument("K must greater than 0!");
+  if (state.range(3) <= 0) throw std::invalid_argument("Threads must greater than 0!");
+
+  const size_t M = static_cast<size_t>(state.range(0));
+  const size_t N = static_cast<size_t>(state.range(1));
+  const size_t K = static_cast<size_t>(state.range(2));
+  const size_t threads = static_cast<size_t>(state.range(3));
+  block_size = block_size == -1 ? static_cast<int>(K) : block_size;
+  const size_t pack_b_size = MlasNBitsGemmPackBSize(N, K, block_size, 4, is_asym, cmp_type);
+
+  OrtThreadPoolParams tpo;
+  tpo.thread_pool_size = static_cast<int>(threads);
+  tpo.auto_set_affinity = true;
+  std::unique_ptr<onnxruntime::concurrency::ThreadPool> tp(onnxruntime::concurrency::CreateThreadPool(
+      &onnxruntime::Env::Default(), tpo, onnxruntime::concurrency::ThreadPoolType::INTRA_OP));
+
+  auto A1 = RandomVectorUniform(static_cast<size_t>(M * K), -1.0f, 1.0f);
+  auto B1 = RandomVectorUniform<uint8_t>(static_cast<size_t>(N * K / 2), 0, 255);
+  auto blk_num = static_cast<size_t>((K + block_size - 1) / block_size);
+  auto B_scale = RandomVectorUniform(static_cast<size_t>(N * blk_num), 0.003f, 0.005f);
+  std::vector<float> C1(static_cast<size_t>(M * N));
+  auto B_zp = RandomVectorUniform<uint8_t>(static_cast<size_t>(N * blk_num / 2), 0, 255);
+
+  std::vector<int8_t> B1_packed(pack_b_size);
+  MlasNBitsGemmPackB(B1_packed.data(), B1.data(), B_scale.data(), is_asym ? B_zp.data() : nullptr, N, K, K, block_size,
+                     4, is_asym, true, cmp_type, tp.get());
+
+  MLAS_SQNBITS_GEMM_DATA_PACKED_PARAMS params1;
+  params1.A = A1.data();
+  params1.lda = K;
+  params1.C = C1.data();
+  params1.ldc = N;
+  params1.B = B1_packed.data();
+  std::vector<int8_t> workspace(static_cast<size_t>(M <= 32 ? 32 : M) * K * 4);
+  MlasSQNBitsGemmBatchPackedB(M, N, K, 1, &params1, workspace.data(), tp.get());
+
+  for (auto _ : state) {
+    MlasSQNBitsGemmBatchPackedB(M, N, K, 1, &params1, workspace.data(), tp.get());
+  }
+}
+
+BENCHMARK_CAPTURE(Q4GEMM_Jblas, Q4G32SymInt8, 32, false, CompInt8)->Apply(GemmSizeProducts)->UseRealTime();
+BENCHMARK_CAPTURE(Q4GEMM_Jblas, Q4G128SymInt8, 128, false, CompInt8)->Apply(GemmSizeProducts)->UseRealTime();
+BENCHMARK_CAPTURE(Q4GEMM_Jblas, Q4GPerNSymInt8, -1, false, CompInt8)->Apply(GemmSizeProducts)->UseRealTime();
+BENCHMARK_CAPTURE(Q4GEMM_Jblas, Q4G32SymFp32, 32, false, CompFp32)->Apply(GemmSizeProducts)->UseRealTime();
+BENCHMARK_CAPTURE(Q4GEMM_Jblas, Q4G128SymFp32, 128, false, CompFp32)->Apply(GemmSizeProducts)->UseRealTime();
+BENCHMARK_CAPTURE(Q4GEMM_Jblas, Q4GPerNSymFp32, -1, false, CompFp32)->Apply(GemmSizeProducts)->UseRealTime();
+BENCHMARK_CAPTURE(Q4GEMM_Jblas, Q4G32AsymFp32, 32, true, CompFp32)->Apply(GemmSizeProducts)->UseRealTime();
+#endif
diff --git a/onnxruntime/test/onnx/main.cc b/onnxruntime/test/onnx/main.cc
index 646ff7c95b229..51edb91b5d3af 100644
--- a/onnxruntime/test/onnx/main.cc
+++ b/onnxruntime/test/onnx/main.cc
@@ -50,15 +50,12 @@ void usage() {
       "\t-a: Specify custom absolute tolerance values for output value comparison. default: 1e-5\n"
       "\t-i: Specify EP specific runtime options as key value pairs. Different runtime options available are: \n"
       "\t    [QNN only] [backend_path]: QNN backend path. e.g '/folderpath/libQnnHtp.so', '/folderpath/libQnnCpu.so'.\n"
-      "\t    [QNN only] [qnn_context_cache_enable]: 1 to enable cache QNN context. Default to false.\n"
-      "\t    [QNN only] [qnn_context_cache_path]: File path to the qnn context cache. Default to model_file.onnx.bin if not set.\n"
       "\t    [QNN only] [profiling_level]: QNN profiling level, options:  'basic', 'detailed', default 'off'.\n"
       "\t    [QNN only] [rpc_control_latency]: QNN rpc control latency. default to 10.\n"
       "\t    [QNN only] [vtcm_mb]: QNN VTCM size in MB. default to 0(not set).\n"
       "\t    [QNN only] [htp_performance_mode]: QNN performance mode, options: 'burst', 'balanced', 'default', 'high_performance', \n"
       "\t    'high_power_saver', 'low_balanced', 'low_power_saver', 'power_saver', 'sustained_high_performance'. Default to 'default'. \n"
       "\t    [QNN only] [qnn_context_priority]: QNN context priority, options: 'low', 'normal', 'normal_high', 'high'. Default to 'normal'. \n"
-      "\t    [QNN only] [qnn_context_embed_mode]: 1 means dump the QNN context binary into the Onnx skeleton model.\n"
       "\t    0 means dump the QNN context binary into separate bin file and set the path in the Onnx skeleton model.\n"
       "\t    [QNN only] [qnn_saver_path]: QNN Saver backend path. e.g '/folderpath/libQnnSaver.so'.\n"
       "\t    [QNN only] [htp_graph_finalization_optimization_mode]: QNN graph finalization optimization mode, options: \n"
@@ -73,6 +70,8 @@ void usage() {
       "\t [Example] [For SNPE EP] -e snpe -i \"runtime|CPU priority|low\" \n\n"
       "\t-o [optimization level]: Default is 99. Valid values are 0 (disable), 1 (basic), 2 (extended), 99 (all).\n"
       "\t\tPlease see onnxruntime_c_api.h (enum GraphOptimizationLevel) for the full list of all optimization levels. "
+      "\t-f: Enable EP context cache generation.\n"
+      "\t-b: Disable EP context embed mode.\n"
       "\n"
       "\t-h: help\n"
       "\n"
@@ -179,11 +178,13 @@ int real_main(int argc, char* argv[], Ort::Env& env) {
 
   OrtLoggingLevel logging_level = ORT_LOGGING_LEVEL_ERROR;
   bool verbose_logging_required = false;
+  bool ep_context_enable = false;
+  bool disable_ep_context_embed_mode = false;
 
   bool pause = false;
   {
     int ch;
-    while ((ch = getopt(argc, argv, ORT_TSTR("Ac:hj:Mn:r:e:t:a:xvo:d:i:pz"))) != -1) {
+    while ((ch = getopt(argc, argv, ORT_TSTR("Ac:hj:Mn:r:e:t:a:xvo:d:i:pzfb"))) != -1) {
       switch (ch) {
         case 'A':
           enable_cpu_mem_arena = false;
@@ -312,6 +313,12 @@ int real_main(int argc, char* argv[], Ort::Env& env) {
         case 'z':
           set_denormal_as_zero = true;
           break;
+        case 'b':
+          disable_ep_context_embed_mode = true;
+          break;
+        case 'f':
+          ep_context_enable = true;
+          break;
         case '?':
         case 'h':
         default:
@@ -386,6 +393,11 @@ int real_main(int argc, char* argv[], Ort::Env& env) {
     if (set_denormal_as_zero)
       sf.AddConfigEntry(kOrtSessionOptionsConfigSetDenormalAsZero, "1");
 
+    if (ep_context_enable)
+      sf.AddConfigEntry(kOrtSessionOptionEpContextEnable, "1");
+    if (disable_ep_context_embed_mode)
+      sf.AddConfigEntry(kOrtSessionOptionEpContextEmbedMode, "0");
+
     if (enable_tensorrt) {
 #ifdef USE_TENSORRT
       OrtCUDAProviderOptions cuda_options;
@@ -466,12 +478,6 @@ int real_main(int argc, char* argv[], Ort::Env& env) {
           if (value != "0") {
             ORT_THROW("Set to 0 to disable qnn_context_embed_mode.");
           }
-        } else if (key == "qnn_context_cache_enable") {
-          if (value != "1") {
-            ORT_THROW("Set to 1 to enable qnn_context_cache_enable.");
-          }
-        } else if (key == "qnn_context_cache_path") {
-          // no validation
         } else if (key == "profiling_level") {
           std::set<std::string> supported_profiling_level = {"off", "basic", "detailed"};
           if (supported_profiling_level.find(value) == supported_profiling_level.end()) {
@@ -507,8 +513,8 @@ int real_main(int argc, char* argv[], Ort::Env& env) {
             ORT_THROW("Wrong value for htp_graph_finalization_optimization_mode. select from: " + str);
           }
         } else {
-          ORT_THROW(R"(Wrong key type entered. Choose from options: ['backend_path', 'qnn_context_cache_enable',
-'qnn_context_cache_path', 'profiling_level', 'rpc_control_latency', 'vtcm_mb', 'htp_performance_mode',
+          ORT_THROW(R"(Wrong key type entered. Choose from options: ['backend_path',
+'profiling_level', 'rpc_control_latency', 'vtcm_mb', 'htp_performance_mode',
 'qnn_saver_path', 'htp_graph_finalization_optimization_mode', 'qnn_context_priority'])");
         }
 
diff --git a/onnxruntime/test/perftest/command_args_parser.cc b/onnxruntime/test/perftest/command_args_parser.cc
index 27e26fe0b3c45..6e3252aaeb4b8 100644
--- a/onnxruntime/test/perftest/command_args_parser.cc
+++ b/onnxruntime/test/perftest/command_args_parser.cc
@@ -65,8 +65,6 @@ namespace perftest {
       "\t    [OpenVINO only] [cache_dir]: Explicitly specify the path to dump and load the blobs(Model caching) or cl_cache (Kernel Caching) files feature. If blob files are already present, it will be directly loaded.\n"
       "\t    [OpenVINO only] [enable_opencl_throttling]: Enables OpenCL queue throttling for GPU device(Reduces the CPU Utilization while using GPU) \n"
       "\t    [QNN only] [backend_path]: QNN backend path. e.g '/folderpath/libQnnHtp.so', '/folderpath/libQnnCpu.so'.\n"
-      "\t    [QNN only] [qnn_context_cache_enable]: 1 to enable cache QNN context. Default to false.\n"
-      "\t    [QNN only] [qnn_context_cache_path]: File path to the qnn context cache. Default to model_file.onnx.bin if not set.\n"
       "\t    [QNN only] [profiling_level]: QNN profiling level, options: 'basic', 'detailed', default 'off'.\n"
       "\t    [QNN only] [rpc_control_latency]: QNN rpc control latency. default to 10.\n"
       "\t    [QNN only] [vtcm_mb]: QNN VTCM size in MB. default to 0(not set).\n"
diff --git a/onnxruntime/test/perftest/ort_test_session.cc b/onnxruntime/test/perftest/ort_test_session.cc
index 6a99d6a0b0246..04c9ae1f23108 100644
--- a/onnxruntime/test/perftest/ort_test_session.cc
+++ b/onnxruntime/test/perftest/ort_test_session.cc
@@ -332,12 +332,6 @@ OnnxRuntimeTestSession::OnnxRuntimeTestSession(Ort::Env& env, std::random_device
         if (value.empty()) {
           ORT_THROW("Please provide the QNN backend path.");
         }
-      } else if (key == "qnn_context_cache_enable") {
-        if (value != "1") {
-          ORT_THROW("Set to 1 to enable qnn_context_cache_enable.");
-        }
-      } else if (key == "qnn_context_cache_path") {
-        // no validation
       } else if (key == "profiling_level") {
         std::set<std::string> supported_profiling_level = {"off", "basic", "detailed"};
         if (supported_profiling_level.find(value) == supported_profiling_level.end()) {
@@ -373,8 +367,8 @@ OnnxRuntimeTestSession::OnnxRuntimeTestSession(Ort::Env& env, std::random_device
           ORT_THROW("Supported qnn_context_priority: low, normal, normal_high, high");
         }
       } else {
-        ORT_THROW(R"(Wrong key type entered. Choose from options: ['backend_path', 'qnn_context_cache_enable',
-'qnn_context_cache_path', 'profiling_level', 'rpc_control_latency', 'vtcm_mb', 'htp_performance_mode',
+        ORT_THROW(R"(Wrong key type entered. Choose from options: ['backend_path',
+'profiling_level', 'rpc_control_latency', 'vtcm_mb', 'htp_performance_mode',
 'qnn_saver_path', 'htp_graph_finalization_optimization_mode', 'qnn_context_priority'])");
       }
 
diff --git a/onnxruntime/test/providers/cpu/signal/signal_ops_test.cc b/onnxruntime/test/providers/cpu/signal/signal_ops_test.cc
index 3d4324189d463..54d725defe5ee 100644
--- a/onnxruntime/test/providers/cpu/signal/signal_ops_test.cc
+++ b/onnxruntime/test/providers/cpu/signal/signal_ops_test.cc
@@ -16,9 +16,10 @@ namespace onnxruntime {
 namespace test {
 
 static constexpr int kMinOpsetVersion = 17;
+static constexpr int kOpsetVersion20 = 20;
 
-static void TestNaiveDFTFloat(bool onesided) {
-  OpTester test("DFT", kMinOpsetVersion);
+static void TestNaiveDFTFloat(bool onesided, int since_version) {
+  OpTester test("DFT", since_version);
 
   vector<int64_t> shape = {1, 5, 1};
   vector<int64_t> output_shape = {1, 5, 2};
@@ -37,8 +38,8 @@ static void TestNaiveDFTFloat(bool onesided) {
   test.Run();
 }
 
-static void TestRadix2DFTFloat(bool onesided) {
-  OpTester test("DFT", kMinOpsetVersion);
+static void TestRadix2DFTFloat(bool onesided, int since_version) {
+  OpTester test("DFT", since_version);
 
   vector<int64_t> shape = {1, 8, 1};
   vector<int64_t> output_shape = {1, 8, 2};
@@ -57,20 +58,8 @@ static void TestRadix2DFTFloat(bool onesided) {
   test.Run();
 }
 
-TEST(SignalOpsTest, DFTFloat_naive) {
-  TestNaiveDFTFloat(false);
-}
-
-TEST(SignalOpsTest, DFTFloat_naive_onesided) {
-  TestNaiveDFTFloat(true);
-}
-
-TEST(SignalOpsTest, DFTFloat_radix2) { TestRadix2DFTFloat(false); }
-
-TEST(SignalOpsTest, DFTFloat_radix2_onesided) { TestRadix2DFTFloat(true); }
-
-TEST(SignalOpsTest, DFTFloat_inverse) {
-  OpTester test("DFT", kMinOpsetVersion);
+static void TestInverseFloat(int since_version) {
+  OpTester test("DFT", since_version);
 
   vector<int64_t> shape = {1, 5, 2};
   vector<float> input = {15.000000f, 0.0000000f, -2.499999f, 3.4409550f, -2.500000f,
@@ -83,12 +72,44 @@ TEST(SignalOpsTest, DFTFloat_inverse) {
   test.Run();
 }
 
+TEST(SignalOpsTest, DFT17_Float_naive) {
+  TestNaiveDFTFloat(false, kMinOpsetVersion);
+}
+
+TEST(SignalOpsTest, DFT20_Float_naive) {
+  TestNaiveDFTFloat(false, kOpsetVersion20);
+}
+
+TEST(SignalOpsTest, DFT17_Float_naive_onesided) {
+  TestNaiveDFTFloat(true, kMinOpsetVersion);
+}
+
+TEST(SignalOpsTest, DFT20_Float_naive_onesided) {
+  TestNaiveDFTFloat(true, kOpsetVersion20);
+}
+
+TEST(SignalOpsTest, DFT17_Float_radix2) { TestRadix2DFTFloat(false, kMinOpsetVersion); }
+
+TEST(SignalOpsTest, DFT20_Float_radix2) { TestRadix2DFTFloat(false, kOpsetVersion20); }
+
+TEST(SignalOpsTest, DFT17_Float_radix2_onesided) { TestRadix2DFTFloat(true, kMinOpsetVersion); }
+
+TEST(SignalOpsTest, DFT20_Float_radix2_onesided) { TestRadix2DFTFloat(true, kOpsetVersion20); }
+
+TEST(SignalOpsTest, DFT17_Float_inverse) {
+  TestInverseFloat(kMinOpsetVersion);
+}
+
+TEST(SignalOpsTest, DFT20_Float_inverse) {
+  TestInverseFloat(kOpsetVersion20);
+}
+
 // Tests that FFT(FFT(x), inverse=true) == x
-static void TestDFTInvertible(bool complex) {
+static void TestDFTInvertible(bool complex, int since_version) {
   // TODO: test dft_length
   class DFTInvertibleTester : public OpTester {
    public:
-    DFTInvertibleTester(int64_t axis) : OpTester("DFT", kMinOpsetVersion), axis_(axis) {}
+    DFTInvertibleTester(int64_t axis, int since_version) : OpTester("DFT", since_version), axis_(axis) {}
 
    protected:
     void AddNodes(Graph& graph, vector<NodeArg*>& graph_inputs, vector<NodeArg*>& graph_outputs,
@@ -98,11 +119,20 @@ static void TestDFTInvertible(bool complex) {
 
       // call base implementation to add the DFT node.
       OpTester::AddNodes(graph, graph_inputs, intermediate_outputs, add_attribute_funcs);
-      OpTester::AddAttribute("axis", axis_);
+      if (this->Opset() < kOpsetVersion20) {
+        OpTester::AddAttribute("axis", axis_);
+      } else {
+        assert(intermediate_outputs.size() == 1);
+        assert(graph_inputs.size() == 3);
+        intermediate_outputs.push_back(graph_inputs[1]);
+        intermediate_outputs.push_back(graph_inputs[2]);
+      }
 
       Node& inverse = graph.AddNode("inverse", "DFT", "inverse", intermediate_outputs, graph_outputs);
       inverse.AddAttribute("inverse", static_cast<int64_t>(true));
-      inverse.AddAttribute("axis", axis_);
+      if (this->Opset() < kOpsetVersion20) {
+        inverse.AddAttribute("axis", axis_);
+      }
     }
 
    private:
@@ -112,14 +142,21 @@ static void TestDFTInvertible(bool complex) {
   RandomValueGenerator random(GetTestRandomSeed());
   // TODO(smk2007): Add tests for different dft_length values.
   constexpr int64_t num_batches = 2;
-  for (int64_t axis = 1; axis < 2; axis += 1) {
+  for (int64_t axis = 0; axis < 2; axis += 1) {
     for (int64_t signal_dim1 = 2; signal_dim1 <= 5; signal_dim1 += 1) {
       for (int64_t signal_dim2 = 2; signal_dim2 <= 5; signal_dim2 += 1) {
-        DFTInvertibleTester test(axis);
+        if (axis == 0 && since_version < kOpsetVersion20)
+          continue;
+        DFTInvertibleTester test(axis, since_version);
         vector<int64_t> input_shape{num_batches, signal_dim1, signal_dim2, 1 + (complex ? 1 : 0)};
         vector<float> input_data = random.Uniform<float>(input_shape, -100.f, 100.f);
         test.AddInput("input", input_shape, input_data);
 
+        if (since_version >= kOpsetVersion20) {
+          test.AddInput<int64_t>("", {0}, {});
+          test.AddInput<int64_t>("axis", {1}, {axis});
+        }
+
         vector<int64_t> output_shape(input_shape);
         vector<float>* output_data_p;
         vector<float> output_data;
@@ -141,12 +178,20 @@ static void TestDFTInvertible(bool complex) {
   }
 }
 
-TEST(SignalOpsTest, DFT_invertible_real) {
-  TestDFTInvertible(false);
+TEST(SignalOpsTest, DFT17_invertible_real) {
+  TestDFTInvertible(false, kMinOpsetVersion);
+}
+
+TEST(SignalOpsTest, DFT20_invertible_real) {
+  TestDFTInvertible(false, kOpsetVersion20);
+}
+
+TEST(SignalOpsTest, DFT17_invertible_complex) {
+  TestDFTInvertible(true, kMinOpsetVersion);
 }
 
-TEST(SignalOpsTest, DFT_invertible_complex) {
-  TestDFTInvertible(true);
+TEST(SignalOpsTest, DFT20_invertible_complex) {
+  TestDFTInvertible(true, kOpsetVersion20);
 }
 
 TEST(SignalOpsTest, STFTFloat) {
diff --git a/onnxruntime/test/providers/qnn/qnn_basic_test.cc b/onnxruntime/test/providers/qnn/qnn_basic_test.cc
index e30c79eca3a13..391d7bebc9589 100644
--- a/onnxruntime/test/providers/qnn/qnn_basic_test.cc
+++ b/onnxruntime/test/providers/qnn/qnn_basic_test.cc
@@ -375,17 +375,36 @@ TEST_F(QnnHTPBackendTests, QnnContextBinaryGeneration2InputTypes) {
 #else
   provider_options["backend_path"] = "libQnnHtp.so";
 #endif
-  provider_options["qnn_context_cache_enable"] = "1";
+
+  // Add kMSDomain to cover contrib op like Gelu
+  const std::unordered_map<std::string, int> domain_to_version = {{"", 13}, {kMSDomain, 1}};
+
+  auto& logging_manager = DefaultLoggingManager();
+  logging_manager.SetDefaultLoggerSeverity(logging::Severity::kERROR);
+
+  onnxruntime::Model model("QNN_EP_TestModel", false, ModelMetaData(), PathString(),
+                           IOnnxRuntimeOpSchemaRegistryList(), domain_to_version, {},
+                           logging_manager.DefaultLogger());
+  Graph& graph = model.MainGraph();
+  ModelTestBuilder helper(graph);
+  BuildCastAddTestCase()(helper);
+  helper.SetGraphOutputs();
+  ASSERT_STATUS_OK(model.MainGraph().Resolve());
+
+  // Serialize the model to a string.
+  std::string model_data;
+  model.ToProto().SerializeToString(&model_data);
+
+  const auto model_data_span = AsByteSpan(model_data.data(), model_data.size());
+
   const std::string context_binary_file = "./qnn_context_binary_int32_fp32_inputs_test.onnx";
-  provider_options["qnn_context_cache_path"] = context_binary_file;
+  Ort::SessionOptions so;
+  so.AddConfigEntry(kOrtSessionOptionEpContextEnable, "1");
+  so.AddConfigEntry(kOrtSessionOptionEpContextFilePath, context_binary_file.c_str());
 
-  RunQnnModelTest(BuildCastAddTestCase(),
-                  provider_options,
-                  13,  // opset
-                  ExpectedEPNodeAssignment::All,
-                  1e-5f,
-                  logging::Severity::kERROR,
-                  false);
+  so.AppendExecutionProvider("QNN", provider_options);
+
+  Ort::Session session(*ort_env, model_data_span.data(), model_data_span.size(), so);
 
   // Make sure the Qnn context cache binary file is generated
   EXPECT_TRUE(std::filesystem::exists(context_binary_file.c_str()));
diff --git a/onnxruntime/test/providers/qnn/qnn_test_utils.cc b/onnxruntime/test/providers/qnn/qnn_test_utils.cc
index 4c38109d30371..f5ebe45a07912 100644
--- a/onnxruntime/test/providers/qnn/qnn_test_utils.cc
+++ b/onnxruntime/test/providers/qnn/qnn_test_utils.cc
@@ -13,6 +13,7 @@
 #include "core/common/span_utils.h"
 #include "core/framework/compute_capability.h"
 #include "core/graph/graph.h"
+#include "core/session/onnxruntime_session_options_config_keys.h"
 
 namespace onnxruntime {
 namespace test {
@@ -106,24 +107,31 @@ void RunQnnModelTest(const GetTestModelFn& build_test_case, ProviderOptions prov
   TryEnableQNNSaver(provider_options);
   RunAndVerifyOutputsWithEP(AsByteSpan(model_data.data(), model_data.size()), "QNN_EP_TestLogID",
                             QnnExecutionProviderWithOptions(provider_options),
-                            helper.feeds_, verification_params, {}, verify_outputs);
+                            helper.feeds_, verification_params,
+                            {}, verify_outputs);
 }
 
 void InferenceModel(const std::string& model_data, const char* log_id,
-                    std::unique_ptr<IExecutionProvider> execution_provider,
+                    const ProviderOptions& provider_options,
                     ExpectedEPNodeAssignment expected_ep_assignment, const NameMLValMap& feeds,
-                    std::vector<OrtValue>& output_vals) {
+                    std::vector<OrtValue>& output_vals,
+                    bool is_qnn_ep,
+                    const std::unordered_map<std::string, std::string>& session_option_pairs) {
   SessionOptions so;
   so.session_logid = log_id;
+  for (auto key_value : session_option_pairs) {
+    ASSERT_STATUS_OK(so.config_options.AddConfigEntry(key_value.first.c_str(), key_value.second.c_str()));
+  }
   RunOptions run_options;
   run_options.run_tag = so.session_logid;
 
   InferenceSessionWrapper session_object{so, GetEnvironment()};
 
   std::string provider_type = kCpuExecutionProvider;
-  if (execution_provider) {
-    provider_type = execution_provider->Type();
-    ASSERT_STATUS_OK(session_object.RegisterExecutionProvider(std::move(execution_provider)));
+  if (is_qnn_ep) {
+    auto qnn_ep = QnnExecutionProviderWithOptions(provider_options, &so);
+    provider_type = qnn_ep->Type();
+    ASSERT_STATUS_OK(session_object.RegisterExecutionProvider(std::move(qnn_ep)));
   }
   ASSERT_STATUS_OK(session_object.Load(model_data.data(), static_cast<int>(model_data.size())));
   ASSERT_STATUS_OK(session_object.Initialize());
diff --git a/onnxruntime/test/providers/qnn/qnn_test_utils.h b/onnxruntime/test/providers/qnn/qnn_test_utils.h
index 9ec0985e8130c..bfe5bab318313 100644
--- a/onnxruntime/test/providers/qnn/qnn_test_utils.h
+++ b/onnxruntime/test/providers/qnn/qnn_test_utils.h
@@ -220,15 +220,19 @@ inline QuantParams<QType> GetTestInputQuantParams(const TestInputDef<float>& inp
  *
  * \param model_data The serialized ONNX model to inference.
  * \param log_id The logger ID.
- * \param execution_provider The EP on which to run the model. Set to nullptr for CPU EP.
+ * \param provider_options provider options key value pair.
  * \param expected_ep_assignment Describes "which nodes" should be assigned to the EP.
  * \param feeds The input feeds.
  * \param output_vals Initialized to the inference results.
+ * \param is_qnn_ep Ture: QNN EP is used. False: CPU EP is used (default).
+ * \param session_option_pairs extra session options.
  */
 void InferenceModel(const std::string& model_data, const char* log_id,
-                    std::unique_ptr<IExecutionProvider> execution_provider,
+                    const ProviderOptions& provider_options,
                     ExpectedEPNodeAssignment expected_ep_assignment, const NameMLValMap& feeds,
-                    std::vector<OrtValue>& output_vals);
+                    std::vector<OrtValue>& output_vals,
+                    bool is_qnn_ep = false,
+                    const std::unordered_map<std::string, std::string>& session_option_pairs = {});
 
 /**
  * If the ORT_UNIT_TEST_ENABLE_QNN_SAVER environment variable is enabled (set to 1), this function modifies
@@ -287,7 +291,8 @@ inline void TestQDQModelAccuracy(const GetTestModelFn& f32_model_fn, const GetTe
                                  ExpectedEPNodeAssignment expected_ep_assignment,
                                  QDQTolerance tolerance = QDQTolerance(),
                                  logging::Severity log_severity = logging::Severity::kERROR,
-                                 const std::string& qnn_ctx_model_path = "") {
+                                 const std::string& qnn_ctx_model_path = "",
+                                 const std::unordered_map<std::string, std::string>& session_option_pairs = {}) {
   // Add kMSDomain to cover contrib op like Gelu
   const std::unordered_map<std::string, int> domain_to_version = {{"", opset_version}, {kMSDomain, 1}};
 
@@ -307,7 +312,7 @@ inline void TestQDQModelAccuracy(const GetTestModelFn& f32_model_fn, const GetTe
 
   // Run f32 model on CPU EP and collect outputs.
   std::vector<OrtValue> cpu_f32_outputs;
-  InferenceModel(f32_model_data, "f32_model_logger", nullptr, ExpectedEPNodeAssignment::All,
+  InferenceModel(f32_model_data, "f32_model_logger", {}, ExpectedEPNodeAssignment::All,
                  f32_helper.feeds_, cpu_f32_outputs);
   ASSERT_FALSE(cpu_f32_outputs.empty());
 
@@ -344,7 +349,7 @@ inline void TestQDQModelAccuracy(const GetTestModelFn& f32_model_fn, const GetTe
   ASSERT_STATUS_OK(qdq_model.MainGraph().Resolve());
   qdq_model.ToProto().SerializeToString(&qdq_model_data);
 
-  // Run QDQ model on QNN EP and collect outputs.
+  bool is_qnn_ep = true;
   TryEnableQNNSaver(qnn_options);
   std::vector<OrtValue> qnn_qdq_outputs;
   if (!qnn_ctx_model_path.empty()) {
@@ -355,18 +360,19 @@ inline void TestQDQModelAccuracy(const GetTestModelFn& f32_model_fn, const GetTe
     std::string qnn_ctx_model_data;
     model_proto.SerializeToString(&qnn_ctx_model_data);
     // Run QNN context cache model on QNN EP and collect outputs.
-    InferenceModel(qnn_ctx_model_data, "qnn_ctx_model_logger", QnnExecutionProviderWithOptions(qnn_options),
-                   expected_ep_assignment, qdq_helper.feeds_, qnn_qdq_outputs);
+    InferenceModel(qnn_ctx_model_data, "qnn_ctx_model_logger", qnn_options,
+                   expected_ep_assignment, qdq_helper.feeds_, qnn_qdq_outputs, is_qnn_ep);
   } else {
     // Run QDQ model on QNN EP and collect outputs.
-    InferenceModel(qdq_model_data, "qdq_model_logger", QnnExecutionProviderWithOptions(qnn_options),
-                   expected_ep_assignment, qdq_helper.feeds_, qnn_qdq_outputs);
+    // Only need to apply the extra session options to this QDQ model inference on QNN EP
+    InferenceModel(qdq_model_data, "qdq_model_logger", qnn_options, expected_ep_assignment,
+                   qdq_helper.feeds_, qnn_qdq_outputs, is_qnn_ep, session_option_pairs);
   }
 
   if (expected_ep_assignment != ExpectedEPNodeAssignment::None) {
     // Run QDQ model on CPU EP and collect outputs.
     std::vector<OrtValue> cpu_qdq_outputs;
-    InferenceModel(qdq_model_data, "qdq_model_logger", nullptr, ExpectedEPNodeAssignment::All,
+    InferenceModel(qdq_model_data, "qdq_model_logger", {}, ExpectedEPNodeAssignment::All,
                    qdq_helper.feeds_, cpu_qdq_outputs);
     ASSERT_EQ(cpu_qdq_outputs.size(), num_outputs);
     ASSERT_EQ(qnn_qdq_outputs.size(), num_outputs);
diff --git a/onnxruntime/test/providers/qnn/simple_op_htp_test.cc b/onnxruntime/test/providers/qnn/simple_op_htp_test.cc
index 39733f50482a6..8ff65c08e8633 100644
--- a/onnxruntime/test/providers/qnn/simple_op_htp_test.cc
+++ b/onnxruntime/test/providers/qnn/simple_op_htp_test.cc
@@ -8,6 +8,7 @@
 #include <variant>
 #include "core/graph/graph.h"
 #include "core/graph/node_attr_utils.h"
+#include "core/session/onnxruntime_session_options_config_keys.h"
 
 #include "test/optimizer/qdq_test_utils.h"
 #include "test/providers/qnn/qnn_test_utils.h"
@@ -733,9 +734,11 @@ TEST_F(QnnHTPBackendTests, ContextBinaryCacheEmbedModeTest) {
 #else
   provider_options["backend_path"] = "libQnnHtp.so";
 #endif
-  provider_options["qnn_context_cache_enable"] = "1";
   const std::string context_binary_file = "./qnn_context_binary_test.onnx";
-  provider_options["qnn_context_cache_path"] = context_binary_file;
+
+  std::unordered_map<std::string, std::string> session_option_pairs;
+  session_option_pairs.emplace(kOrtSessionOptionEpContextEnable, "1");
+  session_option_pairs.emplace(kOrtSessionOptionEpContextFilePath, context_binary_file);
 
   const TestInputDef<float> input_def({1, 2, 3}, false, -10.0f, 10.0f);
   const std::string op_type = "Atan";
@@ -746,7 +749,11 @@ TEST_F(QnnHTPBackendTests, ContextBinaryCacheEmbedModeTest) {
                        BuildQDQOpTestCase<uint8_t>(op_type, {input_def}, {}, {}),
                        provider_options,
                        14,
-                       ExpectedEPNodeAssignment::All);
+                       ExpectedEPNodeAssignment::All,
+                       QDQTolerance(),
+                       logging::Severity::kERROR,
+                       "",  // context model file path, not required for this inference
+                       session_option_pairs);
 
   // Make sure the Qnn context cache binary file is generated
   EXPECT_TRUE(std::filesystem::exists(context_binary_file.c_str()));
@@ -756,7 +763,11 @@ TEST_F(QnnHTPBackendTests, ContextBinaryCacheEmbedModeTest) {
                        BuildQDQOpTestCase<uint8_t>(op_type, {input_def}, {}, {}),
                        provider_options,
                        14,
-                       ExpectedEPNodeAssignment::All);
+                       ExpectedEPNodeAssignment::All,
+                       QDQTolerance(),
+                       logging::Severity::kERROR,
+                       "",  // context model file path, not required for this inference
+                       session_option_pairs);
 
   // 3rd run directly loads and run from Qnn context cache model
   TestQDQModelAccuracy(BuildOpTestCase<float>(op_type, {input_def}, {}, {}),
@@ -780,10 +791,11 @@ TEST_F(QnnHTPBackendTests, ContextBinaryCacheNonEmbedModeTest) {
 #else
   provider_options["backend_path"] = "libQnnHtp.so";
 #endif
-  provider_options["qnn_context_cache_enable"] = "1";
   const std::string context_binary_file = "./qnn_context_cache_non_embed.onnx";
-  provider_options["qnn_context_cache_path"] = context_binary_file;
-  provider_options["qnn_context_embed_mode"] = "0";
+  std::unordered_map<std::string, std::string> session_option_pairs;
+  session_option_pairs.emplace(kOrtSessionOptionEpContextEnable, "1");
+  session_option_pairs.emplace(kOrtSessionOptionEpContextFilePath, context_binary_file);
+  session_option_pairs.emplace(kOrtSessionOptionEpContextEmbedMode, "0");
 
   const TestInputDef<float> input_def({1, 2, 3}, false, -10.0f, 10.0f);
   const std::string op_type = "Atan";
@@ -794,7 +806,11 @@ TEST_F(QnnHTPBackendTests, ContextBinaryCacheNonEmbedModeTest) {
                        BuildQDQOpTestCase<uint8_t>(op_type, {input_def}, {}, {}),
                        provider_options,
                        14,
-                       ExpectedEPNodeAssignment::All);
+                       ExpectedEPNodeAssignment::All,
+                       QDQTolerance(),
+                       logging::Severity::kERROR,
+                       "",  // context model file path, not required for this inference
+                       session_option_pairs);
 
   // Check the Onnx skeleton file is generated
   EXPECT_TRUE(std::filesystem::exists(context_binary_file.c_str()));
@@ -806,7 +822,11 @@ TEST_F(QnnHTPBackendTests, ContextBinaryCacheNonEmbedModeTest) {
                        BuildQDQOpTestCase<uint8_t>(op_type, {input_def}, {}, {}),
                        provider_options,
                        14,
-                       ExpectedEPNodeAssignment::All);
+                       ExpectedEPNodeAssignment::All,
+                       QDQTolerance(),
+                       logging::Severity::kERROR,
+                       "",  // context model file path, not required for this inference
+                       session_option_pairs);
 
   // 3rd run directly loads and run from Onnx skeleton file + Qnn context cache binary file
   TestQDQModelAccuracy(BuildOpTestCase<float>(op_type, {input_def}, {}, {}),
@@ -829,10 +849,11 @@ TEST_F(QnnHTPBackendTests, ContextBinaryCache_InvalidGraph) {
 #else
   provider_options["backend_path"] = "libQnnHtp.so";
 #endif
-  provider_options["qnn_context_cache_enable"] = "1";
   const std::string context_binary_file = "./qnn_context_cache_non_embed.onnx";
-  provider_options["qnn_context_cache_path"] = context_binary_file;
-  provider_options["qnn_context_embed_mode"] = "0";
+  std::unordered_map<std::string, std::string> session_option_pairs;
+  session_option_pairs.emplace(kOrtSessionOptionEpContextEnable, "1");
+  session_option_pairs.emplace(kOrtSessionOptionEpContextFilePath, context_binary_file);
+  session_option_pairs.emplace(kOrtSessionOptionEpContextEmbedMode, "0");
 
   const TestInputDef<float> input_def({1, 2, 3}, false, -10.0f, 10.0f);
   const std::string op_type = "Atan";
@@ -843,7 +864,11 @@ TEST_F(QnnHTPBackendTests, ContextBinaryCache_InvalidGraph) {
                        BuildQDQOpTestCase<uint8_t>(op_type, {input_def}, {}, {}),
                        provider_options,
                        14,
-                       ExpectedEPNodeAssignment::All);
+                       ExpectedEPNodeAssignment::All,
+                       QDQTolerance(),
+                       logging::Severity::kERROR,
+                       "",  // context model file path, not required for this inference
+                       session_option_pairs);
 
   // Check the Onnx skeleton file is generated
   EXPECT_TRUE(std::filesystem::exists(context_binary_file.c_str()));
@@ -886,9 +911,10 @@ TEST_F(QnnHTPBackendTests, ContextBinary2InputsTest) {
 #else
   provider_options["backend_path"] = "libQnnHtp.so";
 #endif
-  provider_options["qnn_context_cache_enable"] = "1";
   const std::string context_binary_file = "./qnn_context_binary_2inputs_test.onnx";
-  provider_options["qnn_context_cache_path"] = context_binary_file;
+  std::unordered_map<std::string, std::string> session_option_pairs;
+  session_option_pairs.emplace(kOrtSessionOptionEpContextEnable, "1");
+  session_option_pairs.emplace(kOrtSessionOptionEpContextFilePath, context_binary_file);
 
   const TestInputDef<float> input_def1({1, 2, 3}, false, -10.0f, 10.0f);
   const TestInputDef<float> input_def2({1, 2, 3}, false, -10.0f, 10.0f);
@@ -900,7 +926,11 @@ TEST_F(QnnHTPBackendTests, ContextBinary2InputsTest) {
                        BuildQDQOpTestCase<uint8_t>(op_type, {input_def1, input_def2}, {}, {}),
                        provider_options,
                        14,
-                       ExpectedEPNodeAssignment::All);
+                       ExpectedEPNodeAssignment::All,
+                       QDQTolerance(),
+                       logging::Severity::kERROR,
+                       "",  // context model file path, not required for this inference
+                       session_option_pairs);
 
   // Make sure the Qnn context cache binary file is generated
   EXPECT_TRUE(std::filesystem::exists(context_binary_file.c_str()));
@@ -910,7 +940,11 @@ TEST_F(QnnHTPBackendTests, ContextBinary2InputsTest) {
                        BuildQDQOpTestCase<uint8_t>(op_type, {input_def1, input_def2}, {}, {}),
                        provider_options,
                        14,
-                       ExpectedEPNodeAssignment::All);
+                       ExpectedEPNodeAssignment::All,
+                       QDQTolerance(),
+                       logging::Severity::kERROR,
+                       "",  // context model file path, not required for this inference
+                       session_option_pairs);
 
   // 3rd run directly loads and run from Qnn context cache model
   TestQDQModelAccuracy(BuildOpTestCase<float>(op_type, {input_def1, input_def2}, {}, {}),
diff --git a/onnxruntime/test/testdata/onnx_backend_test_series_filters.jsonc b/onnxruntime/test/testdata/onnx_backend_test_series_filters.jsonc
index bfdc0b1d26953..49d8d7150a117 100644
--- a/onnxruntime/test/testdata/onnx_backend_test_series_filters.jsonc
+++ b/onnxruntime/test/testdata/onnx_backend_test_series_filters.jsonc
@@ -262,9 +262,6 @@
         "^test_string_split_empty_tensor",
         "^test_string_split_maxsplit",
         "^test_string_split_no_delimiter",
-        "^test_dft_axis",
-        "^test_dft",
-        "^test_dft_inverse",
         "^test_reduce_max_bool_inputs",
         "^test_reduce_min_bool_inputs",
         "^test_reduce_min_empty_set",
diff --git a/onnxruntime/test/util/default_providers.cc b/onnxruntime/test/util/default_providers.cc
index 65646a7286719..4468a64d18258 100644
--- a/onnxruntime/test/util/default_providers.cc
+++ b/onnxruntime/test/util/default_providers.cc
@@ -9,8 +9,10 @@
 #include "core/providers/coreml/coreml_provider_factory.h"
 #endif
 #include "core/session/onnxruntime_cxx_api.h"
+#include "core/framework/session_options.h"
 
 namespace onnxruntime {
+
 namespace test {
 
 std::unique_ptr<IExecutionProvider> DefaultCpuExecutionProvider(bool enable_arena) {
@@ -242,11 +244,13 @@ std::unique_ptr<IExecutionProvider> DefaultQnnExecutionProvider() {
 #endif
 }
 
-std::unique_ptr<IExecutionProvider> QnnExecutionProviderWithOptions(const ProviderOptions& options) {
+std::unique_ptr<IExecutionProvider> QnnExecutionProviderWithOptions(const ProviderOptions& options,
+                                                                    const SessionOptions* session_options) {
 #ifdef USE_QNN
-  return QNNProviderFactoryCreator::Create(options, nullptr)->CreateProvider();
+  return QNNProviderFactoryCreator::Create(options, session_options)->CreateProvider();
 #else
   ORT_UNUSED_PARAMETER(options);
+  ORT_UNUSED_PARAMETER(session_options);
   return nullptr;
 #endif
 }
diff --git a/onnxruntime/test/util/include/default_providers.h b/onnxruntime/test/util/include/default_providers.h
index 1325f7aa43dbb..9f78e0a0d4eb2 100644
--- a/onnxruntime/test/util/include/default_providers.h
+++ b/onnxruntime/test/util/include/default_providers.h
@@ -8,6 +8,8 @@
 
 namespace onnxruntime {
 
+struct SessionOptions;
+
 std::shared_ptr<IExecutionProviderFactory> CreateExecutionProviderFactory_ACL(int use_arena);
 std::shared_ptr<IExecutionProviderFactory> CreateExecutionProviderFactory_ArmNN(int use_arena);
 std::shared_ptr<IExecutionProviderFactory> CreateExecutionProviderFactory_CoreML(uint32_t);
@@ -52,7 +54,8 @@ std::unique_ptr<IExecutionProvider> DefaultRocmExecutionProvider(bool test_tunab
 std::unique_ptr<IExecutionProvider> DefaultCoreMLExecutionProvider();
 std::unique_ptr<IExecutionProvider> DefaultSnpeExecutionProvider();
 std::unique_ptr<IExecutionProvider> DefaultQnnExecutionProvider();
-std::unique_ptr<IExecutionProvider> QnnExecutionProviderWithOptions(const ProviderOptions& options);
+std::unique_ptr<IExecutionProvider> QnnExecutionProviderWithOptions(const ProviderOptions& options,
+                                                                    const SessionOptions* session_options = nullptr);
 std::unique_ptr<IExecutionProvider> DefaultXnnpackExecutionProvider();
 std::unique_ptr<IExecutionProvider> DefaultCannExecutionProvider();
 std::unique_ptr<IExecutionProvider> DefaultDmlExecutionProvider();
diff --git a/tools/ci_build/github/android/nnapi_supported_ops.md b/tools/ci_build/github/android/nnapi_supported_ops.md
index 75b701a800d32..33ae97d4bbe94 100644
--- a/tools/ci_build/github/android/nnapi_supported_ops.md
+++ b/tools/ci_build/github/android/nnapi_supported_ops.md
@@ -23,6 +23,7 @@ Keep in sync with doco generated from /docs/execution-providers/NNAPI-ExecutionP
 |ai.onnx:GlobalAveragePool|Only 2D Pool is supported.|
 |ai.onnx:GlobalMaxPool|Only 2D Pool is supported.|
 |ai.onnx:Identity||
+|ai.onnx:LeakyRelu||
 |ai.onnx:Log||
 |ai.onnx:LRN||
 |ai.onnx:MatMul||
diff --git a/tools/ci_build/github/azure-pipelines/linux-qnn-ci-pipeline.yml b/tools/ci_build/github/azure-pipelines/linux-qnn-ci-pipeline.yml
index d21b917cbd10e..07e69ff496720 100644
--- a/tools/ci_build/github/azure-pipelines/linux-qnn-ci-pipeline.yml
+++ b/tools/ci_build/github/azure-pipelines/linux-qnn-ci-pipeline.yml
@@ -110,13 +110,5 @@ jobs:
         inputs:
           script: |
             ./build/Release/onnx_test_runner -e qnn \
-              -v -j 1 -c 1 -i "backend_path|$(QNN_SDK_ROOT)/lib/x86_64-linux-clang/libQnnHtp.so qnn_context_cache_enable|1 qnn_context_cache_path|./build/Release/mobilenet_qdq.onnx_qnn_ctx.onnx" \
-              /data/qdq_models/mobilenetv2-1.0_add_transpose_quant
-
-      - task: CmdLine@2
-        displayName: Run QDQ model tests with load from cached context
-        inputs:
-          script: |
-            ./build/Release/onnx_test_runner -e qnn \
-              -v -j 1 -c 1 -i "backend_path|$(QNN_SDK_ROOT)/lib/x86_64-linux-clang/libQnnHtp.so qnn_context_cache_enable|1 qnn_context_cache_path|./build/Release/mobilenet_qdq.onnx_qnn_ctx.onnx" \
+              -v -f -j 1 -c 1 -i "backend_path|$(QNN_SDK_ROOT)/lib/x86_64-linux-clang/libQnnHtp.so" \
               /data/qdq_models/mobilenetv2-1.0_add_transpose_quant
diff --git a/tools/ci_build/github/azure-pipelines/nuget-cuda-publishing-pipeline.yml b/tools/ci_build/github/azure-pipelines/nuget-cuda-publishing-pipeline.yml
index 0332be4883e2d..2801466e52539 100644
--- a/tools/ci_build/github/azure-pipelines/nuget-cuda-publishing-pipeline.yml
+++ b/tools/ci_build/github/azure-pipelines/nuget-cuda-publishing-pipeline.yml
@@ -1,24 +1,22 @@
+resources:
+  pipelines:
+  - pipeline: build
+    source: 'Nuget-CUDA-Packaging-Pipeline'
+    trigger: 
+      branches:
+        include:
+        - main
+    branch: main
+
 parameters:
   - name: nightly
-    type: string
-    default: '1'
-  - name: build_id
-    type: string
-    default: 'latest'
-  - name: project
-    type: string
-    default: 'Lotus'
-  - name: pipeline
-    type: string
-    default: 'Nuget-CUDA-Packaging-Pipeline'
+    type: boolean
+    default: true
 
 stages:
 - template: stages/nuget-cuda-publishing-stage.yml
   parameters:
-    build_id: ${{ parameters.build_id }}
-    project: ${{ parameters.project }}
-    pipeline: ${{ parameters.pipeline }}
-    ${{ if ne(parameters.nightly, '1') }}:
+    ${{ if ne(parameters.nightly, true) }}:
       artifact_feed: onnxruntime-cuda-12
     ${{ else }}:
       artifact_feed: ort-cuda-12-nightly
\ No newline at end of file
diff --git a/tools/ci_build/github/azure-pipelines/publish-nuget.yml b/tools/ci_build/github/azure-pipelines/publish-nuget.yml
index 8e029f4e679b2..19ede05eb12bd 100644
--- a/tools/ci_build/github/azure-pipelines/publish-nuget.yml
+++ b/tools/ci_build/github/azure-pipelines/publish-nuget.yml
@@ -2,7 +2,10 @@ resources:
   pipelines:
   - pipeline: build
     source: 'Zip-Nuget-Java-Nodejs Packaging Pipeline'
-    trigger: true
+    trigger: 
+      branches:
+        include:
+        - main
     branch: main
 
 stages:
@@ -13,7 +16,7 @@ stages:
       clean: all
     variables:
     - name: GDN_CODESIGN_TARGETDIRECTORY
-      value: '$(Build.BinariesDirectory)/nuget-artifact/final-package'
+      value: '$(Agent.TempDirectory)\binfiles'
     pool: 'onnxruntime-Win-CPU-2022'
 
     steps:
@@ -92,6 +95,40 @@ stages:
       artifact: 'drop-signed-nuget-ROCm'
     - script: move "$(Pipeline.Workspace)\build\drop-signed-nuget-ROCm\*" $(Build.BinariesDirectory)\nuget-artifact\final-package
 
+    - script: |
+        dir $(Build.BinariesDirectory)\nuget-artifact\final-package
+        cd $(Build.BinariesDirectory)\nuget-artifact\final-package
+        nuget verify -Signatures *.nupkg
+      displayName: List Downloaded Package
+
+    - powershell: |
+        New-Item -Path $(Agent.TempDirectory) -Name "binfiles" -ItemType "directory"
+        $base_path_name = Join-Path -Path $(Agent.TempDirectory) -ChildPath "binfiles"
+        Get-ChildItem $Env:BUILD_BINARIESDIRECTORY\nuget-artifact\final-package -Filter *.nupkg |
+            Foreach-Object {
+             $dir_name = Join-Path -Path $base_path_name -ChildPath $_.Basename
+             $cmd = "7z.exe x $($_.FullName) -y -o$dir_name"
+             Write-Output $cmd
+             Invoke-Expression -Command $cmd
+            }
+        dir $(Agent.TempDirectory)
+        tree $(Agent.TempDirectory)
+      workingDirectory: '$(Agent.TempDirectory)'
+
+    - task: CodeSign@1
+      displayName: 'Run Codesign Validation'
+      
+
+    - task: PublishSecurityAnalysisLogs@3
+      displayName: 'Publish Security Analysis Logs'
+      continueOnError: true
+
+    - task: PostAnalysis@2
+      inputs:
+        GdnBreakAllTools: true
+        GdnBreakPolicy: M365
+        GdnBreakPolicyMinSev: Error
+
     #TODO: allow choosing different feeds
     - task: NuGetCommand@2
       displayName: 'Copy Signed Native NuGet Package to ORT-NIGHTLY'
diff --git a/tools/ci_build/github/azure-pipelines/stages/nuget-cuda-publishing-stage.yml b/tools/ci_build/github/azure-pipelines/stages/nuget-cuda-publishing-stage.yml
index 3699d5b24ae12..252b96e54bab0 100644
--- a/tools/ci_build/github/azure-pipelines/stages/nuget-cuda-publishing-stage.yml
+++ b/tools/ci_build/github/azure-pipelines/stages/nuget-cuda-publishing-stage.yml
@@ -1,48 +1,60 @@
 parameters:
-  - name: build_id
-    type: string
-  - name: project
-    type: string
-  - name: pipeline
-    type: string
   - name: artifact_feed
     type: string
     default: 'onnxruntime-cuda-12'
-  - name: dependencies
-    type: string
-    default: 'none'
 
 stages:
   - stage: NuGet_Publishing_GPU
-    ${{ if ne(parameters.dependencies, 'none') }}:
-      dependsOn:
-    ${{ if eq(parameters.dependencies, 'none') }}:
-      dependsOn: []
     jobs:
       - job:
+        workspace:
+          clean: all
+        variables:
+        - name: GDN_CODESIGN_TARGETDIRECTORY
+          value: '$(Build.BinariesDirectory)/nuget-artifact/final-package'
         pool: 'onnxruntime-Win-CPU-2022'
         steps:
           - checkout: none
-          - script: |
-              echo "Project: ${{ parameters.project }}"
-              echo "Build ID: ${{ parameters.build_id }}"
-              echo "Pipeline: ${{ parameters.pipeline }}"
-              echo "Artifact Feed: ${{ parameters.artifact_feed }}"
-            displayName: 'Print Parameters'
-          - task: DownloadPipelineArtifact@2
-            displayName: 'Download NuGet artifact drop-signed-nuget-GPU'
+
+          - task: NuGetToolInstaller@1
             inputs:
-              artifact: drop-signed-nuget-GPU
-              targetPath: $(Build.BinariesDirectory)/nuget-artifact/final-package
-              ${{ if ne(parameters.build_id, 'latest') }}:
-                buildType: 'specific'
-                project: '${{ parameters.project }}'
-                pipeline: '${{ parameters.pipeline }}'
-                buildVersionToDownload: 'specific'
-                buildId: '${{ parameters.build_id }}'
-          - script: |
-              ls $(Build.BinariesDirectory)/nuget-artifact/final-package
-            displayName: List Downloaded Package
+              versionSpec: 6.8.x
+
+          - script: mkdir "$(Build.BinariesDirectory)\nuget-artifact\final-package"
+          
+          - download: build
+            displayName: 'Download Pipeline Artifact - Signed NuGet Package'
+            artifact: 'drop-signed-nuget-GPU'
+       
+          - script: move "$(Pipeline.Workspace)\build\drop-signed-nuget-GPU\*" "$(Build.BinariesDirectory)\nuget-artifact\final-package"
+          
+          - powershell: |
+              New-Item -Path $(Agent.TempDirectory) -Name "binfiles" -ItemType "directory"
+              $base_path_name = Join-Path -Path $(Agent.TempDirectory) -ChildPath "binfiles"
+              Get-ChildItem $Env:BUILD_BINARIESDIRECTORY\nuget-artifact\final-package -Filter *.nupkg |
+                  Foreach-Object {
+                   $dir_name = Join-Path -Path $base_path_name -ChildPath $_.Basename
+                   $cmd = "7z.exe x $($_.FullName) -y -o$dir_name"
+                   Write-Output $cmd
+                   Invoke-Expression -Command $cmd
+                  }
+              dir $(Agent.TempDirectory)
+              tree $(Agent.TempDirectory)
+            workingDirectory: '$(Agent.TempDirectory)'
+
+          - task: CodeSign@1
+            displayName: 'Run Codesign Validation'
+
+          - task: PublishSecurityAnalysisLogs@3
+            displayName: 'Publish Security Analysis Logs'
+            continueOnError: true
+
+          - task: PostAnalysis@2
+            inputs:
+              GdnBreakAllTools: true
+              GdnBreakPolicy: M365
+              GdnBreakPolicyMinSev: Error
+
           - template: ../nuget/templates/get-nuget-package-version-as-variable.yml
             parameters:
               packageFolder: '$(Build.BinariesDirectory)/nuget-artifact/final-package'
diff --git a/tools/ci_build/github/linux/docker/Dockerfile.ubuntu_cuda11_8_tensorrt8_6 b/tools/ci_build/github/linux/docker/Dockerfile.ubuntu_cuda11_8_tensorrt8_6
index edc41197be5c9..04a6af962b5e6 100644
--- a/tools/ci_build/github/linux/docker/Dockerfile.ubuntu_cuda11_8_tensorrt8_6
+++ b/tools/ci_build/github/linux/docker/Dockerfile.ubuntu_cuda11_8_tensorrt8_6
@@ -66,7 +66,7 @@ ARG ONNXRUNTIME_BRANCH=main
 ARG ONNXRUNTIME_COMMIT_ID
 
 # The supported CUDA architecture
-ARG CMAKE_CUDA_ARCHITECTURES=37;50;52;60;61;70;75;80
+ARG CMAKE_CUDA_ARCHITECTURES=75
 
 WORKDIR ${ONNXRUNTIME_LOCAL_CODE_DIR}
 
diff --git a/tools/ci_build/github/linux/docker/scripts/training/ortmodule/stage1/requirements_torch_nightly/requirements.txt b/tools/ci_build/github/linux/docker/scripts/training/ortmodule/stage1/requirements_torch_nightly/requirements.txt
index fc8e542cb9833..0cd5e5c5d5c46 100644
--- a/tools/ci_build/github/linux/docker/scripts/training/ortmodule/stage1/requirements_torch_nightly/requirements.txt
+++ b/tools/ci_build/github/linux/docker/scripts/training/ortmodule/stage1/requirements_torch_nightly/requirements.txt
@@ -1,4 +1,5 @@
 scikit-learn
 packaging==21.3
 transformers==v4.30.0
+accelerate==0.20.1
 wget
diff --git a/tools/ci_build/requirements.txt b/tools/ci_build/requirements.txt
index 96659d70af81f..aaca45b3e17e1 100644
--- a/tools/ci_build/requirements.txt
+++ b/tools/ci_build/requirements.txt
@@ -3,6 +3,6 @@ packaging
 protobuf==3.20.2
 numpy==1.24.0
 coloredlogs==15.0
-transformers==4.30.0
+transformers==4.36.0
 psutil
 einops
\ No newline at end of file