HF-TP-inference

PyTorch Native Tensor Parallel for HuggingFace models inference

Run the inference TP(lized) model +Compile

Example of HF llama 7B

torchrun --nnodes 1 --nproc_per_node 2 llama-simple.py --model_name meta-llama/Llama-2-7b-chat-hf --compile

Convert HF checkpoints to DTensor Checkpoints

torchrun --nnodes 1 --nproc_per_node 2 hf_convertor.py --model_name meta-llama/Llama-2-7b-chat-hf --save_checkpoint_dir hf-dtensor-checkpoints

Run the inference with deferred init TP(lized) model +compile

torchrun --nnodes 1 --nproc_per_node 2 llama-simple.py --model_name meta-llama/Llama-2-7b-chat-hf --checkpoint_dir hf-dtensor-checkpoints --compile --meta_device

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
README.md		README.md
hf_convertor.py		hf_convertor.py
llama-simple.py		llama-simple.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

HF-TP-inference

Run the inference TP(lized) model +Compile

Convert HF checkpoints to DTensor Checkpoints

Run the inference with deferred init TP(lized) model +compile

About

Releases

Packages

Languages

HamidShojanazeri/HF-TP-inference

Folders and files

Latest commit

History

Repository files navigation

HF-TP-inference

Run the inference TP(lized) model +Compile

Convert HF checkpoints to DTensor Checkpoints

Run the inference with deferred init TP(lized) model +compile

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages