模型权重转化之后和原来的模型回答的内容不一致 #486

Whylickspittle · 2024-09-11T08:23:31Z

我去载入meta-llama/Meta-Llama-3.1-8B-Instruct 这个8b 模型，我用cuda:0 去用vllm载入一下这个模型正常占用22G左右显存，然后我用cuda:1 用fastllm同样去载入这个模型，他这个convert了之后只占用16G左右的显存，但是我去取一个相同的数据集，去检测这两个模型，我发现这两个模型的回答的内容可以说基本上完全不一致。同源都是safetensors的模型，vllm是直接载入，fastllm转换了一下格式，为什么两个的回答就不能完全符合了呢，同样的模型换了一个推理的框架答案就不一样了吗。

ztxz16 · 2024-09-12T02:06:44Z

有可能是fastllm默认的激活参数是float32（可以--atype float16来设置），fastllm跑llama3首token推理出的logits应该和transformers误差很小，1e-4级别的，不过连续采样多个token之后可能后面误差放大的
不过dtype float16在数据集上测试精度都是没有下降的

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

模型权重转化之后和原来的模型回答的内容不一致 #486

模型权重转化之后和原来的模型回答的内容不一致 #486

Whylickspittle commented Sep 11, 2024

ztxz16 commented Sep 12, 2024

模型权重转化之后和原来的模型回答的内容不一致 #486

模型权重转化之后和原来的模型回答的内容不一致 #486

Comments

Whylickspittle commented Sep 11, 2024

ztxz16 commented Sep 12, 2024