Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

模型权重转化之后和原来的模型回答的内容不一致 #486

Open
Whylickspittle opened this issue Sep 11, 2024 · 1 comment
Open

Comments

@Whylickspittle
Copy link

我去载入meta-llama/Meta-Llama-3.1-8B-Instruct 这个8b 模型,我用cuda:0 去用vllm载入一下这个模型 正常占用22G左右显存,然后我用cuda:1 用fastllm同样去载入这个模型,他这个convert了之后只占用16G左右的显存,但是我去取一个相同的数据集,去检测这两个模型,我发现这两个模型的回答的内容可以说 基本上完全不一致。 同源都是safetensors的模型,vllm是直接载入,fastllm转换了一下格式,为什么两个的回答就不能完全符合了呢,同样的模型换了一个推理的框架答案就不一样了吗。

@ztxz16
Copy link
Owner

ztxz16 commented Sep 12, 2024

有可能是fastllm默认的激活参数是float32(可以--atype float16来设置),fastllm跑llama3首token推理出的logits应该和transformers误差很小,1e-4级别的,不过连续采样多个token之后可能后面误差放大的
不过dtype float16在数据集上测试精度都是没有下降的

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants