We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
我去载入meta-llama/Meta-Llama-3.1-8B-Instruct 这个8b 模型,我用cuda:0 去用vllm载入一下这个模型 正常占用22G左右显存,然后我用cuda:1 用fastllm同样去载入这个模型,他这个convert了之后只占用16G左右的显存,但是我去取一个相同的数据集,去检测这两个模型,我发现这两个模型的回答的内容可以说 基本上完全不一致。 同源都是safetensors的模型,vllm是直接载入,fastllm转换了一下格式,为什么两个的回答就不能完全符合了呢,同样的模型换了一个推理的框架答案就不一样了吗。
The text was updated successfully, but these errors were encountered:
有可能是fastllm默认的激活参数是float32(可以--atype float16来设置),fastllm跑llama3首token推理出的logits应该和transformers误差很小,1e-4级别的,不过连续采样多个token之后可能后面误差放大的 不过dtype float16在数据集上测试精度都是没有下降的
Sorry, something went wrong.
No branches or pull requests
我去载入meta-llama/Meta-Llama-3.1-8B-Instruct 这个8b 模型,我用cuda:0 去用vllm载入一下这个模型 正常占用22G左右显存,然后我用cuda:1 用fastllm同样去载入这个模型,他这个convert了之后只占用16G左右的显存,但是我去取一个相同的数据集,去检测这两个模型,我发现这两个模型的回答的内容可以说 基本上完全不一致。 同源都是safetensors的模型,vllm是直接载入,fastllm转换了一下格式,为什么两个的回答就不能完全符合了呢,同样的模型换了一个推理的框架答案就不一样了吗。
The text was updated successfully, but these errors were encountered: