-
Notifications
You must be signed in to change notification settings - Fork 345
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
如何通过参数方式直接加载adapter? #491
Comments
python3 -m ftllm.server -t 16 -p /root/autodl-tmp/Qwen2-7B-Instruct --port 8000 --model_name Qwen2-7B-Instruct --dtype int8 --atype float16 --device cuda --cuda_embedding ,不好意思,上面发错指令了 |
--lora xxx(peft完save的路径,目前只支持transformer格式的) |
我加载了自己的adapter,提示lora需要F32的报错,不知道如何解决? |
是我的问题.. 你的lora是什么dtype的,目前只写了加载Float32的lora, 稍后我改一下 |
2024-09-26 17:08:51,142 1106 server.py[line:72] INFO: Namespace(path='/root/autodl-tmp/Qwen2-7B-Instruct', threads=16, low=False, dtype='float32', atype='float16', cuda_embedding=True, kv_cache_limit='auto', max_batch=-1, device='cuda', custom='', lora='/root/autodl-tmp/qwen_out/checkpoints/checkpoint-900', model_name='Qwen2-7B-Instruct', host='0.0.0.0', port=8000) |
噢不是,我意思是我代码里没支持读非F32的lora权重,不过这个好改的,稍等我改一下 |
你那修改后,我这怎么就可以直接用了? |
在验证lora的效果,比较着急使用。请给提供下方法 |
已经支持了,重新pull一下,install一下就可以 |
重新拉取git代码,用c++编译下就行吧,install指的是python的安装方式吧 |
我拉取代码了,重新编译了,还是报F32的错,是哪里操作不对吗 |
啊,和之前一样的报错吗? 现在类型检查改成Lora error: lora's dtype should be F32 or F16 or BF16.了 用ftllm.server的话要编译python的,就是根目录下bash install.sh应该就可以 |
是从主干拉就行吧? |
是的,要不卸了重装吧 |
我换了台机器,不报上面错误,报这个错误: |
server要装下依赖pip install -r requirements-server.txt |
好的,谢谢,可以了 |
|
我又试了下,同样参数加载qwen2-7b模型就正常,但是qwen2-0.5b模型就报上面的错误 |
把atype和dtype参数去掉后运行不错了,但是返回结果不对,而且响应很慢。 |
0.5B这个问题我这边我没有复现出来... 不过这个模型比较小,可以直接把lora合掉 from transformers import AutoModelForCausalLM, AutoTokenizer import argparse if name == "main":
|
已经编译安装好的fastllm,如何完全卸载,想重装下环境 |
pip uninstall ftllm |
python -m lightllm.server.api_server --model_dir /root/autodl-tmp/Qwen2-7B-Instruct --host 0.0.0.0 --port 8000 --trust_remote_code --model_name Qwen2-7B-Instruct --data_type=bfloat16 --eos_id 151643 --tokenizer_mode fast。这是常用的部署方式,可以用这种参数的方式直接加载adapter吗,试了一些参数都报错,不能使用。只能用代码peft的方式吗?
The text was updated successfully, but these errors were encountered: