text generation webui_zh

使用text-generation-webui进行推理

用于运行大模型(如LLaMA, lama.cpp等)的gradio web UI。

Step 1: 安装text-generation-webui

text-generation-webui目前支持Windows/Linux/macOS/WSL系统，请参考webui installation

Step 2: 准备模型权重

text-generation-webui目前支持huggingface、gguf等格式的模型。

huggingface格式

将下载后的chinese-alpaca-2完整版权重(下载地址)或者之前已执行了merge_llama2_with_chinese_lora_low_mem.py脚本将LoRA(下载地址)与原版Llama-2(下载地址)合并后的完整版权重放到text-generation-webui models文件夹下，目录文件如下所示

text-generation-webui
├── models
│   ├── chinese-alpaca-2-7b
│   │   ├── config.json
│   │   ├── generation_config.json
│   │   ├── pytorch_model-00001-of-00002.bin
│   │   ├── pytorch_model-00002-of-00002.bin
│   │   ├── pytorch_model.bin.index.json
│   │   ├── special_tokens_map.json
│   │   ├── tokenizer_config.json
│   │   └── tokenizer.model

gguf格式

如果是gguf格式，可作为一个单独的文件直接放在模型中。相应权重可从完整模型下载 GGUF下载，然后重命名，文件目录如下

text-generation-webui
└── models
    └── chinese-alpaca-2-7b-q4_k-im.gguf

Step 3: 加载模型并启动webui

运行以下命令：

python server.py

打开的网页在model中选择你要聊天的模型，webui会按照模型格式选择对应的加载方式。然后依次选择Parameters-> Instruction template，在Instruction template中下拉选择Llama-v2，并将Context输入框中的Answer the questions.提示语替换为You are a helpful assistant. 你是一个乐于助人的助手。，最后回到chat界面中并输入你的指令，即可与chinese-alpaca-2对话了。

更详细的官方说明请参考webui using docs。如果遇到安装或者运行问题还请到原repo下提问，该流程已在commit-id 837bd88下跑通。

中文文档

模型合并与转换
- 在线模型合并与转换（Colab）
- 手动模型合并与转换
模型量化、推理、部署
效果与评测
训练脚本
- 预训练脚本
- 指令精调脚本
基于人类反馈的强化学习
- 奖励模型
- 强化学习
常见问题

English Docs

Model Reconstruction
- Online Conversion (Colab)
- Manual Conversion
Model Quantization, Inference and Deployment
System Performance
Training Scripts
- Pre-training Scripts
- Instruction Fine-tuning Scripts
Reinforcement Learning from Human Feedback
- Reward Modeling
- Reinforcement Learning
FAQ

Provide feedback

Saved searches

Use saved searches to filter your results more quickly