能够微调的大模型有哪些
一、开源大模型(可直接微调)
这些模型提供完整的权重和代码,允许用户自行修改、微调和部署。
1. LLaMA 系列(Meta)
- 模型:LLaMA-1/2(7B、13B、70B 参数)、LLaMA-3(8B、70B 参数)
- 特点:
- 基于 Transformer 的高效架构,适合对话、推理任务。
- LLaMA-2 支持商业用途(需申请许可),LLaMA-3 性能更强。
- 微调工具:Hugging Face Transformers、PyTorch、QLoRA(低资源微调)。
- 开源地址:需申请访问权限(通过 Meta 官网或 Hugging Face)。
2. Falcon 系列(TII UAE)
- 模型:Falcon-7B、40B、180B(Apache 2.0 协议)
- 特点:
- 高性能且完全开源,支持商业用途。
- 180B 版本参数量接近 GPT-3.5,推理能力优秀。
- 微调工具:Hugging Face、DeepSpeed。
- 开源地址:Hugging Face Hub(直接下载)。
3. BLOOM(BigScience)
- 模型:BLOOM-176B、560M、1.7B、3B 等
- 特点:
- 多语言支持(46 种语言),适合全球化场景。
- 176B 版本需高性能硬件支持。
- 微调工具:Hugging Face Transformers。
- 开源地址:Hugging Face Hub。
4. Alpaca & Vicuna(Stanford & 社区)
- 模型:Alpaca-7B、Vicuna-7B/13B
- 特点:
- 基于 LLaMA 微调的对话模型,接近 ChatGPT 效果。
- Vicuna 支持长上下文(16K tokens)。
- 微调工具:LoRA(低秩适配)、FastChat。
- 开源地址:GitHub(需申请 LLaMA 原始权重)。
5. Mistral 系列(Mistral AI)
- 模型:Mistral-7B、Mixtral-8x7B(混合专家模型)
- 特点:
- 7B 模型性能超越 LLaMA-13B,支持 32K 长上下文。
- Mixtral-8x7B 参数量等效 47B,推理效率高。
- 微调工具:Hugging Face、vLLM。
- 开源地址:Hugging Face Hub。
6. 国内大模型
- ChatGLM(智谱AI):
- ChatGLM-6B、12B,支持中英双语,可本地部署。
- 百川模型(Baichuan):
- Baichuan2-7B/13B,Apache 2.0 协议,适合商业场景。
- 通义千问(Qwen):
- Qwen-7B/14B/72B,支持多轮对话和插件扩展。
- 开源地址:ModelScope、Hugging Face Hub。
二、闭源大模型(有限微调)
部分闭源模型通过 API 提供微调接口,但无法直接修改模型权重。
1. GPT 系列(OpenAI)
- 模型:GPT-3.5-turbo、GPT-4
- 特点:
- 通过 OpenAI Fine-tuning API 微调,需上传标注数据。
- 仅支持部分任务优化(如风格调整、特定领域生成)。
- 限制:无法自定义架构,依赖 OpenAI 的云端服务。
2. Claude(Anthropic)
- 模型:Claude-2/3
- 特点:
- 提供少量参数的微调选项(需申请企业权限)。
- 支持长上下文(200K tokens)。
3. PaLM 2(Google)
- 模型:PaLM 2(通过 Vertex AI)
- 特点:
- 支持基于企业数据的微调(医疗、金融等垂直领域)。
- 需付费使用 Google Cloud 服务。
三、微调方法
- 全参数微调(Full Fine-tuning)
- 直接更新模型所有权重,需高性能 GPU(如 A100/H100)。
- 适用场景:数据量大、任务复杂(如领域知识注入)。
- 高效微调(Parameter-Efficient Fine-tuning, PEFT)
- LoRA:冻结原模型,注入低秩适配层。
- QLoRA:量化 + LoRA,可在 24GB 显存下微调 70B 模型。
- Adapter:插入小型适配模块,保留原权重。
- 提示微调(Prompt Tuning)
- 仅优化输入提示(Prompt)的嵌入表示,无需修改模型。
四、选择建议
- 资源有限:使用 7B-13B 模型 + LoRA/QLoRA(如 LLaMA-7B、Mistral-7B)。
- 商业用途:选择 Apache 2.0/MIT 协议模型(Falcon、Baichuan)。
- 多语言任务:BLOOM、XLM-R。
- 长文本处理:Vicuna、Mistral-7B(32K context)。
五、学习资源
- 代码库:Hugging Face Transformers、DeepSpeed、FastChat。
- 教程:
- Hugging Face PEFT 文档(LoRA/QLoRA)。
- Meta 官方 LLaMA 微调指南。
- 社区项目(如 Stanford Alpaca、Chinese-LLaMA-Alpaca)。
1. DeepSeek 开源模型
**(1) DeepSeek LLM 系列**
- 模型版本:
- DeepSeek LLM-7B/67B:基础版本,支持中英双语,参数量分别为 7B 和 67B。
- DeepSeek LLM Chat:基于基础模型微调的对话版本,对齐人类偏好。
- 特点:
- 高性能:在 MT-Bench、C-Eval 等中英文评测中表现优于 LLaMA-2、ChatGLM 等同类模型。
- 长上下文支持:默认支持 4K tokens,可扩展至 16K 或更高。
- 高效推理:支持量化(INT4/AWQ)和 vLLM 加速。
- 开源协议:MIT 许可证,允许商用。
- 微调支持:
- 提供完整的模型权重和代码,支持全参数微调、LoRA、QLoRA 等方法。
- 工具链:Hugging Face Transformers、DeepSeek 官方示例代码。
- 资源地址:
- 模型下载:Hugging Face Hub(DeepSeek-LLM-7B)
- 微调教程:GitHub 官方仓库(提供 SFT、RLHF 示例)。
**(2) DeepSeek-MoE 系列**
- 模型版本:DeepSeek-MoE-16B(混合专家模型)
- 特点:
- 通过稀疏化架构(16个专家,激活其中2个)实现高性价比,性能接近 7B 模型,显存占用更低。
- 支持中英文对话和复杂推理。
- 开源协议:MIT 许可证,允许商用。
- 微调支持:与 DeepSeek LLM 类似,支持 LoRA 等高效微调方法。
2. DeepSeek 闭源模型
**(1) DeepSeek-R1**
- 定位:企业级 API 服务,对标 GPT-4、Claude-3。
- 特点:
- 多模态支持(文本、图像、代码)。
- 长上下文(最高 128K tokens),擅长数学推理、代码生成。
- 微调支持:
- 通过 DeepSeek 企业平台提供定制化微调服务,需提交数据并与官方合作。
- 支持领域适配(如金融、医疗)和私有化部署。
**(2) DeepSeek-API**
- 模型版本:DeepSeek-Lite/Pro
- 特点:
- 低成本、低延迟的云端 API,适合中小规模应用。
- 支持中英文生成、摘要、翻译等通用任务。
- 微调支持:
- 提供有限的 Prompt 工程调优,不支持模型权重修改。
3. 微调实践建议
**(1) 开源模型微调步骤**
- 环境准备:
- GPU 要求:7B 模型需 16GB+ 显存(QLoRA 可降至 10GB),67B 模型需多卡或量化。
- 框架:PyTorch、DeepSpeed、Hugging Face Ecosystem。
- 数据格式:
- 使用标准指令数据集(如 Alpaca 格式)或自定义 JSON 文件。
- 示例数据格式:json
{"instruction": "写一首关于春天的诗", "input": "", "output": "..."}
- 高效微调:
- LoRA/QLoRA:冻结原模型权重,添加低秩适配层,适合单卡微调。
- 全参数微调:需多卡并行(如 DeepSpeed ZeRO-3)。
- 部署推理:
- 使用 vLLM 或 Triton 加速推理,支持 OpenAI 兼容的 API 服务。
**(2) 典型应用场景**
- 领域知识注入:在医疗、法律等专业语料上微调,增强模型垂直领域能力。
- 风格对齐:调整生成文本的语气(如正式、口语化)。
- 多语言扩展:加入小语种数据,提升非英语生成质量。
4. 优势与对比
特性 | DeepSeek LLM | LLaMA-2 | ChatGLM |
---|---|---|---|
开源协议 | MIT(商用友好) | 非商用/需申请 | 需授权 |
中英文支持 | ✔️ 优化 | ✔️ 一般 | ✔️ 中文优化 |
长上下文 | 16K+(可扩展) | 4K(需外推) | 8K |
微调成本 | 低(QLoRA 支持) | 中等 | 中等 |
5. 学习资源
- 官方文档:
- DeepSeek LLM GitHub
- DeepSeek 技术报告(含训练细节和评测结果)
- 社区教程:
- 使用 QLoRA 微调 DeepSeek-7B(Bilibili/知乎均有实操案例)。
- 结合 LangChain 构建领域知识问答系统。
总结
DeepSeek 的开源模型(如 LLM-7B)是当前性价比极高的微调选择,尤其适合中文场景和商业应用。其闭源模型(如 DeepSeek-R1)则为企业级需求提供高性能、多模态的解决方案。若追求灵活性和可控性,建议优先尝试开源版本,结合 LoRA 快速迭代业务模型。