AI

能够微调的大模型有哪些

一、开源大模型(可直接微调)​

这些模型提供完整的权重和代码,允许用户自行修改、微调和部署。

1. ​LLaMA 系列(Meta)​

  • 模型:LLaMA-1/2(7B、13B、70B 参数)、LLaMA-3(8B、70B 参数)
  • 特点
    • 基于 Transformer 的高效架构,适合对话、推理任务。
    • LLaMA-2 支持商业用途(需申请许可),LLaMA-3 性能更强。
  • 微调工具:Hugging Face Transformers、PyTorch、QLoRA(低资源微调)。
  • 开源地址:需申请访问权限(通过 Meta 官网或 Hugging Face)。

2. ​Falcon 系列(TII UAE)​

  • 模型:Falcon-7B、40B、180B(Apache 2.0 协议)
  • 特点
    • 高性能且完全开源,支持商业用途。
    • 180B 版本参数量接近 GPT-3.5,推理能力优秀。
  • 微调工具:Hugging Face、DeepSpeed。
  • 开源地址:Hugging Face Hub(直接下载)。

3. ​BLOOM(BigScience)​

  • 模型:BLOOM-176B、560M、1.7B、3B 等
  • 特点
    • 多语言支持(46 种语言),适合全球化场景。
    • 176B 版本需高性能硬件支持。
  • 微调工具:Hugging Face Transformers。
  • 开源地址:Hugging Face Hub。

4. ​Alpaca & Vicuna(Stanford & 社区)​

  • 模型:Alpaca-7B、Vicuna-7B/13B
  • 特点
    • 基于 LLaMA 微调的对话模型,接近 ChatGPT 效果。
    • Vicuna 支持长上下文(16K tokens)。
  • 微调工具:LoRA(低秩适配)、FastChat。
  • 开源地址:GitHub(需申请 LLaMA 原始权重)。

5. ​Mistral 系列(Mistral AI)​

  • 模型:Mistral-7B、Mixtral-8x7B(混合专家模型)
  • 特点
    • 7B 模型性能超越 LLaMA-13B,支持 32K 长上下文。
    • Mixtral-8x7B 参数量等效 47B,推理效率高。
  • 微调工具:Hugging Face、vLLM。
  • 开源地址:Hugging Face Hub。

6. ​国内大模型

  • ChatGLM(智谱AI)​
    • ChatGLM-6B、12B,支持中英双语,可本地部署。
  • 百川模型(Baichuan)​
    • Baichuan2-7B/13B,Apache 2.0 协议,适合商业场景。
  • 通义千问(Qwen)​
    • Qwen-7B/14B/72B,支持多轮对话和插件扩展。
  • 开源地址:ModelScope、Hugging Face Hub。

二、闭源大模型(有限微调)​

部分闭源模型通过 API 提供微调接口,但无法直接修改模型权重。

1. ​GPT 系列(OpenAI)​

  • 模型:GPT-3.5-turbo、GPT-4
  • 特点
    • 通过 OpenAI Fine-tuning API 微调,需上传标注数据。
    • 仅支持部分任务优化(如风格调整、特定领域生成)。
  • 限制:无法自定义架构,依赖 OpenAI 的云端服务。

2. ​Claude(Anthropic)​

  • 模型:Claude-2/3
  • 特点
    • 提供少量参数的微调选项(需申请企业权限)。
    • 支持长上下文(200K tokens)。

3. ​PaLM 2(Google)​

  • 模型:PaLM 2(通过 Vertex AI)
  • 特点
    • 支持基于企业数据的微调(医疗、金融等垂直领域)。
    • 需付费使用 Google Cloud 服务。

三、微调方法

  1. 全参数微调(Full Fine-tuning)​
    • 直接更新模型所有权重,需高性能 GPU(如 A100/H100)。
    • 适用场景:数据量大、任务复杂(如领域知识注入)。
  2. 高效微调(Parameter-Efficient Fine-tuning, PEFT)​
    • LoRA:冻结原模型,注入低秩适配层。
    • QLoRA:量化 + LoRA,可在 24GB 显存下微调 70B 模型。
    • Adapter:插入小型适配模块,保留原权重。
  3. 提示微调(Prompt Tuning)​
    • 仅优化输入提示(Prompt)的嵌入表示,无需修改模型。

四、选择建议

  • 资源有限:使用 7B-13B 模型 + LoRA/QLoRA(如 LLaMA-7B、Mistral-7B)。
  • 商业用途:选择 Apache 2.0/MIT 协议模型(Falcon、Baichuan)。
  • 多语言任务:BLOOM、XLM-R。
  • 长文本处理:Vicuna、Mistral-7B(32K context)。

五、学习资源

  • 代码库:Hugging Face Transformers、DeepSpeed、FastChat。
  • 教程
    • Hugging Face PEFT 文档(LoRA/QLoRA)。
    • Meta 官方 LLaMA 微调指南。
    • 社区项目(如 Stanford Alpaca、Chinese-LLaMA-Alpaca)。

1. DeepSeek 开源模型

​**(1) DeepSeek LLM 系列**

  • 模型版本
    • DeepSeek LLM-7B/67B:基础版本,支持中英双语,参数量分别为 7B 和 67B。
    • DeepSeek LLM Chat:基于基础模型微调的对话版本,对齐人类偏好。
  • 特点
    • 高性能:在 MT-Bench、C-Eval 等中英文评测中表现优于 LLaMA-2、ChatGLM 等同类模型。
    • 长上下文支持:默认支持 4K tokens,可扩展至 16K 或更高。
    • 高效推理:支持量化(INT4/AWQ)和 vLLM 加速。
  • 开源协议:MIT 许可证,​允许商用
  • 微调支持
    • 提供完整的模型权重和代码,支持全参数微调、LoRA、QLoRA 等方法。
    • 工具链:Hugging Face Transformers、DeepSeek 官方示例代码。
  • 资源地址
    • 模型下载:Hugging Face Hub(DeepSeek-LLM-7B)
    • 微调教程:GitHub 官方仓库(提供 SFT、RLHF 示例)。

​**(2) DeepSeek-MoE 系列**

  • 模型版本:DeepSeek-MoE-16B(混合专家模型)
  • 特点
    • 通过稀疏化架构(16个专家,激活其中2个)实现高性价比,性能接近 7B 模型,显存占用更低。
    • 支持中英文对话和复杂推理。
  • 开源协议:MIT 许可证,​允许商用
  • 微调支持:与 DeepSeek LLM 类似,支持 LoRA 等高效微调方法。

2. DeepSeek 闭源模型

​**(1) DeepSeek-R1**

  • 定位:企业级 API 服务,对标 GPT-4、Claude-3。
  • 特点
    • 多模态支持(文本、图像、代码)。
    • 长上下文(最高 128K tokens),擅长数学推理、代码生成。
  • 微调支持
    • 通过 DeepSeek 企业平台提供定制化微调服务,需提交数据并与官方合作。
    • 支持领域适配(如金融、医疗)和私有化部署。

​**(2) DeepSeek-API**

  • 模型版本:DeepSeek-Lite/Pro
  • 特点
    • 低成本、低延迟的云端 API,适合中小规模应用。
    • 支持中英文生成、摘要、翻译等通用任务。
  • 微调支持
    • 提供有限的 Prompt 工程调优,不支持模型权重修改。

3. 微调实践建议

​**(1) 开源模型微调步骤**

  1. 环境准备
    • GPU 要求:7B 模型需 16GB+ 显存(QLoRA 可降至 10GB),67B 模型需多卡或量化。
    • 框架:PyTorch、DeepSpeed、Hugging Face Ecosystem。
  2. 数据格式
    • 使用标准指令数据集(如 Alpaca 格式)或自定义 JSON 文件。
    • 示例数据格式:json{"instruction": "写一首关于春天的诗", "input": "", "output": "..."}
  3. 高效微调
    • LoRA/QLoRA:冻结原模型权重,添加低秩适配层,适合单卡微调。
    • 全参数微调:需多卡并行(如 DeepSpeed ZeRO-3)。
  4. 部署推理
    • 使用 vLLM 或 Triton 加速推理,支持 OpenAI 兼容的 API 服务。

​**(2) 典型应用场景**

  • 领域知识注入:在医疗、法律等专业语料上微调,增强模型垂直领域能力。
  • 风格对齐:调整生成文本的语气(如正式、口语化)。
  • 多语言扩展:加入小语种数据,提升非英语生成质量。

4. 优势与对比

特性DeepSeek LLMLLaMA-2ChatGLM
开源协议MIT(商用友好)非商用/需申请需授权
中英文支持✔️ 优化✔️ 一般✔️ 中文优化
长上下文16K+(可扩展)4K(需外推)8K
微调成本低(QLoRA 支持)中等中等

5. 学习资源

  • 官方文档
    • DeepSeek LLM GitHub
    • DeepSeek 技术报告(含训练细节和评测结果)
  • 社区教程
    • 使用 QLoRA 微调 DeepSeek-7B(Bilibili/知乎均有实操案例)。
    • 结合 LangChain 构建领域知识问答系统。

总结

DeepSeek 的开源模型(如 LLM-7B)是当前性价比极高的微调选择,尤其适合中文场景和商业应用。其闭源模型(如 DeepSeek-R1)则为企业级需求提供高性能、多模态的解决方案。若追求灵活性和可控性,建议优先尝试开源版本,结合 LoRA 快速迭代业务模型。

AI相关的一切

留言

您的邮箱地址不会被公开。 必填项已用 * 标注