大语言模型

从基础概念到核心技术,掌握LLM核心原理

什么是大语言模型?
┌─────────────────────────────────────────────────────────────────────────┐ │ 大语言模型(LLM)发展历程 │ ├─────────────────────────────────────────────────────────────────────────┤ │ │ │ 统计语言模型 神经网络语言模型 Transformer 预训练+微调 超大规模 │ │ (1990s) → (2000s) → (2017) → (2018-) → (2020-) │ │ │ │ │ │ │ │ │ ▼ ▼ ▼ ▼ ▼ │ │ 词频统计 Word2Vec, RNN Attention机制 BERT, GPT GPT-3/4 │ │ │ └─────────────────────────────────────────────────────────────────────────┘

核心能力

📝 文本生成

续写文章、创作内容

🔍 理解分析

阅读理解、情感分析

💬 问答对话

智能客服、知识问答

⌨️ 代码编写

代码生成、调试

🌐 翻译摘要

多语言翻译、文本摘要

🧠 推理规划

逻辑推理、任务规划

模型规模对比

级别 参数量 能力特点 代表模型
小模型 <1B 快速响应,简单任务 GPT-2 Small
中等模型 1-10B 一般对话,简单推理 LLaMA-7B
大模型 10-100B 复杂推理,多任务 GPT-3, LLaMA-13B
超大模型 >100B 接近人类,多领域专家 GPT-4, PaLM
Transformer架构
┌─────────────────────────────────────────────────────────────────────────┐ │ Transformer 核心组件 │ ├─────────────────────────────────────────────────────────────────────────┤ │ │ │ ┌──────────────────────────────────────────────────────────────┐ │ │ │ Encoder-Decoder │ │ │ │ ┌─────────┐ ┌─────────┐ ┌─────────┐ ┌─────────┐ │ │ │ │ │ Input │ → │ Embedding│ → │ Positional│ → │ Encoder │ │ │ │ │ │ Tokens │ │ │ │ Encoding │ │ Stack │ │ │ │ │ └─────────┘ └─────────┘ └─────────┘ └────┬────┘ │ │ │ │ │ │ │ │ │ ┌─────────────────────────────┘ │ │ │ │ │ │ │ │ │ ┌─────────┐ ┌──────┴──────┐ ┌─────────┐ ┌─────────┐│ │ │ │ │ Output │ ← │ Linear │ ← │ Decoder │ ← │ Cross ││ │ │ │ │ Sequence│ │ Projection │ │ Stack │ │Attention││ │ │ │ └─────────┘ └─────────────┘ └─────────┘ └─────────┘│ │ │ └──────────────────────────────────────────────────────────────┘ │ │ │ │ 关键技术:Multi-Head Attention + Add & Norm + Feed Forward │ │ │ └─────────────────────────────────────────────────────────────────────────┘

注意力机制

输入序列
Query (Q)
Key (K) + Value (V)
计算 Q·K^T 分数
Softmax 归一化
加权求和输出
注意力权重

预训练与微调范式

预训练阶段

目标
学习语言规律
数据
海量文本
方法
Next Token Prediction

微调阶段

目标
任务适配
数据
标注数据
方法
SFT / RLHF

涌现能力

大模型的关键特性:随着模型规模增大,突然出现小模型不具备的能力

🧩 复杂推理

多步逻辑推理、数学计算

📐 思维链

分步骤解决问题

🎯 零样本迁移

未见过的任务直接完成

主流模型对比

模型 公司 参数量 特点 开源
GPT-4 OpenAI ~1.76T 多模态、强大推理
Claude 3 Anthropic 未知 长上下文、安全对齐
LLaMA 3 Meta 70B 开源领先、性能优秀
Qwen 2.5 阿里 72B 中文优秀、开源
DeepSeek 深度求索 67B 推理能力强

模型分类与最佳实践

按功能类型分类
┌─────────────────────────────────────────────────────────────────────────┐ │ LLM 模型功能分类 │ ├─────────────────────────────────────────────────────────────────────────┤ │ │ │ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │ │ │ 通用对话模型 │ │ 代码生成模型 │ │ 多模态模型 │ │ 推理增强模型 │ │ │ └─────────────┘ └─────────────┘ └─────────────┘ └─────────────┘ │ │ │ │ │ │ │ │ ▼ ▼ ▼ ▼ │ │ ChatGPT, Claude Codex, StarCoder GPT-4V, Gemini o1, DeepSeek-R1 │ │ Qwen, 文心一言 CodeLlama LLaVA, MiniCPM o3-mini │ │ │ └─────────────────────────────────────────────────────────────────────────┘

🗣️ 通用对话模型

擅长日常对话、文本创作、知识问答

  • 代表模型:GPT-4, Claude 3, Qwen, 文心一言
  • 特点:知识广泛、表达自然

最佳实践

  • 明确任务目标和期望输出格式
  • 提供上下文信息帮助理解
  • 使用Few-shot示例引导风格
  • 复杂任务分步骤提问

⌨️ 代码生成模型

专注于代码编写、调试、解释,重构

  • 代表模型:GPT-4o, Claude 3.5, DeepSeek, Codex
  • 特点:代码准确、懂编程范式

最佳实践

  • 明确编程语言和框架版本
  • 描述输入输出和数据结构
  • 要求添加注释和单元测试
  • 让模型解释代码逻辑

🖼️ 多模态模型

支持图像、视频、音频理解和生成

  • 代表模型:GPT-4V, Gemini 1.5, Claude 3V, LLaVA
  • 特点:多模态输入,理解图像

最佳实践

  • 图像清晰、关键信息突出
  • 明确需要识别的内容
  • 提供图像相关的文字说明
  • 复杂图表分区域提问

🧠 推理增强模型

擅长复杂推理、数学计算、逻辑分析

  • 代表模型:o1, o3, DeepSeek-R1, o3-mini
  • 特点:深度思考、步骤清晰

最佳实践

  • 给充足时间思考
  • 提供完整的背景信息
  • 要求展示推理过程
  • 验证中间步骤正确性

按部署方式分类

类型 代表模型 优势 适用场景 成本
云端API GPT-4, Claude API 即用即付、无需运维 原型开发、小规模应用 按token计费
开源自部署 LLaMA, Qwen, DeepSeek 数据安全、可定制 企业内网、私有化部署 GPU硬件成本
边缘部署 Qwen-1.5-1.8B, Phi-3 低延迟、离线运行 移动端、嵌入式设备 设备成本