大语言模型

从基础概念到核心技术，掌握LLM核心原理

什么是大语言模型？

┌─────────────────────────────────────────────────────────────────────────┐ │ 大语言模型（LLM）发展历程 │ ├─────────────────────────────────────────────────────────────────────────┤ │ │ │ 统计语言模型神经网络语言模型 Transformer 预训练+微调超大规模 │ │ （1990s） → （2000s） → （2017） → （2018-） → （2020-） │ │ │ │ │ │ │ │ │ ▼ ▼ ▼ ▼ ▼ │ │ 词频统计 Word2Vec, RNN Attention机制 BERT, GPT GPT-3/4 │ │ │ └─────────────────────────────────────────────────────────────────────────┘

核心能力

📝 文本生成

续写文章、创作内容

🔍 理解分析

阅读理解、情感分析

💬 问答对话

智能客服、知识问答

⌨️ 代码编写

代码生成、调试

🌐 翻译摘要

多语言翻译、文本摘要

🧠 推理规划

逻辑推理、任务规划

模型规模对比

级别	参数量	能力特点	代表模型
小模型	<1B	快速响应，简单任务	GPT-2 Small
中等模型	1-10B	一般对话，简单推理	LLaMA-7B
大模型	10-100B	复杂推理，多任务	GPT-3, LLaMA-13B
超大模型	>100B	接近人类，多领域专家	GPT-4, PaLM

Transformer架构

┌─────────────────────────────────────────────────────────────────────────┐ │ Transformer 核心组件 │ ├─────────────────────────────────────────────────────────────────────────┤ │ │ │ ┌──────────────────────────────────────────────────────────────┐ │ │ │ Encoder-Decoder │ │ │ │ ┌─────────┐ ┌─────────┐ ┌─────────┐ ┌─────────┐ │ │ │ │ │ Input │ → │ Embedding│ → │ Positional│ → │ Encoder │ │ │ │ │ │ Tokens │ │ │ │ Encoding │ │ Stack │ │ │ │ │ └─────────┘ └─────────┘ └─────────┘ └────┬────┘ │ │ │ │ │ │ │ │ │ ┌─────────────────────────────┘ │ │ │ │ │ │ │ │ │ ┌─────────┐ ┌──────┴──────┐ ┌─────────┐ ┌─────────┐│ │ │ │ │ Output │ ← │ Linear │ ← │ Decoder │ ← │ Cross ││ │ │ │ │ Sequence│ │ Projection │ │ Stack │ │Attention││ │ │ │ └─────────┘ └─────────────┘ └─────────┘ └─────────┘│ │ │ └──────────────────────────────────────────────────────────────┘ │ │ │ │ 关键技术：Multi-Head Attention + Add & Norm + Feed Forward │ │ │ └─────────────────────────────────────────────────────────────────────────┘

注意力机制

输入序列

→

Query (Q)

→

Key (K) + Value (V)

→

计算 Q·K^T 分数

→

Softmax 归一化

→

加权求和输出

→

注意力权重

预训练与微调范式

预训练阶段

目标
学习语言规律

数据
海量文本

方法
Next Token Prediction

微调阶段

目标
任务适配

数据
标注数据

方法
SFT / RLHF

涌现能力

大模型的关键特性：随着模型规模增大，突然出现小模型不具备的能力

🧩 复杂推理

多步逻辑推理、数学计算

📐 思维链

分步骤解决问题

🎯 零样本迁移

未见过的任务直接完成

主流模型对比

模型	公司	参数量	特点	开源
GPT-4	OpenAI	~1.76T	多模态、强大推理	❌
Claude 3	Anthropic	未知	长上下文、安全对齐	❌
LLaMA 3	Meta	70B	开源领先、性能优秀	✅
Qwen 2.5	阿里	72B	中文优秀、开源	✅
DeepSeek	深度求索	67B	推理能力强	✅

模型分类与最佳实践

按功能类型分类

┌─────────────────────────────────────────────────────────────────────────┐ │ LLM 模型功能分类 │ ├─────────────────────────────────────────────────────────────────────────┤ │ │ │ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │ │ │ 通用对话模型 │ │ 代码生成模型 │ │ 多模态模型 │ │ 推理增强模型 │ │ │ └─────────────┘ └─────────────┘ └─────────────┘ └─────────────┘ │ │ │ │ │ │ │ │ ▼ ▼ ▼ ▼ │ │ ChatGPT, Claude Codex, StarCoder GPT-4V, Gemini o1, DeepSeek-R1 │ │ Qwen, 文心一言 CodeLlama LLaVA, MiniCPM o3-mini │ │ │ └─────────────────────────────────────────────────────────────────────────┘

🗣️ 通用对话模型

擅长日常对话、文本创作、知识问答

代表模型：GPT-4, Claude 3, Qwen, 文心一言
特点：知识广泛、表达自然

最佳实践

明确任务目标和期望输出格式
提供上下文信息帮助理解
使用Few-shot示例引导风格
复杂任务分步骤提问

⌨️ 代码生成模型

专注于代码编写、调试、解释，重构

代表模型：GPT-4o, Claude 3.5, DeepSeek, Codex
特点：代码准确、懂编程范式

最佳实践

明确编程语言和框架版本
描述输入输出和数据结构
要求添加注释和单元测试
让模型解释代码逻辑

🖼️ 多模态模型

支持图像、视频、音频理解和生成

代表模型：GPT-4V, Gemini 1.5, Claude 3V, LLaVA
特点：多模态输入，理解图像

最佳实践

图像清晰、关键信息突出
明确需要识别的内容
提供图像相关的文字说明
复杂图表分区域提问

🧠 推理增强模型

擅长复杂推理、数学计算、逻辑分析

代表模型：o1, o3, DeepSeek-R1, o3-mini
特点：深度思考、步骤清晰

最佳实践

给充足时间思考
提供完整的背景信息
要求展示推理过程
验证中间步骤正确性

按部署方式分类

类型	代表模型	优势	适用场景	成本
云端API	GPT-4, Claude API	即用即付、无需运维	原型开发、小规模应用	按token计费
开源自部署	LLaMA, Qwen, DeepSeek	数据安全、可定制	企业内网、私有化部署	GPU硬件成本
边缘部署	Qwen-1.5-1.8B, Phi-3	低延迟、离线运行	移动端、嵌入式设备	设备成本