让计算机从数据中自动学习规律
给机器"标准答案"学习
让机器自己发现规律
通过奖励和惩罚学习
| 对比项 | 回归问题 | 分类问题 |
|---|---|---|
| 输出类型 | 连续数值 | 离散类别 |
| 例子 | 预测房价(150万、200万...) | 识别猫狗(猫、狗) |
| 输出示例 | 99.5、150.2 | 0、1、2 或 猫、狗、鸟 |
| 评估指标 | MSE、RMSE、MAE | 准确率、精确率、召回率 |
找一条直线拟合数据
二分类问题的经典算法
像树一样不断分支判断
多棵树一起投票
串行建造多棵树
找到最佳分割超平面
基于概率的分类
看邻居判断自己是哪类
关注被错分的样本
自动把相似数据分K组
自底向上合并样本
找到数据主要方向
高维数据可视化
基于密度的聚类
异常点更容易被孤立
用多个高斯分布混合
比t-SNE更快更好
发现物品间关联关系
更快的梯度提升框架
自动处理类别特征
最简单的神经网络
L2正则化的线性回归
L1正则化 + 特征选择
L1 + L2 正则化组合
比随机森林更随机
并行训练多个模型
用元学习器组合模型
多个弱分类器串联
基于贝叶斯定理的分类
线性/二次判别分析
找最大间隔分类超平面
非线性问题转线性
状态转移的概率模型
观测序列推断隐状态
序列标注的判别模型
函数上的概率分布
发现潜在因子
分离独立信号
有监督的降维回归
生成式概率模型
多个专家网络组合
迭代拟合残差
| 场景 | 推荐算法 | 原因 |
|---|---|---|
| 快速baseline | 逻辑回归 / 决策树 | 简单、可解释 |
| 结构化数据 | 梯度提升(XGBoost/LightGBM) | 精度高、稳定 |
| 图像/文本 | 深度学习(CNN/RNN/Transformer) | 自动特征提取 |
| 需要可解释 | 决策树 / 逻辑回归 | 规则清晰 |
| 聚类分析 | K-Means / DBSCAN | 效果稳定 |
| 异常检测 | 孤立森林 / One-Class SVM | 专门设计 |
| 数据量小 | SVM / 朴素贝叶斯 | 小样本效果好 |
| 高维稀疏 | 逻辑回归 / 线性SVM | 擅长高维 |
| 指标 | 说明 | 计算公式 | 适用场景 |
|---|---|---|---|
| 准确率 | 预测正确的比例 | (TP+TN)/(TP+TN+FP+FN) | 分类问题通用 |
| 精确率 | 预测为正类中真正正类的比例 | TP/(TP+FP) | 关注误报 |
| 召回率 | 正类中被正确预测的比例 | TP/(TP+FN) | 关注漏报 |
| F1分数 | 精确率和召回率的调和平均 | 2×(精确率×召回率)/(精确率+召回率) | 综合评价 |
| MSE | 预测值与真实值差异的平方平均 | Σ(y_i - ŷ_i)² / n | 回归问题 |
| R² | 模型解释数据的能力(0-1) | 1 - (Σ(y_i - ŷ_i)² / Σ(y_i - ȳ)²) | 回归问题 |