从机器学习到大模型（零基础）-慈云数据

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

前言

一、机器学习

1.监督学习

（1）线性回归模型

（2）多元线性回归模型

（3）二元分类模型

（4）注意事项

（5）深度学习

（6）模型评估

（7）决策树

2.非监督学习

（1）聚类

（2）异常检测

（3）推荐系统

3.强化学习

二、RNN

三、RCNN

四、LSTM

五、Encoder-Decoder

六、Transformer

七、Bert

总结

参考资料

前言

从计算机之父Alan Turing 的 Computer Machinery and Intelligence 开始，将机器与思维联系到了一起，提出了著名的“图灵测试”，此后无数的科学家大牛们在这场“模仿游戏”中玩的不亦乐乎，将数学结合计算机形成了解决问题的系统，并且不断的深入，变得越来越复杂，从最初的的机器学习到现在动则几百亿参数的大模型；关于机器是否会拥有智能，硅基生物是否有一天会拥有自己的意识，当机器数据的规模不断增大，是否会量变引起质变，涌现出自己的思想，没有人可以给出一个肯定的回答，但是我们这个时代注定要见证许多的不平凡，过于先进的科技对于普通人来说就像魔法一样，希望通过自己不断地学习可以悟出魔法的奥秘。

一、机器学习

机器学习可以简单分为监督学习、非监督学习与强化学习。

监督学习是给出算法实例和答案，对输出进行预测或者分类，相对应用的比较多；

非监督学习是根据数据自己进行学习，例如给标签的数量自己进行分组集群（聚类/异常检测/降维）；

强化学习是根据环境的反馈进行强化学习。

1.监督学习

在监督学习中主要分为线性回归模型和分类模型

（1）线性回归模型

最简单的线性回归模型，就是给出数据，找到一条最合适的线（函数）来对其进行拟合，之后可以进行预测。线性回归模型和分类的区别之一就是分类的输出一般是有限的，而线性回归模型的输出基本是无限的。

所以我们只要给定训练数据xi和yi，假设函数为f，预测输出为y-hat

其中f就是要训练的模型，简单的可以是一元一次方程，复杂的可以有几百个参数。

那么问题就来了，我们该如何去找到这个 f 呢？

换句话说，要找到 f，就是要找到函数中的参数，也就是w和b，所以我们的目标转移到了找w,b的问题上。

在最开始我们先随便选择参数，构建一个预测函数，之后不断的调整使它更贴合训练集，所以我们的目标又转移到了如何去调整参数之上。

我们现在的预测模型代入xi可以得到预测值，也可以看到它与真实值的差距，利用这个特点，我们就可以通过反向传播去训练这个参数，让预测值与真实值的差距越来越小，而反向传播的关键之一就是损失函数。

不要忘记我们的目的是去找w,b，而损失函数就是一个重点。

可以看到损失函数占大头的就是对所有训练集的预测值减去真实值的平方求和，之后除以2倍的训练集数量，只要知道他和那个“差值”是正相关的就足够，差越大，损失函数越大。如果我们暂时去除b这个参数，对w进行随机取值，得到的损失函数是这样的（如果加上b则变成3维图像）：

J对于w的函数图像

J对于w,b的函数图像

可以看到是存在w,b使得损失函数最小的，我们的目的是为了找到这个最合适的w,b，也就是为了减小这个损失函数、减小差值，于是又引出了梯度下降的概念。

梯度下降的目的就是为了找到这个最合适的w,b,也就是损失函数中的最小值所对应的参数。

在一开始我们随机给出了w,b,带入到损失函数之中，可以求出这个位置的偏导数，用现在的w减去学习率α与偏导的乘积，可以找到下一个更合适的位置；因为偏导为负数则为“下坡路”，减去负数得正前进继续下降找更小，反之上坡后退找更小，最终找到那个最低点。其中的学习率α也是线性回归模型中的超参数之一，是需要我们自己去设定的。在此也补充一下有关机器学习的相关概念,有助于对于以后内容的理解。

概念解释：

学习率α：机器学习的超参数之一，为了控制找最优w,b的步长，太大了容易爆炸，太小了找的太慢（也有可能找到了局部最优解就跳不出去了），建议是0.01~0.001刚开始可以用，在一定的epoch之后减缓，如果是迁移学习微调的话建议=0，>0是线性的

如何去选择隐藏层的激活函数，大部分都是ReLU，注意不能直接用线性回归模型，因为那样的话人工神经网络就是一个大型的线性回归模型就鸡肋了。

选择输出层的激活函数：输出层函数有所讲究，主要看需要的输出类型是什么样的，对应的激活函数的特点。二元分类用sigmoid，回归y分为正负用线性，y大于0用relu

多分类模型：在之前提到了二分类模型，那么如果有多个输出的话，即多分类，应该如何进行？其实就采用了softmax多分类模型，简单来说是对输出又做了一个求比重的运算，从而得到多输出。

通过计算最后得到的输出ax就是对应x的概率

加入softmax之后损失函数也有所改变，变为对每个输出单独求损失函数

之后的流程也是大同小异，通过正向传播和反向传播更新参数，最终得到训练好的模型，如下：

值得一提的事还有其他的算法可以取代梯度下降的算法，比如Adam算法等，很多比梯度下降好用

卷积神经网络（CNN）：卷积神经网络即CNN，Convolutional Neural Networks，就是在人工神经网络NN的基础之上，对输入层做改变，使每个神经元看一部分的输入，从而减小运算量。C代表的卷积，是对输入的一种处理，用来处理图像特征，卷积层拥有多个卷积核，每个卷积核都有自己的特征，之后对图像进行卷积处理，几个内核就会扫出来几张图。