Powered by GitBook

学习梯度下降的教程

1. 梯度下降法

梯度下降法（英语：Gradient descent）是一个最优化算法，通常也称为最速下降法。

梯度下降法，基于这样的观察：如果实值函数F(x)在点a处可微且有定义，那么函数F(x)在a点沿着梯度相反的方向下降最快。

——梯度下降法 - 维基百科，自由的百科全书

2. 可微（导数）

导数（英语：Derivative）是微积分学中重要的基础概念。一个函数在某一点的导数描述了这个函数在这一点附近的变化率。导数的本质是通过极限的概念对函数进行局部的线性逼近。当函数f的自变量在一点x_0上产生一个增量h时，函数输出值的增量与自变量增量h的比值在h趋于0时的极限如果存在，即为f在x_0处的导数，记作:

导数是函数的局部性质。不是所有的函数都有导数，一个函数也不一定在所有的点上都有导数。

若某函数在某一点导数存在，则称其在这一点可导，否则称为不可导。如果函数的自变量和取值都是实数的话，那么函数在某一点的导数就是该函数所代表的曲线在这一点上的切线斜率。

（所以，一次函数的导数即x的系数，也就是直线的斜率，是一个数值。二次函数的导数是kx，是一条直线。）

对于可导的函数f，

也是一个函数，称作f的导函数。

寻找已知的函数在某点的导数或其导函数的过程称为求导。

反之，已知导函数也可以倒过来求原来的函数，即不定积分。

Δx趋向于0时，红蓝线趋向于重合。

导数和导函数

若函数f(x)在其定义域包含的某区间I内每一个点都可导，那么也可以说函数f(x)在区间I内可导，这时对于I 内每一个确定的x值，都对应着f的一个确定的导数值，如此一来就构成了一个新的函数：

这个函数称作原来函数f(x)的导函数。

导数是一个数，是指函数 f(x)在点 x_0处导函数的函数值。但在不至于混淆的情况下，通常也可以说导函数为导数。

由于对每一个可导的函数 \;f(x)\;，都有它的导函数 f'(x)\; 存在，我们还可以定义将函数映射到其导函数的算子。这个算子称为微分算子，一般记作：

例如：

流数就是导数。牛顿将无穷小的时间间隔定义为“瞬”（moment），而一个量的增量则是流数与瞬的乘积。

注意这里的moment，即Δ。

3. 函数可导的条件

如果一个函数的定义域为全体实数，即函数在(-∞,+∞)上都有定义，那么该函数是不是在定义域上处处可导呢？答案是否定的。函数在定义域中一点可导需要一定的条件。首先，要使函数f在一点可导，那么函数一定要在这一点处连续。换言之，函数若在某点可导，则必然在该点处连续。

谁是不连续的函数？举例：求一个数值的符号，符号函数：

连续也不可导的情况：左导数和右导数不相等。举例：求一个数值的绝对值，绝对值函数：

所以，可导的条件是：

如果函数在一点的左右导数都存在并且相等，那么函数在该处可导。

4. 单调性

——导数 - 维基百科，自由的百科全书

5. 梯度

——梯度 - 维基百科，自由的百科全书