浅谈神经网络中的激活函数

  • 时间:
  • 浏览:1
  • 来源:大发快3_快3手机app下载_大发快3手机app下载

       激活函数是神经网络中一一二个 重要的环节,本文将介绍为有哪些神经网络网络要利用激活函数,几种常用的激活函数(逻辑函数Sigmoid、双曲正切函数tanh、线性整流函数(ReLU),神经网络中的梯度消失有哪些的问提和ReLU如何防止梯度消失。

       机会神经网络越来越 进行可不也能提取非线性特征的卷积操作,否则该神经网络要是用激活函数,越来越 你你这个神经网络第i层输出也能Wxi+b。要是此神经网络不论有哪几只层,第i层的输出前会 一一二个 关于第i层输入xi的线性组合,离米 此时多层神经网络退化为一一二个 多层的线性回归模型,难以学习如图像、音频、文本等冗杂数据的特征。

       正机会你你这个意味着着,神经网络要引入激活函数来给神经网络增加某些非线性的特征,要是目前常见的激活函数大多是非线性函数。要是神经网络中下一层得到的输入不再是线性组合了。

2.1 逻辑函数Sigmoid [1]

       逻辑函数(logistic function)或逻辑曲线(logistic curve)是你你这个常见的S函数,它是皮埃尔·弗朗索瓦·韦吕勒在1844或1845年在研究它与人口增长的关系时命名的。

       一一二个 简单的Logistic函数表达式为:

\[ f\left( x \right) = \frac{1}{{1 + {e^{ - x}}}} \]



图1 标准逻辑函数的图像

       逻辑函数形如S,要是通常也叫做S形函数。

       从函数图像易知f(x)的定义域为[-∞, +∞], 值域是(0,1)

       对f(x)求导数,易得

\[f'\left( x \right) = {\left( {\frac{1}{{1 + {e^{ - x}}}}} \right)^\prime } = \frac{{{e^{ - x}}}}{{{{\left( {1 + {e^{ - x}}} \right)}^2}}}\;\; = f\left( x \right)\left( {1 - f\left( x \right)} \right)\]

2.2 双曲正切函数tanh [2]

       双曲正切函数是双曲函数的你你这个。在数学中,双曲函数是一类与常见的三角函数同类于的函数。双曲正切函数的定义为

\[f\left( x \right) = \tanh \left( x \right) = \frac{{{e^x} - {e^{ - x}}}}{{{e^x} + {e^{ - x}}}}\]



图2 双曲正切函数的图像(同逻辑函数同类于)

       从函数图像易知f(x)的定义域为[-∞, +∞], 值域是(-1,1)

       对f(x)求导数,易得

\[f'\left( x \right) = {\left( {\frac{{{e^x} - {e^{ - x}}}}{{{e^x} + {e^{ - x}}}}} \right)^\prime } = \frac{4}{{{{\left( {{e^x} + {e^{ - x}}} \right)}^2}}}\;\; = 1 - f{\left( x \right)^2}\]

2.3 线性整流函数ReLU [3]

       线性整流函数(Rectified Linear Unit, ReLU),又称修正线性单元, 是你你这个人工神经网络中常用的激活函数,通常指代以斜坡函数及其变种为代表的非线性函数。

       通常意义下,线性整流函数指代数学中的斜坡函数,即

\[f\left( x \right) = \left\{ \begin{array}{l} x\quad \quad x \ge 0 \\ 0\quad \quad x < 0 \\ \end{array} \right.\]



图3 ReLU函数图像

       从函数图像易知f(x)的定义域为[-∞, +∞], 值域是[0, +∞)

       对f(x)求导数,易得

\[f'\left( x \right) = \left\{ \begin{array}{l} 1\quad \quad x \ge 0 \\ 0\quad \quad x < 0 \\ \end{array} \right.\]

       使用S形函数作为激活的神经网络中,随着神经网络的层数增加,神经网络上面层在梯度下降中求导的梯度几乎为0,从而意味着着神经网络网络上面层的权值矩阵几乎无法更新。表现为随着隐藏层数目的增加,分类准确率反而下降了。你你这个有哪些的问提叫做消失的梯度有哪些的问提。

       假设神经网络也能三层,用S型函数作为激活函数

       第一层输入为x, 输出为S(W1x+b1)

       第二层输入为S(W1x+b1),输出为S(W2S(W1x+b1)+b2)

       第三层输入为S(W2S(W1x+b1)+b2),输出为S(W3S(W2S(W1x+b1)+b2)+b3)

       一齐简记住每层在激活函数防止前的值为ai, 输出为fi

       假设最后损失函数为L,L是一一二个 关于f3的函数,越来越 求导易得

\[\begin{array}{l} \frac{{\partial L}}{{\partial {W_1}}} = \frac{{\partial L}}{{\partial {f_3}}} \cdot \frac{{\partial S\left( {{W_3}S\left( {{W_2}S\left( {{W_1}x + {b_1}} \right) + {b_2}} \right) + {b_3}} \right)}}{{\partial {W_1}}} \\ \quad \quad = \frac{{\partial L}}{{\partial {f_3}}} \cdot \frac{{\partial S}}{{\partial {a_3}}} \cdot \frac{{\partial {W_3}S\left( {{W_2}S\left( {{W_1}x + {b_1}} \right) + {b_2}} \right) + {b_3}}}{{\partial {W_1}}} \\ \quad \quad = \frac{{\partial L}}{{\partial {f_3}}} \cdot \frac{{\partial S}}{{\partial {a_3}}} \cdot {W_3} \cdot \frac{{\partial S\left( {{W_2}S\left( {{W_1}x + {b_1}} \right) + {b_2}} \right)}}{{\partial {W_1}}} \\ \quad \quad = \cdots \\ \quad \quad = \frac{{\partial L}}{{\partial {f_3}}} \cdot \frac{{\partial S}}{{\partial {a_3}}} \cdot {W_3} \cdot \frac{{\partial S}}{{\partial {a_2}}} \cdot {W_2} \cdot \frac{{\partial S}}{{\partial {a_1}}} \cdot \frac{{\partial {a_1}}}{{\partial {W_1}}} \\ \end{array}\]

       其中偏导数∂S/ ∂ai是造成梯度消失的意味着着,机会S函数的导数阈值为

\[f'\left( x \right) = \frac{{{e^{ - x}}}}{{{{\left( {1 + {e^{ - x}}} \right)}^2}}}\;\; \in \left( {0,\left. {\frac{1}{4}} \right]} \right.\]

       即有0<∂S/ ∂a1≤0.25, 0<∂S/ ∂a2≤0.25, 0<∂S/ ∂3≤0.25, 在损失函数偏导表达式中一一二个 偏导数相乘有:

\[0 < \frac{{\partial S}}{{\partial {a_3}}}\frac{{\partial S}}{{\partial {a_2}}}\frac{{\partial S}}{{\partial {a_1}}} \le 0.015625\]

       要是会 减小损失函数的数值,机会神经网络是20层,则有

\[0 < \frac{{\partial S}}{{\partial {a_{20}}}}\frac{{\partial S}}{{\partial {a_{19}}}} \cdots \frac{{\partial S}}{{\partial {a_1}}} \le {0.25^{20}} = {\rm{9}}.0{\rm{94}} \times {10^{ - 13}}\]

       这是一一二个 更小的数,要是神经网络后几层求第一层参数W1的梯度就非常小。而ReLU函数要是为了防止梯度消失有哪些的问提,机会ReLU求导也能一一二个 值1或0,要是语句否则我神经网络梯度中每根路径上的导数前会 1,越来越 无论网络有哪几只层,网络后几层的梯度都可不也能传播到网络前几层。

  1. https://en.wikipedia.org/wiki/Logistic_function
  2. https://en.wikipedia.org/wiki/Hyperbolic_function
  3. https://en.wikipedia.org/wiki/Rectifier_(neural_networks)

猜你喜欢

第 1 份工作,我只干了 2 周就被辞退了 | 十年系列

1.写在前面我将用系列文章,回顾十年守护进程生涯,一方面是对职场生涯的阶段性总结,另一方面希望哪些地方地方经历,对读者往后职场生涯有所启发。一只站在树上的鸟儿,从来不让害怕树枝

2019-12-12

避稅兼拉票 特朗普「遷居」佛州

圖:特朗普位於佛州的海湖莊園資料圖片【大公報訊】據美聯社報道:作為一個土生土長的「紐約客」,美國總統特朗普11月1日表示,儘管他每年向紐約市及州政府交數以百萬計美元的稅款,紐約

2019-12-12

墨西哥深海考古发现:300年前从事走私勾当?

核心提示:据墨西哥国家学得得与历史研究所说,潜水员在尤卡坦半岛附近的深海中发现了二个历史珍宝:一座沉入水底的灯塔、一艘18世纪的荷兰军舰以及一艘19世纪的英国轮船的残骸。据墨西

2019-12-12

微信脑力大乱斗X拿出信封中的支票

更新时间:2018-10-1019:21:03来源:斗蟹游戏编辑:周公约我 【斗蟹攻略】微信脑力大乱斗X第36关缘何过?却说小伙伴都告诉我,下面斗蟹网小编就为朋友 带来

2019-12-12

韓謀提升彈頭重量 日擬購陸基「神盾」

圖:為了防禦朝鮮導彈,日本防衛省11日在東京的總部啟動「愛國三型」防禦系統/法新社【大公報訊】綜合法新社、路透社、一并社報道:朝鮮頻頻試射導彈,近日更威脅發射導彈飛越日本上空襲

2019-12-12