Литмир - Электронная Библиотека
Содержание  
A
A

s(t) = t³

Приращение и производная:

s(t) = t³

∆s = s(t+∆t) – s(t) = t³ + 3 t²∆t+ 3t∆ t² + ∆ t³ – t³ = ∆t(3 t² + 3t∆t + ∆t²)

Нейронный сети. Эволюция - _67.jpg

Из двух последних примеров (с производными функций s(t) = t² и s(t) = t³) следует, что показатель степени числа, становится его произведением, а степень уменьшается на единицу:

s(t) = tⁿ

Нейронный сети. Эволюция - _68.jpg

А чему равна производная от аргумента функции? Давайте узнаем…

s(t) = t

Приращение:

s = s(t+∆t) – s(t) = t + ∆tt = ∆t

Производная:

Нейронный сети. Эволюция - _69.jpg

Получается, что производная от переменной:

t′ = 0

Правила дифференцирования и дифференцирование сложных функций

Дифференцирование суммы

(u+v)′ = u′ + v, где u и v – функции.

Пусть f(x) = u(x) + v(x). Тогда:

f = f(x+∆x) – f(x) = u(x+∆x) + v(x+∆x) – u(x) – v(x) = u(x) + ∆u + v(x) + ∆vu(x) – v(x) = ∆u + ∆v

Тогда имеем:

Нейронный сети. Эволюция - _70.jpg

Дроби u/∆х и v/∆х при ∆х->0 стремятся соответственно к u′(x) и v′ (x). Сумма этих дробей стремится к сумме u′(x) + v′ (x).

f′(x) = u′ (x) + v′ (x)

Дифференцирование произведения

(u*v)′ = uv + vu, где u и v – функции

Разберем, почему это так. Обозначим f(x) = u(x) * v(x). Тогда:

f = f(x+∆x) – f(x) = u(x+∆x) * v(x+∆x) – u(x) * v(x) = (u(x) + ∆u) * (v(x) + ∆v) – u(x) * v(x) = u(x)v(x) + v(x)∆u + u(x)∆v + ∆uvu(x)v(x) = v(x)∆u + u(x)∆v + ∆uv

Далее имеем:

Нейронный сети. Эволюция - _71.jpg

Первое слагаемое стремиться к u′(x) v(x). Второе слагаемое стремиться к v′(x)* u(x). А третье, в дроби u/∆x, в пределе даст число u′(x), а поскольку множитель ∆v стремиться к нулю, то и вся эта дробь обратится в ноль. А следовательно, в результате получаем:

f′(x) = u′ (x) v(x) + v′ (x) u(x)

Из этого правила, легко убедиться, что:

(c*u)′ = cu + c u′ = c u

Поскольку, с – константа, поэтому ее производная равна нулю (c′ = 0).

Зная это правило мы без труда, найдем изменение скорости второго примера.

Применим к выражению правило дифференцирование суммы:

s′ (t) = (0,2t) ′ + (1,5) ′

Теперь по порядку, возьмём выражение – (0,2t) ′. Как брать производную произведения константы и переменной мы знаем:

(0,2t) ′ = 0,2

А производная самой константы равна нулю – (1,5) ′ = 0.

Следовательно, скорость изменения скорости, второго примера:

s′ (t) = 0,2

Что совпадает с нашим ответом, полученном ранее во втором примере.

Дифференцирование сложной функции

Допустим, что в некоторой функции, y сама является функцией:

f = y²

y = x²+x

Представим дифференцирование этой функции в виде:

Нейронный сети. Эволюция - _72.jpg

Нахождение производной в этом случае, осуществляется в два этапа.

Нейронный сети. Эволюция - _73.jpg

Мы знаем, как решить производную типа: dy²/dy = 2y

А также знаем, как решать производную суммы: х² + х = (х²)′ + х′ = 2х+1

Тогда:

2(x²+x) * (2х+1) = (2х²+2х) * (2х+1) = 4х³+6х²+2х

Я надеюсь, вам удалось понять, в чем состоит суть дифференциального исчисления.

Используя описанные, методы дифференцирования выражений, вы сможете понять механизм работы метода градиентного спуска.

В качестве небольшого дополнения, приведу список наиболее распространённых табличных производных:

Нейронный сети. Эволюция - _74.jpg

Нейронный сети. Эволюция - _75.jpg

Нейронный сети. Эволюция - _76.jpg

Зачем нам дифференцировать функции

Еще раз вспомним как мы спускаемся по склону. Что в кромешной тьме, мы хотим попасть к его подножью, имея в своем арсенале слабенький фонарик.

Нейронный сети. Эволюция - _52.jpg

Опишем эту ситуацию, по аналогии с математическим языком. Для этого проиллюстрируем график метода градиентного спуска, но на этот раз применительно к более сложной функции, зависящей от двух параметров. График такой функции можно представить в трех измерениях, где высота представляет значение функции:

Нейронный сети. Эволюция - _77.jpg
11
{"b":"611600","o":1}