1Cademy - Gradient Descent Batch Norm in Deep Learning Implementation

Learn Before

Batch Normalization Formula

Concept

Gradient Descent Batch Norm in Deep Learning Implementation

For t=1,..., n mini-batches, Compute forward propagation on $X^{\{i\}}$ In each hidden layer, use Batch Norm to replace $z^{(l)}$ with $\tilde{z}^{(l)}$ Use back propagation to compute $dW^{(l)}, d\gamma^{(l)}, d\beta^{(l)}$ Update parameters: $W^{(l)} = W^{(l)} - dW^{(l)}$ $\gamma^{(l)} = \gamma^{(l)} - d\gamma^{(l)}$ $\beta^{(l)} = \beta^{(l)} - d\beta^{(l)}$