$m$: 전체 dataset의 샘플 개수
$n$ = $n_x$: input feature 값의 개수(차원)
$n_y$: output 값의 개수
$x^{(i)}$ : i번째 샘플의 $x$ 값
$y^{(i)}$: i번째 샘플의 $y$ 값
$\hat{y}$: $y$의 예측 값
$L$: 신경망의 층의 개수
$n^{[l]}$: l층의 유닛 개수 (l층의 크기)
$a^{[l]}$: l층의 활성값