1. 신경망 개요

신경망을 어떻게 구현하는지 알아보자.

로지스틱 회귀에서 보았던 시그모이드 계산 유닛들을 세로로 쌓아서 신경망을 만들 수 있다.

로지스틱 회귀를 신경망으로 나타낸 것

첫 번째 층의 각 노드에서 계산하는 것

첫 번째 층의 각 노드는 z 계산 후 a를 계산하는 2개의 단계를 수행한다.
두번째 층의 노드는 앞서 계산한 a를 이용하여 또 다른 z를 계산 후 그에 따른 a(=최종 output이자 예측값 $\hat{y}$)를 계산한다.

여기서 첫 번째 층, 두 번째 층이라는 표현을 했는데, 이처럼 일련의 노드들을 하나의 **레이어(=층, layer)**이라고 한다.

l번째 층은 위첨자 [l]로 표시한다.

일반적인 신경망에서는 z→a 계산을 여러 번 수행하고, 마지막으로 손실 함수(비용 함수)를 계산한다.

정방향 전파와 역방향 전파는 앞서 배웠던 것과 비슷하게 이루어진다.

2. 신경망 표현 방법

앞서 본 신경망은 hidden layer가 1개인 2 layer NN이다.

$a$(활성값, activations): 신경망에서 하나의 층이 다음 층으로 전달하는 값

input feature $x1, x2, x3$은 신경망의 input layer(입력층)
- 0번째 레이어
- $x = a^{[0]}$
노드들로 이루어진 중간의 레이어는 신경망의 hidden layer(은닉층)
- input layer와 output layer 사이의 모든 층을 의미한다.
- 지도학습의 train set에서는 (input, output) 쌍만 주어지고, 우리는 hidden layer의 값들을 알 수 없다.
- $a^{[1]}$
  - $a^{[1]}\$ 는 $a_i^{[1]}$로 이루어진 열 벡터
  - 해당 층에서 몇 번째 노드인지를 아래첨자 i로 표현한다.
노드 하나로 이루어진 마지막 레이어는 신경망의 output layer(출력층)
- output layer는 예측값 $\hat{y}$를 계산한다.
- $a^{[2]} = \hat{y} =a$ (최종 예측값)

<aside> 💡

신경망의 층을 셀 때 input layer는 세지 않는다. 위에서 본 신경망은 hidden layer, output layer만 세어 2 layer NN이다.

</aside>

hidden layer와 output layer는 각각 연관된 파라미터를 가진다.

hidden layer의 파라미터: $w^{[1]},b^{[1]}$