MAE와 MSE는 부호를 없애는데 어떻게 regression이 학습되는 걸까?

regression loss의 미분값에 대한 이해
MAE와 MSE는 부호를 없애는데 어떻게 regression이 학습되는 걸까?
 
 
MAE, MSE 모두 회귀모델을 만들 때 자주 쓰는 loss이다.
그런데 직관적으로 보면 MAE, MSE 둘 다 최종 loss에 부호가 없기 때문에 의문이 생긴다.
 
예를 들어 target이 3이었을 때 2를 예측했다면 +1의 오차이고 MAE는 1이다.
그리고 만약 4를 예측했다면 -1의 오차이고 MAE는 1이다.
예측값이 2이었을 땐 예측값을 높여야 하고, 예측값이 4였을 땐 예측값을 낮춰야 하는데 둘 다 MAE가 1이라면 대체 어떻게 학습이 되는 걸까?
 

loss에 부호가 없지만 학습이 되는 이유는, 미분값에 부호가 숨어있기 때문이다.

MSE를 예시로 보면, MSE의 수식은 아래와 같다.
notion image
MSE의 도함수는,
notion image
즉 미분값이 양수면 예측값을 줄여야 한다는 것을 알 수 있고, 미분값이 음수면 예측값을 높여야 한다는 것을 알 수 있다.
MAE도 마찬가지이다.
 
즉 backpropagation을 하는 과정에 부호가 살아있기 때문에, 최종 loss에 부호가 없더라도 올바른 방향으로 회귀가 학습이 된다.
Share article

kjyong