왜 Re-Identification에서 GeM을 쓸까?

GeM Pooling VS Max Pooling vs Average Pooling
왜 Re-Identification에서 GeM을 쓸까?
 
Re-identification 논문들을 보다 보면 GeM Pooling이라는게 많이 언급된다.
아래 실험 결과처럼, 다른 기법 없이 GeM Pooling 단독으로만 적용해도 정확도의 향상이 큰 편이다.

GeM Pooling이란 무엇일까?

https://arxiv.org/pdf/2006.02631
 
GeM은 Generalized Mean Pooling의 약자로 Max Pooling과 Average Pooling 사이에 있는 기법이다
GeM Pooling 수식
GeM Pooling 수식
p가 1이면 Average Pooling이 되고, p가 2가 되면 Root Mean Squared Pooling이 된다.

그리고 p가 ∞(무한대)로 가면 Max Pooling이 된다

notion image
notion image
notion image
notion image
 
 

GeM에서 p는 학습 시킬 수 있다.

왜 Re-Identification Task에서는 Max, Average pooling을 쓰지 않고 GeM을 쓰는 걸까?
https://arxiv.org/pdf/1711.02512
위의 사진을 보면, p값이 커질 수록 이미지의 특정 부분에 활성화가 커지는 것을 볼 수 있다.
 
  • Average Pooling
    • Average Pooling은 특징 맵의 모든 값을 동등하게 취급한다.
    • 중요한 특징이 덜 중요한 특징이나 배경 노이즈에 의해 희석될 수 있다.
    • 판별력 있는 지역 특징의 강도가 감소할 수 있다.
 
  • Max Pooling
    • Max Pooling은 각 영역에서 가장 큰 값만 선택한다.
    • 노이즈나 이상치에 민감할 수 있다.
    • 최대값만 고려하므로 정보 손실이 일어날 수 있다.
    • gradient 흐름을 제한 시킬 수 있다.
 

GeM은 Average Pooling의 안정성과 Max Pooling의 판별력을 결합한 형태

  • GeM
    • 사람의 독특한 특징을 더 잘 포착할 수 있다.
      • p > 1 일 때, 더 큰 활성화 값에 더 높은 가중치를 부여
      • 중요한 특징이 더 강조되고, 덜 중요한 특징이나 배경의 영향이 줄어듦
      • 결과적으로, 더 판별력 있는 특징 표현을 생성
    • 배경이나 가림 등의 노이즈에 덜 민감하다.
      • 최대값뿐만 아니라 다른 높은 활성화 값들도 고려하기 때문에, 일시적인 가림이나 조명 변화로 인한 극단적인 픽셀 값의 영향을 줄일 수 있다
 
위와 같은 이유로 Re-Identification에서는 GeM의 효과가 좋다고 한다.
 
Share article

kjyong