본문 바로가기
논문 리뷰/Deep Learning

[논문 리뷰] Deep Sparse Rectifier Neural Networks

by donyy 2024. 9. 23.
Paper Details
Title: Deep Sparse Rectifier Neural Networks
Authors: Xavier Glorot, Antoine Bordes, Yoshua Bengio
Conference: Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics (AISTATS)
Year of Publication: 2011
Journal Information: PMLR 15:315-323
Key Focus: This paper explores the use of Rectified Linear Units (ReLU) in deep neural networks, studying how sparsity and learning performance can be improved. It presents experimental analyses on the advantages and effects of ReLU.

Summary of the Paper

Abstract

해당 논문은 Logistic Sigmoid와 Hyperbolic Tangent Neurons보다 Rectifying Neurons이 생물학적 뉴런을 더 잘 모델링하며, 더 좋은 성능을 발휘한다는 점을 보여준다. Rectifying Neurons은 0에서의 비선형성과 비미분성에도 불구하고 희소 표현을 생성하고, 자연적으로 희소한 데이터에 적합하며, 해당 신경망 모델을 사용하는 딥러닝 모델은 대규모 라벨링된 데이터셋에서 비지도 사전 훈련 없이도 최고의 성능을 달성할 수 있다. 이러한 결과는 순수하게 지도 학습된 딥러닝 신경망의 훈련 어려움을 이해하고, 비지도 사전 훈련 여부에 따른 성능 격차를 줄이는 데 중요한 진전을 보여준다.

1. Introduction

기계 학습 연구자들이 사용하는 신경망 모델과 계산 신경과학자들이 사용하는 신경망 모델 사이에는 많은 차이가 존재한다. 해당 연구에서는 두 목표를 모두 충족시키고 둘 사이의 간극을 해소할 수 있음을 보이고자 한다.

 

2. Background

2.1. Neuroscience Observations

  • 생물학적 뉴런 모델에서의 활성화 함수는 시냅스에서 들어오는 신호에 의해 발생하는 총 입력에 따라 뉴런이 활성화될 확률을 나타냄.
    입력이 강한 흥분성 신호일 때 → 억제성 신호 = antisymmetric / 흥분성 신호 = symmetric / 무반응(=0) = one-sided
  • 희소성(Sparsity): 뇌에서 뉴런이 정보를 희소하고 분산된 방식으로 인코딩 하는 것을 의미함.
  • 생물학적 뉴런에서의 희소성: 특정 순간에 활성화도는 뉴런의 수가 상대적으로 적은 것을 의미함. (약 1~4%정도)
    즉, 뇌의 시각 피질에서 뉴런들이 시각 정보를 처리할 때, 모든 뉴런이 한꺼번에 활성화되는 것이 아니라 일부 뉴런들만 선택적으로 활성화된다는 것이며, 이는 뇌의 효율적인 정보 처리와 관련이 있음.

Left: Common neural activation function motivated by biological data. Right: Commonly used activation functions in neural networks literature: logistic sigmoid and hyperbolic tangent (tanh).

 

2.2. Advantages of Sparsity

희소성은 단순히 신경과학뿐만 아니라, 기계 학습 및 통계와 같은 다양한 분야에서 중요한 개념으로 떠오르고 있다.

특히 깊은 신경망에서 중요한 요소로 작용하며, 자동 인코더(auto-encoder)나 딥 컨볼루션 네트워크(Deep Convolutional Networks)와 같은 모델에서는 희소한 분산 표현을 사용하는 것이 매우 효과적이라는 연구가 다수 존재한다.

 

기존 심층 구조 모델에서는 뉴런은 작은 값이지만 0은 아닌 활성화 또는 발화 확률을 가지는데, 이는 필요 없을 때 완전히 비활성화(=0)되는 생물학적 신경 모델의 뉴런과 차이가 있다. 따라서 해당 연구는 ReLU의 비선형성을 사용해서 activation 값이 완전한 0을 나타내도록 하여 희소성을 부여하고자 한다.

 

계산학적 관점에서 희소성이 중요한 이유는 다음과 같다.

  1. 정보 분리(Information disentagling): 데이터 변형의 다양한 요인을 분리하되, 입력의 작은 변화에도 견고한(robust) 표현이 가능하도록 함.
  2. 효율적인 가변 크기 표현(Efficient variable-size representation): 입력마다 표함된 정보의 양이 다르므로 가변 크기 데이터 구조를 통해 효율적으로 표현함. 뉴런의 활성화 수를 조절하여 입력의 복잡도에 맞는 가변 크기의 표현을 얻을 수 있음.
  3. 선형 분리 가능성(Linear separability): 희소한 표현(Sparse representation)은 고차원 공간에서 정보를 표현하기 때문에, 입력 데이터가 선형적으로 분리 가능할 확률이 높아짐.
    (즉, 활성화된 뉴런이 적을수록, 뉴런 사이의 차이를 명확하게 구분할 수 있음을 의미함.)
  4. 분산된 희소성(Distributed but sparse): 밀집된 분산 표현은 가장 풍부한 표현이자, 순전히 지역적인 표현보다 지수적으로 효율적일 수 있음. 희소한 표현도 여전히 지수적으로 더 효율적이며, 이는 활성화된 비제로 특성 수에 따라 결정됨.

다만, 너무 많은 희소성을 강제하면 모델의 실제 용량을 줄이기 때문에, 동일한 뉴런 수에서의 모델의 예측 성능이 저하될 수 있다.

 

3. Deep Rectifier Networks

3.1. Rectifier Neurons

신경과학 연구에 따르면, 생물학적 뉴런은 포화 상태에 거의 도달하지 않으며, 그 활성화 함수는 rectifier function으로 근사할 수 있다고 말한다. rectifier function 은 일방향 특성을 가지고 있어 대칭이나 반대칭을 강제하지 않는다.

 

$rectifier(x) = max(0, x)$

  • 장점
    • 신경망이 쉽게 희소한 표현을 얻을 수 있게 함.
    • 그래디언트 소실 문제 해결 가능
    • 계산의 효율성 증대: 지수 함수 계산이 필요하지 않음 + 희소성을 이용하여 계산 자원을 더 효율적으로 사용
  • 단점(잠재적 문제점)
    • 0에서의 강한 비선형성 → 그래디언트 역전파를 차단하여 최적화에 문제 (= "죽은 뉴런" 문제)
    • 이를 해결하기 위한 방안으로 rectifier 함수의 매끄러운 버전인 softplus 함수를 사용할 수 있음. 하지만, softplus function 보다 rectifier function 이 더 좋은 성능을 보임.
    • softplus function: $softplux(x) = log(1 + e^x)$

Rectifier function and Softplus function

3.2. Unsupervised Pre-training

Rectifier activation function과 auto-encoder(특히 스택형 노이즈 제거 오토인코더)를 결합하는 과정에서 다음과 같은 문제들이 발생한다.

  1. 경사 소실 문제: Recitifier activation function는 0 이하에서 기울기가 0이 되는 "hard saturation" 상태를 가지는데, 네트워크가 0을 재구성해야 할 때, non-zero 값을 목표로 하는 경우 재구성 유닛에서 경사 전파가 차단되는 문제가 발생함.
  2. 비제한된 활성화 값: Rectifier function의 비제한적인 특성이 무한정 큰 값을 가질 수 있음.

해당 문제를 해결하기 위해 해당 연구에서는 다음의 네 가지 방법을 시도하였다.

  1. Softplus 활성화 함수를 재구성 레이어에서 사용하고, 2차 비용 함수(quadratic cost)를 적용하는 방법
  2. Recitifier activation 값을 이전 인코딩 레이어에서 0과 1 사이로 조정한 후, 시그모이드 활성화 함수와 교차 엔트로피 손실 함수를 사용하는 방법
  3. 선형 활성화 함수를 재구성 레이어에 사용하고, 2차 비용 함수를 적용하는 방법.
  4. Recitifier activation function 자체를 재구성 레이어에서 사용하고, 2차 비용 함수를 적용하는 방법.

실험 결과, 이미지 데이터에서는 첫 번째 전략(Softplus 사용)이, 텍스트 데이터에서는 두 번째 전략이 더 좋은 결과를 보였다.

4. Experimental Study

* 해당 포스트에서는 실험의 주요 결과만 요약 정리하였다.

4.1. Image Recognition

Table 1: Test error on netwroks of depth 3

  • Rectifier activation function은 0에서의 강한 임계값을 가지지만, 그럼에도 불구하고 Softplus 와 동등하거나 더 나은 지역 최소값을 찾았다. 또한, NORB 데이터셋에서 Softplus 함수의 변형 버전($alpha$1 softplus($alpha$x))을 사용한 실험($alpha$ 값을 조정하여 소프트플러스(α=1)에서 Rectifier(α=∞)로 부드럽게 전이)을 통해 Rectifier를 사용하는 경우에도 성능 저하가 발생하지 않음을 확인했다.
  • 비지도 사전 훈련의 영향:
    • Rectifier activation에서는 비지도 사전 훈련 여부가 성능에 거의 영향을 미치지 않음.
    • 지도 학습만으로도 Rectifier network는 Tanh나 Softplus 보다 더 나은 성능을 보임.

Figure 3: Influence of final sparsity on accuracy

위의 표(Figure 3)는 MNIST에서 L1 패널티를 조정하여 얻은 희소성 수준에 따른 테스트 오류를 보여주며, 평균적으로 70%에서 85%가 완전히 활성화되지 않은(= 완전한 0값을 갖는) 모델이 유사한 성능을 보였다. 이는 네트워크가 희소성을 강화하면서도 성능 저하 없이 학습할 수 있음을 의미한다.

Figure 4: Effect of unsupervised pre-training

위의 표(Figure 4)는 NORB 데이터셋에서 semi-supervised 설정에서의 결과를 보여주는 도표이다.

  • Tanh: 레이블의 많고 적음과 상관 없이 비지도 사전 훈련이 항상 도움이 됨.
  • Rectifier: 레이블이 적은 데이터를 사용한 경우에는 비지도 사전 훈련이 유익한 경향을 보이고, 레이블이 많은 경우에는 사전 훈련을 하지 않아도 거의 유사한 성능을 보임.

즉, Rectifier network는 레이블이 부족한 데이터와 비지도 데이터를 모두 활용할 수 있는 효율적인 모델임을 알 수 있다.

 

 

4.2. Sentiment Analysis

Table 2: Test RMSE and sparsity level

  • RMSE(Root Mean Squared Error) 의 값이 낮을수록 좋은 성능을 의미하고, Sparsity는 높을수록 좋다.
  • Rectifier network는 특히 희소성이 높은 입력 데이터를 다루는 경우에 좋은 성능을 보인다. 텍스트 데이터는 일반적으로 희소한 특성을 가지기 때문에 recitifier unit이 텍스트 데이터 관련 작업에 적합함을 알 수 있다.
  • 비지도 사전 훈련이 진행된 상태에서 Rectifier network는 1개의 은닉층을 가질 때보다 3개의 은닉층을 가질 때 더 나은 RMSE와 희소성을 달성했다.
  • Tanh 활성화 함수는 동일한 설정에서 Rectifier보다 성능이 떨어지고 희소성도 낮다.

 

5. Conclusion

  • 비지도 사전 훈련 관련 결과: Rectifier units은 사전 훈련이 없는 상태에서도 Tanh나 Softplus와 같은 기존의 활성화 함수와 유사한 성능을 보였다. 특히, 훈련 중 더 나은 지역 최소값(local minima)을 찾는 데 도움이 되어, 사전 훈련을 하지 않더라도 우수한 성능을 발휘할 수 있다는 점에서 사전 훈련과 비사전 훈련 간의 성능 격차를 줄이는 역할을 했다. 이는 특히 사전 훈련을 사용하기 어려운 상황에서 Rectifier units이 효과적일 수 있음을 의미한다.
  • 이미지 분류(Image classification) 작업에서의 성능: 네트워크의 기울기가 0이 되는 문제나 매개변수화의 조건 불량 문제가 있긴 했지만, 4개의 이미지 데이터셋에서 안정적으로 우수한 성능을 보였으며, 이 과정에서 50%에서 80%의 희소성을 달성했다.
  • 텍스트 기반 감정 분석(sentiment analysis)작업에서의 성능: 텍스트 데이터는 일반적으로 희소성이 매우 높은 특성을 가지고 있으기 때문에 이것이 Rectifier network의 sparse representation이 특히 적합한 것으로 나타났다.

결론적으로, Rectifier units은 이미지 분류 작업에서뿐만 아니라, 희소한 입력 데이터를 다루는 텍스트 분석 작업에서도 효과적임을 보였다. 특히, 텍스트와 같은 고차원, 희소한 데이터셋에서는 Rectifier network가 Tanh와 같은 기존의 활성화 함수보다 더 좋은 성능을 보일 가능성이 크다. 이는 Rectifier network이 이미지 분류뿐만 아니라, 텍스트 마이닝과 같은 NLP의 도구로도 큰 잠재력을 지니고 있음을 시사한다.


 

 

더보기

cf) ReLU의 Rectifying 은 정확히 무엇을 의미하는가?

 

Rectifying은 "교정하는" 또는 "바르게 만드는"이라는 뜻으로,

rectifying neurons에서의 rectifying은 뉴런이 음수 값을 0으로 바꾸는 과정, 즉 음수 신호를 걸러내고 양수 신호만 처리하는 방식으로 "교정"하는 것을 의미한다.

 

 

 

+) Sparsity를 가지는 것이 오히려 큰 단점이 되는 모델/분야는 어떤 것이 있을까?
Sparsity 가 크게 도움이 되는 경우는 입력 벡터가 희소한 경우가 많은 경우(대표적으로 NLP)에 해당한다. 텍스트 데이터는 단어가 매우 많지만 개별 문장이나 문서에서는 그 중 일부만이 사용된다는 특성 때문이다. 즉, 사용되지 않는 단어들은 0으로 표현되므로 Sparsity 가 텍스트 데이터에서 효과적인 것이다. 하지만, 만약 입력 데이터의 대부분이 사용되는 경우라면 오히려 Sparsity 가 단점이 될 것이다. 예를 들어, 고화질의 이미지를 생성하는 경우 대부분의 입력 데이터가 훈련에 사용되어야 하기 때문에 이 경우에는 효과적이지 않다.