논문 리뷰. Efficient Adaptive Ensembling for Image Classification

2023. 3. 21. 23:27개발

Efficient Adaptive Ensembling for Image Classification

문장과 그 내용 모두 간결해서 정말 쉽게 읽을 수 있는 논문이다. EfficientNetB0 두개 앙상블 했을 뿐인데, 성능 개선이 대폭 이루어져 이게 실제로 되나 의심스러울 정도다. 코드 구현을 통해서 CIFAR-100 데이터셋으로 (B0 싱글 네트워크와 비교하며) 검증을 진행할 계획이다.

참조

* https://arxiv.org/abs/2206.07394

Abstract (초록)

  • 근래 CV 연구는 엄청 복잡한 설계로 작은 성취를 얻는 데 그치나, 우리는 복잡한 설계없이 성능을 부스트하는 참신한 방법을 제안한다.
the trend in Computer Vision is to achieve minor improvements over considerable increases in complexity.
...
we propose a novel method to boost image classification performances without an increase in complexity.
  • 이 방법으로 SOTA보다 제한된 리소스를 갖고서도 평균 0.5%의 정확도를 상회했다.
In this way, we were able to outperform the state-of-the-art by an average of 0.5% on the accuracy with restrained complexity both in terms of number of parameters (by 5-60 times), and FLoating point Operation Second (by 10-100 times) on several major benchmark datasets, ...

1. Introduction (서론)

  • 앙상블은 여러 모델을 결합하는 기법이고, 이때 사용된 모델을 weak learners라고 한다.
Ensembling is the technique that combines several models, called weak leanrers,

2. Efficient Adaptive Ensembling

  • EfficientNet이 기본 코어 모델이다.
At the foundations of the efficiency of the proposed method lies the basic core model adopted in this work: EfficientNet.
  • 각 weak learner의 결과(아웃풋) 대신 특징(피처)을 결합하였다.
instead of combining the outputs of the weak learners, we combine the features that the CNNs extract fromo the input.
  • 실제로 결합(콤비네이션) 레이어는 weak learner의 아웃풋 레이어와 같은 타입이다.
Indeed the combination layer is of the same type of output layer as the weak learners(i.e. Linear + LogSoftmax),

3. Experimental results (실험)

  • 리사이즈, 정규화(norm) 두 가지 전처리 기법만 사용한다. 증강(aug)을  사용하지 않는 순수(pure)한 방법이다.
the only two preprocessing step done are resize and normalization, ...
no augmentation is performed in this work to test the performances of the "pure" method.
  • weak learners 훈련에 (ImageNet데이터로) 사전 학습된 모델을 사용한다.
Transfer learning has been used for weak learners training only.
  • weak learners의 레이어를 얼리고(trainable = False), 아웃풋 레이어를 제거한 다음, 콤비네이션 레이어만 훈련시킨다.
the weak learners are frozen removing their output modules, so in this phase only the combination layer is trained.
  • 옵티마이저로 AdaBelief를 사용한다. 학습률 5.0e-4, 베타 (0.9, 0.999), eps 1.0e-16, rectify False를 파라미터로 한다.
Both phases are performed using AdaBelief optimizer...
  • 미세조정(파인 튜닝: 콤비네이션 레이어 훈련) 때 오버피팅을 피하기 위해서 조기 종료(얼리 스탑)를 사용한다.
In order to prevent overfitting, we use early stopping during fine-tuning only.
  • 파인 튜닝 때는 데이터셋의 정규 스플릿(trainSet:testSet)을 사용하지만, weak learners 훈련 때는 다음과 같이 스플릿 한다.
    1. 두 개의 weak learners를 각각 훈련시킬 수 있도록 2개로 나눈다.
    2. 무작위 스플릿으로 나누되, 각 데이터셋은 유사한 사이즈와 분포를 같도록 한다.
    3. weak learners는 스플릿한 데이터셋 중 하나만 훈련한다. (오버피팅 되도록)
Every dataset is provided with the "official" train-test split that is used for the ensemble fine-tuning. On the other hand, for the end-to-end overfitting training of the weak learners we perform the following data split:
1. set the size N of the final ensemble model (N=2)
2. randomly split the dataset into N equally sized and disjoint subsets with stratification
3. for each subset, instantiate a weak learner and train it only on that subset, with overfitting.
  • 훈련(Train)시 손실함수(로스)는 크로스엔트로피로 하고, 검증(Val)시 Weighted F1-score, 테스트(test)시 정확도(accuracy)를 사용한다.
Training Loss: Cross Entropy Loss
for the validation set evaluation, we decided to use the Weighted F1-score ...
to make comparisons with previous works on test set, we used the same metric, which is Accuracy.
  • 기타 파라미터는 아래와 같다:
    • 얼리 스탑 10 epochs
    • 이미지 사이즈 500일때, 배치 사이즈 55(파인 튜닝에서는 200); 이미지 사이즈 256일때, 배치 사이즈 200(파인 튜닝에서는 700).
    • 파인 튜닝시 랜덤 시드 5개로 훈련.
- early stopping patience: 10 epochs;
- batch size: 55 (200 in the case of fine-tuning) and 200 (700 in the case of the fine-tuning) for the 500x500 and 256x256 images, respectively.
while, for the ensemble fine-tunings, 5 different random seeds are used. In this way, for each dataset, 2 end-to-end weak training (1 for each subset) and 5 fine-tuning ensemble training are performed.

4. Results and Discussion (결과)

성능이 개선되다 못해 SOTA를 뛰어넘는다는 점이 놀랍다.
리소스를 비교하면 성능이 사기로 느껴질 정도.

후략 (결론) .. 

728x90
반응형