리뷰 정리 이 연구는 크게 3가지로 나눌 수 있습니다.SFT없이 RL만으로 추론 모델 만듦. (RL로 대형 모델 만듦)SFT는 시간과 돈을 잡아 먹어. SFT 빼고 모델 학습해.RL로 학습해. 정답뿐 아니라, 사고 과정도 평가해.얘 봐라? 문제 풀려고 시간도 더 달라고 하고,푸는 와중에 "아하!"라고 사람 말로 외치기도 하고,성능이 GPT보다 더 좋아지기도 하잖아.SFT를 추가하면 상기 1을 개선할 수 있음. (RL+SFT로 대형 모델 만듦)상기 2로 만든 데이터셋으로 소형 모델을 SFP하면 엄청 좋음. (SFT로 소형 모델 가르침) 그 중 단연 1번이 돋보이는 이유는 가장 큰 병목(bottleneck)인 supervised의 비용 및 노동 의존을 해소한다는 점입니다. 리딩 기업들이 GPU 수를 늘리고 ..