논문리뷰 2

딥시크(DeepSeek-R1-Zero) 논문 리뷰

리뷰 정리 이 연구는 크게 3가지로 나눌 수 있습니다.SFT없이 RL만으로 추론 모델 만듦. (RL로 대형 모델 만듦)SFT는 시간과 돈을 잡아 먹어. SFT 빼고 모델 학습해.RL로 학습해. 정답뿐 아니라, 사고 과정도 평가해.얘 봐라? 문제 풀려고 시간도 더 달라고 하고,푸는 와중에 "아하!"라고 사람 말로 외치기도 하고,성능이 GPT보다 더 좋아지기도 하잖아.SFT를 추가하면 상기 1을 개선할 수 있음. (RL+SFT로 대형 모델 만듦)상기 2로 만든 데이터셋으로 소형 모델을 SFP하면 엄청 좋음. (SFT로 소형 모델 가르침) 그 중 단연 1번이 돋보이는 이유는 가장 큰 병목(bottleneck)인 supervised의 비용 및 노동 의존을 해소한다는 점입니다. 리딩 기업들이 GPU 수를 늘리고 ..

개발 2025.01.31

Object Detection 논문 리뷰. You Only Look Once:Unified, Real-Time Object Detection

앞서 정리한 Object Detection의 기법이 상당히 반영되어 있는 YOLOv1의 논문을 리뷰해보고 성능을 더 끌어올린 기법이 무엇인지를 알아보자. 또, 다음에 이어 그대로 구현도 해볼 예정이다. 참조 https://arxiv.org/abs/1506.02640 Abstract (초록) Object Detection을 바운딩 박스와 그 클래스 확률을 공간적으로 분리하여 푸는 회귀 문제로 짰다. 하나의 신경망으로 이미지에서 바운딩 박스와 클래스 예측을 한번에 수행한다. YOLO는 Localization Error가 더 많지만, 배경을 오브젝트로 예측하는 False Positive는 적습니다. YOLO는 오브젝트의 General Representation을 잘 학습합니다. (오브젝트에 대한 일반화 성능이..

개발 2022.12.25
728x90