논문리뷰 6

논문 리뷰 : Gemini 2.5 Technical Report

최근 공개된 Google의 Gemini 2.5 Technical Report를 읽어보고 전반적인 내용을 정리하였다. 이 기술 보고서는 주로 모델의 아키텍처 개선, 훈련 인프라 강화, 사후학습(Post-training) 전략 도입과 같은 큰 틀에서의 개선 방향을 소개하고 있다.1. 모델 아키텍처 개선 – Sparse Mixture-of-Experts(MoE)와 멀티모달 처리Gemini 2.5는 Sparse MoE 구조를 도입해 효율성을 높였다. 기존에는 모든 데이터를 전체 모델에서 처리했으나, Gemini 2.5는 데이터 유형에 따라 선택적으로 전문가(Experts)를 배치하여 처리한다. 예를 들어 회의 내용을 요약하는 AI가 있다면, 음성, 이미지, 텍스트, 비디오와 같은 서로 다른 데이터 유형에 따라 ..

개발/AI 2025.06.18

AI, 정말 생각하는 걸까? – Apple vs Claude(Opus)의 추론 논쟁 정리

AI가 퍼즐을 풀지 못하면 '생각을 못하는 것'일까요?최근 Apple AI 연구팀이 발표한 논문 『The Illusion of Thinking』(2025)은 "AI는 실제로 생각하지 않는다"는 입장을 정면으로 제시하며, Claude, ChatGPT, DeepSeek 등 최신 AI 모델들을 퍼즐 기반 환경에서 시험했습니다.이에 대해 Claude(Opus)가 공동 저자로 포함된 반론 논문 『Comment on "The Illusion of Thinking"』에서는, "퍼즐을 풀지 못한 것만으로 AI가 사고하지 않았다고 단정할 수 없다"며 Apple의 해석에 이의를 제기합니다.Shojaee, P., Mirzadeh, I., Alizadeh, K., Horton, M., Bengio, S., & Farajtab..

개발/AI 2025.06.17

DETR 논문 리뷰 End-to-End Object Detection with Transformers

DETR 논문 리뷰: Transformer로 단순해진 객체 탐지 모델객체 탐지는 인공지능(AI) 분야에서 오랜 기간 중요한 주제였습니다. 하지만 기존 모델은 여러 복잡한 절차 때문에 구현이나 튜닝이 쉽지 않았습니다. 이 글에서는 2020년에 발표된 DETR (End-to-End Object Detection with Transformers) 모델을 통해 이 문제를 살펴보겠습니다.📌 기존 객체 탐지 모델의 문제점대표적인 기존 모델들(Faster R-CNN, RetinaNet, YOLO 등)은 아래와 같은 복잡한 과정을 거쳐야 했습니다.Region Proposal: 객체가 있을 법한 영역을 미리 예측하고 평가하는 단계.Anchor Box 설정: 객체를 다양한 크기와 비율로 미리 설정된 박스로 예측.Non-..

개발/AI 2025.06.06

논문 리뷰 Chain-of-Zoom: Extreme Super-Resolution via ScaleAutoregression and Preference Alignment

KAIST 연구진의 초해상도(super resolution) AI 논문 "Chain-of-Zoom: Extreme Super-Resolution via ScaleAutoregression and Preference Alignment" 입니다.논문 링크 : arXiv:2505.18600플젝 링크 : https://bryanswkim.github.io/chain-of-zoom/1 | 사진을 크게 키우면 왜 깨질까?오래된 사진을 스마트폰으로 찍어 확대해 보면 얼굴이 금세 흐릿해집니다. 초해상도(Super-Resolution, SR)는 이 흐릿해진 부분의 사이를 그려넣어서 자연스럽게 만드는 작업입니다.기존 SR 모델은 대부분 “4배 전용” 같이 고정된 배율만 잘 다룹니다. 그래서 4배 모델에 16배 확대를 시키..

개발/AI 2025.06.03

딥시크(DeepSeek-R1-Zero) 논문 리뷰

리뷰 정리 이 연구는 크게 3가지로 나눌 수 있습니다.SFT없이 RL만으로 추론 모델 만듦. (RL로 대형 모델 만듦)SFT는 시간과 돈을 잡아 먹어. SFT 빼고 모델 학습해.RL로 학습해. 정답뿐 아니라, 사고 과정도 평가해.얘 봐라? 문제 풀려고 시간도 더 달라고 하고,푸는 와중에 "아하!"라고 사람 말로 외치기도 하고,성능이 GPT보다 더 좋아지기도 하잖아.SFT를 추가하면 상기 1을 개선할 수 있음. (RL+SFT로 대형 모델 만듦)상기 2로 만든 데이터셋으로 소형 모델을 SFP하면 엄청 좋음. (SFT로 소형 모델 가르침) 그 중 단연 1번이 돋보이는 이유는 가장 큰 병목(bottleneck)인 supervised의 비용 및 노동 의존을 해소한다는 점입니다. 리딩 기업들이 GPU 수를 늘리고 ..

개발/AI 2025.01.31

Object Detection 논문 리뷰. You Only Look Once:Unified, Real-Time Object Detection

앞서 정리한 Object Detection의 기법이 상당히 반영되어 있는 YOLOv1의 논문을 리뷰해보고 성능을 더 끌어올린 기법이 무엇인지를 알아보자. 또, 다음에 이어 그대로 구현도 해볼 예정이다. 참조 https://arxiv.org/abs/1506.02640 Abstract (초록) Object Detection을 바운딩 박스와 그 클래스 확률을 공간적으로 분리하여 푸는 회귀 문제로 짰다. 하나의 신경망으로 이미지에서 바운딩 박스와 클래스 예측을 한번에 수행한다. YOLO는 Localization Error가 더 많지만, 배경을 오브젝트로 예측하는 False Positive는 적습니다. YOLO는 오브젝트의 General Representation을 잘 학습합니다. (오브젝트에 대한 일반화 성능이..

개발 2022.12.25