개발/AI 8

논문 리뷰 : Gemini 2.5 Technical Report

최근 공개된 Google의 Gemini 2.5 Technical Report를 읽어보고 전반적인 내용을 정리하였다. 이 기술 보고서는 주로 모델의 아키텍처 개선, 훈련 인프라 강화, 사후학습(Post-training) 전략 도입과 같은 큰 틀에서의 개선 방향을 소개하고 있다.1. 모델 아키텍처 개선 – Sparse Mixture-of-Experts(MoE)와 멀티모달 처리Gemini 2.5는 Sparse MoE 구조를 도입해 효율성을 높였다. 기존에는 모든 데이터를 전체 모델에서 처리했으나, Gemini 2.5는 데이터 유형에 따라 선택적으로 전문가(Experts)를 배치하여 처리한다. 예를 들어 회의 내용을 요약하는 AI가 있다면, 음성, 이미지, 텍스트, 비디오와 같은 서로 다른 데이터 유형에 따라 ..

개발/AI 2025.06.18

AI, 정말 생각하는 걸까? – Apple vs Claude(Opus)의 추론 논쟁 정리

AI가 퍼즐을 풀지 못하면 '생각을 못하는 것'일까요?최근 Apple AI 연구팀이 발표한 논문 『The Illusion of Thinking』(2025)은 "AI는 실제로 생각하지 않는다"는 입장을 정면으로 제시하며, Claude, ChatGPT, DeepSeek 등 최신 AI 모델들을 퍼즐 기반 환경에서 시험했습니다.이에 대해 Claude(Opus)가 공동 저자로 포함된 반론 논문 『Comment on "The Illusion of Thinking"』에서는, "퍼즐을 풀지 못한 것만으로 AI가 사고하지 않았다고 단정할 수 없다"며 Apple의 해석에 이의를 제기합니다.Shojaee, P., Mirzadeh, I., Alizadeh, K., Horton, M., Bengio, S., & Farajtab..

개발/AI 2025.06.17

DETR 논문 리뷰 End-to-End Object Detection with Transformers

DETR 논문 리뷰: Transformer로 단순해진 객체 탐지 모델객체 탐지는 인공지능(AI) 분야에서 오랜 기간 중요한 주제였습니다. 하지만 기존 모델은 여러 복잡한 절차 때문에 구현이나 튜닝이 쉽지 않았습니다. 이 글에서는 2020년에 발표된 DETR (End-to-End Object Detection with Transformers) 모델을 통해 이 문제를 살펴보겠습니다.📌 기존 객체 탐지 모델의 문제점대표적인 기존 모델들(Faster R-CNN, RetinaNet, YOLO 등)은 아래와 같은 복잡한 과정을 거쳐야 했습니다.Region Proposal: 객체가 있을 법한 영역을 미리 예측하고 평가하는 단계.Anchor Box 설정: 객체를 다양한 크기와 비율로 미리 설정된 박스로 예측.Non-..

개발/AI 2025.06.06

논문 리뷰 Chain-of-Zoom: Extreme Super-Resolution via ScaleAutoregression and Preference Alignment

KAIST 연구진의 초해상도(super resolution) AI 논문 "Chain-of-Zoom: Extreme Super-Resolution via ScaleAutoregression and Preference Alignment" 입니다.논문 링크 : arXiv:2505.18600플젝 링크 : https://bryanswkim.github.io/chain-of-zoom/1 | 사진을 크게 키우면 왜 깨질까?오래된 사진을 스마트폰으로 찍어 확대해 보면 얼굴이 금세 흐릿해집니다. 초해상도(Super-Resolution, SR)는 이 흐릿해진 부분의 사이를 그려넣어서 자연스럽게 만드는 작업입니다.기존 SR 모델은 대부분 “4배 전용” 같이 고정된 배율만 잘 다룹니다. 그래서 4배 모델에 16배 확대를 시키..

개발/AI 2025.06.03

YOLOv5 C3 Block 시각화 리뷰

ultralytics의 yolov5의 구조 중 첫번째 C3 Block를 params# 측면에서 코드 및 시각화로 리뷰합니다.  채널 전체에 Bottleneck(Residual 포함) 연산을 하는 대신, CSP (Cross Stage Partial) 구조의 C3 블록은 입력 피처의 채널 절반에 Bottleneck 연산을 하여 params# saving을 달성합니다. 채널을 두 그룹으로 나누고 다시 하나로 합치는(concat) 과정에서 해당하는 분기에서의 레벨을 맞추는 1x1 Conv 레이어를 사용하는 점도 참고해야 합니다.1. params# 비교C3Full Bottleneck65,920180,608$$\text{conv_params}=\text{input_ch}×\text{output_ch}×\text{k..

개발/AI 2025.03.28

Deep Residual Learning for Image Recognition: ResNet 시각화 리뷰

ResNet을 제시한 논문 "Deep Residual Learning for Image Recognition"을 params# 측면에서의 주요 컨셉을 코드 및 시각화로 리뷰합니다.$$\text{conv_params}=\text{input_ch}×\text{output_ch}×\text{kernel_w}×\text{kernel_h}+\text{bias}$$1. 첫 레이어비교VGG'sResNet'sparams#260,1609,472# VGGimport torch.nn as nnmodule = nn.Sequential( nn.Conv2d(in_channels=3, out_channels=64, kernel_size=3, stride=1, padding='same'), nn.Conv2d(in_chan..

개발/AI 2025.03.25

딥시크(DeepSeek-R1-Zero) 논문 리뷰

리뷰 정리 이 연구는 크게 3가지로 나눌 수 있습니다.SFT없이 RL만으로 추론 모델 만듦. (RL로 대형 모델 만듦)SFT는 시간과 돈을 잡아 먹어. SFT 빼고 모델 학습해.RL로 학습해. 정답뿐 아니라, 사고 과정도 평가해.얘 봐라? 문제 풀려고 시간도 더 달라고 하고,푸는 와중에 "아하!"라고 사람 말로 외치기도 하고,성능이 GPT보다 더 좋아지기도 하잖아.SFT를 추가하면 상기 1을 개선할 수 있음. (RL+SFT로 대형 모델 만듦)상기 2로 만든 데이터셋으로 소형 모델을 SFP하면 엄청 좋음. (SFT로 소형 모델 가르침) 그 중 단연 1번이 돋보이는 이유는 가장 큰 병목(bottleneck)인 supervised의 비용 및 노동 의존을 해소한다는 점입니다. 리딩 기업들이 GPU 수를 늘리고 ..

개발/AI 2025.01.31

논문 리뷰. Efficient Adaptive Ensembling for Image Classification

Efficient Adaptive Ensembling for Image Classification 문장과 그 내용 모두 간결해서 정말 쉽게 읽을 수 있는 논문이다. EfficientNetB0 두개 앙상블 했을 뿐인데, 성능 개선이 대폭 이루어져 이게 실제로 되나 의심스러울 정도다. 코드 구현을 통해서 CIFAR-100 데이터셋으로 (B0 싱글 네트워크와 비교하며) 검증을 진행할 계획이다. 참조 * https://arxiv.org/abs/2206.07394 Abstract (초록) 근래 CV 연구는 엄청 복잡한 설계로 작은 성취를 얻는 데 그치나, 우리는 복잡한 설계없이 성능을 부스트하는 참신한 방법을 제안한다. the trend in Computer Vision is to achieve minor imp..

개발/AI 2023.03.21