개발/AI

논문 리뷰 : Gemini 2.5 Technical Report

Hugh Q Lee 2025. 6. 18. 22:59

최근 공개된 Google의 Gemini 2.5 Technical Report를 읽어보고 전반적인 내용을 정리하였다. 이 기술 보고서는 주로 모델의 아키텍처 개선, 훈련 인프라 강화, 사후학습(Post-training) 전략 도입과 같은 큰 틀에서의 개선 방향을 소개하고 있다.

1. 모델 아키텍처 개선 – Sparse Mixture-of-Experts(MoE)와 멀티모달 처리

Gemini 2.5는 Sparse MoE 구조를 도입해 효율성을 높였다. 기존에는 모든 데이터를 전체 모델에서 처리했으나, Gemini 2.5는 데이터 유형에 따라 선택적으로 전문가(Experts)를 배치하여 처리한다. 예를 들어 회의 내용을 요약하는 AI가 있다면, 음성, 이미지, 텍스트, 비디오와 같은 서로 다른 데이터 유형에 따라 각각의 전문가가 별도로 작동하여 효율성과 이해력을 높이는 방식이다.

2. 훈련 인프라 강화 – TPUv5p 도입 및 탄력성, Silent Data Corruption 대응

Gemini 2.5는 최신 TPUv5p 하드웨어를 사용하여 훈련한다. 특히 훈련 과정에서 일부 장비에 문제가 발생해도 시스템 전체가 중단되지 않고 지속적으로 훈련을 이어가는 탄력적인 구조를 구축했다. 더불어 Silent Data Corruption(SDC)이라 불리는 내부적인 데이터 손상을 자동으로 탐지하고 대응하는 시스템도 추가하여, 훈련 과정에서의 안정성을 크게 높였다.

3. 사후학습(Post-training) 전략 도입 – 강화학습(RL)과 Thinking

Gemini 2.5는 강화학습(RL) 방식을 확대 적용하고, 추가적으로 Thinking이라는 개념을 도입했다. Thinking이란 모델이 스스로 문제를 깊이 있게 사고하는 능력을 말한다. 예를 들어, 수학 문제를 단순히 암기한 답이 아니라 내부적으로 여러 단계의 추론을 거쳐 정확한 답을 도출하도록 돕는다. 이로써 Gemini 2.5는 보다 정교하고 사용자 의도에 맞는 답을 제공할 수 있게 되었다.

결론

Gemini 2.5 Technical Report는 주로 모델의 개념적 개선 방향과 전략을 강조한 문서이다. 반면, 실제 구현 세부 기법이나 코드와 같은 구체적인 노하우는 공개되지 않아, 기술적 세부 정보를 기대하는 독자에게는 다소 아쉬운 점으로 남았다. Tech Report는 오픈 소스 모델의 경우에 유심히 지켜볼 필요가 있는 것 같다.