AI가 퍼즐을 풀지 못하면 '생각을 못하는 것'일까요?
최근 Apple AI 연구팀이 발표한 논문 『The Illusion of Thinking』(2025)은 "AI는 실제로 생각하지 않는다"는 입장을 정면으로 제시하며, Claude, ChatGPT, DeepSeek 등 최신 AI 모델들을 퍼즐 기반 환경에서 시험했습니다.
이에 대해 Claude(Opus)가 공동 저자로 포함된 반론 논문 『Comment on "The Illusion of Thinking"』에서는, "퍼즐을 풀지 못한 것만으로 AI가 사고하지 않았다고 단정할 수 없다"며 Apple의 해석에 이의를 제기합니다.
- Shojaee, P., Mirzadeh, I., Alizadeh, K., Horton, M., Bengio, S., & Farajtabar, M. (2025). The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity. arXiv:2506.06941
- Opus C., & Lawson A. (2025). The Illusion of the Illusion of Thinking: A Comment on Shojaee et al. arXiv:2506.09250
LLM vs LRM – Claude, ChatGPT도 실험에 동원한 Apple
Apple은 이번 연구에서 Claude 3.7 Sonnet(Thinking vs Non-Thinking), DeepSeek R1/V3, ChatGPT (OpenAI o3) 등 최신 대형 언어모델(LLM)과 추론 특화 모델(LRM)을 비교 실험했습니다.
LLM은 빠르게 정답을 내는 즉답형 모델이고, LRM은 단계별 사고 과정(Chain-of-Thought, CoT)을 출력하며 논리 전개를 목표로 하는 추론형 모델입니다.
퍼즐로 시험한 AI 추론 – Claude, ChatGPT는 어떻게 답했나?
실험에는 하노이탑, 강 건너기 등 구조화된 퍼즐 4종이 사용되었으며, AI는 다음 세 가지 기준으로 평가되었습니다:
- 규칙 준수 여부
- 일관된 추론 방향
- 정답 도달 여부
실험 결과는 다음과 같았습니다:
- 쉬운 문제: 일반 LLM(ChatGPT 등)이 오히려 더 잘 풂.
- 중간 난이도: LRM이 체계적 추론으로 LLM보다 높은 정확도.
- 어려운 문제: LLM, LRM 모두 추론 자체를 포기하는 경향(quitting behavior)을 보임.
Apple은 이 결과를 바탕으로, 현재의 LRM은 복잡도에 따라 일반화된 추론 능력이 붕괴되는 구조적 한계를 지닌다고 결론 내렸습니다.
너무 쉬운 문제 앞의 과잉 사고 – 함정을 찾다 오히려 오답?
Apple 논문은 “쉬운 퍼즐(예: 하노이탑 3 ~ 4개 원반, River Crossing 3 인 조합)”에서도 LRM이 필요 이상으로 사고 단계를 늘려 오답을 출력하는 사례를 보고했습니다 (Fig. 2 참조).
실제 예시 – 하노이탑 원반 3개 (최적 해: 7스텝)
- LRM : 7스텝 해법을 찾은 뒤 “혹시 최소 스텝이 아닐 수도 있어”라며 추가 탐색 → 규칙 위반(큰 원반이 작은 원반 위에 놓임) → 오답.
- LLM : 즉시 7스텝 정답 출력.
연구진은 이를 “Over‑Thinking Trap”이라고 명명했습니다. 즉 “똑똑이”로 설계된 LRM이 오히려 쉬운 문제를 꼬아 생각하다가 스스로 발목을 잡히는 현상입니다.
OMR 카드에 논술을 쓰라면? – 출력 길이 제한의 함정
반론 논문 (Lawsen et al., 2025)은 Apple의 채점 방식이 64k 토큰 제한을 무시했다고 지적합니다. Claude Thinking 모델은 하노이 10 개 원반(최소 1 023스텝) 풀이를 쓰다 토큰이 소진되면 “계속 같은 패턴이 반복됩니다”라고 요약하고 멈췄습니다. Apple은 이를 오답으로 판정했습니다.
📌 비유 – 논술 답안을 OMR 카드 주관식 칸에 쓰라고 한 뒤, 칸이 모자라면 0점 처리하는 격.
즉 내용을 더 쓸 종이가 없어서 멈췄는데, “생각을 포기했다”로 오해된 사례입니다.
한글로 쓴 답도 정답일 수 있다 – 출력 형식 차이 문제
같은 반론에서 가장 강하게 비판한 부분은 출력 형식입니다. Claude는 River Crossing 퍼즐에 대해 파이썬 함수를 생성해 해답을 검증하는 코드를 출력했습니다. 실제로 코드를 실행하면 정답이 맞았지만, Apple의 채점 스크립트는 “자연어 단계 나열이 아니다”라며 0점 처리했습니다.
📌 비유 – “제가 비록 한글로 답을 썼지만, 내용은 정답입니다. 선생님.” 형식이 다를 뿐, 정답성은 유지.
즉 정답 여부가 아니라 ‘표현 방식’ 때문에 오답 처리된 미스매치가 존재했습니다.
생각 중단 = 실패일까? 포기일까?
Apple은 퍼즐 난도가 높아질수록 CoT 길이가 줄어드는 현상을 보고 “추론을 아예 중단한다” 고 해석했습니다 (Fig. 3). 대표적으로 River Crossing 6인 문제에서 Claude는 초기 5스텝까지만 정답을 내고 “남은 스텝은 앞과 동일 패턴”이라며 생략 → 오답.
반론 측은 “ 1) 토큰 절약을 위한 요약, 2) 출력 형식 요구(단계 나열)과의 충돌” 가능성을 제시하며, ‘포기’가 아니라 ‘전략적 중단’일 수 있다고 주장합니다.
사람 역시 NP‑Hard 퍼즐 앞에서는 “계산이 너무 크다” 싶으면 풀이 자체를 포기하거나 요약하니, ‘생각 중단 = 지능 부재’로 단정하기엔 섣부르다는 메시지입니다.
정리하며 – AI는 어디까지 생각할 수 있을까?
Apple은 현존하는 추론 특화 모델들이 실제로 "사고"하지 않는다고 주장하며 근본적인 한계를 제시했습니다. 이에 반해 Claude(Opus) 진영의 반론은, "사고의 존재 여부"는 퍼즐 성공 여부가 아니라, 추론의 의도성과 과정으로 판단해야 한다는 관점을 제시합니다.
이 논쟁은 단순히 "정답을 맞췄냐"를 넘어서, AI가 생각을 하는 존재인지, 또는 그렇게 보이도록 설계된 착시인지를 가르는 중요한 기준이 됩니다.
'개발 > AI' 카테고리의 다른 글
논문 리뷰 : Gemini 2.5 Technical Report (0) | 2025.06.18 |
---|---|
DETR 논문 리뷰 End-to-End Object Detection with Transformers (7) | 2025.06.06 |
논문 리뷰 Chain-of-Zoom: Extreme Super-Resolution via ScaleAutoregression and Preference Alignment (0) | 2025.06.03 |
YOLOv5 C3 Block 시각화 리뷰 (0) | 2025.03.28 |
Deep Residual Learning for Image Recognition: ResNet 시각화 리뷰 (0) | 2025.03.25 |