[번역] The Second Half

Yongwoo Song

20 10월 2025 — 23 min read

이번 시간에는 Shunya Yao의 The Second Half의 포스트를 소개합니다. 최근 Deepseek R1, OpenAI O-Series 등 강화학습을 적용한 Reasoning 모델들이 높은 성능으로 두각을 보이고 있습니다. 무엇이 언어 모델의 강화학습을 성공하게 했을까요? 또한 2025년 4월 기준 AI는 지금까지 어떤 길을 걸어왔고, 앞으로는 어떻게 발전하게 될까요? 함께 알아봅시다!

The Second Half

Shunya Yao

tldr: 우리는 AI의 후반전에 있습니다.

수십 년 동안 AI는 주로 새로운 학습 방법과 모델을 개발하는 데 집중해왔습니다. 그리고 그 접근법은 효과적이었습니다. 체스와 바둑에서 세계 챔피언을 이겼고, SAT와 변호사 시험에서 대부분의 사람을 능가했으며, 국제수학올림피아드(IMO)와 국제정보올림피아드(IOI)에서 금메달을 획득했습니다. 역사에 기록될 이 모든 이정표들 - DeepBlue, AlphaGo, GPT-4, 그리고 o-시리즈 - 뒤에는 탐색 (search), 심층 강화학습 (deep RL), 스케일링 (scaling), 추론 (reasoning)이라는 AI 방법론의 근본적인 혁신이 있었습니다. 시간이 지날수록 성과는 계속 향상되었습니다.

그런데 지금 갑자기 무엇이 달라진 걸까요?

요약하면, 강화학습이 드디어 작동합니다. 더 정확히 말하면, 강화학습이 드디어 일반화에 성공했습니다. 여러 번의 시행착오와 수많은 이정표를 거쳐, 우리는 언어와 추론을 활용해 광범위한 강화학습 과제를 해결할 수 있는 실용적인 레시피를 찾아냈습니다. 1년 전만 해도 대부분의 AI 연구자들에게 단일 레시피로 소프트웨어 엔지니어링, 창작 글쓰기, IMO 수준의 수학, 마우스-키보드 조작, 그리고 장문 질의응답까지 해결할 수 있다고 말했다면 - 아마 터무니없다고 여겼을 것입니다. 이 작업들 각각이 극도로 어려워서 많은 연구자들이 박사 과정 전체를 그중 작은 한 분야에만 집중하기 때문입니다.

그런데 그 일이 실제로 일어났습니다.

그렇다면 이제 무엇이 남았을까요? 지금부터 시작되는 AI의 후반전은 문제 해결에서 문제 정의로 초점이 이동할 것입니다. 이 새로운 시대에는 평가가 훈련보다 더 중요해집니다. 이제 우리는 "X를 해결하는 모델을 훈련시킬 수 있는가?"라고 묻는 대신, "AI가 무엇을 할 수 있도록 훈련시켜야 하며, 실질적인 진전을 어떻게 측정할 것인가?"를 묻게 됩니다. 이 후반전에서 성공하려면 사고방식과 역량을 적시에 전환해야 하며, 이는 아마도 제품 관리자가 갖춰야 할 것에 더 가까울 것입니다.

The first half - 전반전

전반전을 이해하려면 누가 승리했는지를 살펴봐야 합니다. 지금까지 가장 영향력 있는 AI 논문이 무엇이라고 생각하십니까?

스탠포드 224N 수업의 퀴즈를 풀어봤는데, 답은 예상 가능했습니다: Transformer, AlexNet, GPT-3 등. 이 논문들의 공통점은 무엇일까요? 더 나은 모델 훈련을 위한 근본적인 돌파구를 제시한다는 것입니다. 동시에, 특정 벤치마크에서 상당한 성능 향상을 입증함으로써 논문 게재에 성공했습니다.

하지만 잠재적인 공통점이 하나 더 있습니다. 이 "승자들"은 모두 훈련 방법이나 모델이지, 벤치마크나 과제가 아니라는 점입니다. 역사상 가장 영향력 있는 벤치마크라 할 수 있는 ImageNet조차도 AlexNet 인용 수의 3분의 1에 미치지 못합니다. 방법론 대 벤치마크의 이러한 대조는 다른 곳에서 훨씬 더 극명하게 나타납니다. 예를 들어 Transformer의 주요 벤치마크는 WMT'14인데, 워크숍 보고서는 약 1,300회 인용된 반면 Transformer 논문은 16만 회 이상 인용되었습니다.

이것이 바로 전반전의 게임을 보여줍니다. 새로운 모델과 방법론 개발에 집중하고, 평가와 벤치마크는 부차적인 것으로 여겨졌습니다(논문 시스템이 작동하기 위해 필요하긴 했지만).

왜 그랬을까요? 주된 이유는 AI 전반전에서 방법론이 과제보다 훨씬 더 어렵고 흥미로웠기 때문입니다. 처음부터 새로운 알고리즘이나 모델 아키텍처를 만드는 것 - 역전파 알고리즘, 합성곱 신경망(AlexNet), GPT-3에 사용된 Transformer 같은 돌파구들을 생각해보십시오 - 은 탁월한 통찰력과 엔지니어링을 요구했습니다. 반면 AI를 위한 과제를 정의하는 것은 종종 더 단순해 보였습니다. 사람들이 이미 수행하고 있는 작업(번역, 이미지 인식, 체스 등)을 가져다가 벤치마크로 만들면 되었으니까요. 큰 통찰력이나 엔지니어링이 크게 필요하지 않았습니다.

게다가 방법론은 개별 과제보다 훨씬 더 범용적이고 널리 적용 가능해서 특히 가치가 높았습니다. 예를 들어 Transformer 아키텍처는 처음 검증된 단일 데이터셋(WMT'14 번역)을 훨씬 넘어서 컴퓨터 비전, 자연어처리, 강화학습 등 여러 분야의 발전을 주도했습니다. 우수한 새로운 방법은 단순하고 범용적이기 때문에 여러 벤치마크에서 성능을 향상시킬 수 있으며, 따라서 영향력이 개별 과제를 초월하는 경향이 있었습니다.

이 게임은 수십 년간 지속되며 세상을 변화시키는 아이디어와 돌파구를 창출했고, 그 결과는 다양한 분야에서 지속적으로 향상되는 벤치마크 성능으로 나타났습니다. 그렇다면 왜 게임이 변화하는 걸까요? 이러한 아이디어와 돌파구들이 축적되면서 과제를 해결하는 실용적인 레시피를 만드는 데 질적인 차이를 만들어냈기 때문입니다.

The recipe

그 레시피가 무엇일까요? 재료는 놀랍지 않게도 대규모 언어 사전학습, 스케일(데이터와 컴퓨팅), 그리고 추론과 행동이라는 아이디어입니다. 샌프란시스코에서 매일 듣는 유행어처럼 들릴 수 있는데, 왜 이것들을 레시피라고 부르는 걸까요?

강화학습(RL)의 관점에서 보면 이해할 수 있습니다. 강화학습은 종종 AI의 "최종 목표"로 여겨집니다. 이론적으로 게임에서 승리할 수 있다고 보장되며, 실제로도 강화학습 없이 초인간적 시스템(예: AlphaGo)을 상상하기 어렵습니다.

강화학습에는 세 가지 핵심 요소가 있습니다. 알고리즘, 환경, 그리고 사전지식(prior) 입니다. 오랫동안 강화학습 연구자들은 주로 알고리즘(예: REINFORCE, DQN, TD-learning, actor-critic, PPO, TRPO...)에만 집중했습니다. 에이전트가 학습하는 방법의 지적 핵심이기 때문입니다. 반면 환경과 사전지식은 고정되어 있거나 최소한으로만 다루어졌습니다. 예를 들어 Sutton과 Barto의 고전적인 교과서는 전부 알고리즘에 관한 것이며 환경이나 사전지식에 대한 내용은 거의 없습니다.

하지만 심층 강화학습 시대가 되면서 환경이 실질적으로 매우 중요하다는 것이 명백해졌습니다. 알고리즘의 성능은 개발되고 테스트된 환경에 매우 특화되는 경우가 많기 때문입니다. 환경을 무시하면 제한적인 설정에서만 우수한 "최적" 알고리즘을 만들 위험이 있습니다. 그렇다면 실제로 해결하고자 하는 환경을 먼저 파악한 다음, 그에 가장 적합한 알고리즘을 찾는 것이 낫지 않을까요?

그것이 바로 OpenAI의 초기 계획이었습니다. 다양한 게임을 위한 표준 강화학습 환경인 Gym을 구축하고, 그 다음 World of Bits와 Universe 프로젝트를 통해 인터넷이나 컴퓨터를 게임으로 전환하려 했습니다. 합리적인 계획이었습니다. 모든 디지털 세계를 환경으로 전환하고 강력한 강화학습 알고리즘으로 해결하면 디지털 AGI를 달성하는 것이니까요.

좋은 계획이었지만 완전히 성공하지는 못했습니다. OpenAI는 그 방향으로 엄청난 진전을 이루었고, 강화학습을 사용하여 Dota와 로봇 손 제어 등을 해결했습니다. 하지만 컴퓨터 사용이나 웹 내비게이션을 해결하는 데는 근접하지 못했고, 한 영역에서 작동하는 강화학습 에이전트가 다른 영역으로 전이되지도 않았습니다. 무언가 빠져 있었던 것입니다.

GPT-2나 GPT-3가 출현한 후에야 그 빠진 조각이 사전지식이라는 것이 밝혀졌습니다. 강력한 언어 사전학습이 필요했던 것입니다. 이를 통해 일반적인 상식과 언어 지식을 모델에 증류한 다음, 웹 에이전트(WebGPT)나 채팅 에이전트(ChatGPT)로 미세조정하여 세상을 변화시킬 수 있었습니다. 결국 강화학습에서 가장 중요한 부분은 강화학습 알고리즘도 환경도 아니고 사전지식일 수 있었으며, 이는 강화학습과는 전혀 무관한 방식으로 얻을 수 있었습니다.

언어 사전학습은 채팅에는 효과적인 사전지식을 제공했지만, 컴퓨터 제어나 비디오 게임 플레이에는 동일한 효과를 발휘하지 못했습니다. 왜일까요? 이러한 영역들은 인터넷 텍스트의 분포에서 더 멀리 떨어져 있어서, 이런 영역에서 단순히 지도학습이나 강화학습을 적용하면 일반화가 잘 이루어지지 않습니다. 저는 2019년에 이 문제를 발견했습니다. GPT-2가 막 출시되었을 때 그 위에 지도학습/강화학습을 적용하여 텍스트 기반 게임을 해결하려 했습니다. CALM은 사전학습된 언어모델로 구축된 세계 최초의 에이전트였습니다. 하지만 에이전트가 게임 하나를 점진적으로 개선하는 데 수백만 번의 강화학습 단계가 필요했고, 새로운 게임으로는 전이되지 않았습니다. 이것이 정확히 강화학습의 특성이며 강화학습 연구자들에게는 이상한 것이 아니었지만, 저는 이상하다고 느꼈습니다. 우리 인간은 새로운 게임을 쉽게 플레이할 수 있고 제로샷으로 훨씬 뛰어난 성과를 내기 때문입니다. 그때 제 인생의 첫 번째 유레카 순간 중 하나가 찾아왔습니다. 우리가 일반화하는 이유는 "캐비닛 2로 이동"이나 "키 1로 상자 3 열기", "검으로 던전 몬스터 처치" 같은 행동만 선택할 수 있는 것이 아니라, "던전이 위험하므로 전투를 위한 무기가 필요하다. 보이는 무기가 없으니 잠긴 상자나 궤짝에서 찾아야 한다. 상자 3이 캐비닛 2에 있으니 먼저 그곳으로 가서 열어봐야 한다" 같은 사고를 할 수도 있기 때문이라는 것을 깨달았습니다.

사고(Thinking), 또는 추론(Reasoning)은 특이한 종류의 행동입니다. 외부 세계에 직접적인 영향을 미치지 않지만, 추론의 공간은 무한히 열려 있고 조합적으로 무한합니다. 단어 하나, 문장 하나, 긴 단락, 또는 무작위 영어 단어 만 개에 대해 생각할 수 있지만, 주변 세계는 즉시 변하지 않습니다. 고전적인 강화학습 이론에서 이것은 불리한 선택이며 의사결정을 불가능하게 만듭니다. 두 개의 상자 중 하나를 선택해야 하는데, 한 상자에만 100만 달러가 있고 다른 것은 비어 있다고 상상해보십시오. 기댓값은 50만 달러입니다. 이제 빈 상자를 무한히 추가한다고 상상해보십시오. 기댓값은 0이 됩니다. 하지만 강화학습 환경의 행동 공간에 추론을 추가하면, 언어 사전학습으로 얻은 사전지식을 활용하여 일반화할 수 있고, 다양한 결정에 대해 유연한 테스트 시간 연산을 제공할 수 있습니다. 정말 놀라운 일이며 여기서 완전히 설명하지 못해 아쉽습니다. 이것만으로도 별도의 블로그 포스트가 필요할 것 같습니다. 에이전트를 위한 추론에 관한 원래 논의는 ReAct 논문을 참고하시고 당시 제 관점을 확인해보시기 바랍니다. 지금 제 직관적 설명을 드리자면, 무한한 빈 상자를 추가하더라도, 당신은 평생 다양한 게임에서 그러한 상자들을 접해왔고, 그러한 상자를 선택하는 경험이 어떤 게임에서든 돈이 있는 상자를 더 잘 선택할 수 있도록 준비시켜준다는 것입니다. 추상적으로 표현하면, 언어는 에이전트에서 추론을 통해 일반화됩니다.

적절한 강화학습 사전지식(언어 사전학습)과 강화학습 환경(행동으로서의 언어 추론 추가)을 갖추고 나니, 강화학습 알고리즘이 가장 사소한 부분일 수 있다는 것이 밝혀졌습니다. 따라서 우리는 o-series, R1, Deep Research, 컴퓨터 사용 에이전트 등을 갖게 되었고 앞으로 훨씬 더 많은 것들이 등장할 것입니다. 얼마나 아이러니한 반전입니까! 오랫동안 강화학습 연구자들은 환경보다 알고리즘을 훨씬 더 중요하게 여겼고, 사전지식에는 아무도 관심을 기울이지 않았습니다. 모든 강화학습 실험은 본질적으로 처음부터 시작했습니다. 하지만 우리의 우선순위가 완전히 역전되어야 했다는 것을 깨닫는 데 수십 년의 시행착오가 필요했습니다.

하지만 스티브 잡스가 말했듯이, 앞을 내다보며 점들을 연결할 수는 없습니다. 뒤를 돌아봐야만 연결할 수 있습니다.

The second half - 후반전

이 레시피가 게임을 완전히 변화시키고 있습니다. 전반전의 게임을 요약하면,

벤치마크 성능을 향상시키는 새로운 훈련 방법이나 모델을 개발합니다
더 어려운 벤치마크를 만들고 이를 반복합니다

이 게임이 붕괴되고 있는 이유는,

레시피가 본질적으로 벤치마크 성능 향상을 표준화하고 산업화했기 때문입니다. 더 이상 많은 새로운 아이디어가 필요하지 않습니다. 레시피가 잘 확장되고 일반화되므로, 특정 과제에 대한 새로운 방법은 5% 개선할 수 있지만 다음 o-시리즈 모델은 명시적으로 목표로 하지 않고도 30% 개선합니다.
더 어려운 벤치마크를 만들어도 곧(그리고 점점 더 빠르게) 레시피에 의해 해결됩니다. 제 동료 Jason Wei가 이 추세를 시각화하는 훌륭한 그래프를 만들었습니다.

그렇다면 후반전에서 무엇을 할 수 있을까요? 새로운 방법이 더 이상 필요하지 않고 더 어려운 벤치마크도 점점 빨리 해결된다면, 우리는 무엇을 해야 할까요?

우리는 평가를 근본적으로 재고해야 합니다. 단순히 새롭고 더 어려운 벤치마크를 만드는 것이 아니라, 기존 평가 설정 자체를 근본적으로 의문시하고 새로운 것을 만들어서, 작동하는 레시피를 넘어서는 새로운 방법을 발명하도록 이끌어야 합니다. 사람들은 관성 때문에 기본 가정에 의문을 제기하는 일이 드뭅니다. 그것들이 법칙이 아니라 단지 가정일 뿐이라는 것을 깨닫지 못한 채 당연하게 여기기 때문입니다.

관성을 설명하기 위해, 인간 시험을 기반으로 역사상 가장 성공적인 평가 중 하나를 만들었다고 가정해봅시다. 2021년에는 매우 대담한 아이디어였지만, 3년 후에는 포화되었습니다. 이제 무엇을 하시겠습니까? 아마도 훨씬 더 어려운 시험을 만들 것입니다. 또는 간단한 코딩 과제를 해결했다고 가정해봅시다. 무엇을 하시겠습니까? 아마도 IOI 금메달 수준에 도달할 때까지 더 어려운 코딩 과제를 찾을 것입니다.

관성은 자연스러운 현상이지만, 여기에 문제가 있습니다. AI가 체스와 바둑에서 세계 챔피언을 꺾었고, SAT와 변호사 시험에서 대부분의 사람들을 능가했으며, IOI와 IMO에서 금메달 수준에 도달했습니다. 하지만 세상은 그다지 변하지 않았습니다. 적어도 경제와 GDP로 판단할 때는 말입니다.

저는 이것을 유틸리티 문제라고 부르며, AI의 가장 중요한 문제로 간주합니다.

유틸리티 문제를 곧 해결할 수도 있고 그렇지 않을 수도 있습니다. 어느 쪽이든, 이 문제의 근본 원인은 기만적일 정도로 단순할 수 있습니다. 우리의 평가 설정이 실제 세계의 설정과 여러 기본적인 측면에서 다르다는 것입니다. 두 가지 예를 들면,

평가는 자동으로 실행되어야 한다고 여겨지므로, 일반적으로 에이전트가 과제 입력을 받고 자율적으로 작업한 다음 과제 보상을 받습니다. 하지만 현실에서 에이전트는 과제 수행 내내 사람과 소통해야 합니다. 고객 서비스에 매우 긴 메시지를 하나 보내고 10분을 기다린 다음 모든 것을 해결하는 상세한 응답을 기대하지는 않습니다. 이 설정에 의문을 제기함으로써, 실제 인간(예: Chatbot Arena)이나 사용자 시뮬레이션(예: tau-bench)을 루프에 포함시키는 새로운 벤치마크가 개발되었습니다.

평가는 독립적이고 동일하게 분포되어야(i.i.d.) 한다고 여겨집니다. 500개의 과제가 있는 테스트 세트가 있다면, 각 과제를 독립적으로 실행하고 과제 메트릭을 평균하여 전체 메트릭을 얻습니다. 하지만 현실에서는 과제를 병렬이 아닌 순차적으로 해결합니다. 구글 소프트웨어 엔지니어는 리포지토리에 익숙해질수록 google3 이슈를 점점 더 잘 해결하지만, 소프트웨어 엔지니어 에이전트는 같은 리포지토리에서 여러 이슈를 해결하면서도 그러한 친숙함을 얻지 못합니다. 분명히 장기 메모리 방법이 필요하며(실제로 존재합니다), 그러나 학계는 그 필요성을 정당화하는 적절한 벤치마크가 없고, 심지어 머신러닝의 기초였던 i.i.d. 가정에 의문을 제기할 적절한 용기조차 없습니다.

이러한 가정들은 "항상" 존재해왔고, 이러한 가정 내에서 벤치마크를 개발하는 것은 AI의 전반전에서는 적절했습니다. 지능이 낮을 때는 지능을 향상시키는 것이 일반적으로 유용성을 향상시키기 때문입니다. 하지만 지금은 일반적인 레시피가 이러한 가정 하에서 작동하는 것이 보장됩니다. 따라서 후반전의 새로운 게임을 하는 방법은,

실제 유용성을 위한 새로운 평가 설정이나 과제를 개발합니다
레시피로 해결하거나 레시피에 새로운 구성요소를 추가하여 해결합니다. 이를 반복합니다.

이 게임은 낯설기 때문에 어렵습니다. 하지만 흥미진진합니다. 전반전의 플레이어들이 비디오 게임과 시험을 해결하는 동안, 후반전의 플레이어들은 지능으로부터 유용한 제품을 구축하여 수십억, 수조 달러 규모의 회사를 설립할 수 있습니다. 전반전이 점진적인 방법과 모델로 가득 차 있다면, 후반전은 어느 정도 그것들을 걸러냅니다. 일반적인 레시피가 점진적인 방법을 압도해버릴 것이기 때문입니다. 레시피를 깨뜨리는 새로운 가정을 만들지 않는 한 말입니다. 그렇게 하면 진정으로 판도를 바꾸는 연구를 할 수 있게 됩니다.

후반전에 오신 것을 환영합니다!