[번역] The Bitter Lesson
The Bitter Lesson
Rich Sutton
March 13, 2019
AI 연구 70년에서 배울 수 있는 가장 큰 교훈은 연산력을 활용하는 일반적인 방법론이 결국 가장 효과적이며, 그것도 큰 차이로 효과적이라는 점입니다. 이러한 결과의 근본적인 이유는 무어의 법칙, 더 정확히는 연산 단위당 비용이 지속적으로 기하급수적으로 감소한다는 일반화된 법칙 때문입니다. 대부분의 AI 연구는 마치 AI 에이전트가 사용할 수 있는 연산력이 일정한 것처럼 진행되어 왔습니다(이런 경우 인간의 지식을 활용하는 것이 성능을 개선하는 거의 유일한 방법이었을 것입니다). 하지만 일반적인 연구 프로젝트보다 조금 더 긴 시간 척도에서 보면, 훨씬 더 많은 연산력을 사용할 수 있게 되는 것은 필연적입니다.
연구자들은 단기간에 차이를 만들어낼 수 있는 개선을 추구하면서 해당 분야에 대한 인간의 지식을 활용하려고 하지만, 장기적으로 봤을 때 중요한 것은 오직 연산력을 활용하는 것뿐입니다. 이 두 가지 접근 방식이 반드시 서로 상충하는 것은 아니지만, 실제로는 그런 경향이 있습니다. 한 쪽에 투자한 시간은 다른 쪽에 쓰지 못한 시간이 됩니다. 또한 한 가지 접근 방식에 대한 심리적 투자가 발생하게 됩니다. 그리고 인간 지식 기반의 접근 방식은 방법론을 복잡하게 만들어서, 연산력을 활용하는 일반적인 방법의 이점을 살리기 어렵게 만드는 경향이 있습니다. AI 연구자들이 이런 쓰라린 교훈을 뒤늦게 깨달은 사례가 많이 있는데, 가장 두드러진 몇 가지 사례를 살펴보는 것이 유익할 것입니다.
컴퓨터 체스의 경우, 1997년 세계 챔피언 카스파로프를 이긴 방법은 대규모의 깊은 탐색에 기반한 것이었습니다. 당시 이는 체스의 특별한 구조에 대한 인간의 이해를 활용하는 방법을 추구해온 대다수의 컴퓨터 체스 연구자들에게 실망스러운 일이었습니다. 특별한 하드웨어와 소프트웨어를 갖춘 더 단순한 탐색 기반 접근법이 압도적으로 더 효과적임이 입증되었을 때, 이런 인간 지식 기반의 체스 연구자들은 좋은 패자가 되지 못했습니다. 그들은 "무차별적인" 탐색이 이번에는 이겼을지 모르지만, 그것은 일반적인 전략이 아니며, 어쨌든 그것은 인간이 체스를 두는 방식이 아니라고 말했습니다. 이 연구자들은 인간의 입력에 기반한 방법이 승리하기를 원했고, 그렇지 못했을 때 실망했습니다.
비슷한 연구 발전 패턴이 컴퓨터 바둑에서도 나타났는데, 다만 20년 정도 더 늦춰진 것뿐이었습니다. 처음에는 인간의 지식이나 게임의 특수한 특징들을 활용해 탐색을 피하려는 엄청난 노력이 있었지만, 일단 탐색이 효과적으로 대규모로 적용되자 그러한 모든 노력은 무의미해졌거나 오히려 방해가 되었습니다. 또한 자가 대국을 통해 가치 함수를 학습하는 방식도 중요했습니다(이는 다른 많은 게임에서도 마찬가지였고, 체스에서도 그랬지만, 1997년 처음으로 세계 챔피언을 이긴 프로그램에서는 학습이 큰 역할을 하지 않았습니다). 자가 대국을 통한 학습, 그리고 일반적인 학습은 탐색과 마찬가지로 대규모 연산을 활용할 수 있게 해줍니다. 탐색과 학습은 AI 연구에서 대규모 연산을 활용하는 가장 중요한 두 가지 기술 분류입니다. 컴퓨터 체스에서처럼 컴퓨터 바둑에서도 연구자들의 초기 노력은 인간의 이해를 활용하는 데 집중되었고(그래서 더 적은 탐색이 필요했습니다), 훨씬 나중에야 탐색과 학습을 받아들임으로써 더 큰 성공을 거둘 수 있었습니다.
음성 인식 분야에서는 1970년대에 DARPA가 후원한 초기 경연대회가 있었습니다. 참가자들은 인간의 지식(단어, 음소, 인간의 발성 기관에 대한 지식 등)을 활용한 다양한 특수 방법들을 선보였습니다. 반면에 은닉 마르코프 모델(HMMs)에 기반한 새로운 방법들은 더 통계적인 성격을 띠고 훨씬 더 많은 연산을 수행했습니다. 여기서도 역시 통계적 방법이 인간 지식 기반 방법을 이겼습니다. 이는 수십 년에 걸쳐 자연어 처리 전 분야에 큰 변화를 가져왔고, 통계와 연산이 이 분야를 지배하게 되었습니다. 최근 음성 인식에서 딥러닝의 부상은 이러한 일관된 방향의 가장 최근 단계입니다. 딥러닝 방법은 인간의 지식에 훨씬 덜 의존하고, 더 많은 연산과 함께 거대한 훈련 데이터셋에 대한 학습을 통해 극적으로 더 나은 음성 인식 시스템을 만들어냈습니다. 게임에서처럼, 연구자들은 항상 자신들이 생각하는 자신의 지능이 작동하는 방식대로 작동하는 시스템을 만들려고 했습니다 - 그들은 그 지식을 자신들의 시스템에 넣으려고 했습니다 - 하지만 이는 결국 역효과를 냈고, 무어의 법칙을 통해 대규모 연산이 가능해지고 이를 잘 활용할 방법이 발견되었을 때, 이는 연구자들의 시간을 엄청나게 낭비한 것으로 판명되었습니다.
컴퓨터 비전에서도 비슷한 패턴이 있었습니다. 초기 방법들은 비전을 모서리를 찾거나, 일반화된 실린더를 찾거나, SIFT 특징의 관점에서 생각했습니다. 하지만 오늘날 이 모든 것은 버려졌습니다. 현대의 딥러닝 신경망은 컨볼루션과 특정한 종류의 불변성이라는 개념만을 사용하며, 훨씬 더 좋은 성능을 보입니다.
이것은 큰 교훈입니다. 우리는 아직도 같은 종류의 실수를 계속하고 있기 때문에, 분야로서 우리는 아직 이것을 철저히 배우지 못했습니다. 이것을 보고 효과적으로 저항하기 위해서는, 우리는 이러한 실수들의 매력을 이해해야 합니다. 우리는 우리가 생각하는 방식대로 생각하는 것을 구축하는 것이 장기적으로는 작동하지 않는다는 쓰라린 교훈을 배워야 합니다. 이 쓰라린 교훈은 다음과 같은 역사적 관찰에 기반합니다: 1) AI 연구자들은 종종 그들의 에이전트에 지식을 구축하려 했고, 2) 이는 항상 단기적으로는 도움이 되고 연구자 개인적으로는 만족스럽지만, 3) 장기적으로는 정체되고 심지어 추가적인 발전을 저해하며, 4) 획기적인 발전은 결국 탐색과 학습을 통한 연산 규모 확장에 기반한 반대되는 접근방식을 통해 도착합니다. 최종적인 성공은 쓰라림을 동반하고, 종종 완전히 받아들여지지 않습니다. 왜냐하면 그것은 선호되던, 인간 중심적 접근방식을 넘어선 성공이기 때문입니다.
쓰라린 교훈에서 배워야 할 한 가지는 일반적인 목적의 방법들, 즉 가용한 연산이 매우 커져도 증가된 연산과 함께 계속해서 확장되는 방법들의 큰 힘입니다. 이런 방식으로 임의로 확장되는 것처럼 보이는 두 가지 방법은 탐색과 학습입니다.
쓰라린 교훈에서 배워야 할 두 번째 일반적인 점은 지능 시스템의 실제 내용이 엄청나게, 돌이킬 수 없을 정도로 복잡하다는 것입니다. 우리는 공간, 객체, 다중 에이전트, 또는 대칭성과 같은 지능 시스템의 내용에 대해 단순하게 생각하는 방법을 찾으려는 시도를 멈춰야 합니다. 이 모든 것들은 임의적이고, 본질적으로 복잡한 외부 세계의 일부입니다. 이것들은 구축되어야 할 것이 아닙니다. 그들의 복잡성은 끝이 없기 때문입니다. 대신 우리는 이러한 임의적 복잡성을 찾고 포착할 수 있는 메타 방법만을 구축해야 합니다. 이러한 방법들에서 핵심적인 것은 그들이 좋은 근사를 찾을 수 있다는 것이지만, 그것들을 찾는 것은 우리가 아닌 우리의 방법들에 의해 이루어져야 합니다. 우리는 우리가 발견한 것을 포함하는 AI 에이전트가 아니라, 우리처럼 발견할 수 있는 AI 에이전트를 원합니다. 우리의 발견을 구축하는 것은 발견 과정이 어떻게 이루어질 수 있는지를 보는 것을 더 어렵게만 만듭니다.
(Claude 3.5 Sonnet을 활용하여 번역된 글입니다.)
느낀 점
Scaling Law 기반의 Large Language Model이 본격적으로 발전하기 이전인 2019년에 쓰인 글임에도, 현재의 Reasoning, Agent Model, 그리고 Computing Scaling의 트렌드를 정확히 꿰뚫고 있었다는 점이 인상적이다. 불과 5년 전과 비교해도 컴퓨팅 파워는 상상할 수 없을 만큼 빠르게 성장했으며, 이러한 속도를 감안하면 앞으로의 5년은 또 어떤 변화를 가져올지 궁금해진다 관련 기사
특히 Sutton이 강조한 "임의적 복잡성을 찾고 포착할 수 있는 메타 방법"이 앞으로도 중요한 과제가 될 가능성이 크다. 어느덧 AI는 ‘Humanity’s Last Exam’이라 불리는 과제를 정복하는 단계에 가까워지고 있다. 그렇다면, 이를 넘어선다면 더 높은 intelligence을 추구하는 것이 과연 어떤 의미를 가질까? 그리고 지능의 다음 단계는 어떤 형태로 진화할 것인가?
감사합니다 😊