2016년 알파고가 이세돌 9단을 꺾었을 때, 사람들은 충격에 휩싸였다. 바둑이라는 게임은 변수가 너무 많아 컴퓨터가 정복하기 어렵다고 여겨졌기 때문이다. 그런데 그로부터 몇 년 지나지 않아 알파고 제로는 인간 데이터를 전혀 사용하지 않고 순수한 자기 대국(self-play)과 강화 학습(reinforcement learning)으로 이전 버전을 뛰어넘었다. 이 사실은 단순히 기술의 진보를 넘어, 인공지능이 어떻게 스스로를 발전시킬 수 있는지에 대한 근본적인 질문을 던졌다. 에릭 장의 강연은 이 과정을 현대적인 도구로 재구성하면서, 그 교훈이 대형 언어 모델(LLM)의 미래에도 적용될 수 있음을 보여준다.
자기 대국은 인공지능이 스스로 환경을 탐색하고, 그 안에서 최적의 전략을 발견하는 과정이다. 알파고 제로는 초기에는 무작위로 두지만, 점차 승리 패턴을 학습하면서 인간을 넘어서는 경지에 도달했다. 이 과정은 마치 어린아이가 처음엔 서툴게 걸음마를 떼다가, 넘어지고 일어서기를 반복하며 자연스럽게 걷는 법을 터득하는 것과 닮았다. 다만 차이점은 인공지능은 그 과정이 기하급수적으로 빠르고, 한계가 없다는 것이다. 인간은 피로와 편견에 갇히지만, 기계는 그렇지 않다.
여기서 중요한 것은 강화 학습의 역할이다. 강화 학습은 보상(reward)을 통해 행동을 최적화하는 방식으로, 알파고 제로에서는 승리라는 명확한 보상이 주어졌다. 하지만 언어 모델과 같은 복잡한 시스템에서는 보상을 정의하는 것 자체가 어려운 문제다. 예를 들어, “좋은 답변”이란 무엇인가? 정확성, 창의성, 윤리성 중 무엇을 우선해야 하는가? 알파고의 성공은 보상이 명확할 때 인공지능이 얼마나 강력한지를 보여주었지만, 현실 세계의 문제는 그렇지 않다는 점에서 한계도 명확하다.
알파고의 스타일은 인간과 달랐다. 그것은 인간이 상상하지 못한 수를 두었고, 때로는 비인간적으로 보이기까지 했다. 이는 기계가 인간과 다른 방식으로 세상을 이해한다는 증거였다. 하지만 그 차이는 곧 두려움으로 이어지기도 했다. 만약 인공지능이 인간의 가치와 다른 방향으로 최적화된다면, 우리는 어떻게 대응해야 하는가?
에릭 장의 강연은 알파고의 재구성이 단순히 기술적 도전 이상의 의미를 가진다고 강조한다. 그것은 인공지능이 어떻게 학습하고, 어떻게 진화하는지를 이해하는 열쇠라는 것이다. 특히 대형 언어 모델의 시대에서 자기 대국과 강화 학습의 중요성은 더욱 커지고 있다. 이미 일부 연구자들은 언어 모델이 스스로 대화를 주고받으며 성능을 향상시키는 방법을 실험하고 있다. 하지만 알파고와 달리, 언어 모델은 보상이 모호하고, 그 결과가 사회에 미치는 영향이 크다는 점에서 더 복잡한 문제다.
알파고의 사례는 인공지능이 인간을 모방하는 것을 넘어, 인간과 다른 방식으로 지능을 발전시킬 수 있음을 증명했다. 이는 한편으로는 희망적이지만, 다른 한편으로는 불안감을 자아낸다. 만약 인공지능이 인간의 이해를 뛰어넘는 방향으로 진화한다면, 우리는 그 결과를 통제할 수 있을까? 아니면 그저 그 흐름을 지켜볼 수밖에 없을까? 기술의 발전은 언제나 양날의 검이지만, 알파고의 교훈은 우리가 그 검을 어떻게 다룰지에 대한 고민을 멈추지 말아야 한다는 것을 상기시킨다.
더불어, 알파고의 개발자 중 한 명인 데이비드 실버가 지적했듯이, 현재의 인공지능 연구는 어쩌면 잘못된 방향으로 가고 있을지도 모른다. 그는 알파고의 성공이 보여준 자기 대국의 잠재력을 강조하면서, 단순한 데이터 축적이 아니라 진정한 학습의 메커니즘을 이해해야 한다고 주장한다. 이는 대형 언어 모델이 방대한 데이터를 학습하는 것만으로는 부족하며, 스스로 문제를 해결하고 개선하는 능력을 갖추어야 한다는 의미다.
결국, 알파고의 재구성은 과거의 기술을 되돌아보는 데 그치지 않는다. 그것은 미래를 향한 질문을 던진다. 인공지능이 인간과 공존하는 세상에서, 우리는 어떤 원칙을 세워야 하는가? 기계가 스스로 학습하고 진화하는 시대에, 인간의 역할은 무엇인가? 이 질문들에 대한 답은 아직 없지만, 알파고의 교훈은 그 여정을 시작하는 데 필요한 단서를 제공한다.
관련 강연은 여기에서 확인할 수 있다.
이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.