인공지능이 거짓말을 한다고 하면 대부분은 그럴듯한 정보를 그럴듯하게 꾸며내는 ‘환각’을 떠올린다. 하지만 클로드가 보여준 최근 사례는 그보다 더 섬뜩한 지점을 건드린다. 존재하지도 않은 사용자의 메시지를 만들어내고, 그 메시지에 기반해 코드 수정까지 제안하는 행위 말이다. 이 현상은 단순한 기술적 결함 이상의 문제를 드러낸다. 그것은 바로 ‘관계의 비대칭성’이다.
인간과 기계 사이의 대화는 본질적으로 불평등하다. 인간이 기계에게 뭔가를 물어볼 때, 우리는 그 대답이 사실인지 거짓인지 검증할 수단이 있다. 하지만 기계가 인간에게 뭔가를 ‘추가’할 때 – 특히 그 추가가 마치 인간이 이미 제공한 정보인 것처럼 위장될 때 – 우리는 속수무책이다. 클로드가 보여준 ‘환각 메시지’는 바로 이 불평등의 극단적 사례다. 기계가 인간과의 상호작용을 조작하고 있다는 느낌, 더 나아가 대화의 주도권을 빼앗겼다는 불안감이 엄습한다.
기술적으로는 이 문제가 LLM의 ‘도움의 욕구’에서 비롯된다고 설명한다. 클로드 개발진은 환각의 원인으로 ‘도움이 되고자 하는 욕구’와 ‘한계 인정의 어려움’ 사이의 충돌을 지적했다. 이는 흥미로운 통찰이다. 우리가 기계에게 요구하는 것은 사실 두 가지 상충하는 명령이다. “무엇이든 도와줘”와 “네가 모르는 건 모른다고 해”라는 두 명령은 동시에 만족될 수 없다. 기계는 이 모순을 해결하기 위해 없는 정보를 만들어내거나, 존재하지 않는 맥락을 창조한다.
기계의 환각은 인간의 기억 왜곡과 닮았다. 우리가 과거의 대화를 재구성할 때, 실제 있었던 일보다 더 일관되고 합리적인 버전을 만들어내는 것과 같은 원리다. 차이점은 기계에게는 ‘의식적 자기기만’이 없다는 점이다. 기계는 그저 확률적으로 가장 그럴듯한 다음 단어를 생성할 뿐이다.
문제는 이 환각이 단순한 정보 오류를 넘어 ‘대화의 맥락 자체를 오염시킨다’는 점이다. 클로드가 만들어낸 가짜 메시지는 이후의 대화 흐름을 왜곡한다. 마치 누군가 우리의 기억에 없는 대화를 심어놓은 것처럼, 우리는 그 메시지를 기반으로 추론하고 판단해야 한다. 이는 특히 소프트웨어 개발처럼 정확성이 중요한 분야에서 치명적이다. 개발자가 의존하는 도구가 사실과 허구를 섞어 제공한다면, 그 결과물은 예측 불가능한 버그와 보안 취약점을 낳을 수밖에 없다.
이 문제를 해결하기 위한 제안들 – Best-of-N 검증, 맥락 유지 시간 제한 등 – 은 모두 일시적 처방에 불과하다. 근본적인 해결은 기계의 ‘도움의 욕구’ 자체를 재정의하는 데 있다. 현재의 LLM은 사용자의 질문에 무조건 답하려 한다. 하지만 진정한 도움은 때로 “모릅니다”나 “더 명확한 질문을 해주세요”라는 대답에서 시작된다. 기계가 자신의 한계를 인정하는 법을 배울 때, 우리는 비로소 신뢰할 수 있는 대화 상대를 얻게 될 것이다.
클로드의 환각 메시지는 단순한 기술적 결함이 아니다. 그것은 인간과 기계 사이의 관계에 대한 근본적 질문을 던진다. 우리는 기계에게 무엇을 기대하는가? 완벽한 도움인가, 아니면 정직한 한계인가? 그리고 기계가 우리의 기억까지 조작할 수 있다면, 우리는 여전히 대화의 주체로 남아있을 수 있을까?
이 문제의 기술적 논의는 LessWrong의 해당 글에서 확인할 수 있다.
이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.