언제부터 우리는 데이터가 곧 지식이 되고, 그 지식을 학습한 기계가 인간처럼 말하고 생각하도록 만들 수 있다는 꿈을 품었을까? 최근 FSF(Free Software Foundation)가 Anthropic에 대해 제기한 저작권 소송은 바로 이 꿈과 현실 사이에서 발생하는 갈등의 한 단면이다.
FSF는 일반적으로 법적 대응이 아니라 자유소프트웨어와 오픈소스 생태계를 보호하기 위해 움직인다. 하지만 이번 사례에서는 LLM(대규모 언어 모델) 훈련에 사용된 저작물들이 라이브러리 제네시스나 파이레이트 라이브러리 미러 같은 불법 디지털 도서관에서 유입됐다는 점을 근거로 소송을 진행한다. 이는 단순히 한 회사의 비즈니스 모델을 공격하는 것이 아니라, ‘지식의 자유로운 흐름’과 ‘저작권 보호’라는 두 개념이 충돌할 때 발생하는 딜레마를 드러낸다.
AI가 대규모 데이터셋을 학습함으로써 만들어진 언어 모델은 인간이 직접 읽고 이해한 텍스트의 패턴을 재현한다. 그 과정에서 원본 저작물에 대한 명시적 허락 없이 무수히 많은 페이지를 ‘소비’하는 것은, 마치 무단 복제와 같은 행위로 보일 수 있다. 반면, FSF가 주장하는 바는 이러한 학습 자체가 ‘저작권 침해’가 아니라는 점이다. 미국 연방법원은 Anthropic이 저작권을 위반하지 않았다고 판결했지만, 그 결정은 기술적 해석과 법률상의 예외를 기반으로 한 것이지, 윤리적·사회적 논쟁을 종식시킨 것은 아니다.
내가 생각하기에 가장 흥미로운 부분은 ‘공유’와 ‘보호’라는 두 축이 서로 다른 방향에서 끌어당기는 순간이다. GPL 4.0 같은 오픈소스 라이선스는 소프트웨어의 자유를 보장하지만, 그 자체가 AI 학습 데이터로 사용되는 경우라면 그 자유가 다시 한 번 시험대에 오른다. 이때 FSF가 ‘GPL을 AI에는 적용하지 말라’고 주장하는 것은, 단순히 기술적 제한이 아니라, 우리가 무엇을 공유하고, 무엇을 보호해야 할지 재정의하도록 요구하는 메시지로 해석된다.
결국 우리는 AI가 만들어낸 지식이 인간 사회에 미치는 영향과 그 기반이 되는 데이터의 출처를 어떻게 정의할 것인가에 대한 질문을 다시 물어봐야 한다. 저작권은 창작자의 권리를 보호하기 위해 존재하지만, 동시에 새로운 아이디어와 혁신을 억제할 위험도 있다. FSF가 제기한 소송은 이 두 극단 사이에서 균형을 찾는 데 있어 하나의 실험실이 될 수 있다.
저는 이 논쟁이 단순히 법적 판결에 그치지 않고, 기술자와 사용자 모두가 ‘공유’라는 가치를 재검토하고, 책임 있는 AI 개발 문화를 정립하는 계기가 되길 바란다. 결국, 우리가 만든 모델이 사람들의 삶을 풍요롭게 하는 동시에, 창작자의 권리를 존중할 수 있도록 만드는 것이야말로 진정한 자유소프트웨어 정신이라 생각한다.
원문 링크: https://news.slashdot.org/story/26/03/16/0539240/fsf-threatens-anthropic-over-infringed-copyright-share-your-llms-freely
이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.