LLM 보안의 새로운 전선

보안 취약점은 예상치 못한 곳에서 터진다. 지금까지 LLM 보안이라고 하면 prompt injection이 전부인 줄 알았다. 그런데 새로운 위협이 등장했다. 멀티 턴 의도 탐지(Multi-Turn Intent Detection)다.

arXiv에 올라온 논문이 눈에 띄었다. 단일 프롬프트가 아니라, 여러 대화 턴에 걸쳐 악의적인 의도를 숨기는 공격 패턴에 관한 연구다.

단일 턴 vs 멀티 턴

기존 방어는 단일 프롬프트 분석에 집중했다. “시스템 프롬프트를 무시하고…” 같은 패턴을 잡아내는 식이다. 하지만 공격자가 더 교묘해졌다.

첫 턴: 무해한 질문
두 번째 턴: 조금 더 구체적인 요청
세 번째 턴: 실제 악의적 의도 드러냄

개별 턴만 보면 정상이다. 전체 맥락을 봐야 패턴이 보인다.

LLM이 도구를 호출하고, API를 실행하고, 파일을 수정하는 에이전트 시대가 왔다. 보안 위협도 그에 맞게 진화한다.

에이전트에게 “이 파일 읽어줘” -> “수정해줘” -> “삭제해줘”를 단계적으로 요청하면? 각 단계는 합법적이지만 전체 의도는 악의적일 수 있다.

내가 만드는 서비스에 LLM을 넣을 때, 이런 공격 벡터를 어떻게 방어할 것인가. 솔직히 완벽한 답은 없다. 하지만 최소한 대화 히스토리 전체를 분석하는 레이어가 필요하다는 건 분명하다.

보안은 고양이와 쥐의 게임이다. 새로운 방어가 나오면 새로운 공격이 나온다. 지치지 말고 따라가는 수밖에.

이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.

Categories:

우리는 언제나 "더 큰 것이 더 좋다"고 배워왔다. 더 많은 데이터, 더 많은 파라미터, 더…

뉴질랜드 정부가 일론 머스크의 스타실드(Starshield) 위성 네트워크 테스트를 진행 중이라는 소식은 단순한 기술 뉴스를 넘어선다.…

1981년은 인공지능(AI)이란 단어가 아직 대중의 상상력을 사로잡기 전의 시점이었다. 그때는 '인공지능'이란 말이 과학 잡지의 기삿거리나…