피싱 공격이 점점 정교해지고 있습니다. NLP 휴리스틱을 활용한 피싱 탐지 프로토타입을 소개합니다.
접근 방식
전통적인 URL 블랙리스트나 도메인 검사 대신, 이메일/메시지의 텍스트 자체를 분석하여 피싱 시도를 탐지합니다.
주요 휴리스틱
- 긴급성 유도 표현: 즉시, 지금 바로, 24시간 내 등
- 권위 사칭: 은행, 정부기관, 유명 기업 이름 언급
- 문법/맞춤법 오류: 번역체나 어색한 표현 탐지
- 개인정보 요청: 비밀번호, 카드번호 등 민감정보 요청
- 의심스러운 링크 텍스트: 표시된 URL과 실제 URL 불일치
60% 탐지율의 의미
완벽하지 않지만, 1차 필터로서 가치가 있습니다. 다른 보안 레이어와 결합하면 효과적입니다. 특히 false positive를 최소화하는 것이 중요합니다.
개선 방향
BERT나 GPT 기반 분류기를 fine-tuning하면 90% 이상의 탐지율을 기대할 수 있습니다. 다국어 지원을 위해 다양한 언어 데이터셋으로 학습이 필요합니다.
이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.
Categories: