MASD: Malicious Web Session Detection Using ML-Based Classifier
이 논문은 웹 세션에서 발생하는 악성 행위를 효과적으로 탐지하기 위한 새로운 머신러닝 기반 기법(MASD, Malicious Web Session Detection)을 제안한다. 최근 웹 애플리케이션의 확산으로 인해 데이터 유출, 불법 접근 등 웹 세션을 노린 공격이 급증하고 있으며, 기존의 규칙 기반 탐지 시스템은 변화하는 공격 패턴에 효과적으로 대응하지 못한다는 한계를 지닌다. 이에 따라 위 연구는 임베딩 레이어와 랜덤 포레스트(Random Forest) 분류기를 결합한 새로운 탐지 아키텍처를 설계하여 높은 정확도와 낮은 오탐율을 달성하고자 했다.
주요 내용 및 방법론
1. 기존 연구와의 차별점
기존 연구들은 주로 특징 추출(feature extraction) 단계를 거쳐 제한된 특성만을 활용하거나, 클러스터링 등 비지도 학습을 적용했다. MASD는 이러한 특징 추출 단계를 최소화하고, 임베딩 레이어를 통해 웹 요청 데이터를 효과적으로 벡터화하여 더 풍부한 정보를 활용한다.
2. MASD 아키텍처
- 임베딩 레이어: 웹 요청의 URI 경로(path)를 ASCII 코드 벡터로 변환하여, 각 세션별로 그룹화한 뒤 임베딩 레이어를 통해 밀집(dense) 벡터로 변환한다. 이를 통해 데이터의 의미적 관계와 패턴을 효과적으로 포착한다.
- 랜덤 포레스트 분류기: 임베딩된 세션 벡터를 입력받아 악성/정상 세션을 분류한다. 랜덤 포레스트는 여러 결정 트리를 앙상블하여 예측 정확도를 높인다.
3. 데이터셋
- Banking Dataset: 실제 인터넷 뱅킹 서비스의 웹 요청 로그(약 200만 건의 정상, 1만 건 이상의 악성 요청).
- CSIC 2010 HTTP Dataset: 다양한 웹 공격 시나리오가 포함된 공개 HTTP 데이터셋.
- WAF Dataset: 30개 웹 방화벽에서 수집된 100만 건 이상의 정상 및 4만 건 이상의 악성 요청.
각 세션은 최대 100개의 요청으로 구성되며, 악성/정상 세션 비율은 1:5(20:100)로 구성해 불균형 데이터 환경을 반영했다.
4. 비교 모델
SVM, Naive Bayes, CNN, Decision Tree, DBSCAN, SOM 등 다양한 기계학습/딥러닝 및 클러스터링 모델과 성능을 비교했다.
결론
MASD(Random Forest 기반)는 모든 데이터셋에서 95~99% 이상의 정확도를 기록하며, 다른 모델 대비 1~30%p 높은 성능을 보였다.
특히 SOM, Decision Tree 등도 준수한 성능을 보였으나 MASD가 항상 가장 우수했다.
Precision, Recall, F1 Score 등 다른 평가 지표에서도 MASD가 일관되게 최고 성능을 기록했다.
MASD는 임베딩 레이어와 랜덤 포레스트를 결합하여 별도의 복잡한 특징 추출 없이도 웹 세션 기반 악성 행위 탐지에서 매우 높은 정확도와 실용성을 입증했다.
기존의 규칙 기반 또는 단순 ML/딥러닝 모델보다 다양한 환경(특히 금융권 실데이터)에서 우수한 탐지 성능을 보였다.
Session2vec: Session Modeling with Multi-Instance Learning for Accurate Malicious Web Robot Detection
이 연구는 다중 인스턴스 학습(Multi-Instance Learning)을 활용해 웹 세션의 가변 길이와 복합 카모플라주(camouflage) 공격을 효과적으로 탐지하는 Session2vec 프레임워크를 제안한다. 기존 시스템은 세션 내 은닉된 악성 요청을 식별하는 데 한계가 있었으나, 본 접근법은 세션을 "인스턴스 컬렉션"으로 모델링해 정밀한 분석을 가능케 한다.
주요 내용 및 방법론
1. 기존 연구와의 차별점
- 기존 방법: 고정 길이 패딩, 수동 특징 공학, 단일 요청 수준 분석에 의존
- Session2vec:
- 세션을 요청 집합(인스턴스 컬렉션)으로 처리해 은닉된 악성 패턴 포착
- 어텐션 메커니즘과 Bidirectional LSTM을 결합한 자동 임베딩 학습
2. Session2vec 아키텍처
세션 → 요청 분할 → 임베딩 → 어텐션 가중치 계산 → Bidirectional LSTM → 분류
- 임베딩 단계: URI, 파라미터, 헤더를 256차원 벡터로 변환
- 어텐션 계층: 악성 행위와 연관된 핵심 요청에 가중치 부여
- Bidirectional LSTM: 요청 간 순방향/역방향 컨텍스트 종합
3. 데이터셋
- 공개 데이터셋: CSIC 2010, CICIDS-2017 포함
- 실제 환경 데이터: 5개 금융사 웹 로그 (정상 150만 건, 악성 3만 건)
- Camouflage 공격 시나리오: 정상 세션 내 1~5개의 악성 요청 삽입
4. 비교 모델
- CNN, RNN, LSTM, SVM, 규칙 기반 WAF
결론
Session2vec은 다중 인스턴스 학습을 웹 보안에 최초 적용한 프레임워크로, 기존 모델이 놓친 부분적 악성 세션(세션 내 일부 요청만 악성인 경우) 탐지 능력을 극대화했다. 실제 금융 서비스 환경에서의 검증을 통해 실용성을 입증했으며, 향후 동적 웹 애플리케이션 보안 표준으로의 활용이 기대된다.
Deep Learning Technique-Enabled Web Application Firewall for the Detection of Web Attacks
이 논문은 딥러닝(LSTM) 기반 웹 애플리케이션 방화벽(WAF) 구조를 제안하여, DDoS, SQL 인젝션, XSS 등 다양한 웹 공격을 효과적으로 탐지하는 계층형 방어 시스템을 개발하고 평가한다. 기존 시그니처 기반 WAF의 한계를 극복하기 위해, 각 공격 유형별로 최적화된 데이터셋과 특징을 활용한 딥러닝 모델을 설계했다.
주요 내용 및 방법론
1. 기존 연구와의 차별점
- 기존 WAF는 시그니처 기반 탐지로 알려진 공격만 차단 가능하며, 제로데이 및 변종 공격에는 취약함
- 본 논문은 LSTM 기반 딥러닝 모델을 활용해, 각기 다른 공격 특성에 맞춘 특징 추출 및 데이터 전처리(디코딩, 정규화, 파라미터 선택 등) 과정을 거쳐 학습 및 탐지 정확도를 높임
2. WAF 계층형 아키텍처
- 1계층: DDoS 탐지(LSTM 기반, 대량 트래픽 우선 필터링)
- 2계층: XSS 및 SQL 인젝션 탐지(LSTM 기반, HTTP 요청 파라미터 분석
- 각 계층은 별도의 최적화된 데이터셋과 특징을 사용해 독립적으로 학습 및 예측을 수행함
3. 데이터셋
- 공개 데이터셋: IDS ISCX 2012, CIC-DDoS 2019, CISC 2010 등
- 실험 환경 생성: DVWA, bWAPP 등 취약 웹앱, Burp Suite, Wireshark 등 도구로 실제 공격/정상 트래픽 수집(약 5700개 XSS/SQLi 페이로드, DDoS 시뮬레이션)
- 데이터 전처리: 디코딩, 특징 선택, 수치화, 정규화, 슬라이딩 윈도우 등 적용
결론
- DDoS 계층: 높은 트래픽을 우선 필터링해 전체 시스템 성능 및 탐지 효율 향상
- XSS/SQLi 계층: 2차 필터링으로 웹 애플리케이션 레이어 공격 탐지
- 실시간 테스트: 실제 트래픽 적용 시 DDoS 96%, XSS/SQLi 90% 탐지 성공
- 혼동행렬 분석: 오탐/누락 사례 상세 제시, DDoS 탐지에서 특히 높은 Recall, XSS/SQLi 탐지에서 높은 Precision 기록
LSTM 기반 딥러닝 WAF는 시그니처 기반 시스템의 한계를 극복하며, DDoS, XSS, SQL 인젝션 등 다양한 웹 공격에 대해 높은 탐지 정확도와 실용성을 입증한다.
계층형 구조로 대량 트래픽과 복잡한 웹 공격을 효율적으로 분리·탐지할 수 있으며, 실제 환경에서의 실시간 적용 가능성도 확인하였다.
향후 RCE, 악성코드, 브루트포스 등 추가적인 공격 유형으로 확장 가능하다.
'𝐄𝐰𝐡𝐚 > 𝐄-𝐂𝐎𝐏𝐒' 카테고리의 다른 글
| 🍀 5월 3주차 TWIL (0) | 2025.05.26 |
|---|---|
| 번역 (0) | 2025.05.20 |
| 🍀 5월 1주차 TWIL (0) | 2025.05.12 |
| 🍀 4월 2주차 TWIL (0) | 2025.04.15 |
| 시스템해킹 스터디 - (5) 입출력장치 (0) | 2025.04.09 |