Abstract
이 연구는 인터넷의 급속한 발전으로 인해 발생하는 부작용을 다루며, 디지털 생태계 내에서 봇넷이 인터넷 사용자에게 심각한 잠재적 위협이 될 수 있음을 강조합니다. 악성 웹 로봇은 웹/데이터 스크래핑, DDoS 공격 및 데이터 도난을 촉진하여 심각한 사이버 보안 위협을 야기할 수 있습니다.
현대 봇넷은 고급화되어 있으며 독특한 브라우저 지문을 갖고 있어 탐지가 어려운 실정입니다. 기존의 특징 추출 방법은 전문가 지식에 크게 의존하며, 다양한 길이의 세션을 처리할 때 차원 불일치 문제를 겪어 위장 공격을 효과적으로 방어하지 못합니다. 이러한 문제를 해결하기 위해, 우리는 Session2vec이라는 새로운 세션 표현 프레임워크를 제안합니다.
Session2vec은 웹 세션 모델링을 위해 다중 인스턴스 학습(MIL) 기반 접근 방식을 도입하며, 각 요청을 하나의 인스턴스로 간주하고 전체 세션을 여러 인스턴스의 집합으로 처리합니다. 이후, FastText 모델을 사용하여 각 URL 요청을 벡터화합니다. 이후, 두 가지 혁신적인 다중 인스턴스 집계 방법인 SARD(세션 단위 집계 잔여 설명자)와 SFAR(세션 단위 피셔 집계 표현)을 활용하여 가변 길이의 세션을 고정된 차원의 벡터로 변환합니다. 이를 통해 세션 내에서의 시공간적 특징 및 분포 정보를 효과적으로 학습할 수 있습니다.
실험 결과, SARD와 SFAR 방법을 사용한 Session2vec은 기존 최첨단 모델보다 평균적으로 정확도를 5.2% 및 16.3% 향상시켰으며, F1 점수에서도 8.5% 및 19.7% 증가한 결과를 보였습니다. 이러한 결과는 Session2vec이 악성 웹 로봇 탐지 성능과 안정성을 크게 개선할 수 있음을 시사합니다.
키워드: 웹 보안, 웹 로봇 탐지, 웹 세션 임베딩, 다중 인스턴스 학습
1. introduction
웹 로봇(또는 크롤러)은 네트워크 트래픽의 주요 원천으로 자리 잡았습니다. 검색 엔진과 같은 정상적인 로봇은 문제가 되지 않지만, 일부 로봇은 DDoS 공격을 수행하거나 저속 위협을 유발하여 웹사이트에 심각한 보안 위협을 초래할 수 있습니다.
웹 크롤러는 현대 인터넷에서 데이터 수집 및 인덱싱을 지원하는 중요한 요소로서 기술적으로 중립적인 특성을 가지며, 검색 엔진 인덱스 구축, 네트워크 취약점 스캔, 웹 콘텐츠 아카이빙 등 다양한 용도로 널리 활용됩니다. 최신 연구에 따르면, 취약점이 있는 웹 애플리케이션의 네트워크 트래픽 중 47.4%가 웹 로봇 트래픽이며, 그중 악성 트래픽이 63.57%를 차지하는 것으로 나타났습니다. 이는 네트워크 보안 강화를 위한 대응이 시급함을 보여줍니다.
웹사이트 봇이 악의적인 의도를 지니고 있는지를 평가하는 것은 어려운 문제입니다. 짧은 시간 안에 제한된 리소스를 자주 요청하거나 다수의 연결 요청을 생성하는 등 뚜렷한 위험 신호를 보이는 경우에만 탐지가 비교적 쉽습니다. 하지만 더 은밀한 악성 봇들은 인간의 행동을 모방하거나 신뢰할 수 있는 IP 주소를 위장하고, 일반적인 웹사이트 탐색 구조를 따르는 방식으로 탐지를 회피할 수 있어 웹사이트와 호스팅된 정보의 윤리적·보안적 측면에서 심각한 위협이 됩니다.
현재 웹 로봇 탐지는 웹 로그 데이터를 활용하여 잠재적인 악성 활동을 식별하고 차단하는 방식이 주를 이루고 있습니다. 따라서 효과적이고 포괄적인 웹 로그 데이터 표현을 추출하는 것이 신뢰할 수 있는 웹 로봇 탐지를 위해 필수적입니다. 그러나 기존 탐지 모델은 웹 로그의 표현 방식에 크게 의존하며, 고품질의 특징 추출 및 표현이 부족할 경우 정상적인 접근과 악성 접근을 정확하게 구분하는 데 어려움을 겪을 수 있습니다.
웹 봇 탐지 연구가 상당한 발전을 이루었지만, 여전히 특징 표현의 범용성과 시간적 모델링 능력에 제한이 있습니다. 예를 들어, 정적 통계 특징(요청 빈도, 오류율 등)을 기반으로 하는 방법들은 특정 상황에서 98.7%의 높은 탐지 정확도를 달성하지만, 수동 정의된 특징 집합에 의존하기 때문에 요청 시퀀스의 시간적 의미를 포착하지 못하고 크로스 플랫폼 일반화 성능이 저하됩니다. 이를 해결하기 위해 일부 연구들은 다중 소스 이질적 데이터를 결합하여 탐지 강건성을 강화하려는 시도를 했습니다(예: 마우스 이동 패턴과 요청 메타데이터 결합). 하지만 이러한 접근 방식은 수동적인 특징 엔지니어링과 사전 지식에 크게 의존하여 다양한 공격 패턴을 처리하는 데 어려움을 겪습니다.
최근에는 다중 모달 행동 분석을 활용한 실시간 탐지 프레임워크가 등장하여, LSTM 분류기를 위해 43개의 브라우저 이벤트 특징을 정의함으로써 시간적 모델링을 개선하는 성과를 냈습니다. 하지만 이러한 방법은 HTTP 프로토콜에 대한 사전 지식에 크게 의존하고, 새로운 통신 프로토콜(WebSocket 등)에는 적응하기 어려우며, 완전한 주석이 포함된 이벤트 시퀀스를 요구하기 때문에 배포 비용이 상당합니다.
특히, 웹 로그와 콘텐츠 데이터를 결합한 LDA2Vec 토픽 기반 특징 추출 방법은 전자상거래 환경에서 F1 점수 96.58%를 달성한 바 있습니다. 그러나 세션 특성화가 정적 토픽 분포와 수작업 통계에 제한되며, 요청 시퀀스 내에서 동적인 컨텍스트 관계를 모델링하지 못하여 시간적 위장 봇 탐지에 취약한 탐지 사각지대를 형성할 가능성이 있습니다.
이 논문은 수동적인 특징 엔지니어링에 대한 의존을 줄이고, 요청 간의 시공간적 관계를 더 효과적으로 포착하기 위해 Session2vec이라는 다중 인스턴스 학습(MIL) 기반의 엔드 투 엔드 세션 표현 방법을 제안합니다.
MIL 패러다임에 따라 각 세션은 여러 요청 인스턴스로 구성된 하나의 집합으로 간주되며, 문자 단위 서브워드 임베딩과 시공간 클러스터링을 통해 확장 가능한 세션 벡터 표현을 구축합니다. 구체적으로, 먼저 FastText를 사용하여 각 요청 URL을 벡터로 변환한 후, VLAD(Vector of Locally Aggregated Descriptors) 및 Fisher Vector 알고리즘에서 영감을 받아 SARD와 SFAR라는 두 가지 혁신적인 집계 전략을 제안합니다.
SARD는 하드 할당 기반 클러스터링 잔여값을 활용하여 시공간적 관계를 추출합니다.
SFAR는 가우시안 혼합 모델(GMM) 기반의 소프트 할당을 통해 더 풍부한 분포적 특징을 포착합니다.
Session2vec은 기존의 수동 통계 특징이나 시퀀스 분석 방법과 비교하여 요청 간의 시공간적 연관성과 악성 활동이 나타낼 수 있는 숨겨진 분포적 특성을 더 효과적으로 학습하여 웹 로봇 탐지 성능과 강건성을 크게 향상시킵니다. 5회 교차 검증 결과, 이 방법은 정확도와 F1 점수에서 최적의 성능을 달성했습니다.
다중 인스턴스 학습(MIL)의 활용
네트워크 및 정보 보안 분야에서 MIL은 비정형 데이터(텍스트 및 로그 등)의 표현을 강화하는 데 널리 적용되고 있습니다. 예를 들어, SeqMask 위협 행동 추출 프레임워크에서는 사이버 위협 인텔리전스(CTI) 텍스트를 행동 구문 인스턴스의 집합으로 처리하고, Mask Attention 메커니즘을 활용하여 핵심 행동 용어를 추출함으로써 공격자의 전략, 전술 및 절차(TTPs)를 효과적으로 분석하고 약한 지도 학습 환경에서도 우수한 분류 성능을 달성했습니다.
이러한 아이디어에서 영감을 받아, Session2vec은 MIL 프레임워크를 동적 세션 행동 모델링으로 확장하여 개별 요청의 콘텐츠나 특징뿐만 아니라 요청 간의 잠재적 연관 구조를 시공간적 분포 모델링을 통해 포착함으로써 복잡한 위장 공격을 효과적으로 방어합니다.
MIL 기반 텍스트 표현 모델과의 비교
He et al.이 제안한 BOS 모델은 텍스트를 문장 단위 인스턴스로 분할하고, 문장 유사도 측정 및 개선된 KNN 알고리즘을 활용하여 문서 분류를 수행합니다. 이 방법은 전통적인 벡터 공간 모델(VSM)의 단어 독립성 가정 문제를 극복하여 텍스트의 내부 의미 구조를 일정 부분 유지합니다.
또한, 구문 인식 엔티티 임베딩 모델은 Tree-GRU/Tree-LSTM과 같은 트리 구조 신경망을 활용하여 엔티티 컨텍스트를 표현하고, 문장 수준 및 엔티티 수준 Attention 메커니즘을 적용하여 약한 지도 학습 관계 추출의 정확도를 향상시킵니다.
그러나 웹 보안 탐지 환경에서는 요청 패턴이 매우 동적이고 다양하여 정적 트리 구조가 적합하지 않습니다. 따라서 Session2vec은 사전 정의된 구문 트리에 의존하지 않고, FastText 서브워드 임베딩을 활용하여 요청 경로의 문자 수준 의미와 구조를 포착한 후, SARD 및 SFAR 알고리즘을 적용하여 전체 세션 시퀀스를 집계함으로써 가변 길이 요청 스트림을 약한 지도 학습 방식으로 표현합니다.
이 연구의 주요 기여점은 다음과 같습니다:
다중 인스턴스 학습(MIL) 프레임워크 내에서의 세션 표현 혁신 본 연구는 MIL 패러다임을 웹 세션 표현에 체계적으로 적용한 최초의 연구로, 각 요청을 하나의 의미적 인스턴스로 간주하고 전체 세션을 인스턴스 집합으로 처리합니다. 특히 SARD 알고리즘을 활용하여 FastText 기반 요청 벡터의 클러스터링 잔여값을 인코딩함으로써 세션 내 시공간적 행동 패턴을 효과적으로 모델링합니다. 이를 통해 복잡한 위장 공격 탐지 정확도를 크게 향상시키며, 웹 보안 분야에서 새로운 세션 표현 관점을 제공합니다.
세션 벡터화 및 엔드 투 엔드 탐지 프레임워크 기존 웹 로봇 탐지 방법은 수작업 특징이나 합성 데이터에 의존하여 실제 공격 시나리오를 포괄적으로 반영하는 데 어려움을 겪습니다. Session2vec은 세션 수준 벡터화를 통해 요청 간 엔드 투 엔드 탐지를 구현하여 수동 특징에 대한 의존도를 줄이고, 맥락 정보를 자연스럽게 통합함으로써 악성 행동 인식 성능을 향상시킵니다. 또한, SARD 및 SFAR 집계 전략을 도입하여 가변 길이 세션을 처리하면서 요청 간의 시간적 관계를 유지할 수 있도록 합니다.
비지도 임베딩 및 시공간 모델링을 위한 이중 집계 Session2vec은 높은 데이터 주석 비용과 네트워크 보안 작업에서의 데이터 다양성 문제를 해결하기 위해 비지도 FastText 서브워드 임베딩과 SARD 및 SFAR이라는 두 가지 상호 보완적인 집계 전략을 결합하여 효율적인 시공간 특징 학습을 가능하게 합니다.
논문의 구성
2장: 웹 로봇 탐지 및 세션 모델링 관련 연구 검토
3장: 다중 인스턴스 학습 프레임워크 내에서 문제 정의
4장: 요청 임베딩 과정 및 SARD 및 SFAR 집계 방법 설계
5장: 실험 환경, 데이터셋 통계 및 성능 평가
6장: 연구 결론 및 향후 연구 방향
7장: 추가 연구 논의
2. 관련 연구
최근 웹 로봇 탐지 분야에서는 악성 봇이 초래하는 보안 위협을 해결하기 위해 다양한 방법론이 연구되고 있습니다.
1. 전통적인 탐지 방법의 한계
기존의 규칙 기반 시스템 및 기계 학습 알고리즘(KNN, 의사결정 트리, 신경망 등)은 가변 길이 세션 데이터를 처리하는 데 어려움을 겪으며, 특히 봇이 인간 행동을 모방하거나 정교한 회피 전략을 사용할 경우 탐지 성능이 저하됩니다. 예를 들어, 신경망 기반 탐지 모델은 높은 정확도를 달성할 수 있지만, 고정 차원의 특징 벡터에 대한 의존성과 높은 계산 비용으로 인해 확장성이 제한됩니다.
2. 의미 기반 탐지 방법
웹 콘텐츠 및 로그에서 의미적 특징을 활용하여 봇을 구별하는 연구가 진행되었습니다. 예를 들어, 일부 연구에서는 웹 콘텐츠 또는 로그에서 의미적 특징을 추출하여 인간 사용자가 특정 주제에 관심을 보인다는 가정을 기반으로 탐지를 수행합니다. 하지만 이러한 방법은 세션 수준 요청 간의 시간적 및 맥락적 관계를 고려하지 않아 복잡한 봇 행동을 모델링하는 데 한계가 있습니다. 또한, 마우스 이동 패턴과 같은 동적 메타데이터 접근 방식은 정확도를 향상시키지만, 세션 구조화된 로그 분석보다는 생체 인식 특성에 초점을 맞추기 때문에 대규모 봇 탐지에는 적합하지 않습니다.
3. 반지도 학습 기반 탐지
라벨링된 데이터 부족 문제를 해결하기 위해 반지도 학습이 등장했습니다. 예를 들어, Web-S4AE 모델은 스택드 희소 오토인코더를 활용하여 비라벨 데이터에서 특징을 추출하지만, 콘텐츠-로그 하이브리드 특징에 의존하여 세션 내 요청 수 변동 문제를 완전히 해결하지 못합니다.
반면, Session2vec은 다중 인스턴스 학습(MIL) 프레임워크를 도입하고 FastText 및 miVLAD, miFV 알고리즘을 결합하여 각 요청을 고정 차원의 벡터로 변환한 후, 이를 세션 수준 표현으로 집계합니다. 이를 통해 특징 불일치 문제를 해결하고 시간적 및 맥락적 종속성을 효과적으로 포착할 수 있습니다. 또한, Web-S4AE와 달리 광범위한 라벨링 데이터가 필요하지 않으며, MIL을 활용하여 세션을 인스턴스 집합으로 처리함으로써 약한 지도 학습 방식과 일치하는 탐지 전략을 제공합니다.
4. 실시간 탐지 방법과의 비교
실시간 탐지 방법은 활성 세션을 조기에 분류하는 데 초점을 맞추지만, 세션 데이터의 구조적 이질성을 간과하는 경우가 많습니다. Session2vec은 세션 모델링과 표현 학습을 통합하여 동적 행동 패턴을 가진 고급 봇을 탐지하는 강력한 솔루션을 제공합니다.
3. 문제 정의
웹 행동 분석에서 각 세션은 여러 요청으로 구성된 "다중 인스턴스" 집합으로 간주될 수 있습니다. 기존의 단일 인스턴스 접근 방식은 개별 요청의 특징에 집중하는 반면, 세션 내의 시간적 및 의미적 패턴을 간과하여 정교한 악성 봇 활동을 탐지하는 데 어려움을 겪습니다. 이를 해결하기 위해, 본 연구에서는 세션 수준 탐지를 다중 인스턴스 학습(MIL) 문제로 모델링합니다.
수학적 정의
웹 로그 데이터셋이 여러 세션 {𝑆1,𝑆2,…,𝑆𝑚}을 포함한다고 가정합니다. 각 세션 𝑆𝑖는 요청 {𝑟𝑖1,𝑟𝑖2,…,𝑟𝑖𝑛}으로 구성되며, "정상(benign)" 또는 "악성(malicious)"과 같은 단일 라벨을 가집니다. 다중 인스턴스 설정에서는 각 요청 𝑟𝑖𝑗을 하나의 인스턴스로 처리하고, 각 세션 𝑆𝑖을 인스턴스 집합(bag)으로 간주합니다. 이 연구의 목표는 세션 수준에서 인간과 봇 트래픽을 구별하는 분류 결정을 수행하는 것입니다.
이 프레임워크에서는 먼저 각 요청을 벡터 표현으로 변환한 후, 집계 단계를 통해 세션 내 모든 인스턴스 벡터를 고정 차원의 세션 벡터로 변환합니다. 이 벡터는 지도 학습 또는 비지도 학습 방법에 적용되어 잠재적인 악성 행동을 탐지하는 데 활용됩니다. 세션마다 포함된 요청(인스턴스)의 수가 다를 수 있기 때문에, 다중 인스턴스 학습은 이러한 변동성을 자연스럽게 처리할 수 있어 본 문제 설정에 매우 적합합니다.
4. 방법론
본 연구에서는 웹 로봇 탐지를 위한 구조화된 프레임워크를 제안하며, 이는 Figure 1에 설명되어 있습니다. 먼저, 인간 사용자와 로봇 사용자 모두 서버와 상호작용하면서 웹 로그를 생성합니다. 이 로그를 전처리하여 요청 URL 필드와 같은 관련 특징을 추출한 후, Session2vec 접근 방식을 적용하여 세션 수준 표현을 생성합니다.

이 연구에서는 웹 요청을 세션 수준 벡터로 변환하는 두 가지 단계를 포함합니다:
1. FastText 모델을 사용하여 각 요청 URL을 고정 차원의 임베딩으로 변환
2. 세션 내 모든 요청을 다중 인스턴스 집합으로 처리한 후, SARD 및 SFAR 방법을 통해 세션 수준 벡터로 집계
이렇게 생성된 벡터는 분류기에 입력되어 인간과 로봇 활동을 구별하는 데 사용됩니다.
4.1 요청 임베딩
먼저, 각 요청 데이터를 전처리하고 벡터화하여 세션 수준 표현을 구축합니다.
- URL 경로를 전처리하여 슬래시(/)를 공백으로 대체 → 연속적인 텍스트 문자열 생성
- 사전 학습된 FastText-300 모델을 사용하여 300차원 벡터 표현으로 변환
- 대규모 코퍼스에서 학습된 모델이므로 철자 오류 및 OOV(Out-of-Vocabulary) 문제를 완화
각 세션 S에는 여러 요청이 포함되며, 각 요청의 벡터를 시간 순서대로 쌓아 𝑛×300 행렬을 생성합니다. 이 행렬은 각 요청의 지역적 의미 특징을 유지하면서 세션 내 시간적 관계를 포착하여 복잡한 행동 패턴 탐지의 기초를 마련합니다.
4.2 세션 수준 표현: SARD 및 SFAR
이 연구에서는 SARD 및 SFAR이라는 두 가지 혁신적인 세션 집계 방법을 제안하여 요청 임베딩을 고정 차원의 세션 표현으로 변환합니다.
- SARD(Session-level Aggregated Residual Descriptors): 클러스터링 잔여값을 활용하여 시공간적 관계를 추출
- SFAR(Session-level Fisher Aggregated Representation): 가우시안 혼합 모델(GMM)을 기반으로 분포적 특징을 포착
두 방법 모두 다중 인스턴스 집계 원칙을 따르며, 세션 요청에서 통계적 및 분포적 특징을 효과적으로 추출하면서 고정된 출력 차원을 유지합니다.
'𝐄𝐰𝐡𝐚 > 𝐄-𝐂𝐎𝐏𝐒' 카테고리의 다른 글
| [LLM 정리] 1. Transformer Models (4) | 2025.07.24 |
|---|---|
| 🍀 5월 3주차 TWIL (0) | 2025.05.26 |
| 🍀5월 2주차 TWIL (0) | 2025.05.20 |
| 🍀 5월 1주차 TWIL (0) | 2025.05.12 |
| 🍀 4월 2주차 TWIL (0) | 2025.04.15 |