CONFERENCE PAPER

메타데이터 기반 신규 특징을 활용한 암호화 네트워크 트래픽 분류

플로우 행동 기반 신규 특징 6개를 정의해 기존 연구 대비 특징 수는 줄이고 분류 성능은 향상시킨 연구. 전자파학회 동계 학술대회 학부생 세션 발표.

📅 February 27, 2026
Network SecurityTraffic AnalysisMachine LearningFeature EngineeringEncrypted Traffic

논문 정보

  • 제목: 메타데이터 기반 신규 특징을 활용한 암호화 네트워크 트래픽 분류
  • 발표: 전자파학회 동계 학술대회 (학부생 발표 세션)
  • 발표 연도: 2026년 2월 27일
  • 저자: 이승원 (주저자), 하준서, 강정민 (지도교수), 최양서 (ETRI 멘토)
  • 논문 원문: PDF 다운로드

연구 배경

HTTPS, TLS, VPN 사용이 일반화되면서 네트워크 트래픽의 암호화 비중이 급격히 증가했습니다. 기존의 DPI(Deep Packet Inspection) 방식은 패킷 페이로드를 직접 분석하기 때문에 암호화된 트래픽에는 적용하기 어렵습니다.

이에 따라 패킷 메타데이터(길이, 방향, 도착 시간 등)를 활용한 분류 연구가 활발히 진행되고 있으나, 기존 연구들은 많은 수의 특징을 사용하여 특징 간 중복성이 높고 모델 복잡도가 증가하는 문제가 있었습니다.

본 연구는 플로우 행동(flow behavior) 관점의 신규 특징을 정의하여 더 적은 특징으로 더 높은 분류 성능을 달성하는 것을 목표로 했습니다.

실험 방법

데이터셋

데이터셋설명
CIC-IDS 2017실제 네트워크 환경을 모사한 침입 탐지 데이터셋. DDoS, DoS, Brute Force, Botnet 등 포함.
ISCX VPN-nonVPN 2016동일 애플리케이션 트래픽을 VPN / non-VPN 환경에서 수집. 암호화 및 터널링 환경 분석에 활용.

출처: Canadian Institute for Cybersecurity (CIC)

비교 대상 특징셋

연구특징 수비고
Anderson & McGrew (2016)32개TLS 암호화 트래픽 분류 연구
Draper-Gil et al. (2016)17개VPN 트래픽 분류 연구
본 연구 (커스텀)13개Baseline 7개 + 신규 6개

신규 정의 특징 (6개)

기존 연구에서 다루지 않은 플로우 행동 기반 특징 6개를 새롭게 정의했습니다.

특징명수식의미
Burstiness Index (BI)σ(IAT) / μ(IAT)패킷 도착 간격의 변동성 — 트래픽이 특정 구간에 집중되는지 측정
Flow Direction Ratio (FDR)N_fwd / (N_bwd + ε)송수신 패킷 수 비율 — 트래픽 방향성 비대칭성 측정
Active/Idle Time Ratio (AIR)T_active / (T_idle + ε)활성 시간 대비 유휴 시간 비율 — 통신 지속성 측정
Burstiness Ratio (BR)max(T_active) / μ(T_active)최대 활성 시간 대비 평균 — 순간 트래픽 집중도 측정
Handshake Symmetry (HS)log(W_fwd / (W_bwd + ε))TCP 초기 윈도우 크기 비대칭성 — 비정상 세션 탐지
Payload Shape Score (PSS)σ_len / μ_len패킷 길이 분산 패턴 — 암호화 및 패딩 패턴 측정

Baseline 7개 특징: Flow Duration, Total Fwd/Bwd Packets, Flow Bytes/s, Flow Packets/s, Fwd/Bwd IAT Mean

사용 모델

  • CIC-IDS 2017: L1 Logistic Regression, Random Forest, XGBoost
  • VPN-nonVPN: Decision Tree, KNN, Random Forest, XGBoost

실험 결과

CIC-IDS 2017

모델특징셋특징 수AccuracyPrecisionRecallF1
Random ForestAnderson & McGrew3289.3%100%45.9%62.9%
Random Forest커스텀1393.0%100%64.7%78.7%
XGBoostAnderson & McGrew3293.5%100%66.8%80.1%
XGBoost커스텀1394.3%100%71.0%83.1%

커스텀 특징셋 평균 F1: 80.9% (+9.4%p vs 기존 연구 71.5%)

ISCX VPN-nonVPN 2016

모델특징셋특징 수AccuracyF1
XGBoostDraper-Gil1771.1%71.8%
XGBoost커스텀870.2%70.6%
Random ForestDraper-Gil1762.6%63.5%
Random Forest커스텀866.2%66.7%

커스텀 특징셋 평균 F1: 65.2% (+1.9%p vs 기존 연구 63.3%)

VPN-nonVPN 데이터셋은 특징 추출 제약으로 13개 중 8개만 사용

특징 중요도 분석

Feature Importance 분석 결과, 새롭게 정의한 특징들이 상위권을 차지했습니다.

CIC-IDS 2017 상위 특징 (Random Forest 기준)

순위특징Importance
1Handshake Symmetry (신규)0.87
2Flow Bytes/s0.54
3Total Backward Packets0.53
4Fwd IAT Mean0.37
5Flow Duration0.36
6Flow Direction Ratio (신규)0.35
8Burstiness Index (신규)0.23
10Payload Shape Score (신규)0.15

ISCX VPN-nonVPN 2016 상위 특징

순위특징
1Flow Packets/s
2Flow Bytes/s
3Flow Duration
4Burstiness Index (신규)
5Bwd IAT Mean
6Fwd IAT Mean
7Burstiness Ratio (신규)
8Active/Idle Time Ratio (신규)

신규 정의 특징 중 Handshake Symmetry가 CIC-IDS 2017에서 중요도 1위(0.87)를 기록했습니다. VPN-nonVPN에서는 Burstiness Index, Burstiness Ratio, Active/Idle Time Ratio 등 신규 특징 3개가 상위 8위 안에 포함되었습니다. 단순 통계 특징이 아닌 플로우 행동 관점에서 설계한 특징이 두 데이터셋 모두에서 유효함을 확인했습니다.

한계 및 향후 연구

연구 한계

  • 공개 데이터셋 기반 실험 — 실제 운영 환경 검증 부족
  • 일부 데이터셋에서 특징 추출 제약 존재

향후 연구 방향

  • 실시간 분석 환경 적용 (IDS/IPS, 방화벽, 보안 관제)
  • 프로토콜별 도메인 특화 특징 설계
  • LightGBM 등 추가 모델 비교 및 튜닝

관련 프로젝트

이 연구의 구현 결과물은 캡스톤 프로젝트를 참고하세요.