논문 정보
- 제목: 메타데이터 기반 신규 특징을 활용한 암호화 네트워크 트래픽 분류
- 발표: 전자파학회 동계 학술대회 (학부생 발표 세션)
- 발표 연도: 2026년 2월 27일
- 저자: 이승원 (주저자), 하준서, 강정민 (지도교수), 최양서 (ETRI 멘토)
- 논문 원문: PDF 다운로드
연구 배경
HTTPS, TLS, VPN 사용이 일반화되면서 네트워크 트래픽의 암호화 비중이 급격히 증가했습니다. 기존의 DPI(Deep Packet Inspection) 방식은 패킷 페이로드를 직접 분석하기 때문에 암호화된 트래픽에는 적용하기 어렵습니다.
이에 따라 패킷 메타데이터(길이, 방향, 도착 시간 등)를 활용한 분류 연구가 활발히 진행되고 있으나, 기존 연구들은 많은 수의 특징을 사용하여 특징 간 중복성이 높고 모델 복잡도가 증가하는 문제가 있었습니다.
본 연구는 플로우 행동(flow behavior) 관점의 신규 특징을 정의하여 더 적은 특징으로 더 높은 분류 성능을 달성하는 것을 목표로 했습니다.
실험 방법
데이터셋
| 데이터셋 | 설명 |
|---|---|
| CIC-IDS 2017 | 실제 네트워크 환경을 모사한 침입 탐지 데이터셋. DDoS, DoS, Brute Force, Botnet 등 포함. |
| ISCX VPN-nonVPN 2016 | 동일 애플리케이션 트래픽을 VPN / non-VPN 환경에서 수집. 암호화 및 터널링 환경 분석에 활용. |
출처: Canadian Institute for Cybersecurity (CIC)
비교 대상 특징셋
| 연구 | 특징 수 | 비고 |
|---|---|---|
| Anderson & McGrew (2016) | 32개 | TLS 암호화 트래픽 분류 연구 |
| Draper-Gil et al. (2016) | 17개 | VPN 트래픽 분류 연구 |
| 본 연구 (커스텀) | 13개 | Baseline 7개 + 신규 6개 |
신규 정의 특징 (6개)
기존 연구에서 다루지 않은 플로우 행동 기반 특징 6개를 새롭게 정의했습니다.
| 특징명 | 수식 | 의미 |
|---|---|---|
| Burstiness Index (BI) | σ(IAT) / μ(IAT) | 패킷 도착 간격의 변동성 — 트래픽이 특정 구간에 집중되는지 측정 |
| Flow Direction Ratio (FDR) | N_fwd / (N_bwd + ε) | 송수신 패킷 수 비율 — 트래픽 방향성 비대칭성 측정 |
| Active/Idle Time Ratio (AIR) | T_active / (T_idle + ε) | 활성 시간 대비 유휴 시간 비율 — 통신 지속성 측정 |
| Burstiness Ratio (BR) | max(T_active) / μ(T_active) | 최대 활성 시간 대비 평균 — 순간 트래픽 집중도 측정 |
| Handshake Symmetry (HS) | log(W_fwd / (W_bwd + ε)) | TCP 초기 윈도우 크기 비대칭성 — 비정상 세션 탐지 |
| Payload Shape Score (PSS) | σ_len / μ_len | 패킷 길이 분산 패턴 — 암호화 및 패딩 패턴 측정 |
Baseline 7개 특징: Flow Duration, Total Fwd/Bwd Packets, Flow Bytes/s, Flow Packets/s, Fwd/Bwd IAT Mean
사용 모델
- CIC-IDS 2017: L1 Logistic Regression, Random Forest, XGBoost
- VPN-nonVPN: Decision Tree, KNN, Random Forest, XGBoost
실험 결과
CIC-IDS 2017
| 모델 | 특징셋 | 특징 수 | Accuracy | Precision | Recall | F1 |
|---|---|---|---|---|---|---|
| Random Forest | Anderson & McGrew | 32 | 89.3% | 100% | 45.9% | 62.9% |
| Random Forest | 커스텀 | 13 | 93.0% | 100% | 64.7% | 78.7% |
| XGBoost | Anderson & McGrew | 32 | 93.5% | 100% | 66.8% | 80.1% |
| XGBoost | 커스텀 | 13 | 94.3% | 100% | 71.0% | 83.1% |
커스텀 특징셋 평균 F1: 80.9% (+9.4%p vs 기존 연구 71.5%)
ISCX VPN-nonVPN 2016
| 모델 | 특징셋 | 특징 수 | Accuracy | F1 |
|---|---|---|---|---|
| XGBoost | Draper-Gil | 17 | 71.1% | 71.8% |
| XGBoost | 커스텀 | 8 | 70.2% | 70.6% |
| Random Forest | Draper-Gil | 17 | 62.6% | 63.5% |
| Random Forest | 커스텀 | 8 | 66.2% | 66.7% |
커스텀 특징셋 평균 F1: 65.2% (+1.9%p vs 기존 연구 63.3%)
VPN-nonVPN 데이터셋은 특징 추출 제약으로 13개 중 8개만 사용
특징 중요도 분석
Feature Importance 분석 결과, 새롭게 정의한 특징들이 상위권을 차지했습니다.
CIC-IDS 2017 상위 특징 (Random Forest 기준)
| 순위 | 특징 | Importance |
|---|---|---|
| 1 | Handshake Symmetry (신규) | 0.87 |
| 2 | Flow Bytes/s | 0.54 |
| 3 | Total Backward Packets | 0.53 |
| 4 | Fwd IAT Mean | 0.37 |
| 5 | Flow Duration | 0.36 |
| 6 | Flow Direction Ratio (신규) | 0.35 |
| 8 | Burstiness Index (신규) | 0.23 |
| 10 | Payload Shape Score (신규) | 0.15 |
ISCX VPN-nonVPN 2016 상위 특징
| 순위 | 특징 |
|---|---|
| 1 | Flow Packets/s |
| 2 | Flow Bytes/s |
| 3 | Flow Duration |
| 4 | Burstiness Index (신규) |
| 5 | Bwd IAT Mean |
| 6 | Fwd IAT Mean |
| 7 | Burstiness Ratio (신규) |
| 8 | Active/Idle Time Ratio (신규) |
신규 정의 특징 중 Handshake Symmetry가 CIC-IDS 2017에서 중요도 1위(0.87)를 기록했습니다. VPN-nonVPN에서는 Burstiness Index, Burstiness Ratio, Active/Idle Time Ratio 등 신규 특징 3개가 상위 8위 안에 포함되었습니다. 단순 통계 특징이 아닌 플로우 행동 관점에서 설계한 특징이 두 데이터셋 모두에서 유효함을 확인했습니다.
한계 및 향후 연구
연구 한계
- 공개 데이터셋 기반 실험 — 실제 운영 환경 검증 부족
- 일부 데이터셋에서 특징 추출 제약 존재
향후 연구 방향
- 실시간 분석 환경 적용 (IDS/IPS, 방화벽, 보안 관제)
- 프로토콜별 도메인 특화 특징 설계
- LightGBM 등 추가 모델 비교 및 튜닝
관련 프로젝트
이 연구의 구현 결과물은 캡스톤 프로젝트를 참고하세요.