인터넷 트래픽 분석을 위한 객관적 평가 및 검증 - NM Lab at Korea ...

인터넷 트래픽 분석을 위한 객관적 평가 및 검증 - NM Lab at Korea ... 인터넷 트래픽 분석을 위한 객관적 평가 및 검증 - NM Lab at Korea ...

nmlab.korea.ac.kr
from nmlab.korea.ac.kr More from this publisher
24.02.2015 Views

2009 년 한국통신학회 추계학술발표대회 인터넷 트래픽 분석을 위한 객관적 평가 검증 방법에 관한 연구 윤성호, 박준상, 박진완, 오영석, 김명섭 고려대학교 {sungho_yoon, junsang_park, jinwan_park, youngsuk_oh, tmskim}@korea.ac.kr A Study of Evaluation and Verification Method for Internet Traffic Classification Sung-Ho Yoon, Jun-sang park, Jin-Wan park, Young-Seok oh, Myung-Sup Kim Korea Univ. 요 약 인터넷 사용의 대중화와 네트워크의 발전은 다양하고 대용량의 인터넷 트래픽을 발생시키고 있다. 효과적인 네트워크 관리를 위하여 트래픽 분석은 필수적인다. 다양한 트래픽 분석 방법론의 연구에 비해 분석 결과를 검증하는 방법은 매우 더딘 것이 현실이다. 본 논문에서는 트래픽 분석 결과를 검증하는 방법론은 제시한다. 다각적인 평가 검증 요소를 정의 함으로써 다양한 분석 방법론의 성능을 평가하고 검증함을 물론 여러 다른 방법론과의 성능 비교 역시 가능하게 한다. Ⅰ. 서 론 1 대용량의 인터넷 회선이 보편화되고 인터넷 서비스를 이용하는 사용자가 급격히 증가 함에 따라 인터넷 트래픽이 급증하고 매우 다양해 졌다. 이는 전통적으로 사용되는 WWW, FTP, e-mail 등의 인터넷 서비스뿐 아니라 통합된 음성 망 서비스, 멀티미디어 파일의 스트리밍 서비스 등의 멀티미디어 서비스를 제공하는 네트워크 기반의 응용 프로그램이 더욱 다양하게 개발됨에 따른 것이다. 따라서 효과적인 네트워크 관리를 위한 트래픽 모니터링 분석의 중요성이 커지고 있다[1]. 이러한 트래픽 모니터링 분석은 네트워크 관리와 제어 측면에서 많은 이점을 가진다. 인터넷 트래픽 분석은 목표 네트워크 링크로부터 패킷을 수집하여 분석 기준에 맞게 분류하고 이를 수량적으로 보이는 일련의 과정을 의미한다. 인터넷 트래픽 분석을 위한 많은 방법론이 제안되었다. 제안된 방법론들은 다음과 같이 6 가지 카테고리로 분류할 수 있다. Well-known port 기반, 페이로드 시그니쳐 기반, 프로토콜 의미 기반, 통계적 분석 기반, 머신 러닝 기반, 상관관계 기반이 그것이다. 여러 다양한 방법론을 적용한 트래픽 분석에 관한 연구는 활발히 진행되는 반면, 제안하는 분석기와 이를 이용한 분석 결과를 객관적으로 평가하는 기준에 대한 연구는 아직 미비한 실정이다. 객관적평가 기준의 부재는 제안한 분석 방법론의 정확한 성능 평가와 다양한 방법론 간의 성능 비교를 어렵게 한다. 따라서 본 논문에서는 트래픽 분석의 객관적검증평가 방법을 제안한다. 2 장에서는 정답 데이터의 정의를 설명하고, 3 장에서는 다각적인 평가 검증 요소를 정의한다. 4 장에서 검증 범위를 5 장에서 결론을 제시한다. * 이 논문은 2007 년 정부(교육인적자원부)의 재원으로 한국학술 진흥재단의 지원을 받아 수행된 연구임.(KRF-2007-331-D00387) Ⅱ. 정답 데이터(Ground-truth Data) 생성 본 장에서는 정답 데이터의 의미와 기존 연구의 무분별한 정답 데이터 생성 방법을 보인다. 본 논문은 평가 검증 요소에 초점을 맞추기 때문에 구체적인 정답 데이터 생성 방법은 생략한다. 정답 데이터는 실제 분석 대상인 트래픽 중 그 원천이 확인된 트래픽을 의미한다. 이러한 데이터는 실제 분석된 데이터와 비교하여 분석된 결과의 정확도를 측정하는데 사용한다. 따라서 분석 결과의 정확한 검증을 위해서는 정확한 정답 데이터가 필요하다. 하지만, 현재 정답 데이터를 만드는 연구는 정확도와 효율성 측면에서 많은 문제점을 가지고 있다. 예를 들어 다른 분석 방법의 분석 결과를 정답 데이터로 사용한다[2] 던지 혹은 수작업으로 정답 데이터를 생성하는 경우[3]도 있다. Ⅲ. 평가 검증 요소 정확한 정답지 데이터의 중요성과 같은 맥락으로 객관적평가 검증위한 요소를 정의하는 것 또한 매우 중요하다. 이미 [4]에서 일부 평가 검증 요소들을 정의 하였지만 본 논문에서는 추가적으로 좀더 체계적이고 자세하게 정의 한다. 3.1 분석기 평가 요소 • 분석기준 트래픽을 분석하는 분석기준을 의미한다. 예로써 응용, 응용 타입, 프로토콜 등이 있다. • 분석 방법론 타입 분석기가 기반을 둔 방법론의 타입을 의미한다. 예로써 페이로드 시그니쳐 기반, 프로토콜 의미 기반 등이 있다. • 분석 범위

2009 년 한국통신학회 추계학술발표대회<br />

<strong>인터넷</strong> <strong>트래픽</strong> <strong>분석을</strong> <strong>위한</strong> <strong>객관적</strong> <strong>평가</strong> <strong>및</strong> <strong>검증</strong> 방법에 관한 연구<br />

윤성호, 박준상, 박진완, 오영석, 김명섭<br />

고려대학교<br />

{sungho_yoon, junsang_park, jinwan_park, youngsuk_oh, tmskim}@korea.ac.kr<br />

A Study of Evalu<strong>at</strong>ion and Verific<strong>at</strong>ion Method<br />

for Internet Traffic Classific<strong>at</strong>ion<br />

Sung-Ho Yoon, Jun-sang park, Jin-Wan park, Young-Seok oh, Myung-Sup Kim<br />

<strong>Korea</strong> Univ.<br />

요 약<br />

<strong>인터넷</strong> 사용의 대중화와 네트워크의 발전은 다양하고 대용량의 <strong>인터넷</strong> <strong>트래픽</strong>을 발생시키고 있다. 효과적인 네트워크<br />

관리를 위하여 <strong>트래픽</strong> 분석은 필수적인다. 다양한 <strong>트래픽</strong> 분석 방법론의 연구에 비해 분석 결과를 <strong>검증</strong>하는 방법은<br />

매우 더딘 것이 현실이다. 본 논문에서는 <strong>트래픽</strong> 분석 결과를 <strong>검증</strong>하는 방법론은 제시한다. 다각적인 <strong>평가</strong> <strong>및</strong> <strong>검증</strong><br />

요소를 정의 함으로써 다양한 분석 방법론의 성능을 <strong>평가</strong>하고 <strong>검증</strong>함을 물론 여러 다른 방법론과의 성능 비교 역시<br />

가능하게 한다.<br />

Ⅰ. 서 론 1<br />

대용량의 <strong>인터넷</strong> 회선이 보편화되고 <strong>인터넷</strong> 서비스를<br />

이용하는 사용자가 급격히 증가 함에 따라 <strong>인터넷</strong><br />

<strong>트래픽</strong>이 급증하고 매우 다양해 졌다. 이는 전통적으로<br />

사용되는 WWW, FTP, e-mail 등의 <strong>인터넷</strong> 서비스뿐<br />

아니라 통합된 음성 망 서비스, 멀티미디어 파일의<br />

스트리밍 서비스 등의 멀티미디어 서비스를 제공하는<br />

네트워크 기반의 응용 프로그램이 더욱 다양하게<br />

개발됨에 따른 것이다. 따라서 효과적인 네트워크 관리를<br />

<strong>위한</strong> <strong>트래픽</strong> 모니터링 <strong>및</strong> 분석의 중요성이 커지고<br />

있다[1]. 이러한 <strong>트래픽</strong> 모니터링 <strong>및</strong> 분석은 네트워크<br />

관리와 제어 측면에서 많은 이점을 가진다.<br />

<strong>인터넷</strong> <strong>트래픽</strong> 분석은 목표 네트워크 링크로부터<br />

패킷을 수집하여 분석 기준에 맞게 분류하고 이를<br />

수량적으로 보이는 일련의 과정을 의미한다.<br />

<strong>인터넷</strong> <strong>트래픽</strong> <strong>분석을</strong> <strong>위한</strong> 많은 방법론이 제안되었다.<br />

제안된 방법론들은 다음과 같이 6 가지 카테고리로<br />

분류할 수 있다. Well-known port 기반, 페이로드<br />

시그니쳐 기반, 프로토콜 의미 기반, 통계적 분석 기반,<br />

머신 러닝 기반, 상관관계 기반이 그것이다.<br />

여러 다양한 방법론을 적용한 <strong>트래픽</strong> 분석에 관한<br />

연구는 활발히 진행되는 반면, 제안하는 분석기와 이를<br />

이용한 분석 결과를 <strong>객관적</strong>으로 <strong>평가</strong>하는 기준에 대한<br />

연구는 아직 미비한 실정이다.<br />

<strong>객관적</strong>인 <strong>평가</strong> 기준의 부재는 제안한 분석 방법론의<br />

정확한 성능 <strong>평가</strong>와 다양한 방법론 간의 성능 비교를<br />

어렵게 한다. 따라서 본 논문에서는 <strong>트래픽</strong> 분석의<br />

<strong>객관적</strong>인 <strong>검증</strong>과 <strong>평가</strong> 방법을 제안한다.<br />

2 장에서는 정답 데이터의 정의를 설명하고, 3 장에서는<br />

다각적인 <strong>평가</strong> <strong>및</strong> <strong>검증</strong> 요소를 정의한다. 4 장에서 <strong>검증</strong><br />

범위를 5 장에서 결론을 제시한다.<br />

* 이 논문은 2007 년 정부(교육인적자원부)의 재원으로 한국학술<br />

진흥재단의 지원을 받아 수행된 연구임.(KRF-2007-331-D00387)<br />

Ⅱ. 정답 데이터(Ground-truth D<strong>at</strong>a) 생성<br />

본 장에서는 정답 데이터의 의미와 기존 연구의<br />

무분별한 정답 데이터 생성 방법을 보인다. 본 논문은<br />

<strong>평가</strong> <strong>및</strong> <strong>검증</strong> 요소에 초점을 맞추기 때문에 구체적인<br />

정답 데이터 생성 방법은 생략한다.<br />

정답 데이터는 실제 분석 대상인 <strong>트래픽</strong> 중 그 원천이<br />

확인된 <strong>트래픽</strong>을 의미한다. 이러한 데이터는 실제 분석된<br />

데이터와 비교하여 분석된 결과의 정확도를 측정하는데<br />

사용한다. 따라서 분석 결과의 정확한 <strong>검증</strong>을 위해서는<br />

정확한 정답 데이터가 필요하다. 하지만, 현재 정답<br />

데이터를 만드는 연구는 정확도와 효율성 측면에서 많은<br />

문제점을 가지고 있다. 예를 들어 다른 분석 방법의 분석<br />

결과를 정답 데이터로 사용한다[2] 던지 혹은<br />

수작업으로 정답 데이터를 생성하는 경우[3]도 있다.<br />

Ⅲ. <strong>평가</strong> <strong>및</strong> <strong>검증</strong> 요소<br />

정확한 정답지 데이터의 중요성과 같은 맥락으로<br />

<strong>객관적</strong>인 <strong>평가</strong> <strong>및</strong> <strong>검증</strong>을 <strong>위한</strong> 요소를 정의하는 것 또한<br />

매우 중요하다. 이미 [4]에서 일부 <strong>평가</strong> <strong>및</strong> <strong>검증</strong><br />

요소들을 정의 하였지만 본 논문에서는 추가적으로 좀더<br />

체계적이고 자세하게 정의 한다.<br />

3.1 분석기 <strong>평가</strong> 요소<br />

• 분석기준<br />

<strong>트래픽</strong>을 분석하는 분석기준을 의미한다. 예로써 응용,<br />

응용 타입, 프로토콜 등이 있다.<br />

• 분석 방법론 타입<br />

분석기가 기반을 둔 방법론의 타입을 의미한다. 예로써<br />

페이로드 시그니쳐 기반, 프로토콜 의미 기반 등이<br />

있다.<br />

• 분석 범위


2009 년 한국통신학회 추계학술발표대회<br />

분석기가 분석 할 수 있는 분석 기준의 개수를<br />

의미한다. 예로써 시그니쳐 기반의 분석기인 경우<br />

시그니쳐를 가지고 있는 분석 기준들의 개수를 의미<br />

한다.<br />

• 분석 용량<br />

분석기가 특정 기간 동안 <strong>트래픽</strong>의 손실 없이 분석할<br />

수 있는 최대 <strong>트래픽</strong> 용량을 의미한다.<br />

• 강건성<br />

환경 변화에 따른 분석기의 성능을 의미한다. 세부<br />

항목으로는 a)online/offline b)페킷 손실 가능성 c)<br />

비대칭 라우팅 처리 d) 선행 처리 필요 e) 분석 <strong>트래픽</strong><br />

변화에 대한 처리가 있다.<br />

3.2 실험 방법 <strong>평가</strong> 요소<br />

• 정답 데이터 생성 방법<br />

예로써 수작업, 디바이스 이용 등이 있다.<br />

• online/offline<br />

해당 실험이 online 혹은 offline 으로 진행 되었는지는<br />

나타낸다.<br />

• <strong>트래픽</strong> 수집 방법<br />

분석 대상 <strong>트래픽</strong>을 선택적으로 수집 하였는지 혹은<br />

분석 대상 네트워크에서 발생하는 전체 <strong>트래픽</strong>을 수집<br />

하였는지를 나타낸다.<br />

• 실험 장비<br />

실험에서 사용한 실험 장비의 사양(CPU, RAM, Disk,<br />

OS 등)을 나타낸다.<br />

3.3 분석 결과 <strong>평가</strong> <strong>및</strong> <strong>검증</strong> 요소<br />

앞서 설명한 분석기와 실험 방법을 통하여 얻은 분석<br />

결과에 대한 <strong>평가</strong> <strong>및</strong> <strong>검증</strong> 요소 이다.<br />

• 분석율<br />

분석 대상 전체 <strong>트래픽</strong> 중 분석된 <strong>트래픽</strong>의 비율을<br />

나타낸다.<br />

• 분석 결과 범위<br />

분석 결과에 속한 분석 기준의 개수를 의미한다.<br />

• 정확도<br />

해당 분석 방법의 결과와 정답지 데이터를 비교하여<br />

얼마나 해당 분석기가 정확하게 분석하는지를 나타낸다.<br />

정확도는 크게 전체 정확도와 개별 정확도로 나뉜다.<br />

정확도(Accuracy)는 다른 <strong>평가</strong> 요소와 달리 여러 <strong>검증</strong><br />

범위를 가진다. <strong>검증</strong> 범위에 대한 내용은 <strong>평가</strong> 요소<br />

설명 후 4 장에서 제시한다.<br />

• 전체 정확도<br />

<strong>검증</strong> 할 수 있는 <strong>검증</strong> 데이터 중에서 정확하게 분석된<br />

<strong>트래픽</strong>의 비율을 나타낸다.<br />

• 개별 정확도(Individual Accuracy)<br />

각 분석 기준 별 <strong>검증</strong> 할 수 있는 <strong>검증</strong> 데이터 중에서<br />

정확하게 분석된 <strong>트래픽</strong>의 비율을 나타낸다. 만약<br />

응용을 분석 기준으로 정하였다면, 각 응용 별,<br />

정확도를 의미한다. 개별 정확도는 FP(False positive),<br />

FN(False Neg<strong>at</strong>ive)로 계산된다. 응용 X 의 FP 란,<br />

해당 알고리즘이 X 가 아닌 응용을 X 라 분석한 것을<br />

의미한다. 또한 응용 X 의 FN 이란, 해당 알고리즘이<br />

X 를 X 가 아니라고 분석한 것을 의미한다. 특히, FN 은<br />

FN-Unclassified 와 FN-Mis_Classific<strong>at</strong>ion 으로 나눌<br />

수 있는데, 전자는 해당 알고리즘이 X 를 분석하지<br />

못한 것이고, 후자는 해당 알고리즘이 X 를 다른<br />

응용으로 분석한 것이다. 네트워크 관리의 <strong>트래픽</strong><br />

제어의 관점에서 본다면 FN-Unclassified 보다 FN-<br />

Mis_Classific<strong>at</strong>ion 이 더 큰 위험성을 가진다. 즉, 잘못<br />

분석하는 것은 아니 분석한 만 못하다는 의미이다.<br />

Ⅳ. <strong>검증</strong> 범위<br />

실제 네트워크에 개발된 분석 알고리즘을 적용시킬<br />

경우, 전체 <strong>트래픽</strong>을 <strong>검증</strong>하지 못한다. 네트워크 내의<br />

모든 호스트에 <strong>검증</strong>을 <strong>위한</strong> 에이전트, TMA 를 설치하기<br />

못하기 때문이다. 제한된 <strong>검증</strong> 데이터로 인해 <strong>검증</strong>의<br />

범위가 다음과 같이 3 가지로 나뉜다.<br />

• 정답 데이터 영역<br />

발생시킨 응용을 알고 있는 <strong>트래픽</strong>(정답지 데이터)에<br />

대한 정확도(Accuracy)이다. 분석된 양과 상관없이<br />

<strong>트래픽</strong> 전체에 대한 정확도(Accuracy)이기 때문에<br />

알고리즘이 분석하지 못한 부분에 대한 정보가<br />

반영된다. 즉, FN-Unclassified 와 FN-<br />

Mis_Classific<strong>at</strong>ion 모두 포함한다.<br />

• 적용 범위 영역<br />

Answer range 와 비슷하나 범위(Coverage)에 속한<br />

응용에 대해서만 적용된다는 점이 다르다. 시그니쳐<br />

기반의 알고리즘에서는 시그니쳐를 가지는 응용에<br />

한해서 <strong>검증</strong>을 하게 된다.<br />

• 분석 영역<br />

오직 분석된 <strong>트래픽</strong>에 한해 정확도(Accuracy)를<br />

구한다. FN 은 FN-Unclassified 를 포함 하지 않는다.<br />

즉, FN 은 FN-Mis_Classific<strong>at</strong>ion 만을 의미한다.<br />

classified<br />

a<br />

ac<br />

ab<br />

abc<br />

Total Traffic<br />

In-coverage<br />

b<br />

bc<br />

c<br />

ground-truth<br />

Ground-truth Range<br />

{abc, ac, bc, c}<br />

classified<br />

a<br />

ac<br />

ab<br />

abc<br />

Coverage Range<br />

{abc, bc}<br />

Total Traffic<br />

In-coverage<br />

b<br />

bc<br />

c<br />

ground-truth<br />

classified<br />

a<br />

ac<br />

ab<br />

abc<br />

Classific<strong>at</strong>ion Range<br />

{abc, ac}<br />

Total Traffic<br />

In-coverage<br />

b<br />

bc<br />

c<br />

ground-truth<br />

그림 1. <strong>검증</strong> 범위<br />

Ⅴ. 결론<br />

본 논문에서는 <strong>트래픽</strong> 분석의 필요성을 제시하고<br />

기존의 여러 방법론들의 무분별한 <strong>평가</strong> <strong>및</strong> <strong>검증</strong> 방법에<br />

대해 문제점을 제시 하였다. <strong>객관적</strong>인 <strong>평가</strong> <strong>및</strong> <strong>검증</strong> 기준<br />

부재는 <strong>트래픽</strong> 분석 연구의 발전을 더디게 만든다.<br />

분석기, 실험 방법, 분석 결과, 각각에 대한 다각적인<br />

<strong>평가</strong> <strong>및</strong> <strong>검증</strong> 요소를 정의 하였다. 본 논문에서 제안한<br />

<strong>객관적</strong> 요소는 다양한 분석 방법론의 성능을 정확히<br />

측정 할 뿐만 아니라, 다른 방법론과의 비교를 가능하게<br />

한다. 향후 연구로는 정확한 정답 데이터 생성이 관한<br />

연구를 계획 중이다.<br />

참 고 문 헌<br />

[1] Myung-Sup Kim, Young J.Won, James Won-Ki<br />

Hong, “ Applic<strong>at</strong>ion-Level Traffic Monitoring and<br />

an Analysis on IP Networks” , ETRI Journal Vol. 27,<br />

No.1, February 2005.<br />

[2] T.Karagiannis, K.P apagiannaki and M.F<br />

aloutsos,“ BLINC: Multilevel Traffic Classific<strong>at</strong>ion<br />

in the Dark,” in Proc. of ACM SIGCOMM, August<br />

2005.<br />

[3] Moore, A.W., Zuev, D.: Internet traffic<br />

classific<strong>at</strong>ion using bayesian analysis techniques.<br />

In: Proceedings of ACM SIGMETRICS. (2005) 50–<br />

60.<br />

[4] Risso, F. Baldi, M. Morandi, O. Baldini, A.<br />

Monclus, P. Lightweight, Payload-Based Traffic<br />

Classific<strong>at</strong>ion: An Experimental Evalu<strong>at</strong>ion. In<br />

proceeding of Communic<strong>at</strong>ions, 2008. ICC '08. IEEE<br />

Intern<strong>at</strong>ional Conference, 2008.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!