패킷의 페이로드 크기와 방향을 이용한 트래픽 분류 - NM Lab at ...

패킷의 페이로드 크기와 방향을 이용한 트래픽 분류 

박진완 O , 윤성호, 박준상, 김명섭 

고려대학교 컴퓨터정보학과 

Traffic Classification using Payload size and Direction of Packet 

Jin-Wan Park O , Sung-Ho Yoon, Jun-Sang Park, Myung-Sup Kim 

Department of Computer and Information Science, Korea University 

{jinwan_park O , sungho_yoon, junsang_park, tmskim}@korea.ac.kr 

요 

약 

트래픽의 응용 별 분류는 트래픽 분석에 있어서 필수적인 요소이다. 응용 트래픽 분류를 위해 

기존에 다양한 방법들이 연구되어 왔다. 포트 기반 분류는 인터넷 초기에는 유용한 방법론이었 

으나, 응용의 동적 포트 할당으로 인해 유효성이 감소했으며, 페이로드 시그니쳐 기반의 분류 

방법은 높은 정확도를 보이나, 높은 계산 복잡도, 트래픽의 암호화, 사생활 보호 등의 문제점들 

을 가지고 있다. 따라서, 최근에는 트래픽이 나타내는 통계적인 특징을 이용하여 트래픽을 분 

류하고자 하는 연구가 많이 진행되고 있다. 본 논문에서는 통계적인 특징 중 플로우의 초기 몇 

개의 페이로드 패킷의 페이로드 크기 및 방향을 이용한 방법의 분류 가능성과 한계점을 분석 

한다. 학내 망의 여러 호스트에서 수집한 ground-truth 를 통해 분석하였으며, 한계점을 극복할 

수 있는 방법을 제시한다. 

1. 서론 

트래픽의 응용 별 분류는 트래픽 분석에 있어서 

필수적인 요소이다. 네트워크 관리자는 네트워크 자 

원의 효율적인 운용 및 관리를 위해 QoS, SLA 등 

다양한 정책을 적용하고자 한다. 이러한 정책들을 

적용하기 위해서는 해당 트래픽을 발생시킨 응용을 

정확하게 알아야 한다. 반면에, 최근의 응용들은 이 

와 같은 정책들을 회피하기 위해 동적 포트 할당, 

트래픽 암호화 등 여러 가지 기술들을 적용하고 있 

어, 트래픽 분류에 어려움이 따르고 있다. 

트래픽을 응용 별로 분류하기 위해 다양한 방법 

론들이 개발되어 왔다. 인터넷 초기에는 트래픽 분 

류를 위해 포트 기반의 분류 방법을 사용하였다. 하 

지만 응용들이 동적 포트 할당을 사용하여 이를 회 

피하였다. 최근 트래픽 분류에는 페이로드 시그니쳐 

기반의 트래픽 분류 방법을 많이 사용한다. 이는 높 

은 정확성을 나타내지만, 높은 계산 복잡도, 암호화 

된 트래픽에 대한 분류의 어려움, 사생활 보호 문제 

등의 문제점들을 가지고 있다. 따라서, 최근에는 응 

용들이 사용하는 트래픽의 여러 통계적인 특징을 

이용하여 트래픽을 분류하는 방법에 대해 많이 연 

구되고 있다. 

본 논문에서는 여러 통계적인 특징 중 플로우의 

초기 몇 개의 페이로드 패킷에 대한 페이로드 크기 

와 방향을 이용한 분류 방법의 분류 가능성과 한계 

점을 분석하고, 한계점을 극복하기 위한 방안을 제 

시한다. 

본 논문은 다음과 같은 순서로 구성된다. 2 장에서 

는 트래픽 분류에 관련된 기존 연구들을 살펴보고, 

3 장에서는 페이로드 크기 및 방향을 통한 분류 방 

법의 가능성과 한계점을 살펴본다. 4 장에서는 페이 

로드 크기 및 방향 기반 분류 방법의 한계점을 극 

복할 수 있는 방법을 제시하고, 마지막으로 5 장에 

서는 결론을 맺고 향후 연구를 제시한다. 

2. 관련 연구 

응용 별 트래픽 분류는 다양한 응용들이 존재하 

는 오늘날의 인터넷 환경에서는 분명히 쉬운 일은 

아니다. 과거의 인터넷에서는 포트 번호 1024 이하 

를 사용하는 HTTP, telnet, e-mail, FTP, SMTP 의 응용 

들이 대부분의 인터넷 트래픽을 차지하고 있었기 

때문에 IANA 에 정의된 포트 정보 기반의 분석으로 

신뢰성과 정확성이 높은 분석 결과를 도출할 수 있 

었다. 그 후 응용의 포트가 동적으로 생성됨에 따라 

포트 기반의 분석은 더 이상 높은 신뢰성과 분석률

을 제공할 수 없게 되었다. 

시그니쳐 기반 분석 방법은 특정 응용 프로그램 

에서 발생시킨 트래픽을 분석하여 다른 응용 프로 

그램과 구분 지을 수 있는 시그니쳐라고 하는 특정 

응용만의 특징을 추출하고 이를 통해 트래픽을 분 

류하는 방법이다. 이 방법은 시그니쳐를 추출한 응 

용에 대해서는 높은 정확도를 보이지만, 시그니쳐를 

확인하기 힘든 응용 프로그램들은 분류를 하지 못 

한다. 예를 들어, 패킷의 페이로드 분석을 통해 다 

른 응용과 구분 지을 수 있는 substring 으로 트래픽 

을 분류하는 페이로드 시그니쳐 기반 분석은 암호 

화된 패킷에 대해서는 트래픽을 분류할 수 없다. 

트래픽 상관관계 기반 분석 방법은 주소체계(IP 

주소, 포트 번호, 프로토콜), 트래픽의 발생 시점, 발 

생 형태 등의 특성을 바탕으로 트래픽 플로우들 사 

이에 연관성을 가중치로 표현하고 가중치의 임계값 

을 적용하여 트래픽을 분류하는 방법이다. 이 방법 

의 장점은 트래픽의 분류에 있어 응용들이 가지는 

특징을 분석에 활용하여 분석률을 높일 수 있다는 

것이다. 그러나 응용 별 특징의 활용에 대한 명확한 

알고리즘이 없이 시행착오를 통해 최적의 분석률을 

보이는 임계값을 찾기 때문에 실제 인터넷 트래픽 

에 적용하였을 경우 분석 결과에 대한 신뢰성을 보 

장하기 어렵다. 

머신러닝 기반의 분석 방법은 응용 별 인터넷 트 

래픽의 특징이 될 수 있는 항목(port number, flow 

duration, inter-arrival time, packet size)들을 머신러닝의 

classification, clustering 기법을 이용하여 트래픽을 분 

류하는 방법이다. 이 방법의 장점은 머신러닝의 고 

급 알고리즘을 이용함으로써 트래픽을 응용 별로 

분류함에 있어 다른 방법에 비해 보다 높은 분석률 

을 제공한다는 것이다. 그러나 제한된 범위의 응용 

트래픽에 대하여 트래픽 데이터를 수집하고 분석하 

였다는 점이 모든 인터넷 트래픽에 적용하였을 경 

우 분석의 정확성이 떨어질 수밖에 없는 단점을 갖 

고 있다. 또한, 분석률이 높은 classification 기법의 

경우 모든 트래픽이 훈련된 응용들로만 구분이 되 

기 때문에 새로운 응용이 나올 경우 유연하게 대처 

하지 못하는 단점을 가지고 있다. 

3. 페이로드 크기 분포 

본 논문에서는 트래픽을 분류하기 위해 플로우의 

초기 몇 개의 페이로드 패킷에 대한 페이로드 크기 

와 방향을 이용한다. 

3.1 페이로드 크기와 방향의 표현 

페이로드 패킷이란 페이로드를 포함하는 패킷을 

의미하며, 페이로드 크기는 특정 패킷의 페이로드의 

바이트 양을 의미한다. 그리고 페이로드의 방향은 

양수와 음수로 표현되며, TCP 의 경우 양수는 클라 

이언트에서 서버로 향하는 패킷, 음수는 서버에서 

클라이언트로 향하는 패킷을 의미한다. UDP 는 서버 

/클라이언트의 구분이 명확하기 않기 때문에, 양수/ 

음수의 의미는 단지 방향이 서로 반대라는 것만 표 

현할 수 있다. 따라서, UDP 의 경우에는 첫 패킷을 

양수로 표현하고 뒤에 이어지는 패킷은 첫 패킷을 

기준으로 방향이 같으면 양수, 다르면 음수로 표현 

한다. 

3.2 분류 가능성 

일반적으로 플로우의 초기 몇 개의 패킷은 응용 

프로그램에 의해 미리 정해진 정보를 전달하는 용 

도로 사용된다. 그러므로 플로우의 첫 N 개의 패킷 

에 해당하는 페이로드 크기는 응용 프로그램마다 

다를 가능성이 크다[1, 2]. 그림 1 은 플로우의 첫 2 

개의 페이로드 패킷에 대한 페이로드 크기와 방향 

에 대한 충돌 분포를 나타낸다. 

그림 1. 페이로드 크기 및 방향에 대한 충돌 분포 

(입력: 446 개 프로세스의 3,313,303 개 플로우) 

그래프의 x 축과 y 축은 각각 플로우의 1 번째, 2 

번째 패킷의 페이로드 크기와 방향을 나타낸다. TCP 

의 경우 -1460 에서 1460 까지, UDP 의 경우 -1472 에 

서 1472 까지 값을 가진다. 그래프의 점은 플로우가 

가질 수 있는 페이로드 크기 및 방향의 패턴을 나 

타낸다. 2 개의 패킷에 대한 분포를 나타내므로, TCP 

의 경우 8,526,400(=(1460×2) 2 )개의 패턴, UDP 의 경 

우 8,667,136(=(1472×2) 2 )개의 패턴을 가질 수 있다. 

„+‟는 충돌이 발생하지 않은 패턴, „-„는 충돌이 발생 

한 패턴을 나타낸다. 충돌이란 하나의 패턴을 여러 

프로세스가 사용하는 것을 의미한다. 

표 1. 충돌 패턴의 트래픽 양 

Total Non-Conflict Conflict 

Pattern 247,236 (100%) 192,965 (78.0%) 54,271 (22.0%) 

Flow 3,236 K (100%) 1,412 K (43.6%) 1,824 K (56.4%) 

Packet 674 M (100%) 389 M (57.7%) 285 M (42.3%) 

Byte 504 G (100%) 236 G (46.9%) 268 G (53.1%)

표 1 은 충돌 패턴을 트래픽의 양으로 나타낸 것 

이다. 전체 패턴 중에서 충돌이 발생하지 않는 패턴 

이 많이 나타나지만, 트래픽 양으로 보았을 때 충돌 

이 발생하는 비율과 발생하지 않는 비율이 비슷하 

다. 이는 충돌이 발생한 패턴을 가지는 플로우들은 

많은 데이터를 전송하는 경우가 많다는 것을 뜻한 

다. 충돌이 발생하지 않는 패턴을 나타내는 플로우 

들은 페이로드 크기 및 방향 만으로도 트래픽을 정 

확하게 분류할 수 있지만, 충돌로 인해 페이로드 크 

기 및 방향 만으로만 분류하지 못하는 경우가 있기 

때문에, 많은 양의 트래픽을 분류하기 위해서는 충 

돌이 나는 패턴의 플로우들을 분류하기 위해 추가 

적인 트래픽 특징이 필요하다. 

3.3 패턴 당 충돌 프로세스의 수 

페이로드 크기 및 방향의 분포가 충돌이 난 패턴 

의 경우 여러 개의 프로세스들에 의해서 충돌이 발 

생할 수 있다. 충돌이 난 패턴의 트래픽을 분류하 

기 위해서는 추가적인 특징을 이용하여야 하는데, 

이 때 충돌을 발생시킨 프로세스들 중 하나로 결정 

하는 방법을 택할 수 있다. 그림 2 는 충돌이 발생 

하는 패턴 중에서 충돌이 난 프로세스의 개수 별 

패턴의 수를 나타내고 있다. 

방법의 정확성이 많이 낮아졌지만, 여전히 고정된 

포트를 사용하는 응용들이 존재한다. 그러므로 포트 

의 추가적인 사용은 여러 방법론이 좀 더 높은 정 

확성을 가질 수 있게 해준다. 본 연구에서는 두 호 

스트 간의 통신에서 서버 포트를 사용한다. 서버의 

기준은 3.1 에서 설명하였다. 

4.2 시간 연관관계를 이용한 방법 

그림 3. 시간 연관관계 

그림 3 은 플로우의 시간 연관관계를 나타낸 그림 

이다. 플로우의 생성시간이 비슷한 플로우 그룹 A, 

B, C 가 존재하고, 이들의 응용을 모르는 상황일 때, 

A 그룹에 속하는 하나의 플로우의 응용을 알아낸다 

면 해당 그룹 A 의 모든 플로우의 응용의 정체를 

정할 수 있다. 이는 하나의 호스트에서 비슷한 시간 

에 발생한 트래픽은 같은 응용에서 발생할 가능성 

이 크기 때문이다. 

5. 결론 

그림 2. 패턴 당 충돌 프로세스의 수(CPDF) 

그래프에서 보는 바와 같이 충돌 프로세스의 개 

수가 적은 패턴이 대부분을 차지하고 있다. 결국 

페이로드 크기 및 방향만으로 분류를 하지 못하더 

라도 다른 특징을 이용해서 충돌이 난 프로세스 중 

하나를 선택하면 되므로 분류의 정확성은 높아진다. 

4. 추가적인 분류 방법 

충돌이 난 플로우를 분류하기 위해 여러 가지 특 

징을 이용할 수 있지만, 본 논문에서는 포트를 이용 

하는 방법과 시간 연관관계를 이용한 방법을 소개 

하고자 한다. 

4.1 포트를 이용한 분류 방법 

동적 포트 할당 등으로 인해 포트 기반의 분류 

본 논문에서는 플로우의 초기 페이로드 패킷의 

페이로드 크기 및 방향을 이용한 분류가 가능한지 

분석하였으며, 또한 한계점을 발견하고 한계점을 극 

복하기 위해 추가적인 분류 방법을 제시하였다. 

향후 연구에서는 충돌이 난 패턴에 대한 프로세 

스의 결정을 좀 더 정확하게 할 수 있는 다른 특징 

들에 대한 연구를 진행할 계획이다. 

6. 참고 문헌 

[1] L.Bernaille, R. Teixeira, I. Akodkenou, A.Soule, and 

K.Salamatian. “Traffic classification on the fly”. 

SIGCOMM Comput.Commun. Rev., 2006. 

[2] Bernaille, L., Teixeira, R., Salamatian, K.: Early 

application identification. In: CoNext 2006. Conference 

on Future Networking Technologies., 2006. 

[3] 노현구, 윤성호, 오영석, 김명섭, "플로우 생성시 

간 기반의 포트 그룹핑을 이용한 인터넷 응용 

트래픽 분류", 통신학회 추계종합학술발표회, 연 

세대학교, 서울, Nov. 15, 2008, pp. 147.

패킷의 페이로드 크기와 방향을 이용한 트래픽 분류 - NM Lab at ...

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?