[특별기고] 딥러닝을 이용한 강력한 악성코드 탐지 기술…’블루헥사곤’

출처. https://medium.com/tech-cult-heartbeat/an-easy-guide-to-the-history-of-artificial-intelligence-37a07a1ad238

인공지능과 관련된 가장 인상적이었던 사건이 있었다면 아마도 2016년 3월 이세돌 9단과 알파고의 바둑대결일 것이다. 5회에 걸친 대국에서 인공지능 ‘알파고’가 4승 1패로 완승에 가까운 승리를 하면서 많은 사람들이 인공지능 기술 발전에 놀라움과 두려움을 느꼈을 정도다.

이후, 구글과 테슬라의 자율주행, 가짜 연예인 영상 만들기, 자동 번역에서 소설쓰기까지, 영상복원에서부터 실시간으로 사람의 행동을 분석하는 등 광범위한 범위로 관련 기술이 빠르게 발전했다.

이러한 일이 가능해진 것은 하드웨어의 발전과 학습을 할 수 있는 빅데이터, 그리고 학습능력이 탁월한 알고리즘 및 개발자를 위한 다양한 라이브러리 등이 있기 때문이다.

보안분야에서도 이러한 인공지능을 제품과 서비스에 반영하기 위한 노력들이 계속되고 있다. 매우 구체적이고 놀라운 성과를 낸 해외 솔루션이 있어 그에 대해서 간단히 다뤄보고자 한다.

인공지능은 1940년대부터 언급되어 지금까지 많은 연구가 이루어져왔지만, 사실상 신경망(뉴럴네트워크) 개념을 기반으로 한 딥러닝 기술이 나오면서 혁신적인 발전을 이룩했다고 볼 수 있다.

출처. https://data-rider.blogspot.com/2016/05/blog-post.html

위 그림에서 A, C는 사람의 신경망을 나타낸 것인데, A가 모여서 C가 된다. B,D는 인공지능에서의 신경망을 나타낸 것이다. B는 퍼셉트론이라고 하고, 퍼셉트론을 D처럼 다층퍼셉트론(Multi-Layer Perceptron)으로 구성한 것을 인공신경망이라고 한다. 이때 퍼셉트론을 노드라고 한다. 즉 B는 D를 구성하는 최소 단위다.

D와 같이 구성된 인공신경망을 통해 기존의 사진 데이터로 학습을 시킨 다음, 새로운 이미지를 입력하면 이전에 학습된 데이터를 기반으로 사물을 식별해낼 수 있다. 또한 그 성능이 탁월하다. 이는 영상, 음성 등에서도 탁월한 성능을 보이고 있다.

여기에서 학습이라 함은 쉽게 설명하자면 데이터를 구분할 수 있는 함수를 만드는 과정이라 할 수 있고, 새로운 데이터를 이 함수에 입력한 후에 그 결과가 무엇인지를 보고 사물을 구분한다고 설명할 수 있다. 아래 그림은 방대한 데이터를 학습한 후 차량이 주행하면서 카메라에 비친 사물을 인식하는 장면이다.

딥러닝 분야에서 특히 신경망을 이용해 이미지 분류에 탁월한 성능을 낸 컨볼루션 신경망 네트워크(합성곱 신경망, CNN, convolutional neural network)가 있다. 이는 딥러닝의 대표적인 기술이 되었고 이후, 이를 기반으로 한 다양한 기술들이 개발되었다.

‘컨볼루션 신경망’은 다양한 형태(크기, 상태, 회전 등)의 이미지를 구분하기 위해서 이미지를 대표할 수 있는 특성을 자동으로 추출해 신경망에 입력한다. 예를 들어 과일이라면 길이, 색상, 형태 등이 특성이라고 할 수 있겠다. 추출을 통해 입력된 이미지로부터 이미지의 고유한 특징을 부각시킨 특성지도(Feature(특징, 차원) Maps)를 만들어낸다. 그리고 Pooling(샘플링)과 Padding(일정크기만큼 데이터 채우기)을 통해서 특성지도를 확대하거나 축소하면서 특징을 추출하고 최종 결과를 도출한다. 이를 기준으로 이미지가 어떤 클래스 라벨에 속하는지 분류해준다. 이를 통해서 학습을 하고 새로운 데이터를 식별하게 된다.

◇‘블루헥사곤(bluehexagon)’, 딥러닝 기반 악성코드 탐지 솔루션

컨볼루션 신경망 네트워크(CNN) 기술을 기반으로 바이너리 파일이나 오피스 문서, 자바스크립트 등에 악성코드가 포함되어 있는지를 오탐없이 매우 빠른 속도로 구분해주는 솔루션이 있다. 바로 딥러닝 기반 악성코드 탐지 솔루션 '블루헥사곤(bluehexagon)'이다.

신경망에 이미지를 학습 시키듯 지난 15년 동안 발견된 수천만 개의 악성코드를 학습시켰다. 그리고 악성코드가 동작하는 패킷도 역시 학습을 시켰다. 악성코드는 샘플은 17가지의 라벨로 구분해 학습시켰다. 학습된 결과를 기반으로 새로운 악성코드 및 변종 등에 대한 탐지 능력을 전문기관을 통해 검증했다.

PCSL LAB에서 성능을 객관적으로 비교 검증하기 위해 널리 사용되고 있는 여러 악성코드 탐지 제품들과 함께 BMT를 수행했다. 테스트 시료는 최근 3개월간 수집된 금융악성코드, 크립토마이너, 스파이웨어 및 랜섬웨어 등 4만개(실행파일, MS-Office, RTF, PDF 등)와 2백만개의 비위협 파일을 가지고 테스트했다.

그 결과, 다른 모든 악성코드 탐지 솔루션을 압도하는 놀라운 결과가 나타났다. 99.89% 정확도로 4만개의 악성코드를 100% 정확하게 탐지해 냈고, 파일당 탐지 시간은 평균 125ms였다. 시그너처나 해쉬값, 샌드박스 없이 딥러닝 학습을 통해서 수많은 변종들까지도 완벽하게 탐지해 냈다.

탐지 결과를 통해 볼 때, 탐지 성능이 낮고 오탐이 높은 시그너처나 해쉬값, 샌드박스 형태의 솔루션은 최신 공격과 변종 공격 등에 대해서 100% 탐지는 현실적으로 불가능하기 때문에 곧 딥러닝 기술로 대체될 것으로 예상된다.

블루헥사곤은 시그니처를 필요로 하지 않음으로 인해 오탐이 없고 시그니처를 만들기 위한 악성코드를 분석하는 수고를 없애주며, 또한 시그니처를 업데이트하는 과정도 생략시켜 줄 것이다. 또한 샌드박스를 통해서 분석하지 않아 탐지 시간이 혁신적으로 짧아 즉시성을 확보해 준다. 결국 운영측면에서 놀라운 업무 혁신이 가능한 솔루션이라 할 수 있다.

때문에 기존 악성코드 탐지 솔루션을 대체하는 혁신적인 효과를 볼 수 있다.

블루헥사곤은 에이전트가 없는 솔루션이다. 기존 IDS와 유사하게 네트워크에서 미러링 형태로 패킷을 분석한다. 악성코드가 확인될 경우 기존 보안 솔루션(방화벽, IPS, NAC 등)과 연동해 처리하거나 ICAP(Internet Content Adaptation Protocol)를 사용하면 악성코드 패킷 차단이 가능하다.

더불어 블루헥사곤은 내부 네트워크에서 악성코드가 실행되어 외부로부터 명령을 송수신하거나 데이터를 유출하는 경우에 탐지 능력이 탁월하다. 여기에 엔드포인트 보안솔루션인 EDR과 연동해 사용한다면 네트워크부터 엔드포인트까지 전 영역에서 악성코드 유입 경로를 완벽하게 차단할 수 있을 것으로 판단한다.

해커의 활동을 7단계로 구분한 사이버킬체인의 관점에서 볼 때, 블루헥사곤은 Delivery, Exploitation, Command&Control, Exfiltration 단계에서 대응이 가능한 솔루션이다.

2019년 인공지능이 미래에 중요한 산업이 될 것을 확신한 대한민국 정부는 ‘인공지능(AI) 국가전략’을 발표했다. 많은 투자와 노력이 들어가는 만큼 혁신적이고 뛰어난 서비스 및 솔루션들이 좋은 결실을 맺길 바라며, 블루헥사곤은 그러한 관점에서 좋은 가이드가 될만한 제품이라 생각한다. [글. 황석훈 타이거팀 대표]

블루헥사곤 한국 총판은 트라이오니즈(조혁래 대표)이며 기술파트너로 타이거팀(황석훈 대표)이 협력하고 있으며 올해 본격적으로 블루헥사곤을 한국 시장에 확산시켜 나갈 계획이다. 또한 오는 5월 28일 개최되는 상반기 최대 정보보호 컨퍼런스 ‘G-PRIVACY 2020’에서 블루헥사곤에 대한 상세한 발표와 솔루션 전시가 있을 예정이다.(편집자 주)

★정보보안 대표 미디어 데일리시큐!★

◇상반기 최대 개인정보보호&정보보안 컨퍼런스 G-PRIVACY 2020 개최
-날짜: 2020년 5월 28일
-장소: 더케이호텔서울 2층 가야금홀
-참석: 공공·금융·기업 개인정보보호 및 정보보안 책임자·실무자
-교육이수: 7시간 인정
-사전등록: 사전등록 클릭
-보안기업 참가문의: 데일리시큐 길민권 기자 / mkgil@dailysecu.com

■ 보안 사건사고 제보 하기

▷ 이메일 : mkgil@dailysecu.com

▷ 제보 내용 : 보안 관련 어떤 내용이든 제보를 기다립니다!

▷ 광고문의 : jywoo@dailysecu.com

★정보보안 대표 미디어 데일리시큐 / Dailysecu, Korea's leading security media!★

길민권 기자 다른기사 보기