2024-03-29 03:15 (금)
[유해사이트차단 솔루션의 두뇌-웹 데이터베이스②] 가치사슬의 맨 앞단에 '수집'이 있다
상태바
[유해사이트차단 솔루션의 두뇌-웹 데이터베이스②] 가치사슬의 맨 앞단에 '수집'이 있다
  • 길민권 기자
  • 승인 2018.11.28 16:02
이 기사를 공유합니다

지금 여기서...사람들이 가장 많이 접속하는 사이트목록이 중요해

cemetery-1538646_640.jpg
지난 한 달간 데일리시큐는 최일훈 소만사 부사장의 <유해사이트 차단 기술이 필요한 이유>에 대해 5회에 걸쳐 칼럼을 연재한 바 있다. 이번에는 <유해사이트차단 솔루션의 두뇌-웹 데이터베이스>를 주제로 연재를 진행한다. 유해사이트를 통해 발생하는 각종 보안사고를 미연에 방지하기 위해 꼭 필요한 내용들이다. -편집자 주-

[연재순서]
1. 어제 생겨난 도박사이트,우리 회사는 어떻게 알고 차단한 거야?
2. 가치사슬의 맨 앞단에<수집>이 있다.
3. <프로슈머>로부터 수집한다
4. 우리는 웹에 있어서 가장 특별한 나라에 살고 있다
5. 한국웹을 외국회사가 DB화 한다는 것이 가능한 일인가?
6. 고객사 리스크에 기반하여 분류한다

웹데이터베이스는 생선회 같은 거야. 신선한 재료가 가장 중요해

왜 그 바쁜 유명 쉐프들이 직접 새벽시장에 나가 갓 잡아 올린 식자재를 찾아 헤매겠어? 음식의 퀄리티는 재료의 퀄리티가 좌지우지하고 아무리 좋은 것도 시간을 넘기면 의미가 없기 때문이야.

사람들이 실제 접속하는 웹사이트가 푸른 바다를 가르는 은빛 생명체라면, 트렌드가 지나서 아무도 접속하지 않는 사이트들은 썩고 비린내 나는 생선토막이라고 할 수 있지.

우주의 대부분이 폐허이듯 웹의 대부분은 묘지야

웹을 왜 우주로 비유하겠어? 너무나 넓고 끊임없이 변화하기 때문에? 순간순간 생성, 소멸, 변화, 연결되기 때문에? 우주의 대부분이 생명이 살지 않는 폐허이듯, 웹의 대부분은 더 이상 접속하지 않는 웹사이트의 묘지야(기껏해야 1년에 1~2번 들르겠지). 전세계 웹 중 실제 사람들이 접속하는 웹은 아주 일부분이야. 그 중에서도 바로 여기, 즉 한국에서 한국사람들이 접속하는 웹은 또 일부분의 일부분이지. 마치 우주에서 사람이 사는 별이 일부이듯이.

웹사이트의 20%에 전체 접속의 99.99999%가 몰린다

2:8법칙, 파레토법칙 들어봤을 거야. 원인의 20%가 결과의 80%를 좌우하는 현상을 말하지. 백화점에선 20%의 고객이 매출의 80%를 쇼핑하고 집중한 20%의 근무시간에서 성과의 80%가 나오지. 웹에서는 이 파레토법칙이 극단적으로 변형되어 나타나. 즉 20%의 웹사이트에 전체접속의 99.99999%가 몰리고 그 20%의 웹사이트 중에서도 상위 1%에 전체접속의 80% 이상이 집중되어있어. 우리가 매일 접속하는 웹은 이렇게 쏠림현상이 극단적으로 발생하는 곳이야.

나머지 80%는 롱테일. 혜성의 꼬리처럼 먼지가 되어 사라진다

space-1486556_640.jpg
나머지 80% 웹사이트는 몸통이 아니라 긴 꼬리라고 할 수 있지. 그런데 공룡꼬리도 아니고 쥐꼬리도 아니고 혜성의 꼬리야. 혜성의 꼬리는 실체가 없어. 몸통에서 떨어져나온 먼지가 흩뿌려지는 자취일 뿐이야. 꼬리가 길면 잡힌다고 하는데 한국사람 대부분에게는 평생 잡을 일 없는 꼬리들이지. 한국사람들 중, 천명에 한명이 일년에 1번, 만명 중 한명이 2년에 1번 이런 식으로 접속하는 웹사이트들이 먼지처럼 풀썩이면서 길고 긴 꼬리를 이루고 있어.

대표적 유해사이트인 음란사이트의 몸통과 롱테일

전세계 음란사이트는 수천만개 이상이야. 매일 수천개가 생성되고 폐쇄돼. 한글화되어 우리나라 사람들이 자주 방문하는 곳도 있고 아예 가지 않는 사이트도 있어. 너무 당연하게도 가지 않는 사이트 백만개보다 많이 방문하는 상위 1만개 사이트를 막아야 해. 상위 1만개 음란사이트만으로도 전체 접속의 99.99%가 차단되는 것이지. 나머지 0.01%는 전형적인 롱테일이야. 1만개가 99.99%를 설명한다면, 나머지 0.01%에는 100만개도 부족해. 따라서 아무도 방문하지 않은 음란사이트를 개수만 많이 확보하는 것보다 자주 방문하는 사이트를 얼마나 효과적으로 차단하느냐, 혹은 새로 생성된(그래서 우리나라 사람들이 방문까지 이루어진) 사이트를 얼마나 빠르게 업데이트하느냐가 웹데이터베이스의 퀄리티를 결정하게 돼.

웹에서의 Best Input은 <지금 여기서_ 사람들이 가장 많이 접속하는 사이트목록>이야

Best Input, Best Output이란 말이 있어. 좋은 것이 투입되면 좋은 결과가 나온다는 말이지. 웹에서의 Best Input은 전체 접속의 99.99999%가 몰리는 상위 20%의 웹사이트야. 이 사이트들을 누가 수집하느냐가 가치사슬의 맨 앞단이자 결과를 좌우하는 근본역량이야.

반대말로 Garbage In, Garbage Out이 있어. 쓰레기를 투입하면 결과도 쓰레기란 말이지. 웹에서의 Garbage는 <지금 여기서_아무도 접속하지 않는 사이트 더미>야 전체 접속의 0.0000000001%로 이루어진 하위 웹사이트들, 상한 생선회, 폐허와 묘지, 먼지로 이루어진 긴 꼬리들이지.

<지금 여기서_ 사람들이 가장 많이 접속하는 사이트목록>을 어떻게 찾을 수 있을까?

필자. 최일훈 소만사 부사장 / acechoi@somansa.com

★정보보안 대표 미디어 데일리시큐!★


■ 보안 사건사고 제보 하기

▷ 이메일 : mkgil@dailysecu.com

▷ 제보 내용 : 보안 관련 어떤 내용이든 제보를 기다립니다!

▷ 광고문의 : jywoo@dailysecu.com

★정보보안 대표 미디어 데일리시큐 / Dailysecu, Korea's leading security media!★