클라우드 기반 주문형 데이터 보안 SaaS 기업 스파이스웨어가 GPT-3 인공지능으로 스파이스웨어가 보유한 개인정보 식별 인공지능 식별률의 비약적 향상을 이뤘다.
스파이스웨어(대표·김근진)는 웹에 유·노출된 개인정보를 찾아내는 ‘개인정보 노출 탐지 엔진’을 개발했다고 7일 밝혔다.
웹에 게시된 개인정보가 노출되어 있는 경우 정보통신서비스 제공자는 해당 개인정보를 즉시 삭제하거나 접근을 제한하고 보호조치를 취해야 하는 “개인정보의 안전성 확보조치“ 법규로 인해 보안 담당자는 지속적으로 확인해야 하는 업무이다. 이벤트 당첨자 명단을 공지 게시판에 실수로 올리거나, 학교 게시판에는 수험생 정보가 실수로 첨부되어 노출되는 등 개인정보 노출 사고가 끊이질 않고 있다.
스파이스웨어의 ‘개인정보 노출 탐지 엔진’은 로그인 정보 없이 열람 가능한 공간에 게시되거나 첨부된 데이터 내 개인정보를 사전에 찾아내서 노출된 개인정보가 유출로 이어지는 것을 사전 예방하고, 클라우드에서 운영되는 탐지 엔진을 통해 지속 반복 감시로 인력적인 한계를 극복하고 보안 업무를 자동화 하는데, 도움을 주는 기술이다.
특히 개인정보 노출 탐지 엔진에 스파이스웨어가 개발한 개인정보 비식별화 솔루션에서 사용되는 형태 보존 익명화 기술과 ‘GPT-3’ 기술을 접목해 탐지된 노출 개인정보를 무단 수집하지 않고, 유형으로만 식별해 안전하게 개인정보 탐지 결과를 기록하고, 노출된 개인정보를정확하게 탐지 할 수 있도록 오탐율을 줄였다.
GPT-3(Generative Pre-trained Transformer 3)는 OpenAI에서 개발한 대규모 언어 모델로, 전세계적으로 인기 있는 챗GPT에서 사용되는 모델이다. 175억 개의 파라미터로 이루어져 있다. 자연어 처리 분야에서 다양한 작업을 수행할 수 있으며, 대화 생성, 기계 번역, 요약, 질의응답 등에 사용할 수 있다.
하지만, GPT-3를 이용해 개인정보 관련 생성을 요청하거나, 한글 개인정보 식별은 만족할 만한 결과를 기대 할 수 없어 탐지 엔진의 개발에는 사용할 수 없다. 대안으로 스파이스웨어는 지난해 개발에 성공한 “개인정보 의미 문맥 식별 인공지능”의 오탐율을 줄이는데 GPT-3의생성 기능을 접목하는 방법을 택했다.
미리 준비된 학습용 재현 개인정보를 이용해 GPT-3로 라벨링 작업을 생성시켰다. 사람이 직접 하는 것보다 GPT-3에게 정해진 라벨링 생성 패턴을 알려주고, 일관적인 라벨링 결과물을 빠르게 생성 했다. 이를 개인정보 의미 문맥 인공지능에 학습시키고 선순환 학습 모델로 인공지능 학습을 자동화하고, 이전보다 오탐율을 크게 줄일수 있게 되었다. GPT-3의 생성 기능을 이용해서 새로 개발되는 인공지능 모델의 능력을 향상 시킬 수 있는 학습 아이디어를 현실화 한 것이다.
김근진 스파이스웨어 대표는 “휴대 전화 번호만 해도 010이나 공일공, 영1영 등 변형 개인정보가 많아 개인정보 노출 탐지를 한다는 것은너무나 어려운 일이다. 하지만, 당사가 보유한 개인정보 의미·문맥 기반 개인정보 식별 인공지능은 GPT-3을 이용한 추가 학습으로 변형 개인정보까지 찾아 낼 수 있어 개인정보 유통 차단에 큰 도움이 될 것으로 기대한다.” 며, “이번에 개발된 엔진을 고도화하여 기관, 기업,개인이 모두 노출된 개인정보를 빠르게 찾아 유출 방지 할 수 있는 개인정보 노출 탐지 서비스를 선보일 예정”이라고 밝혔다.
한편 스파이스웨어는 SaaS 정보보안 플랫폼 ‘스파이스웨어 원’ 을 통해 웹서비스의 개인정보 컴플라이언스 준수를 위해 필요한 제품, 임직원과 내부 기밀 정보 보호에 특화된 제로 트러스트 보안 제품을 주문형 방식으로 통합 서비스하고 있다. 지난 2월에는 경북 내 지자체 17곳에 민감정보 탐지 및 접속기록 관리 등 개인정보보호 SaaS 서비스 스파이스웨어 원(Spiceware One)을 공급한 바 있다.
★정보보안 대표 미디어 데일리시큐!