심심이, AI 윤리검증 학습용 데이터 구축 박차

인공지능(AI) 기술을 활용한 챗봇 서비스 심심이(대표 최정회)의 AI 윤리 검증 데이터 구축 사업에 박차를 가하고 있다.

대화형 AI 윤리에 대한 경험 및 노하우를 인정받아 과학기술정보통신부(이하 과기정통부)가 주관하고, 한국지능정보사회진흥원(이하 NIA)이 추진하는 ‘2021년도 인공지능 학습용 데이터 구축사업’에 참여해 ‘텍스트 윤리검증 데이터’ 구축에 박차를 가하고 있다.

심심이에 따르면 최근 10년간 딥러닝 패러다임이 AI 기술을 지배하고 있으며, 특히 최근 3~4년간 전이학습 기반의 대용량 언어모델 발전이 비약적으로 이뤄지고 있다고 한다.

심심이는 이러한 소셜 챗봇이 당장 해결하기 어려운 여러 문제점을 안고 있다고 말했다. 자신과 대화를 나누는 상대방에 대한 정보 부족, 이전 대화의 맥락을 유지하지 못해 일관성을 유지하기 어려운 부분, 윤리적인 문제가 될 수 있는 대화를 방지하기 어려운 점 등이다.

사람들이 대화형 AI를 자신보다 낮은 지위로 인식하는 반면 AI가 사람보다 훨씬 더 윤리적으로 말하길 요구하는 관계적 특성 때문에 윤리 문제는 AI에게 있어 매우 어려운 과제로 꼽힌다.

심심이는 챗봇의 윤리 문제를 해결하는 부득이한 방법으로 규칙 기반 방어 솔루션을 언급했다. 일례로 자살 관련 사용자 발화 패턴을 수집해 이에 대해 특정한 자살 방지 안내를 하도록 하는 식이다. 하지만 이 방법은 목적지향적 챗봇에서와 달리 소셜 챗봇에서는 재미 요소를 크게 반감시키는 문제가 있다.

실제로 심심이는 현재까지 30여 개 언어에서 약 3,500만 건 이상의 문장을 해당 언어 사용자들이 10번 이상 전수 검사한 윤리 데이터를 보유하고 있다. 해당 데이터를 학습하여 실시간 윤리 검증이 가능한 딥러닝 모델을 자체 개발하기도 했다.

심심이 관계자는 “한국은 국가, 기업을 중심으로 AI 기술 개발에 공을 많이 들이는 국가로 꼽히는데 최근 초거대 언어모델 개발 붐이 일어나며 한국어 기준으로 글로벌 빅테크 기업에 대응할 수 있는 수준의 기술 및 데이터가 등장하고 있다”며 “이러한 흐름에서 게임, 메타버스, 디지털 휴먼 등 다양한 분야에 활용 가능한 소셜 챗봇 관련 수요도 나타나고 있는 실정인데 이러한 공급, 수요 관계 역시 윤리 문제에 직면하고 있는 만큼 윤리 검증에 대한 관심이 갈수록 높아지고 있다”라고 말했다.

이처럼 심심이가 다양한 언어로 서비스를 제공하는 만큼 언어별, 국가별 등장하는 윤리적 문제에 대한 경험도 많다.

또 이를 해결하기 위해 고안해 낸 기술도 다양하며, 각 언어 사용자들이 직접 대화 시나리오를 학습시킬 수 있는 구조이기 때문에 소셜 챗봇에서 나타날 수 있는 비윤리적인 유형의 데이터를 수집하게 된 것이다.

우진영 기자 다른기사 보기