
인공 지능 (AI) 챗봇 ‘이루다’개발사 스캐 터랩은 챗봇 개발 과정에서 타 서비스 ‘사랑의 과학’에서 수집 한 커플 간의 카카오 톡 대화를 사용하는 것은 개인 정보 취급 방침의 범위 내라고 주장했다.
또한 카카오 톡 대화를 자료로 활용하는 과정에서 주소, 계좌 번호, 전화 번호, 실명이 삭제되어 개별 문장으로 만들어지는 과정에서 필터링이 제대로 이루어지지 않을 수 있다는 점에 대해 사과드립니다. 이름과 주소는 남아있을 수 있습니다. 했다.
이번 논란에서 개인 정보 보호위원회도 스캐 터랩 개인 정보 유출 사실 조사에 착수했다.
스캐 터랩은 12 일 개인 정보 취급 방침 준수 여부에 대한 입장을 밝히고 성희롱 발언을 질의 응답 이메일을 통해 보완 할 계획이다.
회사 측은“사랑의 과학 이용자 데이터는 이용자의 사전 동의를받은 개인 정보 처리 방침 범위 내에서 사용됐다”고 밝혔다. 연애 과학 사용자 중 AI 학습에 데이터 사용을 원하지 않는 사람은 삭제되며, Iruda의 DB에 사용되지 않도록 추가 조치를 취할 계획입니다.”
또한 주소 등 개인 정보 노출에 대해서는“개인적으로 1 억 개의 개별 문장을 개별적으로 검사하기 어려우므로 알고리즘을 통해 기계적으로 필터링했다. 이 과정에서 최대한 많은 변수를 주려고했지만 상황에 따라 사람의 이름이 바뀌었다. “남은 부분이 몇 개 있었다”고 그는 말했다. “우리는 그 문제에 더 많은 관심을 기울이지 않고 그 사람의 이름이 나온 것에 대해 사과드립니다. 단, 문장의 이름 정보가 다른 정보와 함께 사용되지 않은 점 사과드립니다. “
ScatterLab은 특정 이름 및 주소와 같은 필터링 부족을 보완하기 위해 관련 알고리즘을 업그레이드 할 계획입니다. 회사는 분기별로 Eruda를 다시 배울 예정이어서 약 3 주 동안 출시 된 Eruda에 대한 업데이트는 더 이상 이루어지지 않았습니다.
스캐 터랩은 사랑의 과학 인 카카오 톡 대화 정보를 사전 훈련하고 1 억 개의 대화 문장 데이터베이스를 사용하고 있습니다. 사용 된 데이터에서 발화자 이름 등의 개인 정보는 삭제되었으며, 발화자의 정보는 성별과 연령에 의해서만 인식 될 수 있습니다. 사전 훈련 단계에서 AI는 사람들 간의 대화에 존재하는 맥락과 답변 간의 상관 관계 만 학습합니다.
“Iruda는 이전 대화의 맥락에 영향을 받아 개별 문장 중에서 답을 선택합니다. 이때 사용자가 지난 10 턴 동안 대화에서 사용한 표현, 분위기, 어조 등 대화의 맥락이 크게 영향을받습니다.” “이를 통해 사용자는 프로세스에서 개별화 된 답변을 제공하고 있다고 느낄 수 있습니다.”
또한 성과 과정에서 성희롱과 증오심 발언을 한 이유는 아직 서비스 초기 단계 라 베타 테스트에서는 잡을 수 없다고 설명했다.
관련 기사

개인 정보 보호위원회, AI 봇 ‘이루다’의 개인 정보 유출 조사 개시

인공 지능 챗봇 ‘달성’일시 중단 … “카카오 톡 대화 사용을 알리지 않아 죄송합니다”

한국 인공 지능 윤리 협회 “재 출시가 필요하다”

Chatbot’Achieved ‘를 처음 사용한 사람들로부터 칭찬
스캐 터랩은“(작년) 베타 테스트는 약 2,000 명의 사용자를 대상으로 진행됐지만 정식 출시 이후 80 만 명의 사용자가 성과를 거두었으며 실제 서비스 출시 이후 미리 준비한 것보다 더 넓고 다양하다. 심각한 사용자 발언이 나타났습니다.”라고 그는 말했습니다. 그 결과 Iruda의 예상치 못한 성적인 대화 나 편견이있는 대화가 나왔고, 서비스를 시작한 후 대처가 부족하다는 것을 깊이 느꼈습니다.”
이어“이루다는 사용자들과 대화하면서 불완전한 데이터에 대해보다 엄격한 라벨링 기준을 도입하고 학습함으로써 사회의 보편적 가치를 담은 AI로 발전 할 것”이라고 덧붙였다.