Iruda 개발자가 실명과의 낭만적 인 과학 대화, GitHub에 노출

인공 지능 챗봇에 루다의 개발자 인 스캐 터랩이 자사 서비스 인 사랑 의약에서 추출한 대화 데이터 100 여개를 익명화없이 누구나 접근 할 수있는 오픈 소스 프로젝트 저장소에 공개했지만 최근에는 삭제 한 것으로 확인됐다. 러브 메디슨에서 얻은 데이터는 이용자의 충분한 동의없이 다른 용도로 사용되었으며 개인 정보도 노출되었습니다.

13 일 관련 업계에 따르면 스캐 터랩은 2019 년 자사가 구현 한 ‘문장 생성 모듈 (KG-CVAE 기반)’프로젝트를 소스 코드 저장소 GitHub에 오픈 소스로 공개했다.

문장 생성 모듈은 컴퓨터에서 자연어를 처리하여 질문에 대한 답을 생성하는 데 사용됩니다. Eruda와 같은 AI 기반 챗봇은 대표적인 애플리케이션입니다.

이 프로젝트는 ScatterLab에서 관련 연구 결과를 바탕으로 한국어와 같은 교육을 추가하고 재생산하여 누구나 사용할 수 있도록 출시되었습니다.

문제는 ‘사랑의 과학’에서 추출한 데이터를 비 식별 조치를 취하지 않고 함께 공개했다는 점이다. 이 문제는 Facebook TensorFlow 한인 커뮤니티의 연구원이 처음 제기했습니다. 현재 프로젝트 저장소는 GitHub에서 제거되었습니다.

이 프로젝트에서 Scatterlab은 데이터 세트 소스가 로맨스의 과학이라고 말했습니다.

ScatterLab은 프로젝트 소개 (Lead Me)에서 데이터 셋의 출처가 “한국어의 경우 사랑의 과학에서 추출한 대화 데이터를 사용했다”고 밝혔다.

러브 메디슨에서 획득 한 사용자의 대화 데이터가 프로젝트에 대한 충분한 동의없이 사용 된 것도 문제이지만, 대화에서 그대로 개인 정보가 노출 된 점에서 문제의 심각성이 중요하다.

이번 매거진의 데이터 셋 중 일부를 직접 확인한 결과 ‘볶음밥 ~ XX 빨리 먹어’등 실명이 그대로 노출 된 것을 확인했다.

이 문제를 제기 한 연구원은 “100 개의 데이터 세트에서 필터링되지 않은 실명이 20 번 노출되었습니다”라고 지적했습니다. 또한 연구원은 “실명뿐 아니라 지역 명과 질병 정보도 확인됐다”고 강조했다.

Scatter Lab은 챗봇 학습을 위해 데이트 과학 사용자의 데이터를 사용하면서 개인 정보를 비 식별 화하는 조치를 제대로 취하지 않은 것으로 비판을 받았습니다. 사용자들과 대화 할 때 실명과 주소로 나타나는 정보에 대해 이야기하면서 문제가됐다.

이러한 문제가 제기되자 스태커 랩은 “개인적으로 1 억 개의 문장을 개별적으로 검사하는 것이 어려우므로 알고리즘을 통해 기계적으로 걸러 내고 일부가 남았다”고 말했다.

Iruda 개발자가 실명과의 낭만적 인 과학 대화, GitHub에 노출

관련 기사

AI Bot Eruda 개발자 “사람의 실명에 대한 참조에는 필터링이 없습니다.”

개인 정보 보호위원회, AI 봇 ‘이루다’의 개인 정보 유출 조사 개시

인공 지능 챗봇 ‘달성’일시 중단 … “카카오 톡 대화 사용을 알리지 않아서 죄송합니다”

한국 인공 지능 윤리 협회 “재 출시가 필요하다”

Related