Iruda 개발자가 실명과의 낭만적 인 과학 대화, GitHub에 노출

사랑의 과학
사랑의 과학

인공 지능 챗봇에 루다의 개발자 인 스캐 터랩이 자사 서비스 인 사랑 의약에서 추출한 대화 데이터 100 여개를 익명화없이 누구나 접근 할 수있는 오픈 소스 프로젝트 저장소에 공개했지만 최근에는 삭제 한 것으로 확인됐다. 러브 메디슨에서 얻은 데이터는 이용자의 충분한 동의없이 다른 용도로 사용되었으며 개인 정보도 노출되었습니다.

13 일 관련 업계에 따르면 스캐 터랩은 2019 년 자사가 구현 한 ‘문장 생성 모듈 (KG-CVAE 기반)’프로젝트를 소스 코드 저장소 GitHub에 오픈 소스로 공개했다.

문장 생성 모듈은 컴퓨터에서 자연어를 처리하여 질문에 대한 답을 생성하는 데 사용됩니다. Eruda와 같은 AI 기반 챗봇은 대표적인 애플리케이션입니다.

이 프로젝트는 ScatterLab에서 관련 연구 결과를 바탕으로 한국어와 같은 교육을 추가하고 재생산하여 누구나 사용할 수 있도록 출시되었습니다.

문제는 ‘사랑의 과학’에서 추출한 데이터를 비 식별 조치를 취하지 않고 함께 공개했다는 점이다. 이 문제는 Facebook TensorFlow 한인 커뮤니티의 연구원이 처음 제기했습니다. 현재 프로젝트 저장소는 GitHub에서 제거되었습니다.

이 프로젝트에서 Scatterlab은 데이터 세트 소스가 로맨스의 과학이라고 말했습니다.

ScatterLab은 프로젝트 소개 (Lead Me)에서 데이터 셋의 출처가 “한국어의 경우 사랑의 과학에서 추출한 대화 데이터를 사용했다”고 밝혔다.

러브 메디슨에서 획득 한 사용자의 대화 데이터가 프로젝트에 대한 충분한 동의없이 사용 된 것도 문제이지만, 대화에서 그대로 개인 정보가 노출 된 점에서 문제의 심각성이 중요하다.

이번 매거진의 데이터 셋 중 일부를 직접 확인한 결과 ‘볶음밥 ~ XX 빨리 먹어’등 실명이 그대로 노출 된 것을 확인했다.

데이터 셋을 오픈 한 결과 실명이 포함 된 것을 확인했다.

이 문제를 제기 한 연구원은 “100 개의 데이터 세트에서 필터링되지 않은 실명이 20 번 노출되었습니다”라고 지적했습니다. 또한 연구원은 “실명뿐 아니라 지역 명과 질병 정보도 확인됐다”고 강조했다.

Scatter Lab은 챗봇 학습을 위해 데이트 과학 사용자의 데이터를 사용하면서 개인 정보를 비 식별 화하는 조치를 제대로 취하지 않은 것으로 비판을 받았습니다. 사용자들과 대화 할 때 실명과 주소로 나타나는 정보에 대해 이야기하면서 문제가됐다.

이러한 문제가 제기되자 스태커 랩은 “개인적으로 1 억 개의 문장을 개별적으로 검사하는 것이 어려우므로 알고리즘을 통해 기계적으로 걸러 내고 일부가 남았다”고 말했다.

관련 기사


AI Bot Eruda 개발자 “사람의 실명에 대한 참조에는 필터링이 없습니다.”


개인 정보 보호위원회, AI 봇 ‘이루다’의 개인 정보 유출 조사 개시


인공 지능 챗봇 ‘달성’일시 중단 … “카카오 톡 대화 사용을 알리지 않아서 죄송합니다”


한국 인공 지능 윤리 협회 “재 출시가 필요하다”

그러나이 프로젝트에서 ScatterLab은 100 개의 데이터 세트에 대해서만 개인 정보를 익명화하지 않았습니다. 스캐 터랩은 개인 정보 보호 문제에 대해 상당히 편한 자세로 업무를 수행했다고 밝혔다.

Scatterlab이이 문제에 대해 문의했을 때 공식 입장을 준비하고 있다고 밝혔다.





Source