AI Bot Eruda 개발자 “사람의 실명에 대한 참조에는 필터링이 없습니다.”

Scatter Lab 개인 정보 보호 정책
Scatter Lab 개인 정보 보호 정책

인공 지능 (AI) 챗봇 ‘이루다’개발사 스캐 터랩은 챗봇 개발 과정에서 타 서비스 ‘사랑의 과학’에서 수집 한 커플 간의 카카오 톡 대화를 사용하는 것은 개인 정보 취급 방침의 범위 내라고 주장했다.

또한 카카오 톡 대화를 자료로 활용하는 과정에서 주소, 계좌 번호, 전화 번호, 실명이 삭제되어 개별 문장으로 만들어지는 과정에서 필터링이 제대로 이루어지지 않을 수 있다는 점에 대해 사과드립니다. 이름과 주소는 남아있을 수 있습니다. 했다.

이번 논란에서 개인 정보 보호위원회도 스캐 터랩 개인 정보 유출 사실 조사에 착수했다.

스캐 터랩은 12 일 개인 정보 취급 방침 준수 여부에 대한 입장을 밝히고 성희롱 발언을 질의 응답 이메일을 통해 보완 할 계획이다.

회사 측은“사랑의 과학 이용자 데이터는 이용자의 사전 동의를받은 개인 정보 처리 방침 범위 내에서 사용됐다”고 밝혔다. 연애 과학 사용자 중 AI 학습에 데이터 사용을 원하지 않는 사람은 삭제되며, Iruda의 DB에 사용되지 않도록 추가 조치를 취할 계획입니다.”

또한 주소 등 개인 정보 노출에 대해서는“개인적으로 1 억 개의 개별 문장을 개별적으로 검사하기 어려우므로 알고리즘을 통해 기계적으로 필터링했다. 이 과정에서 최대한 많은 변수를 주려고했지만 상황에 따라 사람의 이름이 바뀌었다. “남은 부분이 몇 개 있었다”고 그는 말했다. “우리는 그 문제에 더 많은 관심을 기울이지 않고 그 사람의 이름이 나온 것에 대해 사과드립니다. 단, 문장의 이름 정보가 다른 정보와 함께 사용되지 않은 점 사과드립니다. “

ScatterLab은 특정 이름 및 주소와 같은 필터링 부족을 보완하기 위해 관련 알고리즘을 업그레이드 할 계획입니다. 회사는 분기별로 Eruda를 다시 배울 예정이어서 약 3 주 동안 출시 된 Eruda에 대한 업데이트는 더 이상 이루어지지 않았습니다.

스캐 터랩은 사랑의 과학 인 카카오 톡 대화 정보를 사전 훈련하고 1 억 개의 대화 문장 데이터베이스를 사용하고 있습니다. 사용 된 데이터에서 발화자 이름 등의 개인 정보는 삭제되었으며, 발화자의 정보는 성별과 연령에 의해서만 인식 될 수 있습니다. 사전 훈련 단계에서 AI는 사람들 간의 대화에 존재하는 맥락과 답변 간의 상관 관계 만 학습합니다.

“Iruda는 이전 대화의 맥락에 영향을 받아 개별 문장 중에서 답을 선택합니다. 이때 사용자가 지난 10 턴 동안 대화에서 사용한 표현, 분위기, 어조 등 대화의 맥락이 크게 영향을받습니다.” “이를 통해 사용자는 프로세스에서 개별화 된 답변을 제공하고 있다고 느낄 수 있습니다.”

또한 성과 과정에서 성희롱과 증오심 발언을 한 이유는 아직 서비스 초기 단계 라 베타 테스트에서는 잡을 수 없다고 설명했다.

관련 기사


개인 정보 보호위원회, AI 봇 ‘이루다’의 개인 정보 유출 조사 개시


인공 지능 챗봇 ‘달성’일시 중단 … “카카오 톡 대화 사용을 알리지 않아 죄송합니다”


한국 인공 지능 윤리 협회 “재 출시가 필요하다”


Chatbot’Achieved ‘를 처음 사용한 사람들로부터 칭찬

스캐 터랩은“(작년) 베타 테스트는 약 2,000 명의 사용자를 대상으로 진행됐지만 정식 출시 이후 80 만 명의 사용자가 성과를 거두었으며 실제 서비스 출시 이후 미리 준비한 것보다 더 넓고 다양하다. 심각한 사용자 발언이 나타났습니다.”라고 그는 말했습니다. 그 결과 Iruda의 예상치 못한 성적인 대화 나 편견이있는 대화가 나왔고, 서비스를 시작한 후 대처가 부족하다는 것을 깊이 느꼈습니다.”

이어“이루다는 사용자들과 대화하면서 불완전한 데이터에 대해보다 엄격한 라벨링 기준을 도입하고 학습함으로써 사회의 보편적 가치를 담은 AI로 발전 할 것”이라고 덧붙였다.





Source