글로벌 데이터의 90 %는 ‘이것’… DGIST ‘다크 데이터 극한 활용 연구 센터’가보니 : 동아 사이언스

다크 데이터 90 %를 활용하는 기술 개발

반도체 소자 클린 룸을 갖춘 슈퍼 컴퓨터 ‘iREMB’와 AI 연구 시너지

연구원들은 대구 경북 과학 기술원 (DGIST)의 '다크 데이터 극한 활용 연구 센터'전용 슈퍼 컴퓨팅 시설에서 컴퓨터 성능을 확인하고있다.  DGIST 제공

연구원들은 대구 경북 과학 기술원 (DGIST)의 ‘다크 데이터 극한 활용 연구 센터’전용 슈퍼 컴퓨팅 시설에서 컴퓨터 성능을 확인하고있다. 빅 데이터, 인공 지능 (AI) 등 4 차 산업 혁명을 주도 할 기술 개발은 슈퍼 컴퓨터 등 첨단 연구 장비의 지원이 필요하다. DGIST 제공

다크 데이터는 사람이나 컴퓨터에 의해 생성되어 어딘가에 저장되지만 그 존재 여부를 알 수 없거나 찾을 수없는 데이터를 가리키는 용어입니다. 데이터로 만들 수없는 비정형 데이터 또는 사용자가 필요로하는지 알 수 없어서 사용할 수없는 데이터를 말합니다. 우주의 27 %를 차지하는 것으로 추정되지만 보거나 듣거나 느낄 수없는 암흑 물질의 이름을 따서 명명되었습니다.

대구 경북 과학 기술원 (DGIST) 캠퍼스에는 이러한 다크 데이터를 연구하는 국내 유일의 슈퍼 컴퓨터 대구 달성군 현풍면이 운영되고있다. ‘Dark Data Extreme Utilization Research Center’전용 슈퍼 컴퓨팅 시설입니다. 지난달 8 일 방문한 센터의 문을 열었을 때, 끊임없이 돌아가는 컴퓨터 팬 소리가 온통 가득 차 있었다. 옆 사람의 목소리가 들리지 않을 정도의 소음이었다.

이성진 센터 장 (DGIST 정보 통신 융합학과 교수)은“다량의 다크 데이터를 수집, 저장, 관리, 처리하기위한 모든 연구가 여기서 이루어지고있다. 이를 수행 할 수있는 연구 시설도 지원되어야합니다.”라고 그는 말했습니다.

IBM에 따르면 전 세계에서 생성되는 데이터의 90 %가 다크 데이터로 추정됩니다. 실제로 인간이 데이터의 1 % 만 사용한다는 분석입니다. 이 때문에 최근 빅 데이터 연구에서 다크 데이터를 처리하고 활용하는 방법이 화제가되고있다.

이 감독은“이메일에 첨부되어 있지만 검색 할 수없는 파일은 쉬운 예로 다크 데이터에 해당한다”고 말했다. “심박수 기록 및 MRI (자기 공명 영상) 이미지와 같은 방대한 양의 다크 데이터가 의료 분야에서 계속 생성됩니다.” 말했다. 이 센터는 현재 서울대 병원과 다크 데이터에 대응하는 대량의 흉부 X 선 영상에 AI를 자동으로 읽어 적용하는 진단 기술을 공동 개발하고있다.

최근에는 하드 디스크, 플래시 메모리와 같은 데이터 저장 매체가 진화하고 데이터 저장 용량이 TB (테라 바이트) 수준으로 증가했으며 다크 데이터도 생성되고 있습니다. 이 감독은 데이터를 하드 디스크에 저장하는 것은 물론 연산 기능을 추가하여 AI가 데이터를 찾을 때 처리 속도를 높이기위한 연구를하고있다.

다크 데이터에서 의미있는 데이터를 발견하기 위해 딥 러닝을 검색 기술에 적용합니다. “페이스 북이 기계 학습 기술을 채택하여 유해 콘텐츠를 자동으로 분류하는 것처럼 우리는 검색 할 인공 신경망과 같은 AI 기술을 사용하여 다크 데이터에 라벨을 지정할 수 있습니다.” 블로킹 AI, 블록 체인, 지능형 분산 검색 기술도 연구되고 있습니다.”

대구 경북 과학 기술원 (DGIST) 중앙 장비 센터에 지어진 기기 클린 룸.  AI 반도체 설계에서 제조까지 전체 프로세스를 처리 할 수 ​​있습니다.  DGIST 제공

대구 경북 과학 기술원 (DGIST) 중앙 장비 센터에 지어진 기기 클린 룸. AI 반도체 설계에서 제조까지 전체 프로세스를 처리 할 수 ​​있습니다. DGIST 제공

다크 데이터 분석 외에도 슈퍼 컴퓨터는 AI 반도체 개발에도 사용되고 있습니다. DGIST가 운영하는 슈퍼 컴퓨터 ‘iREMB’는 연산 처리 속도가 1.7 페타 플롭스로 국내 대학 중 최고 성능을 자랑합니다. 지난해 반도체 핵심 소재 기업인 SK 실트론은 반도체 웨이퍼 개발에 필요한 단결정 성장을 연구하기 위해 irem을 활용했다.

DGIST는 최근 6 인치 AI 반도체 웨이퍼를 생산할 수있는 모든 공정 장비에 0.5μm (마이크로 미터, 1μm는 100 만분의 1 미터) 급 CMOS (상보성 금속 산화물 반도체)를 생산할 수있는 라인을 추가했다. 이성봉 DGIST 중앙 장비 센터 소장은 “CMOS 위에 지능형 반도체를 탑재 할 수있다”고 말했다. “인간 뉴런이 작동하는 방식을 모방 한 신경 형태 반도체를 만들 수 있으며 실험을 위해 동물 실험 센터에서 영장류에 직접 심을 수 있습니다.”

.Source