사진으로 일상을 저장하고, 기억을 꺼내어 보는 인공지능 기술



 [과학기술인 기고] 인버스 렌더링과 공간컴퓨팅 기술이 바꾸는 사진과 카메라의 미래

글: 한국과학기술연구원 조정현 책임연구원

 

세상을 포착하는 마법의 기계,
카메라

카메라의 발명은 우리가 세계를 기록하고 기억하는 방식을 완전히 바꿨다.
글과 그림이 우리가 세상을 이해하고 그 관념을 표현하는 단순한 도구였다면,
카메라는 그런 복잡한 사고의 과정 없이도 세상을 있는 그대로 포착하고 저장할 수 있는 마법의 기계였다.
1888년,
초창기 카메라 기술 개발을 선도했던 코닥(Kodak)사가 ‘당신은 버튼만 누르세요,
나머지는 우리가 할게요’ 라고 광고했던 것처럼,
사람들은 카메라를 이용하여 매우 쉽고 빠르게 우리가 사는 세상을 기록했고,
그 기록을 기반으로 우리가 보는 세상의 범위와 인식의 폭을 크게 넓혀 왔다.

사람들은 카메라를 이용하여 매우 쉽고 빠르게 우리가 사는 세상을 기록했고,
그 기록을 기반으로 우리가 보는 세상의 범위와 인식의 폭을 크게 넓혀 왔다.
ⓒgettyimages

카메라가 발명된 지 200여년이 흐른 지금,
카메라의 발전을 돌이켜보면 초기 카메라는 세상을 있는 그대로 기록하지 못했다.
카메라가 포착하는 피사체는 자주 초점이 맞지 않았고,
가시광선의 다양한 색도 표현하지 못했다.
이런 한계를 보완하기 위해 과학자들은 움직임이 있는 피사체도 기록할 수 있는 비디오 카메라를 발명했고,
총천연색을 표현할 수 있는 컬러 필름을 개발했다.
1980년 이후에는 화학 성분에 기반한 컬러 필름을 전자기적 성질에 기반한 디지털 센서와 메모리로 대체할 수 있게 했고,
그 결과 지금은 우리가 매일 생산하고 소비하는 약 300만 테라바이트의 디지털 정보 중 카메라를 이용한 정보가 절반 이상을 차지하게 되었다.

카메라를 보완하는 인공지능 기술,
‘인버스 렌더링’

이렇게 발전을 거듭한 지금의 카메라는 우리가 경험하는 세상을 충분히 담아내게 되었을까? 그렇지 않다.
단적으로,
사진을 출력하는 프린터와 디스플레이 장비의 성능이 높아지면서 카메라가 포착해야 할 해상도의 크기가 지속적으로 증가하고 있다.
올해 새롭게 출시된 가상 체험 기기 ‘Meta Quest 3’ 장비를 충분히 즐기기 위해서는 4K 해상도의 영상이 필요하고,
Las Vegas에 새로 건립된 Sphere 공연장에는 무려 16K 해상도의 영상이 필요하다.
따라서 과거의 영상은 끊임없이 발전하는 현재와 미래 시점에서 저해상도일 수밖에 없다.

또한,
우리가 경험하는 세상은 평면적이지 않고 입체적이며,
우리의 기억을 형성하는 감각은 시각에만 국한되지 않고 공감각적이다.
예를 들어,
잔잔하게 흐르는 음악과 따뜻한 난로의 온기,
햇살이 드리운 나무 테이블의 질감과 은은한 커피 향기 같은 정보들이 총체적으로 우리가 일상에서 경험하는 세계와 기억 속에 녹아 들어 있다.

카메라 기기의 발전과 함께,
컴퓨터 과학자들은 인공지능 기술을 사용하여 태생적으로 한정된 정보만을 포함하고 있는 사진에서 더 많은 정보를 추출하고 보완하기 위해 노력하고 있다.
예를 들어,
낮은 해상도의 사진을 고화질의 영상으로 복원하는 기술,
색이 없는 사진에 색을 더하는 기술,
더 나아가 공감각적인 정보를 사진에서 추출하는 기술을 매우 빠른 속도로 개발하고 있다.
마지막에 소개한 기술은 고차원적인 세상의 정보를 2차원 평면의 사진으로 투사하는 렌더링(Rendering) 과정의 역방향의 기술이라는 뜻에서 인버스 렌더링(Inverse-Rendering) 기술이라고 부르고 있다.

한국과학기술연구원의 인버스 렌더링 기술(Multi-view Attention Inverse Rendering,
MAIR)

한국과학기술연구원(이하 KIST)은 몇 장의 장면 사진으로부터 사진 안에 포함된 3차원 객체들의 색상과 형태 정보,
공간의 조명 정보,
그리고 객체와 조명 사이의 빛 반사 특성을 결정하는 재질 정보를 유추하는 인버스 렌더링 기술(MAIR)을 개발하여 관련 분야 최고 권위의 CVPR 학회에 발표하였다.

이 기술을 응용하면 2차원 사진 속에 3차원 객체를 그림자와 빛 반사를 포함하여 사실적으로 합성하고 시점을 바꿔볼 수 있다.
공간 내 음향 재현 기술과 결합하면 사진 속에 음향을 합성하고 듣는 이의 위치에 따라 소리가 어떻게 다르게 들리는지 확인할 수 있다.

KIST에서 개발한 인버스 렌더링 기술 예시. (좌)입력 사진에서 추출한 색상,
재질,
형태,
조명 정보. (우)2차원 사진과 3차원 객체를 합성한 결과. ⓒKIST

인버스 렌더링 기술에는 일반적으로 동시에 촬영된 많은 수(100장 수준)의 입력 사진이 필요하다.
KIST는 이 입력 사진의 수를 획기적으로 줄이고 촬영의 동시성 조건을 완화해도 정확한 결과를 얻을 수 있는 사전 정보를 활용한 인버스 렌더링 기술(ExtremeNeRF)도 개발했다.
이 기술을 사용하면 적은 수의 일반 사진으로부터 그 안에 포함된 다양한 정보를 추출해낼 수 있다.

KIST에서 개발한 희소영상 기반 인버스 렌더링 기술 예시. 3장의 입력 사진으로부터 계산한 새시점 영상의 정확도 비교. ⓒKIST

사진으로 일상을 저장하고,
기억을 꺼내어 보는 인공지능 기술

애플(Apple)사는 올해 여름,
공간 컴퓨팅(Spatial Computing)이라는 이름으로 위와 같은 기술들을 망라하는 소프트웨어 및 하드웨어 기술 개발을 예고했다.
인공지능 기술은 카메라가 아직 도달하지 못한 세계를 있는 그대로 기록하고,
그것을 생생하게 기억하는 목표를 향해 빠르게 발전하고 있다.

KIST는 이와 같은 기술 발전에 발 맞추어 올해부터 엠83,
KAIST,
고려대와 함께 정보통신산업진흥원의 “가변시점허용 실사 영상에서의 강인한 3D 객체식별 기술개발” 과제를 통해 일반 사진에 포함된 장면의 여러가지 정보를 추출하고,
이를 언어모델 등 사전 학습된 모델을 활용하여 새로운 방식으로 색인하고,
효과적이고 즉각적으로 정보를 검색하는 공간 컴퓨팅 기술 개발을 시작했다.
머지않은 미래에 우리가 경험하는 공간과 사물의 시각과 청각 정보뿐만 아니라,
향기,
흔적,
감촉,
애착(Attachment)과 공감각적인 분위기(Mood)까지 모두 저장하고 이를 있는 그대로 꺼내어 추억할 수 있는 새로운 카메라와 인공지능 기술이 등장할 것으로 기대한다.


댓글 쓰기

Welcome

다음 이전