오피니언 최현철 논설위원이 간다

GPU 16장으로 3200장 빅테크와 경쟁…“투자 늘었으면”

중앙일보

입력

지면보기

종합 24면

최현철 기자 중앙일보 논설위원
최현철 논설위원

최현철 논설위원

주말 동안 중부지방에도 장마가 시작됐다. 그 직전에는 폭염 특보가 내려지는 등 최고 기온을 잇달아 경신하며 역대 가장 뜨거운 6월을 보냈다. 나라 밖에선 심각한 피해가 속출했다. 중국과 동아프리카, 남미에서 폭우로 수백명씩 숨졌다. 인도와 동남아시아 국가에선 섭씨 50도가 넘는 폭염이 기승을 부리고 있다. 기상이변이 잦아질수록 정확한 예보에 대한 욕구는 더 커진다. 이변을 없애지는 못해도 대비할 시간을 확보할 수 있기 때문이다. 최근 빅테크 기업들을 중심으로 인공지능(AI) 기반 기상 예보시스템 개발이 속속 발표되며 이런 희망은 점차 커지고 있다. 공룡들의 각축전 같은 ‘AI 기상대전’에 우리 기상청도 이름을 올렸다.

미국 15년 걸린 과업, 2년 만에 넘어서

기상청 예보관실에서 예보관이 AI 기반으로 작성된 화면을 검토하고 있다. [사진 기상청]

기상청 예보관실에서 예보관이 AI 기반으로 작성된 화면을 검토하고 있다. [사진 기상청]

이세돌과 알파고의 충격적인 대국 이후 국내에서도 인공지능 열풍이 불었다. 대국 3년 뒤인 2019년 기상청은 인공지능 기반 일기예보 시스템 ‘알파 웨더’를 개발하겠다는 계획을 발표했다. 제주도 서귀포 혁신도시에 위치한 기상과학연구원에 벤처형 연구조직이 만들어졌고, 그해 말 KAIST와 연구 협약을 맺으며 본격적인 활동을 시작했다.

이후의 상황을 취재하기 위해 기상과학원을 찾은 지난달 13일은 공교롭게도 개발 발표를 한 지 꼭 5년째 되는 날이었다. 장마전선이 상륙하기 1주일 전, 제주는 햇볕이 따가웠지만 아직 뜨겁지도, 습하지도 않은 날씨였다. 기상과학원 건물 5층에 위치한 인공지능기상연구과에서는 올해 말로 예정된 1단계 사업 마무리를 위한 논문 정리와 현업 예보에 적용하기 위한 안정화 작업이 한창이었다.

발표 당시 기상청에는 그래픽처리장치(GPU)는커녕 변변한 장비조차 없는 상태였다. 연구팀은 강수예측 프로세스 중 복사물리 수치계산 과정을 인공지능으로 대치하는 분야에 집중하기로 했다. 수집된 기상 데이터를 물리 방정식(수치예보 모델)에 대입해 계산하는 직업에 엄청난 시간과 컴퓨팅 용량이 소요되는데, 이를 기계학습을 거친 인공지능으로 뚝딱(?) 해낸다는 개념이다.

이를 위해 미국 해양대기청(NOAA)과 협업을 시도했다. NOAA는 이 분야에 대해 15년간 연구해오고 있었다. 하지만 정밀도를 높이는 데 거푸 실패한 상황이었다. 그런데 KAIST 도움을 받은 기상과학원 연구팀은 2년 만에 정확도를 98%까지 끌어올렸다. 복사물리의 연산 속도도 60배나 빨라졌다. 그 결과물을 정리한 논문 8편을 국제 학술지에 내면서 일약 국제적으로 주목받는 존재로 떠올랐다. 연구팀을 이끌어온 이혜숙 기상과학원 인공지능기상연구과장은 “현재 NOAA 현업 수치모델에 적용하도록 기술지원을 하는 중”이라고 설명했다.

이와함께 생성형 AI를 적용한 6시간짜리 초단기 예보 모델을 개발해 수치모델 없이 데이터만으로 예보 하는 시스템을 테스트하는 중이다. 아울러 현업 예보관들과 수시로 소통하며 예보 전 과정에서 인공지능이 예보관 판단을 보조할 수 있는 시스템을 구상 중이다. 이게 알파 웨더 개발 프로젝트의 2단계 사업이 될 전망이다.

빅테크들 경연장 된 AI 예보 시장

충북 청주시 오창의 국가기상수퍼컴퓨터센터에 설치된 기상 전용 수퍼컴퓨터 5호기. [뉴스1]

충북 청주시 오창의 국가기상수퍼컴퓨터센터에 설치된 기상 전용 수퍼컴퓨터 5호기. [뉴스1]

기상과학원이 차근차근 연구를 수행해가는 동안 해외 사정은 급박하게 돌아갔다. 포문을 연 것은 AI 시대 황태자인 미국 기업 엔비디아였다. 2021년 지구의 디지털 트윈(현실 속 사물의 상태를 컴퓨터에 그대로 구현하는 것)인 ‘어스2’ 구축 계획을 발표하면서다. 그 일환으로 챗GPT가 사용한 학습 기법을 적용한 ‘포캐스트넷’을 2022년 공개했다. 지구를 촘촘한 격자로 나누고, 측정된 관측값을 통해 기상 예보를 하는 ‘전 지구 모델’이 기상 분야에 적용된 첫 시스템이다. 이 과장은 “당시엔 2030년은 돼야 전 지구적 모델이 가능할 것으로 생각했는데 자금과 기술력이 월등한 빅테크의 능력에 세계 기상 관계자들이 모두 놀랐다”고 설명했다.

포캐스트넷은 열흘간 예보를 2초 만에 해내는 놀라운 속도에 비해 정확도가 다소 떨어진다는 평가가 많았다. 그런데 그해 11월 중국 화웨이가 ‘팡구 웨더’라는 중단기 예측모델을 발표하며 진짜 충격이 왔다. 정확도가 월등히 높아졌기 때문이다. 한 달 뒤 구글이 227개나 되는 변수를 포괄해 한층 정교해진 예보 모델 ‘그래프캐스트’를 발표해 또 한 번 세상을 놀라게 했다. 이듬해 오픈 AI의 지분을 가진 마이크로소프트는 클라이맥스(ClimaX)라는 다층 예보모델을 발표한다. 단기 예보를 넘어 10년 이상 전망까지 시도하는 시스템이다.

현재 각국 기상청은 수치모델 방식을 통한 예보를 하고 있다. 이 방식은 지표와 대기층의 바람·수증기·온도·기압 등을 관측해 데이터로 만들고 이를 복잡한 물리 방정식에 넣고 계산한다. 이 결과를 예보관이 판단해 오류를 보정한 뒤 최종적으로 예보를 낸다. 문제는 연속적으로 풀어야 하는 방정식의 양이 어마어마하다는 점이다. 그래서 예보의 정확도와 속도를 높이려면 자국 상황에 맞는 수치모델과 연산을 빠르게 수행하는 수퍼컴퓨터의 능력이 관건이다. 한국 기상청도 수퍼컴퓨터를 5호기까지 순차적으로 도입했고, 한국형 수치예보모델(KIM)을 개발해 현업에 적용하고 있다.

그런데 AI 방식은 예보 프로세스에서 수치모델을 없앴다. 대신 측정한 기상 데이터를 바탕으로 기압과 바람, 온도와 습도 같은 기상 변수 간의 연관성을 파악하는 훈련을 했다. 생성형 AI 학습에 방대한 데이터 뭉치가 필요하듯, 기상예보 AI도 관측값이란 데이터가 필수다. 마침 유럽 중기예보센터(ECMWF)에 누적된 37년 치 자료가 공개돼 있어 빅테크들은 아무런 제약 없이 학습에 활용할 수 있었다.

이혜숙 기상과학원 인공지능기상연구과장이 전산실에 설치된 기상 전용 그래픽처리장치(GPU)를 점검하고 있다. 검은 캐비닛 장비에 놓인 노란색 상자가 2대의 서버다. 각 서버에는 8장의 GPU가 들어가 있다. 최현철 기자

이혜숙 기상과학원 인공지능기상연구과장이 전산실에 설치된 기상 전용 그래픽처리장치(GPU)를 점검하고 있다. 검은 캐비닛 장비에 놓인 노란색 상자가 2대의 서버다. 각 서버에는 8장의 GPU가 들어가 있다. 최현철 기자

이 패턴을 토대로 100만 곳이 넘는 곳에서 수집한 현재와 6시간 전 관측값을 분석해 6시간 후의 날씨를 예측한다. 이 예측값을 다시 관측값으로 사용해 다음 6시간 뒤 예보를 하는 식으로 10~12일간의 날씨를 예측한다. 수치모델을 거치지 않고 곧장 결론을 추론하는 만큼 예보에 1~2분밖에 걸리지 않는다. 그런데로 수치예보 모델보다 정확하다. 구글이 지난해 11월 ‘사이언스’에 게재한 논문에 따르면 1380가지 상황을 두고 그래프 캐스트와 유럽 기상예보센터 시스템(HRES) 예보를 비교한 결과 대부분 그래프 캐스트가 정확했다고 한다.

다만 아직 관측 데이터와 모델의 연산 값을 비교해 불일치를 해결하는 과정이 빠져있어 기상청의 작업을 거친 데이터만 사용할 수 있다는 한계가 있다. ‘자료동화’라 불리는 이 과정이 수퍼컴퓨터 사용량의 절반 이상을 차지한다.

또 과거 데이터로 학습한 만큼 기존에 없었던 이상기후가 나타날 경우 정확히 예측해내기 어렵다. 오류를 무시하고 마치 사실인 것처럼 예보를 내는 경우도 종종 나온다. 언어모델의 ‘환각(할루시네이션)’ 증세가 여기서도 나타나는 것이다. 특히 AI의 예보는 어떤 과정을 거쳐 결과를 내놓는지 설명을 하지 않는 블랙박스여서 문제가 생기면 원인을 밝혀 수정하는 데 애를 먹는다. 전문가들은 이런 문제점을 보완해 실시간 현업 예보에 사용하려면 몇 년쯤 시간이 더 필요할 것으로 예상한다.

힘겨운 예보 주권 수호

2021년 기상청에도 GPU가 도입됐다. 총 16장인데 전부 연구팀에 할당됐다. 연구팀 안내를 받아 GPU가 설치된 기상과학원 전산실을 둘러봤다. 가끔 언론에 소개되는 수퍼컴퓨터 운영센터를 기대했는데, 8개의 GPU가 2장씩 담긴 슬롯 4개를 묶은 서버 2개가 전부인 초라한 규모였다. 이 중 한 대로 연구하고, 나머지는 백업과 다른 용도로 사용한다. 부족한 용량은 KAIST나 광주의 국가 인공지능 데이터 센터에서 빌려 쓴다. 그런데 기상 데이터가 워낙 방대해 유선 전송을 해보니 시간이 너무 오래 걸렸다. 결국 데이터를 옮겨 담은 저장매체를 여행용 캐리어에 싸들고 비행기로 나르는 일도 벌어졌다. 최첨단 인공지능 연구에 동원되는 지극히 아날로그적인 모습이다. 이 과장은 “얼마 전 엔비디아와 회의에서 ‘같은 모델을 돌리며 차례로 GPU 투입량을 늘려보니 3200장까지는 선형적으로 소요 시간이 줄었다’는 말을 들었다”며 “테스트 결과보다도 3200장을 쓸 수 있었다는 게 더 놀라웠다”고 말했다.

그럼에도 국내 인공지능 기상 연구는 외국에 밀리지 않고 선전하고 있다. 기상과학원과 협업 중인 윤세영 KAIST 기상예측연구센터장은 “아직은 빅테크들의 수준이 압도적인 것은 아니고, 우리도 인력과 장비를 투입하면 충분히 어깨를 겨눌만한 상황”이라고 평가했다.

물론 지금과 같은 투입 자원 격차가 계속되면 결과도 달라질 수밖에 없다. 빅테크들의 기술 발전 속도도 예사롭지 않다. 자칫 관측 자료는 공짜로 제공하고 예보와 가공자료는 다시 사 쓰는 일이 벌어질 수도 있다. 지금의 수퍼컴퓨터와 수치예보 모델을 잘 가다듬는 것도 중요하지만 새로운 변환에도 함께 대비할 때다.

엔비디아·구글·MS 등 AI 기반 기상예보모델 개발 경쟁 치열
수십 년 기상 패턴 학습, 10일 후 날씨 2분 만에 정확히 예측

‘알파 웨더’ 계획 발표 2년 만에 미국 해양대기청 넘어섰지만
명량해전 수준 장비는 문제 … R&D 투자타이밍 놓치지 말아야