성큼 다가온 시계열 데이터베이스 시대, 대한민국 공공조달 시장을 위한 제언

2024년 4월 15일
6분 분량

최종 수정일: 2024년 7월 22일

마크베이스 CEO 김성진

시작하며

이 글은 특별히 대한민국 공공시장에서 특히, 수많은 데이터를 다루는 IoT 및 관련 IT 분야에 계시면서 공공 조달을 통해 다양한 제품과 서비스에 대한 요청을 수행하는 조직이나, 해당 제품과 서비스를 공급하고 계시는 분들을 위해 작성되었습니다.

한 회사의 대표로서 어느 정도의 편향성을 배제할 수는 없으나, 대한민국의 IT 시장이 더 성숙하고, 발전하기를 바라는 마음과 현재 우리 공공 조달 시장의 현황을 보면서 느끼는 안타까움을 정리해서 이 글을 작성하게 되었습니다.

가트너가 보는 이미 성큼 다가온 시계열 데이터베이스의 시대

정보 기술 연구 및 자문을 제공하는 세계적인 회사 가트너는 Data Management 라고 불리는 분야에 대한 리포트를 몇 년 주기로 발간합니다. 이를 통해 Hype Cycle이라는 특유의 그림으로 다양한 데이터 처리 기술 분야가 어떤 상태에 있으며, 어떻게 발전하고 있는지 한눈에 알 수 있도록 귀한 정보를 제공하고 있습니다.

이 Hype Cycle은 특정한 기술(제품)의 발전 단계를 아래의 다섯 부분으로 나누어서 구분합니다.

1.Innovation Trigger (혁신의 시작)

이 지점은 최초로 신기하고, 놀라운 기술이 나타나는 지점입니다.
이 기술이 시장에 얼마나 잘 받아들여질지 모르지만, 최소한 고객들의 눈에는 그렇게 보이는 지점입니다.

2.Peak of Inflated Expectations (기대의 정점)

아..정말 세계를 바꾸는 놀라운 제품이라고 고객이 믿고, 기대도 최고조에 달합니다.
초기 도입 기업들이 앞다투어 활용하고, 실제로 많은 결과를 기대하지요.

3.Trough of Disillusionment (환멸의 저점)

실제 기대와는 다른 지점들이 생겨나고, 제품과 기술에 깊이 실망하는 지점입니다.
대부분의 기술과 제품들이 이 단계에서 사라집니다.
그렇지만, 혁신의 씨앗이 뿌리를 내리고, 살아남는 기술이 생기기 시작하죠.

4.Slope of Enlightenment (계몽의 경사)

실제 시장에서 유용성이 입증되고, 적지 않은 기업들이 해당 기술을 채택합니다.
이 기술이 제공하는 혁신과 가치가 시장에 입증되는 확산 단계를 말합니다.

5.Plateau of Productivity (생산성의 고원)

기술과 제품의 가치가 완벽히 입증되고, 고유의 시장이 형성된 단계입니다.
더이상 시장에 혁신이라는 가치로 접근하는 것이 아니라, 공기와 물 처럼 당연히 사용하고, 활용해야 하는 상용재로서 존재하는 지점입니다.

그러면, 인터넷에서 찾은 2019년도에 발간된 Data Management의 Hype cycle을 한번 볼까요? (2019년도 발간되었으니, 모든 데이터는 2018년도에 수집된 것으로 보입니다)

Peak of inflated Expectations에 보시면, 놀랍게도 Time Series DBMS(시계열 데이터베이스)가 가장 꼭대기에 턱하니 자리잡고 있습니다. 이 당시 가트너는 전세계 시장의 1~5%의 관련자가 이 제품을 인지하거나, 관련 산업 분야에 적용하고 있는 것으로 파악했습니다. 그리고, 옅은 푸른색으로 표시가 되어 있으니, 향후 2~5년 이후에 완전히 성숙된 시장으로 갈 것으로 예측을 했습니다.

TMI일지 모르지만, 위 그림에서 Trough of disillusionment에는 Key-Value DBMS가 “obsolete before plateau”라고 표시되었고, 이는 이 기술과 제품이 더 이상 시장에서 생명력을 잃었다는 뜻이기도 합니다. 그러고 보니, 최근에 Key-Value DBMS에 대한 이야기는 거의 들어본 적이 없습니다.

그리고, 최근 발간된 2023년도의 Hype Cycle을 한번 살펴보겠습니다.

위의 그림에서 Slope of Enlightenment라고 불리는 곳에 Time Series DBMS가 자리를 잡고 있습니다. 또한, 해당 표시된 흰색 점은 길어야 2년 이내 완전한 시장으로 자리를 잡을 것으로 예측하고 있습니다. 가트너에 의하면, 2023년 현재 전세계에서 관련자 산업군 인구의 20~50%가 이미 Time Series DBMS를 인지하고 있을 뿐만 아니라, 현업에 적용하고 활발하게 사용하고 있다고 분석하고 있습니다.

그러면, 도대체 저는 이 Time Series DBMS 기술 발전과 대한민국의 공공 조달 시장과는 어떤 관계가 있다고 말하려는 걸까요?

센서 데이터가 먹어치우는 새로운 세상

이 글을 읽으시는 분들의 95%는 아마도 시계열 데이터베이스가 뭔지, 이게 어디에 쓰는 것인지 처음 듣는 분들이라고 저는 확신합니다. (가트너에서 전세계 관련자의 20%~50% 정도라고 보면, 더 느린 한국에서는 훨씬 낮은 비율의 실무자들이 해당 기술을 접하겠지요)

그렇지만, 이미 해외에서 주요한 기술 제품으로 자리를 잡은 시계열 데이터베이스가 무엇인지 간단히 살펴보는 것은 상당히 가치가 있는 것 같습니다.

시계열 데이터베이스는 2010년대 중반 이후에 급속하게 개발되어 확산된 역사적 맥락이 있으며, 이는 IoT 시장에서 주요한 데이터 원천인 센서의 보급과 스마트-X 라고 불리는 지능화된 우리의 환경과 밀접한 관련이 있습니다. 우리 주위만 둘러봐도 건물이나 장비, 자동차, 도로, 심지어 거실을 보아도 센싱을 통해 지난 10년전에는 존재도 거의 없던 IoT 센서 데이터가 어디에서나 수집되는 지능화된 환경에 살고 있습니다. 즉, 센서 데이터가 세상을 덮고 있으며, 우리는 좋으나 싫으나 이러한 시대를 살고 있으며, 아래 그림에서 그 현실을 적나라하게 보여줍니다.

2020년 이후부터 가장 많은 데이터 유형은 센서와 사물 정보이고, 이런 데이터가 기하급수적으로 늘고 있으며, 데이터를 지금 당장 그리고, 실시간으로 처리해야 한다고 합니다.

당연하게도 이러한 어마어마하게 증가하는 센서 데이터를 “시계열 데이터”라고 부르고, 기존의 오라클과 같은 데이터베이스는 잘 처리하지 못했기에 사람들이 “시계열 데이터베이스”를 개발했으며, 세계 시장은 이 제품을 빠르게 채택하고 있다는 것입니다. 이것이 바로 제가 하고 싶은 이야기의 가장 큰 핵심이기도 합니다.

시계열 데이터베이스와 함께 달리는 세계, 멈춘 듯 대한민국

도대체 시계열 데이터베이스는 어디에 사용될까요? 간단하게 자료를 살펴봐도 오늘 현재 너무나도 많은 곳에 아래와 같이 적용되고 있습니다.

스마트 빌딩 : 빌딩의 센서 데이터 수집 및 지능화 및 화재/위험 방지
스마트 팜 : 다양한 식물 생장 환경 데이터 수집 및 AI를 통한 자율 통제
스마트 Ship/Car/Engine : 대량의 Mobility 데이터 수집 및 분석/의사 결정
스마트 팩토리 : 실시간 제조 및 진동 등의 분석/품질 관리
스마트 시티 : 기후/교통/인구/먼지 등의 통합 대규모 데이터 수집 및 실시간 대응
오일/에너지/가스 인프라 : 압력/밸브/온도/습도/진동 센서 데이터 실시간 수집/위험 예방
IT 인프라 모니터링 : IDC 센터 장비 데이터 수집/감시/비정상 상황 예측
로봇 및 로봇 제어/비정상 탐지 : 모터 및 구동부 데이터 수집/분석/위험 예방
반도체 및 자율 자동차 : 실시간 데이터 저장 및 분석을 통한 품질 개선 및 장애 예방
제조 및 화학 분야 : 실시간 제조 데이터 수집/분석/품질 개선
이차전지/충전지 분야 : 실시간 배터리 상태 수집/시각화/분석/화재 예방 및 실시간 알람
금융/증권 분야 : 실시간 거래 데이터 수집/분석/초고속 거래 시스템/이상 탐지
AI 기반의 이상 감지 및 예지 보전 : 빠른 데이터 추출을 통한 학습 및 추론 데이터 인프라
기타 대량의 센서 데이터가 발생하는 모든 케이스..

보수적으로 봐도 겨우 20% 정도의 업계 관련자가 인지하는 시장에 이 정도로 적용되는 상황이라면, 앞으로 2년후에는 어떻게 될까요? 아마도, 대부분의 사회 인프라에 시계열 데이터베이스가 적용되지 않을까요?

반면에, 왜 “멈춘 듯 대한민국”이라는 제목을 여기에서 썼는지 아마도 쉽게 추측하실 수 있을 것 같습니다.

시계열 데이터베이스 도입의 가장 큰 이유 - 비용 대비 효율성

그렇다면, 시계열 데이터베이스가 어떤 장점이 있기에 우리를 제외한 다른 나라는 이미 20~50% 까지 이 제품을 활용하고 있을까요?

가장 큰 이유는 수백에서 수천억건의 센서 데이터를 실시간으로 저장하고, 이를 빠르게 검색할 수 있게 해 주면서, AI와 같은 데이터 분석을 실시간으로 가능하게 해 주는 유일한 데이터 저장소이기 때문입니다. 이러한 장점과 더불어 데이터 처리에 들어가는 다양한 리소스인 CPU 사용률 및 저장소 공간 그리고, 이를 구동하는 전력 소비량 절감과 구비해야 하는 하드웨어 인프라 비용을 몇배 이상 혁신적으로 줄일 수 있는 경제적인 이유가 그 채택의 주요한 이유일 것입니다.

우리나라에서는 일반적으로 이러한 센서 데이터를 단순히 “빅데이터”라는 이름으로 활용하고 있기 때문에 공공조달 시장에서는 “하둡”과 같은 빅데이터 플랫폼이 활용되거나, 전통적인 데이터베이스를 통해 구축되는 경우가 많습니다. 물론 훌륭한 구축업체를 통해 좋은 결과를 얻는 경우도 있지만, 시스템 전체의 효율성과 확장성, 서비스 성능, 그리고, 유지보수 비용을 고려해 볼 때 “시계열 데이터베이스”를 도입하는 것과는 매우 큰 차이를 보입니다.

아래는 전세계 공식 데이터베이스 엔진 성능 및 비용을 비교할 수 있는 TPC.org에서 공식적으로 발표하고 있는 자료를 인용해서 IoT 센서 데이터 처리에 투입되는 총 소유비용에 대해 시계열 데이터베이스와 하둡을 비교를 해봅시다.

(https://www.tpc.org/tpcx-iot/results/tpcxiot_price_perf_results5.asp?version=2)

위에서 보시는 바와 같이 한 유닛(1000개 단위)의 데이터를 처리하는데 시계열 데이터베이스가 1($54.85)이라고 한다면, 하둡의 경우 무려 6.01배($329.75)의 비용을 더 지불해야 합니다. 더구나, 이 비용은 하드웨어와 SW의 총 소유비용을 합한 것인데, 여기에서는 그 HW가 앞으로 증가할 저장소 공간 비용과 동작에 필요한 미래의 추가 전력 비용은 아예 고려도 되지 않았습니다. 더 큰 문제는 하둡과 같은 빅데이터 솔루션은 본질적으로 IoT 센서 데이터를 실시간으로 처리하기 힘든 구조적인 문제도 함께 가지고 있고, 더불어 관련 전문 인력을 찾고, 개발 및 관리하기도 꽤나 번거롭고 힘들다는 것이겠지요.

한가지 더 부연하자면, 향후 에지 컴퓨팅이라는 트렌드가 더 확산되면, 손바닥만한 컴퓨터를 통해 단말 장치에서 수집되는 센서 데이터를 처리하고, 분석해야 하는 요구 사항이 더 많아집니다. 이 경우에는 하둡을 아예 사용할 수도 없기에 시계열 데이터베이스와 같은 단일한 패키지 소프트웨어가 유일한 대안이 될 것입니다.

패러다임이 바뀌는 에너지 전환 시대의 데이터 서비스

공공조달 시장에서 다양한 IoT 센서 데이터를 수집하는 가장 큰 이유는 대민/대관 데이터 서비스가 앞으로의 주요 목표이기 때문입니다. 이를 통해 국민 삶의 질을 높이고, 이 서비스를 통해 보다 나은 복지 국가로 나아가는 첫번째 단추로 삼고 있습니다.

그렇지만, 이제는 그 대민 서비스 과정 조차도 ESG 라는 글로벌 아젠다를 고려해야 할 뿐만 아니라, 미래의 한 모습으로 격상되는 현재까지 이르렀습니다. (참고자료 : https://www.lifein.news/news/articleView.html?idxno=14487)

그렇다면, 시계열 데이터베이스와 ESG가 도대체 무슨 연관이 있는 걸까요? 그것은 바로 ESG 실천을 통한 “탄소중립 달성”과 친환경 서비스가 가능한 주요한 한 축이기 때문입니다.

앞으로 대민/대관 데이터 서비스를 위한 데이터량과 서비스 종류, 갯수, 이를 위한 시스템 인프라는 영원히 그리고, 지속적으로 늘어날 수 밖에 없습니다. 그리고, 이러한 서비스가 예전의 인터넷 혁명시기의 “공공기관 홈페이지 구축”과 같은 대폭발과 같이 “공공 데이터 서비스 구축”이라는 이름으로 다시 한번 폭발할 것이 확실합니다.

아마도 가장 낮은 전력 소모량과 하드웨어 구축 비용, 그리고 탄소 중립과 친환경에 가까운 고효율 데이터 서비스 시스템을 구축하고, 이것이 ESG 미션에 가장 합당하다고 칭찬받는 것이 해당 공공기관의 가장 자랑스러운 훈장이 되는 시대가 오고 있지 않을까요?

달리기 시작하는 대한민국의 공공기관들

앞의 가트너 Hype Cycle을 소개드리면서 전세계의 시계열 데이터베이스 산업 적합도가 20% 정도면, 우리나라는 최대 5% 미만일 것이라고 말씀드린 바 있습니다.

정말 기쁘게도 우리나라 공공기관에서도 작년부터 조금씩 이러한 데이터 서비스의 문제를 인식하고, 하나씩 시계열 데이터베이스를 음으로 양으로 도입하고 있다는 사실이 매우 놀랍고, 희망을 가지게 하는 부분이기도 합니다.

공공기관의 시계열 데이터베이스 활용 유무를 가장 쉽게 파악할 수 있는 지표는 “나라장터”를 통한 제품 구매일 것입니다.

아래는 수력원자력주식회사에서 관련 센서데이터 통합 분석을 위해 시계열 데이터베이스를 구매하신 기록입니다.

또한, 2023년 IoT 센서를 통한 계측 데이터 저장과 분석을 위한 “한국건설기술연구원”에서도 관련 프로젝트를 진행하셨던 기록을 찾을 수 있었습니다.

마지막으로 오늘 현재 서울시의 어마어마한 IoT 센서 데이터를 서비스하는 “서울시 실시간 도시 데이터 서비스”에 핵심 데이터베이스로 “시계열 데이터베이스”를 활용하고 있다는 것도 알 수 있었습니다.

모두들 알고 계신 바와 같이 공공 조달 시장에서는 발주처에서 어떠한 철학과 고민을 가지고, 관련된 프로젝트의 상세한 그림을 그리는 지가 매우 중요하고, 그렇지 않다면, 구축 업체의 의견을 무조건 들을 수 밖에 없는 현실이 있습니다. 그렇기 때문에 공공조달 시장에서 해당 공공조직이 현재 어떠한 문제점에 봉착해 있으며, 앞으로 이 문제를 어떻게 해결하고, 향후 서비스를 어떤 모습으로 변모시킬 것인지에 대해 더 많은 외부의 경험과 정보를 습득해야 하는 숙제가 있는 것 또한 사실일 것 같습니다.

많은 어려움에도 불구하고, 전세계적인 기술 트렌드와 앞으로의 고민을 통해 새로운 기술과 제품을 찾고, 늘 새로운 시도를 수행하는 관련 담당자 분들에게 다시 한번 경의를 표합니다. 또한, 이 글의 주제인 “시계열 데이터베이스”의 효용과 필요성에 대해 공공조직의 발전과 미래에 도움을 줄 수 있는 방향으로 더 많은 고민과 분석이 있으면 하는 바램을 가져봅니다.

데이터, 데이터, 데이터 그리고, 혁신

이제는 누가 뭐라고 해도 데이터의 시대입니다.

특히, IoT화 되고 있는 오늘 현재, 가장 많은 미래의 데이터는 시계열 센서 데이터일 것입니다. 세상이 변하고, 제품이 새롭게 나오고, 서비스의 형태와 사용자들의 패턴과 요구 사항이 하루가 멀다하고 바뀌는 오늘 “데이터 서비스”에 대한 현재의 모습을 다시 한번 되돌아 보게 됩니다. 부족하지만, 이 자료가 공공관련 시장에서 많은 역할을 하고 계시는 여러 조직의 발전과 혁신에 도움이 되는 한조각의 벽돌이 되었으면 하는 바램을 마지막으로 이만 줄일까 합니다.

감사합니다.