개발

데이터, 모든 게 다 준비돼 있어도 실패할 수 있다

channel_editor_icon 파노스 알렉소풀로스

2022-03-29

14.6K

빅데이터와 인공지능의 시대. 데이터는 금광으로 여겨진다.

그리고 누군가는 금광에서 금을 채굴하려고 한다.

데이터에서 금을 캐내는 일련의 작업들을 데이터 과학, 데이터 분석, 비즈니스 인텔리전스 등

어떤 이름으로 부르든지 간에 지금 시대에는 데이터 관련 투자가 크게 늘었다.

데이터 전문가(공학자, 분석가, 과학자 등)의 수요도 급증했다.

그렇다면, 이쯤에서 궁금한 게 생긴다.

데이터가 금광이라는데, 금광에서 금을 채굴하는 일은 안녕하신지요.

그러니까, 금을 잘 찾고 있느냐고 묻는다면?

(음... 고민이 필요한 문제지만) 그게 또 항상 그렇지만은 않다.

때로는 조직에 거대한 데이터의 '바다'가 있다고 생각했으나

사실은 작은 '연못'에 불과했다는 점이 밝혀지기도 한다.

데이터는 있지만 금이 없을 때도 있고,

조직에서 사용할 만한 양의 금이 들어 있지 않을 때도 있다.

데이터와 금이 모두 있지만 정작 금 추출에 필요한

설비나 기술이 아직 사용할 만큼 충분히 발달하지 않은 때도 있다.

설혹 데이터 전문가에게 원하는 모든 것

(적절한 데이터, 찾아낼 수 있는 금, 최신 기술 등)이

있을지라도 실패할 수 있다.

이유는 무엇일까?

데이터 공급자와 이용자 간에 시맨틱 격차(semantic gap)가 있기 때문이다.

데이터 실무자로서 많은 사람은 주로 데이터 공급자 측에서 일한다.

데이터를 수집하고 생성하며, 데이터 모형을 사용해 해당 데이터를 표현·통합·저장·액세스할 수 있게 한다.

데이터를 사용하거나 활용할 수 있도록 준비하는 거다.

반면에 주로 데이터 활용 측에서 일하는 사람도 있다.

데이터 실무자는 데이터를 사용하여 예측하고 설명할 뿐만 아니라,

그 밖의 분석 솔루션 유형들을 구축하고 인공지능 애플리케이션을 구축하고 강화한다.

그리고 그런 사람들 중 많은 사람이 두 역할을 동시에 담당한다.

하지만, 그게 누가 되었던 모두 데이터에서 가치를 도출한다는 점에서 볼 때 같은 사명을 지닌다.

이 사명은 흔히 '시맨틱 격차'라고 부르는 것 때문에 절충된다.

즉, 공급자 측의 데이터 모형을 이용자 측에서 오해하거나 오용할 때나,

이용자 측의 데이터 요구사항을 공급자 측에서 오해할 때 생기는 상황 말이다.

두 상황 모두 데이터 시맨틱 모형화가 불충분하거나

모형화에 문제가 있어서 문제가 생긴다.

양측의 실무자들이 시맨틱 데이터 모형을 더 잘 사용하고

(격차가 크다면) 시맨틱 격차를 좁히는 방법은 무엇일까?

시맨틱 데이터 모형화의 의미

의미론, 그러니까 시맨틱스(semantics)는 사람들이 세상과 상호 작용할 때 사용하는 '기표'와 이 기표들(단어, 구, 부호, 기호)이 나타내는 사물, 즉 엔터티(존재, entity), 컨셉(개념, concept), 아이디어(관념, idea) 간의 관계와 관련있으며, 그 의미를 연구하는 분야다.

의미론의 목표는 사물의 의미에 대한 공통된 이해를 만들어 경험이나 관점이 다른 사람들이 서로를 이해하도록 돕는 데 있다.

이 의미론을 컴퓨터 과학에 적용한다면 컴퓨터 시스템이 사람과 그들이 생성하는 데이터가 의미하는 바를 더 정확하게 해석하고, 다른 이질적인 컴퓨터 시스템과 더 효율적이고 생산적으로 인터페이스 하는 데 도움이 된다.

그런 의미에서 '시맨틱 데이터 모형화'란 인간과 컴퓨터 시스템에서 모두 명료하고 정확하며 일반적으로 이해되는 방식으로 데이터를 설명하고 데이터 표현을 개발하는 일이라고 정의할 수 있다.

이 정의에 따르면 시맨틱 데이터 모형화 기술에는 메타 데이터 스키마, 통제어휘(controlled vocabulary), 택소노미(분류 체계, taxonomy), 온톨로지, 지식 그래프, E-R 모형(엔터티-관계 모형, entity-relationship model), 속성 그래프, 데이터 표현용 기타 개념 모형을 포함한 데이터 공예 기술들이 광범위하게 포함된다.

예를 들면, 핵심 의학 용어(예: 임상 연구 결과, 증상, 진단, 의료 절차)의 의미를 개념별로 분류하고 동의어와 정의를 제공하며 위계적 관계 등의 관계 유형을 통해 서로 관련지어 기술하는 시맨틱 모형인 SNOMED CT 표준 온톨로지의 일부분.

마찬가지로 유럽 연합 노동 시장 분야의 일자리, 역량, 자격에 관한 개념을 정의하고 상호 연관되는 다국어 시맨틱 모형(다국어 의미 모형)인 ESCOEuropean Skills, Competences, Qualifications and Occupations(유럽인의 기량, 역량, 자격, 직업) 분류의 스키마.

일반적으로 데이터 모형이 시맨틱(의미론적, semantic)이 되는 데 필요충분한 기준을 명확히 정의하기는 쉽지 않다. 그래서 데이터 커뮤니티에서 이에 관한 몇 가지 논쟁이 있기도 했다.

이와 비슷하게 특정 시맨틱 데이터 모형 유형의 정확한 특징과 속성을 명확하게 정의하기는 어렵고 논란의 여지가 있을 수 있다(예: 정확히 지식 그래프가 무엇인지, 온톨로지가 무엇인지, 이들의 차이점이 무엇인지).

시맨틱 모형은 지식과 추론 행태의 기호 표현으로 구성되는 반면, 머신러닝 모형은 하위 기호 수준의 잠재 표현(사람이 명료하게 해석할 수 없는 표현이라 잠재 표현이라고 함)으로 구성된다.

후자는 경계가 선명하지 않은(경계가 선명한 집합 즉, 크리스프 집합이라고도 부르는 보통집합으로 표현할 수 없는) 지식(예: 통계적 규칙성과 유사성)을 포착하는 데 뛰어나고, 전자는 이산적인 사실들을 포착하고 이러한 사실들이 서로 같은지를 정밀하게 파악하는 데 뛰어나다.

예를 들면, 머신러닝 모형은 고양이와 개를 분리하는 일반적인 특징을 학습할 수 있지만, '라이카'라는 이름의 개가 우주까지 올라간 소련 개라는 사실을 추적할 수는 없다.

그렇다고 해서 이 말이 시맨틱 모형화(의미 모형 구성, 시맨틱 모델링)가 머신러닝보다 데이터를 처리를 본질적으로 더 잘하거나 못한다는 의미는 아니다.

단지 두 가지 접근 방식이 서로 사뭇 다르다는 의미일 뿐이다. 그리고 이러한 차이점 때문에 인공지능 접근 방식과 데이터 과학 접근 방식이 서로 경쟁적이기보다는 상호 보완적이라고 봐야 한다.

머신러닝은 시맨틱 모형을 자동화하는 데 도움이 될 수 있으며, 시맨틱 모형화는 머신러닝 모형의 개발을 가속하고 향상하는 데 도움이 될 수 있다.

이 글은 <시맨틱 데이터 모형화> 도서 내용 일부를 편집하여 작성되었습니다. 시맨틱으로 데이터를 보다 유용하게 활용하는 방법은 하기 도서에서 확인할 수 있습니다.

『시맨틱 데이터 모형화』

데이터, 모든 게 다 준비돼 있어도 실패할 수 있다

시맨틱 데이터 모형화의 의미

댓글

인기 콘텐츠

인사이트