왜 데이터 분석에서 해석능력이 중요한가?

한빛미디어

2016-05-31

by Andrew Pease

20,305

우리의 알고리즘이 만들어낸 결과는 점점 더 많은 사람들이 이해하기 쉬워야 한다.

먼저 고백할 것이 있다. 나는 알고리즘을 사랑한다. 특정 알고리즘이 아니라, 알고리즘에 깔려 있는 사상을 사랑한다: 실세계에서 벌어지는 상호작용들을 어떤 공식으로 표현하고 분류할 수 있다는 것이 나를 편안하게 한다. 이것은, 실제로는 혼란스러운 세상이 기본적인 규칙들로 이루어져 있다는 것, 그리고 우리가 모델을 구성할 수있는 모든 데이터와 무한한 자원만 있다면 우리는 결국 우주와 그 너머를 향하는 길을 찾을 수 있다는 확신을 준다.

좀 이상하거나 무섭게 들리는 이야기인가? 그럴지도 모르겠다! 최근에는 "수학적 결론의 이념적 해석"을 뜻하는 "수학주의 (mathematism)"라는 단어가 제안되고 있다. 내 경험에 비추어볼 때, 이런 식의 완벽한 사상적인 움직임은 실세계의 해법을 찾는 것과는 맞지 않는다. 수학주의적인 관점에서, 수학은 어떤 단정적이고 절대적인 진실이다. 때로 수학자들은 그들의 추론을 받아들이지 못하는 사람들을 수학적 이교도들로 생각한다. 심지어 수학에의 맹목적인 믿음은 사람들의 비판적인 관점을 제한하기도 한다. 그런 맹목적인 믿음은 모든 과학적인 분야에서는 피해야 할 것이다.

혁신과 해석 능력의 교차점

데이터 과학자들은 발견한 결론이 절대적인 진실이라거나 (중요하더라도) 전략적으로 고려해야 할 부분이 아닌 어떤 것이라며 우쭐해서는 안된다. 데이터 과학자들은 결론을 내림에 있어 신중해야 하고, 알기 쉽게 설명할 수 있어야 한다. 통계 강좌를 듣는 대학생들의 90퍼센트는 그렇게 행동하는 것을 억지로라도 배우지만, 그런 경험을 싫어한다. (내가 직접 알아낸 숫자다. 틀렸다고 생각한다면 나에게 연락해보시길.) 이런 현상을 단순히 학생들 탓을 할 수는 없다. 만약 수학 이교도들이 우리의 분석을 따라오고 있는 중이라면, 우리는 분석을 명확하고 깔끔하게 해야 한다. 그와 동시에, 끊임없이 우리의 결론을 재고해야 한다.

그리고 이것이 내가 Patrick Hall이 최근 작성한 정확도와 해석 능력 사이의 균형에 대한 글을 기계 학습을 소개함에 있어 중요한 주제 중의 하나라고 생각하는 이유다. 우리는 알고리즘을 개혁함과 동시에 우리의 분석 결과를 증가하는 고객들이 쉽게 이해할 수 있게 만들어야 한다. 이것이 우리가 데이터를 분석함에 있어 놓쳐서는 안되는 중요한 두가지 목적이다. 알고리즘에 대해 먼저 이야기해보자.

알고리즘 혁신

알고리즘 혁신은 최신의 비선형 알고리즘이 적은 데이터만으로도 할 수 있는 한계를 확장하는 것을 뜻한다. 희소이벤트를 예측하는 것은 예측 모델에 있어 성배와 같은 존재로, 이해하기 쉬운 선형 모델은 이 예측 작업을 대부분 실패한다. 예를 들어보자.

어떤 야망적인 데이터 과학자가 학습 벡터 양자 기법(LVQ)을 PubMed 데이터베이스에 있는 약학 연구 텍스트들의 자동 분류 시스템 개발에 사용하려 한다고 가정하자. 결과가 매우 훌륭하게 나와서 문서의 80%를 올바른 카테고리로 나누었다 하더라도, 불신론자들은 20%의 오답에 집중하기 마련이다. 이 때 데이터 과학자들은 이교도들이 제대로 이해하지 못함에 좌절해 버려서는 안된다. 연구자들이 좀 더 빠르게 정확한 문서를 얻을 수 있도록 80% 정확도의 필터를 가지고 있는 것은, 그냥 무시하기에는 굉장히 중요한 프로세스의 개선이다.

이해하기 쉬운 결과

분석가들이 자신의 모델을 설명하기 쉽게 만드는 것은 매우 중요하다. 앞의 사례에서 모델을 더 명확하게 하려면, 분석가는 다음과 같은 질문에 답해야 한다:

준비된 텍스트 데이터에서 도출할 수 있는 핵심 개념은 무엇인가? 이 개념들의 핵심 가중 단어들을 사용함으로써 설명이 가능하다.
어떻게 이 도출된 개념들이 서로 사용작용해서 분석 정확도를 향상시킬 수 있는가? 몇몇 핵심 개념들의 상관도를 나타내는 산점도를 이용하면 된다.
모델은 점수를 매기기 위한 복합 관계를 어떻게 찾아내는가? LVQ는 "승자독식" 모델을 사용하는데 이것으로 비전문가들에게도 설명이 가능하다.
이러한 단계별 과정이 적절히 설명되더라도, 이교도들은 마음을 바꾸지 않을 수도 있다. 하지만 이 알고리즘으로 가능한 프로세스의 개선에는 좀 더 마음을 열 수도 있다.

이해하기 쉬운 결과를 만들고, 재현해야 하는 필요성으로 인해, 데이터 과학자들은 노트북을 인터페이스로 사용하기 시작했다. 데이터 과학자들은 프로그램 코드를 어려워하지 않는다. 데이터 과학자들은 코드를 통해 얻을 수 있는 유연함을 사랑한다. 하지만 성공적인 데이터 과학의 흐름에는 단순히 점수를 만들어내는 코드만 있는 것이 아니라, 하나의 스토리라인이 존재한다. 분석 과정을 탐색할 수 있는 그래프를 포함함으로써 - 그리고 그 그래프에 텍스트, 그림, 그리고 다른 방식으로 설명을 추가해서 - 데이터 과학자의 노트북은 단순히 분석 결과를 설명하기 위한 스크립트가 아니라 어느 정도 지식이 있는 중간 사용자들이 분석과 결론을 내리는 작업을 재현할 수 있는 명료함까지 가지게 된다 (에러가 발생했던 지점까지도 함께).

접근하기 쉬운 분석

거기에서 그만둘 필요가 있나? 나는 기계 학습의 흐름이 간단한 설명을 넘어서 더 진화해야 한다고 주장한다. 복잡한 알고리즘의 결과를 잘 이해하기 위해서, 이교도들은 분석 결과를 좀 더 직관적으로 이해할 수 있게 만들어야 한다. 직관적인 이해는 오직 한가지 방법으로만 가능하다: 연습하라! 접근하기 쉬운 분석의 세계로 들어오라.

접근하기 쉬운 분석은 비전문가들이 1-2-3 그래프, 기초 통계, 그리고 고급 예측 모델 비법 등을 이용해 데이터를 탐구할 수 있는 직관적이고 편한 인터페이스를 가지고 있다. 이것은 비즈니스 분석가들이 기계 학습이 무엇을 할 수 있는지 직관적으로 이해하도록 돕는 것 뿐만 아니라, 이 새로운 "시민 데이터 과학자"들이 그들의 결과를 팀메이트들과 공유하고 협력할 수 있게 만든다. 비즈니스 분석가들을 시민 데이터 분석가가 되도록 독려하는 것은 덜 숙련된 분석가들이 전문 데이터 분석가들의 결과를 확인하는 식의 lazy learning 타입으로 이끌 수도 있다고 생각한다.

다른 예를 들어보자. 나는 연구소, 생산, 그리고 컨트롤 데이터를 모두 통합해서 불량품이 발생할 확률이 높아지기 전에 미리 경고를 받을 수 있는 시스템을 말들고자 하는 맥주 양조업자와 프로젝트를 수행한 적이 있다. 몇 주동안 분석한 결과, 손실이 발생하는 것 같은 상황을 만드는 직원들과 외부 온도와 홉의 습도 사이에 분명한 연결점이 존재한다는 것을 찾아냈다. 이 문제를 발견하는 과정에서의 문제는 내가 맥주 (양조) 전문가가 아니라는 점이었다. 나는 데이터를 분석하면서 난관에 부딪히곤 했는데, 양조 전문가라면 시간을 낭비하지 않았을 터였다. 나에게 데이터를 살펴봐 줄 양조자 군대가 (혹은 한 단명이라도) 있었더라면, 나는 "돈이 되는" 데이터에 좀 더 빨리 도달할 수 있었을 것이다. 사업 단위에서 혁신을 이루는 데에는 전방위적인 데이터와 알고리즘 전문가, 그리고 데이터 발견 과정에서 필요한 사업 도메인 지식을 가지고 있는 전문가들이 필요하다.

문제는 데이터야, 멍청아.

마지막으로, 수학에 대한 맹목적인 신념이 또 다른 절대주의에 의한 위험이 될 수 있다: 바로 데이터주의다. 데이터는 늘 옳다고 생각하는 것은, 안일한 데이터 과학자들이 빠지기 쉬운 도 다른 독단일 뿐이다. 탄탄한 데이터 관리 경험을 쌓는 것이 기계 학습을 사용할 때 신뢰도를 향상시키는 핵심이다. 사용되는 데이터들은 일관적이고 완벽해야 한다. 더 많은 통찰을 얻기 위해서 이 주제에 대한 나의 웹캐스트를 참고하라.

기계 학습은 필연적으로 데이터, 알고리즘, 그리고 노하우로 시작된다. 그러나, 조직이 기계 학습의 이점을 얻기 위해서는 분석에 접근하기 쉬워야 한다. 이것을 인지함으로써, 극단적인 수학주의를 향한 기질을 제어할 수 있게 될 것이다.

기계 학습의 훌륭한 모범 사례들을 살펴보려면, 이곳 깃헙에 Patrick Hall이 만든 표를 참고하라.

***

원문 : https://www.oreilly.com/ideas/why-interpretability-matters-in-data-analytics

번역 : 한승균

TAG : 데이터 ,분석

이전 글 : 바나나 돌고래 간식 만들기

다음 글 : 디자인 패턴과 소프트웨어 구조

최신 콘텐츠

IT/모바일

왜 데이터 분석에서 해석능력이 중요한가?