메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

한빛출판네트워크

한빛랩스 - 지식에 가능성을 머지하다 / 강의 콘텐츠 무료로 수강하시고 피드백을 남겨주세요. ▶︎

IT/모바일

빅 데이터의 장애물에 대한 현실적 관점

한빛미디어

|

2013-01-14

|

by HANBIT

14,162

제공 : 한빛 네트워크
저자 : Jenn Webb
역자 : 권정민
원문 : A realistic look at big data obstacles

빅 데이터와 빅 데이터 지성, 사생활 보호에 대한 장애물들은 구글과 페이스북을 논쟁의 중심으로 끌어온다.

다음은 이번 주에 데이터 관련해서 내 눈길을 끈 몇 가지 이야기들이다.

빅 데이터의 커다란 장애물

Jenn Webb 포린 폴리시(Foreign Policy)의 최신호에서, 우리 프리드먼(Uri Friedman)은 "오늘날 데이터의 홍수의 가능성 및 위험을 설명하기 위해 이 단어를 사용하게 된 과정"으로 빅 데이터의 간략한 역사를 보여주었다. 두 달 전, MIT의 알렉스 "샌디" 펜틀런드(Alex "Sandy" Pentland)는 하버드 비즈니스 리뷰(Harvard Business Review)에서 빅데이터의 가능성들을 살펴보았다. 이번 주에는, 몇 가지의 위험 요소들에 대해 조사하였다. 펜틀런드는 빅 데이터는 현실로 다가왔으며, 이에 대한 가능성 만이 아닌 장애물 역시 살펴 볼 필요가 있다고 썼다. 그는 빅 데이터의 가장 큰 장애물 중 하나로 의미있는 상관 관계를 찾는 문제를 꼽았다.
데이터가 거대할 때, 앞으로 닥칠 어떤 문제를 가정해도 충분히 "통계적으로 유의미한" 답을 얻을 수 있을 것이다. 빅 데이터에서 상관관계를 파악하자면, 대부분의 경우 그다지 쓸만한 관계가 나오지 않을 것이다. 예를 들어, 빅 데이터를 통해서 월요일마다 대중교통이 아니라 자가용을 운전하는 사람들이 감기에 걸린 경향이 더 높다는 결과를 얻었다고 해보자. 흥미로운 이야기이고, 전통적 연구 방법으로도 이는 확실히 참이라는 결과를 얻었다. 대박이다!

하지만 이게 왜 참이지? 이게 연관성이 있는 건가? 단순한 우연인 것 아닌가? 알 수 없다. 이상하겠지만, "통계적으로 유의미"한지 고려하기 위해서는 너무 많은 데이터의 관계를 확인해야 하므로, 이는 우리가 일반적으로 사용하는 과학적인 방법을 더 이상 사용하기 어렵다. 따라서, 표준적인 질의응답 기반의 연구 절차 - 몇 세기 동안 시스템을 구축하는 데에 사용해 온 방법론-는 점점 쓸모 없어지고 있다.
빅 데이터가 우리를 친숙한 실험실 밖의 실제 세상에서 실험을 하도록 종용함으로써 안전 지대 밖으로 몰아내고 있고, 인과적 상관관계 검정 방법 또한 달라지고 있다고 펜틀런드는 말한다. 또한 이를 충분히 활용할 수 있을 정도로 상관관계를 이해하고, 데이터의 소유주를 파악하고, 데이터를 새로운 방식으로 결합하는 법에 대해서 익히고, 어떻게 개인이 각 개인의 데이터에 대한 권한을 갖게 하여 빅 데이터의 사생활 침해 관련 문제를 해결할 수 있는지 등의 문제를 제기하였다. 이 글과 더불어 펜들런드의 이전 빅 데이터 관련 글들은 금주의 추천 글이다.

빅데이터를 통한 정보 전달

NPR의 대테러 특파원 다이나 템플-래스턴(Dina Temple-Raston)은 금주에 정부 당국자들이 "아랍의 봄" 같은 반정부 시위를 포함한 전 세계적으로 불안정한 상황에 대해서 빅 데이터가 무엇을 할 수 있는 지를 찾기 시작했고, 이를 위해서 스웨덴-미국 합작 스타트업 회사인 레코디드 퓨처(Recorded Future)가 이를 위해서 일하고 있다고 보도했다.

템플-래스턴은 이 회사는 전 세계의 소셜 미디어 플랫폼, 정부의 경제 규모, 신문 기사 같은 곳에서 가져온 거대한 양의 데이터를 분석하여 가시적으로 시계열을 탐색할 수 있는 알고리즘을 가지고 있다고 기술하였다. 레코디드 퓨처의 공동 창업자인 크리스토퍼 알버그(Christopher Ahlberg)는 템플-래스턴에게 이 개념은 "사람들과 장소에 연결되어 있고 사건과 시간으로 구성된, "행동 신호"라고 부르는 것을 추출하는 것"이라고 설명하면서 "시간은 분석에서 종종 무시되는 차원이지만, 우리는 이 것이 핵심이라고 생각한다"라고 덧붙였다.

알고리즘 예측 기술은 이에 대해 회의적인 관점을 갖지 않으면 찾을 수 없다고 템플-래스턴은 말한다. 레코디드 퓨처가 리비야의 안사-알샤리아(Ansar al-Sharia) 무장 단체와 예멘의 알 카에다(al-Qaida)를 같은 이름으로 연결해서 생긴 - 같은 이름이라고 해도 두 단체가 연관된 건 아니었다-최근의 예측 오류에 대해서 언급했다. 이는 빅 데이터 분석에서 사람이 관여해야 하는 부분이다. 알버그는 레코디드 퓨처 사용자는 전문가들이고 이런 실수를 잡아낼 수 있을 것이라고 말했다. "우리는 똑똑한 사람들을 더 똑똑하게 해주기 위해 데이터를 시각화해서 보여줄 뿐이에요." 그는 템플-래스턴에게 말했다. 전문은 이 곳에서 읽을 수 있다.

구글과 페이스북이 당신을 지켜보고 있다... 그리고 저장한다

당신이 페이스북이나 구글에 가치가 얼마나 되는지 알고 싶은가? 크롬과 파이어 폭스에 새로 추가된 프라이버시픽스(Privacyfix)라는 사생활 침해 관련 플러그인은 해당 플랫폼 사용자가 확인하고자 하는 사생활 관련 설정에 대한 질문을 통해서 가치를 계산한다. 아스 테크니카(Ars Technica)의 조 멀린(Joe Mullin)은 "구글에서의 지난 60일간의 행동을 측정하고 이를 통해 1년간의 활동을 추정하고, 검색 당 가치를 매긴다. ... 또한 이를 통해 얼마나 많은 웹사이트 방문 기록이 페이스북과 구글에 전달되는 지도 알려준다."라고 한다.

이 플러그인은 사용자의 페이스북과 구글의 사생활 관련 설정을 탐색해서 질문 가능한 부분을 강조한 후, 이를 사용자가 바꾸고자 하는 설정으로 바로 연결해 준다. 또한 당신을 추적하고 있는 웹사이트를 알려주는 탭도 있다. 이 플러그인을 만든 프라이버시 초이스(Privacy Choice)의 설립자 짐 브록(Jim Brock)은 멀린에게 "난 이 과정을 본 후 놀라지 않는 사람을 본 적이 없다"고 말했다. 이는 나 역시도 마찬가지였다 - 페이스북은 내가 방문한 사이트 중 84%를 추적하고 있었고, 내 페이스북의 프로필이 친구들의 앱에서 얼마나 많이 사용되는 지를 알고는 놀랄 수밖에 없었다. 이 플러그인은 지금은 크롬과 파이어폭스에서밖에 사용할 수 없지만, 회사 FAQ를 보면 사파리 버전도 개발중이라고 한다. 멀린은 트위터와 링크드인에도 비슷한 사생활 설정 프로그램을 적용한 모바일 앱도 개발중이라고 하였다.

우리의 사생활 데이터를 파는 것은 물론 별로 새로운 것은 아니다. 크리스 테일러(Chris Taylor)와 론 웹(Ron Webb)은 금 주에 "우리가 파는 것과 얻는 것의 교환에 대하여"라는 글을 기고했다. "가끔 사생활 보호 절차가 약한 것이 도움이 되기도 한다." 하지만 "우리의 개인 정보를 팔 지 결정하기 전에, 사람들이 우리에 대해서 무엇을 알고자 하는 지, 왜 알고자 하는지, 어떻게 언제 그 정보를 수집하고자 하는지, 그리고 이를 통해서 우리가 무엇을 얻을 수 있는 지 명확하게 정의 될 필요가 있다." 라고 그들은 기록한다. 이 내용에 대해서는 여기에서 읽을 수 있다.
TAG :
댓글 입력
자료실

최근 본 상품0