1장_ 데이터 분석 입문: 잘게 쪼개세요
데이터는 어디든지 있습니다. ‘데이터 분석가’이든 아니든 간에 요즘에는 누구든지 많은 양의 데이터를 취급해야만 합니다. 하지만 데이터 분석 기술이 있는 사람들은 많은 양의 데이터를 어떻게 취급해야 하는지, 그 방법을 알기 때문에 다른 어느 누구보다도 훨씬 유리한 위치에 있습니다. 그들은 가공되지 않은 숫자를 이용해 실제 세계에서 작용할 수 있는 정보를 이끌어냅니다. 그들은 복잡한 문제와 데이터를 분해하여 구조화하고, 그들의 비즈니스가 가지고 있는 문제의 핵심으로 곧바로 접근하는 방법을 압니다.
2장_ 실험: 이론을 검증하라
여러분의 생각을 증명할 수 있나요? 실제로 실험을 통해서 검증할 수 있나요? 과제를 해결하고 세상이 실제로 어떻게 돌아가고 있는지를 밝히는 데는 뛰어난 실험만한 게 없지요. 관찰한 데이터에만 의존하는 대신 잘 수행된 실험은 종종 인과관계를 파악하는 데 도움을 줍니다. 효과적인 실증 데이터가 있다면 여러분의 분석과 판단은 더욱 설득력을 가지게 될 것입니다.
3장_ 최적화: 최대한 가져가기
우리 모두는 무언가를 더 얻고 싶어 합니다. 그리고 우리는 항상 어떻게 그것을 얻을 수 있을지 알아내려 합니다. 더 얻고 싶은 것, 예를 들어 이익, 돈, 효율, 스피드는 숫자로 나타낼 수 있습니다. 데이터 분석 도구는 결정 변수를 조작해 보거나 해답과 원하는 것을 최대한으로 얻을 수 있는 최적점을 찾는 데 도움을 줄 수 있습니다. 이 장에서는 이러한 기능이 구현되어 있는 도구 중 하나로, 강력한 스프레드시트 해 찾기(Solver) 패키지를 사용하게 될 것입니다.
4장_ 데이터 시각화: 그림은 여러분을 더 똑똑하게 만듭니다.
수치표 만으로는 충분하지 않습니다. 여러분의 데이터는 여러분이 셀 수 없을 정도로 많은 변수를 가지고 있기 때문에 매우 복잡합니다. 수많은 스프레드시트를 차분히 검토하는 것은 그저 번거로운 일에 그치지 않습니다. 실제로 그것은 시간 낭비가 될 수 있습니다. 명확하면서도 많은 변수를 다루는 시각화는 여러분이 스프레드시트를 가만히 보고만 있다면 놓쳤을 전체적인 상을 작은 공간을 할애하여 보여줍니다.
5장_ 가설 검증: 그렇지 않다고 말해줘
세상은 설명하기 까다로울 수 있습니다. 그리고 미래의 사건을 예측하기 위해 복잡하고 서로 성질이 다른 데이터를 다뤄야 할 경우에는 극도로 어렵습니다. 그렇기 때문에 분석가들은 명백한 설명을 채택해서 이것을 참이라고 가정하는 일은 하지 않습니다. 주의 깊게 데이터를 분석하여 추론하면 수많은 선택지를 꼼꼼하게 평가하고, 여러분이 가지고 있는 모든 정보를 모델에 통합할 수 있습니다. 여러분은 이제 반증에 대해 배웁니다. 반증은 직관적이지는 않지만 신중하게 추론할 수 있는 강력한 방법입니다.
6장_ 베이지안 통계: 첫 걸음을 내딛다
여러분은 항상 새로운 데이터를 수집할 것입니다. 그런데 여러분이 수행하는 모든 분석에는 문제와 관련된 데이터를 반드시 포함시킬 필요가 있습니다. 반증을 통해 서로 다른 종류의 데이터 소스를 다루는 방법을 살펴봤는데, 확률은 어떻게 구할 수 있을까요? 이 질문에 답하기 위해서는 베이즈 정리라는 매우 유용한 분석 도구가 필요합니다. 이 정리는 기준 비율을 도입해 끊임없이 변화하는 데이터에서 쉽사리 알 수 없는 중요한 정보를 발견하는 데 도움을 줍니다.
7장_ 주관적인 확률: 숫자에 대한 믿음
때로는 숫자로 표현하는 것이 좋은 방법입니다. 정말 그렇습니다. 하지만 그 숫자가 여러분 자신의 심리 상태와 여러분의 믿음을 표현할 때에만 그렇습니다. 주관적인 확률은 여러분의 예감에 진정한 엄밀함을 더할 수 있는 간단한 방법이며, 여러분은 지금부터 그 방법을 살펴볼 것입니다. 여러분은 그 과정에서 표준편차를 이용하여 데이터 분포를 평가하는 방법을 배우게 될 것입니다. 그리고 지금까지 배웠던 강력한 분석 도구 중 하나가 특별히 모습을 드러낼 것입니다.
8장_ 휴리스틱 분석: 인간처럼 분석합니다
현실 세계에는 여러분이 다룰 수 있는 것보다 더 많은 변수가 있습니다. 여러분이 얻을 수 없는 데이터가 항상 존재합니다. 비록 여러분이 이해하고 싶은 것에 대한 대부분의 데이터를 가지고 있더라도 최적화하는 방법은 항상 찾기 힘든 일이며 시간을 많이 소모하게 됩니다. 다행히도 실제로 여러분이 하는 대부분의 생각은 ‘합리적인 극대화’가 이뤄지지 않았습니다. 여러분이 빨리 결정을 내릴 수 있도록 불완전하고 불확실한 정보를 경험 법칙을 사용하여 처리합니다. 그리고 정말 멋지게도 이러한 경험 법칙은 실제로 동작하고 데이터 분석가에게도 중요한 (그리고 필요한) 도구로 사용됩니다.
9장_ 히스토그램: 숫자의 모양
차트에서 얼마나 많은 것을 알 수 있을까요? 데이터를 그림으로 나타내는 방법은 매우 많습니다, 그 중 하나는 특별합니다. 그것은 히스토그램입니다. 히스토그램은 일종의 차트 비슷한 것으로, 데이터의 개요를 보여주는 매우 빠르고 쉬운 방법입니다. 여러분은 이 작고 강력한 차트를 사용하여 데이터의 분포, 변동성, 중심 집중 경향 등을 측정하려고 합니다. 데이터 집합이 아무리 크더라도 히스토그램을 그리면 데이터에서 무슨 일이 일어나는지 ‘볼’ 수 있습니다. 또한 우리는 놀랄 만큼 강력한 새로운 무료 소프트웨어 도구를 사용하여 그 작업을 하게 됩니다.
10장_ 회귀: 예측
예측하세요. 회귀는 제대로 사용하면 특정값을 예측할 수 있는, 믿을 수 없을 정도의 강력한 통계 도구입니다. 대조 실험과 함께 사용하면 회귀는 미래를 예측하는 데 정말 도움이 됩니다. 기업은 회귀를 최대한 활용하여 고객의 행동 양식을 설명하는 모델을 구축할 수 있습니다. 이제 곧 회귀를 적절히 사용하면 매우 유용하다는 사실을 알게 될 겁니다.
11장_ 오류: 오류를 잘 처리하다
세상은 복잡합니다. 그렇기 때문에 예측이 제대로 적중하지 않더라도 크게 실망할 일은 아닙니다. 하지만 여러분이 오차 범위와 함께 예측 결과를 제공한다면 여러분과 고객은 평균적인 예측값을 알 수 있을 뿐만 아니라 일반적으로 어느 정도의 오차가 예상될지를 알 수 있습니다. 오차를 나타내면 여러분의 예측과 의견에 대해 더 자세한 전망을 세울 수 있게 됩니다. 그리고 이 장에서 소개하는 도구를 사용하면 오차를 제어할 수 있는 방법을 익혀 오차를 가능한 한 억제하고 신뢰도를 향상시킬 수 있습니다.
12장_ 관계형 데이터베이스: 관련 지을 수 있나요?
변수가 너무 많은 데이터를 어떻게 구조화할 수 있을까요? 스프레드시트는 행과 열로 된 2차원입니다. 수차원의 데이터를 다룰 때 테이블 형식은 순식간에 구식이 되어버리죠. 이 장에서는 스프레드시트로는 다변량의 데이터를 관리하기 어렵다는 것을 먼저 깨닫고, 관계형 데이터베이스 관리 시스템을 사용하여 다양한 쌍의 다변량 데이터를 쉽게 저장하고 가져올 수 있는 방법에 대해 배우게 될 겁니다.
13장_ 데이터 정리: 순서를 부여하다
데이터 구조가 엉망이면 데이터를 사용할 수 없습니다. 또한 데이터를 수집하는 많은 사람들은 정돈된 데이터를 유지하기 위해 귀찮은 작업을 마다하지 않고 있습니다. 데이터가 정리되지 않으면 데이터를 분할하여 식을 실행하거나 데이터를 보는 것조차 할 수 없습니다. 데이터를 무시하는 것이 나을 겁니다. 그렇죠? 사실 더 적절하게 처리할 수 있습니다. 데이터에 필요한 형식에 대한 명확한 전망을 가지고 몇 가지 텍스트 조작 도구를 사용하면 심하게 지저분한 데이터를 유용한 상태로 바꿀 수 있습니다.
부록 i_ 남은 것들: 상위 10개 항목(다루지 않은 것들)
정말 큰 일을 해내셨습니다. 하지만 데이터 분석은 매우 광범위하고 항상 진화하는 분야이기 때문에 아직 학습할 것이 많이 남아있습니다. 이 부록에서는 본문에서는 설명할 기회가 없었지만 이어서 학습할 주제에 대한 톱 10을 다룹니다.
부록 ii_ R을 시작해봅시다: R 설치하기
모든 데이터 처리 기능은 그 내부를 살펴보면 엄청나게 복잡합니다. 하지만 다행히도 R을 설치하고 시작하는 일은 단 몇 분이면 할 수 있습니다. 이 부록에서는 R을 설치하는 방법을 설명합니다.
부록 iii_ 엑셀 분석 도구 설치: 분석 도구
엑셀의 멋진 기능 중 일부는 기본적으로 설치되어 있지 않습니다. 맞아요. 3장에서 최적화를 실행한다든지, 9장에서 히스토그램을 실행하려면 해 찾기 기능 및 분석 도구를 활성화해야 합니다. 이 두 확장 기능은 엑셀에 기본적으로 포함되어 있지만 여러분이 설정해주지 않으면 활성화되지 않습니다.