메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

한빛출판네트워크

Think Stats : 프로그래머를 위한 통계 및 데이터 분석 방법

리얼타임 eBook

번역서

판매중

  • 저자 : 앨런 B. 다우니
  • 번역 : 김석우
  • 출간 : 2013-09-03
  • 페이지 : 179 쪽
  • ISBN : 9788968486340
  • 초급 초중급 중급 중고급 고급
3.8점 (5명)
좋아요 : 29

데이터를 분석하려면 통계 개념을 알아야 한다!

 

몇 년 전부터, 여러 곳에서 미래의 유망 직종으로 '데이터 사이언티스트'라는 신종 직업을 언급하고 있다. 데이터 사이언티스트란 분석과 개발이 명확히 구분되던 과거와 달리, 데이터 분석과 개발을 동시에 할 수 있는 고급 인력을 뜻한다. 특히 요즘처럼 빅데이터가 주목받는 시대에는 빅데이터를 자유자재로 다루는 것은 물론, 그 데이터를 분석하여 데이터 속의 숨은 가치를 찾아 주는 데이터 사이언티스트의 수요가 늘어날 수밖에 없다. 하지만 기존 분석가들에게는 개발이라는 장벽이, 기존 개발자들에게는 통계학이라는 장벽이 존재한다. 개발 회사 및 연구소에 근무하면서 통계학이라는 장벽을 넘지 못하여 좌절하는 개발자가 종종 있다. 

 

데이터를 분석하려면 통계 개념을 잘 알고 있어야 한다. 또한, 데이터 분석 도구의 개념도 잘 알아야 한다. 이 책은 데이터를 수집하거나 패턴 및 테스트 가설을 세우는 일 등의 사례를 배우면서 데이터 분석 프로세스와 데이터 분석 방법의 이해를 하는 데 도움이 될 것이다.

 

대상 독자

  • 빅데이터를 다루려는 빅데이터 관련 프로그래머
  • 통계 관련 개념의 이해를 높이고 싶은 프로그래머

 

데이터 사이언티스트를 꿈꾸는 프로그래머를 위한 통계 및 확률 입문서
이 책은 통계와 확률을 학습하는 데 어려움을 겪고 있는 개발자들에게 데이터를 분석하는 데 필요한 통계적 이론을 개발자의 관점에서 쉽게 설명해 준다. 과거, 통계학 입문 서적은 복잡한 수식을 통한 이론 설명에 집중하여 개발자가 쉽게 접근할 수 없었다. 이에 반해, 이 책은 복잡한 수식을 배제하고 파이썬 코드를 이용해 개발자적인 관점에서 이론 부분을 설명함으로써, 개발자들도 복잡한 통계 이론을 쉽게 이해할 수 있도록 돕는다. 물론 통계 전문 용어를 그대로 사용하기 때문에, 초반에는 개발자들이 조금 어렵고 낯설게 느낄 수도 있다. 하지만 매 장 부록마다 해당 장에서 다룬 통계 전문 용어를 설명해 주고 있어서, 큰 문제가 되지는 않을 것이라 확신한다.

 

이 책은 확률과 통계 입문 수업을 위한 새로운 종류의 교과서로, 크기가 큰 데이터 세트를 분석하는 데 통계를 어떻게 사용하는지에 초점을 맞췄다. 이 책은 또한 컴퓨터를 이용한 접근 방식을 취하는데, 여기에는 다음과 같은 장점이 있다.

 

  • 프로그램을 작성해 봄으로써 자신이 이해한 부분을 발전시켜 보고 검증해 볼 수 있다. 예를 들어, 최소제곱법, 잔차, 그리고 결정계수를 계산하는 함수를 작성할 수 있다. 코드를 작성하고 검증하기 위해서는 이와 관련된 개념을 이해해야 하며, 잘못 이해하고 있었던 부분은 무조건 바로 잡아야 한다.
  • 독자는 통계학적 거동을 검증하기 위해 실험을 해 볼 수 있다. 예를 들어, 몇몇 분포에서 샘플(표본)을 생성해 보면서 중심극한정리를 탐구해 볼 수 있다. 파레토 분포에서 생성한 변수의 합이 정규로 수렴하지 않는 것을 보면서는 CLT의 기본 가정을 기억하게 된다.
  • 시뮬레이션을 통해 수학적으로 이해하기 힘든 개념을 쉽게 이해할 수 있다. 예를 들어, 몬테카를로 시뮬레이션으로 p-value의 근사치를 계산함으로써 p-value의 의미를 더 잘 이해할 수 있다. 
  • 이산 분포와 컴퓨터를 이용한 계산을 통해 베이지안 추정 같은, 입문 수업에서 다루기 힘든 주제를 논할 수 있다. 예를 들어 '독일 탱크 문제'와 관련하여 사후 분포를 계산해 보라고 한다면? 이 문제는 수리적 또는 해석학적으로는 풀기 어렵지만 컴퓨터로 계산하면 놀라울 정도로 쉽게 답을 구할 수 있다.
  • 파이썬 같은 범용 프로그래밍 언어를 사용하기 때문에 어떤 종류의 데이터든 대부분 불러올 수 있다. 특정 통계 툴에 맞게 포맷 변경과 정제 작업을 거친 데이터도 아무 제약 없이 사용할 수 있다.
  • 이 책은 프로젝트 중심으로 구성했다. 실제 강의에서 필자는 학생들에게 한 학기 동안 통계적 문제 해결 방식이 필요한 프로젝트를 주고, 그에 알맞은 데이터를 찾게 하였다. 여러분은 여러 통계적 기술을 데이터에 직접 적용해 봄으로써 데이터에 대해 배울 수 있다.
앨런 B. 다우니 저자

앨런 B. 다우니

올린 공과대학교(Olin College of Engineering)의 컴퓨터공학과 교수로, 웰즐리 대학교(Wellesley College)와 콜비 대학교(Colby College), UC 버클리 대학교(UC Berkeley)에서 강의하였습니다. UC 버클리 대학교에서 컴퓨터공학 박사 학위를, MIT에서 석사와 학사 학위를 받았습니다. 이 책 외에도 『Think Stats』(2013), 『파이썬을 활용한 베이지안 통계』(2014, 이상 한빛미디어)를 집필하였습니다.

김석우 역자

김석우

데이터를 사랑하고 데이터 속에서 무엇을 발견할지 항상 고민하는 분석가 겸 개발자다. 학부 때는 수치 해석 및 수학적 최적화 방법에 매료되어 수학을 전공했고, 석사 때는 통계적 데이터 마이닝에 매료되어 통계학 석사를 취득하였다. 이후 Daum Communications 검색 본부 데이터 마이닝 팀을 거쳐 현재는 SK플래닛 데이터 기술연구소의 Data Analytics 팀에서 근무하고 있다. Daum에 근무할 때부터 최근 화두가 되고 있는 빅데이터를 유용하게 분석하여 가치를 뽑아내는 것에 대해 고민해 왔으며, 단순히 분석뿐만 아니라 개발에 어떻게 활용할 수 있을지 연구하고 있다. 개발자들에게 분석 및 통계 이론을 전파하려고 노력하며, 분석가들에게는 분석을 위한 개발 방법과 최신 기술을 전파하기 위해 노력 중이다.

1. 프로그래머를 위한 통계적 사고
  1.1 첫아이는 예정일보다 늦게 태어날까?
  1.2 통계적 접근
  1.3 전미 가족 성장 조사
  1.4 테이블과 레코드
  1.5 유의성
  1.6 용어 정리

 

2. 기술 통계
  2.1 평균값과 평균
  2.2 분산
  2.3 분포
  2.4 히스토그램으로 표현하기
  2.5 히스토그램 그리기
  2.6 PMF 표현하기 
  2.7 PMF 그리기
  2.8 극단값
  2.9 그 외의 시각화 방법
  2.10 상대 위험도
  2.11 조건부 확률
  2.12 결과 해석하기
  2.13 용어 정리

 

3. 누적 분포 함수
  3.1 학생 대 교수 비율의 역설
  3.2 PMF의 한계 
  3.3 백분위수
  3.4 누적 분포 함수
  3.5 CDF 표현하기
  3.6 다시 설문 조사 데이터 살펴보기
  3.7 조건부 분포
  3.8 난수
  3.9 요약 통계 다시 짚어 보기
  3.10 용어 정리

 

4. 연속 분포
  4.1 지수 분포
  4.2 파레토 분포
  4.3 정규 분포
  4.4 정규 확률 그림
  4.5 로그 정규 분포
  4.6 왜 모델링을 해야 하는가?
  4.7 난수 생성하기
  4.8 용어 정리

 

5. 확률
  5.1 확률 법칙
  5.2 몬티 홀
  5.3 푸앵카레
  5.4 그 외의 확률 법칙
  5.5 이항 분포
  5.6 스트리크와 핫스팟
  5.7 베이즈 정리
  5.8 용어 정리

 

6. 분포에 대한 연산
  6.1 왜도 
  6.2 확률변수
  6.3 확률밀도함수, PDF
  6.4 합성곱
  6.5 왜 정규 분포인가?
  6.6 중심극한 정리
  6.7 분포 프레임워크
  6.8 용어 정리

 

7. 가설 검정(검증)
  7.1 평균차 검정하기
  7.2 분계점 선택
  7.3 효과에 대한 정의
  7.4 결과에 대한 해석
  7.5 교차입증
  7.6 베이즈주의 확률에 대한 보고
  7.7 카이 제곱 검정
  7.8 효율적 재표본추출(재표집)
  7.9 검정력
  7.10 용어 정리

 

8. 추정
  8.1 추정 게임
  8.2 분산 추정
  8.3 오차 이해하기
  8.4 지수 분포
  8.5 신뢰 구간
  8.6 베이지안 추정
  8.7 베이지안 추정 구현하기
  8.8 중도절단 자료
  8.9 기관차 문제
  8.10 용어 정리

 

9. 상관
  9.1 표준 점수
  9.2 공분산
  9.3 상관
  9.4 pyplot으로 산포도 그리기
  9.5 스피어먼 순위 상관
  9.6 최소제곱법
  9.7 적합도
  9.8 상관관계와 인과관계
  9.9 용어 정리

요즘 다양한 분야에서 컴퓨터공학과 통계를 접목시켜 재미난 연구결과를 만들어내고 있습니다. 특히 생명공학쪽에서 이러한 부분이 크게 진전되고 있다고 하네요. 통계를 처음 접하려는 분 보다는 이미 통계학과 파이선 지식이 있는 분이라면 좀 더 재밌게 책을 읽을 수 있지 않을까 싶습니다. 이론과 코딩 부분이 조금 더 분리되었더라면 조금 더 매끄럽게 책을 읽을 수 있지 않을까하는 아쉬움도 좀 있네요.

책을 선택하기 며칠 전, 회사 선배가 "빅 데이터에 대해서 좀 알아요?"라는 질문을 했다. 이 질문을 받고 왜 알아볼 생각을 안했을까 라고 스쳐가듯 생각하던 중 "프로그래머를 위한 통계 및 데이터 분석 방법"이라는 책 제목에 이끌려 선택을 하게 되었다.
그리고 왜 프로그래머를 위한 책인지에 대한 궁금증과 함께 책을 읽어나갔다.

이 책은 데이터 분석을 위한 통계 방법들에 대해 자세히 설명되어 있다. 실제 강의에서 필자가 이 책을 교재로 사용했다고 한다. 그래서인지 개념을 설명하는 부분이나 예제를 통해 하나의 문제를 이어서 풀어나가는 점이 좋았다.
책의 구성을 간단히 설명해보면
- 기술 통계 : 평균값과 평균, 분산, 분포, 히스토그램, PMF, 극단값, 상대위험도, 조건부 확률
- 누적 분포 함수 : 백분위수, 누적 분포 함수, CDF 표현, 조건부 분포, 난수
- 연속 분포 : 지수 분포, 파레토 분포, 정규 분포, 로그 정규 분포, 난수 생성
- 확률 : 여러가지 확률 법칙, 이항분포, 스트리크와 핫스팟, 베이즈 정리
- 분포에 대한 연산 : 왜도, 확률변수 및 확률밀도 함수, 합성곱, 중심극한 정리, 분포 프레임 워크
- 가설 검정 : 평균차 검정, 교차 입증, 카이 제곱 검정, 재표집
- 추정 : 추정 게임, 분산 추정, 오차 이해하기, 지수 분포, 신뢰 구간, 베이지안 추정
- 상관 : 표준 점수, 공분산, 상관, 최소제곱법, 상관관계와 인과관계

적고 보니 제대로 이해하고 넘어간 부분이 몇개 없는 것 같다. 그만큼 어려운 책이였다. 매 챕터마다 "용어정리" 부분이 있어서 용어라도 이해하고 넘어갈 수 있었다.
실제 수학과 다니는 사람들은 이 책을 얼만큼 이해할 수 있을까 라는 생각을 하게 되었다.
나도 대학에서 통계학 강의를 들었던 게 생각났다., 제대로 통계학을 배우고 싶다면 이 책을 통해 학습한다면 좋은 교재가 될 거라 생각된다.

한빛미디어 | 한빛리더스 | ebook | Think Stats | 앨런 B. 다우니

이번에 소개할 책은 바로 Think Stats 라는 책이다. 이 책은 프로그래머를 위한 통계 및 데이터 분석 방법을 기초부터 소개하고 있는 책이다. 개인적으로 이런 책은 어려워도 꼭 한번 읽어봐야한다는 생각을 가지고 있었다. 하지만 막상 이 책을 접하고 나서는 처음에는 얼핏보고는 수많은 수학공식을 보고 많이 당황했다. 하지만 차분하게 읽어 내려가다 보니 점점 재미있었고 흥미를 가지고 볼 수 있었다. 어렵기보다는 공식과 이에 관한 여러 내용이 함께 나와 있어서 읽기도 쉬웠다.

이 책의 저자인 앨런 B. 다우니는 MIT를 나온 대표적인 수재중에 한명이고 주로 전산학과와 관련된 강의를 하고 있다. 그는 서문에서 "확률과 통계 입문 수업을 위한 교과서로, 크기가 큰 데이터 세트를 분석하는 데 통계를 어떻게 사용하는지 초점을 맞췄다. 이 책은 또한 컴퓨터를 이용한 접근 방식을 취하고 있다."라고 밝히고 있다. 전자과나 전산과 학생이라면 가장 어려워하고 피하려고 하는 과목이 있다면 대표적인 과목으로 확률과 통계라를 과목일 것이다. 어려운 것도 있고 배운 지식을 어디에 사용할지 몰라서 피하게 되는 과목이라는 인식이 있다. 하지만 이 책에서는 프로젝트를 중심으로 구성이 되어 있어서 책을 읽으면서 직접 통계를 내어 보고 확률을 계산하고 적용을 할 수 있어서 보다 현실감 있게 다가왔다. 그래서 보다 현실적으로 다가왔다. 실제로 책에는 Exercise라는 부분이 있다. 처음에는 이걸 왜 해야될까? 라는 생각을 하면서 막연하게 따라했었다. 그래서 조금은 다른 책들을 읽는 시간보다 더 많은 시간일 걸렸다. 꼭 실습을 권장하지는 않지만 시간이 허락한다면 직접 체험을 하면서 책에서 설명하고 있는 이론들을 적용해보면 좋을 것이다. 처음에 예제 파일과 각각의 코드가 설명이 되어 있어서 보다 쉽게 학습을 할 수 있다.

이 책의 가장 큰 장점은 실습과 용어에 대한 확실한 적립이 함께 이루어져 있다는 것이다. 대부분의 책에서는 개념에 관해서는 주저리주저리 몇 장에 걸쳐서 설명이 되어 있다. 이 책은 용어에 관해서는 간단하게 명료하게 정리가 되어 잇다. 예를 들면 "종단면 연구(경시적 자료 연구, 종단 연구): 같은그룹에서 시간에 따라 반복적으로 데이터를 수집한 모집단을 분석하는 연구." 이런식으로 정리가 되어 있어서 보다 명쾌하게 이해할 수 있도록 서술이 되어 있다. 그리고 나머지 부분에 대해서는 이론에 대한 설명을 공식을 바탕으로 설명을 하고 있어서 이해하는데 있어서 도움이 많이 되었다. 기존의 이론서에서는 길게 이론을 설명하고 있어서 조금은 따문하고 지루하다는 느낌을 받았다면, 이 책에서는 깔끔하고 명료한 설명이 있어서 확률과 통계에 대해서 호기심을 가지고 접근할 수 있었고 책을 계속 읽어 가면서 이 분야에 대한 인식을 바꾸어 놓을 만큼 재미있게 읽어 내려갈 수 있었다. 혹 수학이 막연하게 어려운 사람이라면 이 책을 접해보는것은 어떨까.

저자가 이미 집필 동기에서 밝혔듯이 확률과 통계 입문 수업을 위한 교과서가 이 책을 설명하는 데 가장 적합할 듯 싶다.
학생들에게 확률과 통계의 개념을 설명하기 위한 책이기 때문에 그 개념이나 용어에 대한 정리가 매우 잘 되어있다.
이 책은 각 챕터별로 그 개념을 설명해 주고난 후 예제 코드에 배운 개념을 프로그래밍할 수 있도록 다양한 연습문제를 주고 있다.
이 책에는 파이썬에 대한 설명은 없으니 그에 대한 공부(혹은 이수)는 따로 필요하다.
컴퓨터 공학과에서 배울 수 있는 확률과 통계교재로써 더할나위 없는 좋은 교재라고 생각한다. 다만 개인적으로 학과교재는 책으로 해야한다고 생각을 하기에 eBook으로만 출판된 점이 아쉽다.

프로그래머를 위한 통계 및 데이터 분석 방법이라는 부제를 가진 Think Stats는 번역서로 대학 교재(부교재)로 사용하기 위해 만든 책이며, 저자가 큰 세트의 데이터를 통계를 통해 어떻게 분석/해석할 수 있는지에 초점을 맞췄다. 그리고 학생들이 프로젝트 중심으로 테스트를 진행 할 수 있도록 했으며, 무료로 사용할 수 있도록 많은 배려가 뭍어 있는 책이다.
이 책은 전산학을 공부하는 학생 또는 데이터 분석을 통계를 통해 하려는 프로그래머를 위한 책이다.
한가지 아쉬운 점은 번역서로서 몇 가지 예는 우리 실정에 맞게 수정했으면 좋았을 것 같다. 미국에 상황을 이해해야 하는 부분이 있기 때문이다.
파이썬을 이용하여 샘플을 제작했으며, 그래픽 라이브러리를 추가하면 그래프로 표현됨을 확인할 수 있다. 하지만 테스트에 필요한 과정이 누락되어 알아서 필요한 부분을 설치해야 함이 조금은 불편할 수 있다.
전반적으로 샘플중심이고 강의 부교재로 보이기 때문에 통계에 대한 전반적인 지식은 필요해 보인다. 이론서와 함께 활용서로서는 좋은 교재이며, 테스트를 진행하면서 책을 본다면 내용을 이해하는데는 큰 무리가 없을 것이다.
번역서라 우리나라 실정에는 안맞는 부분도 있지만, 통계관련 책이 나온다는 것 자체가 데이터(빅데이터등..)에 대한 관심이 많아지는 상황에서 긍정적으로 평가한다.

결제하기
• 문화비 소득공제 가능
• 배송료 : 0원배송료란?

배송료 안내

  • 20,000원 이상 구매시 도서 배송 무료
  • 브론즈, 실버, 골드회원이 주문하신 경우 무료배송

무료배송 상품을 포함하여 주문하신 경우에는 구매금액에 관계없이 무료로 배송해 드립니다.

닫기

리얼타임 eBook 안내

PDF 형식으로 제공되며, 다운로드한 eBook은 PDF 포맷을 지원하는 디바이스 또는 프로그램에서 제한없이 열람할 수 있습니다. 또한 eBook 내의 텍스트 검색 및 인쇄도 가능합니다.

리뷰쓰기

닫기
* 도서명 :
Think Stats : 프로그래머를 위한 통계 및 데이터 분석 방법
* 제목 :
* 별점평가
* 내용 :

* 리뷰 작성시 유의사항

글이나 이미지/사진 저작권 등 다른 사람의 권리를 침해하거나 명예를 훼손하는 게시물은 이용약관 및 관련법률에 의해 제재를 받을 수 있습니다.

1. 특히 뉴스/언론사 기사를 전문 또는 부분적으로 '허락없이' 갖고 와서는 안됩니다 (출처를 밝히는 경우에도 안됨).
2. 저작권자의 허락을 받지 않은 콘텐츠의 무단 사용은 저작권자의 권리를 침해하는 행위로, 이에 대한 법적 책임을 지게 될 수 있습니다.

오탈자 등록

닫기
* 도서명 :
Think Stats : 프로그래머를 위한 통계 및 데이터 분석 방법
* 구분 :
* 상품 버전
종이책 PDF ePub
* 페이지 :
* 위치정보 :
* 내용 :

도서 인증

닫기
도서명*
Think Stats : 프로그래머를 위한 통계 및 데이터 분석 방법
구입처*
구입일*
부가기호*
부가기호 안내

* 온라인 또는 오프라인 서점에서 구입한 도서를 인증하면 마일리지 500점을 드립니다.

* 도서인증은 일 3권, 월 10권, 년 50권으로 제한되며 절판도서, eBook 등 일부 도서는 인증이 제한됩니다.

* 구입하지 않고, 허위로 도서 인증을 한 것으로 판단되면 웹사이트 이용이 제한될 수 있습니다.

닫기

해당 상품을 장바구니에 담았습니다.이미 장바구니에 추가된 상품입니다.
장바구니로 이동하시겠습니까?

자료실