메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

한빛출판네트워크

한빛랩스 - 지식에 가능성을 머지하다 / 강의 콘텐츠 무료로 수강하시고 피드백을 남겨주세요. ▶︎

데이터 과학을 위한 통계

데이터 분석에서 머신러닝까지 50가지 핵심 개념

한빛미디어

번역서

절판

  • 저자 : 피터 브루스 , 앤드루 브루스
  • 번역 : 이준용
  • 출간 : 2018-10-02
  • 페이지 : 328 쪽
  • ISBN : 9791162240984
  • 물류코드 :10098
  • 개정판정보 :개정판이 새로 출간되었습니다. 개정판 보기
  • 초급 초중급 중급 중고급 고급
4.7점 (9명)
좋아요 : 21

데이터 과학에 필요한 만큼만 배우는 실용주의 통계학 

 

데이터 과학자가 고전 통계를 낱낱이 알아야 하는 것은 아니다. 이 책은 다양한 통계 기법을 데이터 과학에 적용해보며, 중요한 것과 중요하지 않은 것을 구분하는 실용적인 방법을 알려준다. EDA, 회귀분석, 분류 등 오늘날 데이터 분석과 머신러닝에서 사용하는 기법들의 근본이 되는 통계 개념을 확실하게 이해할 수 있다. 

 

733px2.jpg

 

피터 브루스 저자

피터 브루스

통계 교육기관 Statistics.com 설립자. Statistics.com은 100여 개 통계 강의를 제공하며 그중 3할은 데이터 과학자가 대상이다. 치밀한 마케팅 전략을 수립해 최고 수준의 전문 데이터 과학자들을 강사로 모집해왔다. 이 과정에서 데이터 과학자를 위한 통계라는 주제에 대해 폭넓은 시야와 전문적 식견을 쌓았다.

 

앤드루 브루스 저자

앤드루 브루스

데이터 과학 실무 전문가. 30년 이상 학계, 정부, 기업계에서 통계학과 데이터 과학을 연구했다. 워싱턴 대학교에서 통계학 박사학위를 땄고 학술지에 여러 논문을 발표했다. 저명한 금융회사부터 인터넷 스타트업에 이르기까지 업계에서 발생하는 폭넓은 문제에 대해 통계 기반 솔루션을 개발했고, 데이터 과학의 실무 활용 측면에서 전문가로 인정받고 있다.

 

이준용 역자

이준용

인공지능과 빅데이터 기술에 관심이 많은 연구원. 한국과학기술원(KAIST)에서 전자공학 박사학위를 받고, 일본 ATR IRC 연구소에서 인간-로봇 상호작용에 대해 연구했으며, 미국 아이오와 주립대학교에서 대사회로 관련 데이터베이스를 구축했습니다. 2014년부터 2021년까지 미국 퍼시픽 노스웨스트 국립연구소에서 다양한 생명과학 연구에 참여했습니다. 현재는 한 바이오텍 기업에서 수석 데이터 과학자로 암 진단과 관련된 일을 하고 있습니다.

CHAPTER 1 탐색적 데이터 분석

1.1 정형화된 데이터의 요소

1.2 테이블 데이터

1.3 위치 추정

1.4 변이 추정

1.5 데이터 분포 탐색하기

1.6 이진 데이터와 범주 데이터 탐색하기

1.7 상관관계

1.8 두 개 이상의 변수 탐색하기

1.9 마치며

 

CHAPTER 2 데이터와 표본분포

2.1 랜덤표본추출과 표본편향

2.2 선택 편향

2.3 통계학에서의 표본분포

2.4 부트스트랩

2.5 신뢰구간

2.6 정규분포

2.7 긴 꼬리 분포

2.8 스튜던트의 t 분포

2.9 이항분포

2.10 푸아송 분포와 그 외 관련 분포들

2.11 마치며

 

CHAPTER 3 통계적 실험과 유의성 검정

3.1 A/B 검정

3.2 가설검정

3.3 재표본추출

3.4 통계적 유의성과 p 값

3.5 t 검정

3.6 다중검정

3.7 자유도

3.8 분산분석

3.9 카이제곱검정

3.10 멀티암드 밴딧 알고리즘

3.11 검정력과 표본크기

3.12 마치며

 

CHAPTER 4 회귀와 예측

4.1 단순선형회귀

4.2 다중선형회귀

4.3 회귀를 이용한 예측

4.4 회귀에서의 요인변수

4.5 회귀방정식 해석

4.6 가정 검정: 회귀 진단

4.7 다항회귀와 스플라인 회귀

4.8 마치며

 

CHAPTER 5 분류

5.1 나이브 베이즈

5.2 판별분석

5.3 로지스틱 회귀

5.4 분류 모델 평가하기

5.5 불균형 데이터 다루기

5.6 마치며

 

CHAPTER 6 통계적 머신러닝

6.1 K 최근접 이웃

6.2 트리 모델

6.3 배깅과 랜덤 포레스트

6.4 부스팅

6.5 마치며

 

CHAPTER 7 비지도 학습

7.1 주성분분석

7.2 K 평균 클러스터링

7.3 계층적 클러스터링

7.4 모델 기반 클러스터링

7.5 스케일링과 범주형 변수

7.6 마치며

데이터 분석에서 머신러닝까지 50가지 핵심 개념 

데이터 과학에 필요한 만큼만 배우는 족집게 통계학 

 

통계 기법은 데이터 과학의 핵심이지만, 전공자가 아닌 이상 정식으로 통계를 공부하고 데이터 과학에 입문하는 사람은 찾기 어렵다. 데이터 과학자가 고전 통계를 낱낱이 알아야 하는 것은 아니다. 자유도, p 값, 상관계수 등 고전 통계에서 중요하게 생각하는 개념 중에는 빅데이터를 다루는 데이터 과학자가 세부 사항까지 자세히 알 필요가 없는 것들도 있다. 

이 책은 통계 기법을 데이터 과학에 적용해보며, 중요한 것과 중요하지 않은 것을 구분하는 실용적인 방법을 알려준다. EDA, 표본분포, 유의성 검정, 회귀분석, 분류, 통계적 머신러닝, 비지도 학습 등 오늘날 데이터 분석과 머신러닝 분야에서 널리 사용하는 주제로 구성되었으며, 주요 절마다 ‘용어 정리’를 제공해 학습 편의를 높였다. 

많은 데이터 과학자가 머신러닝 및 통계 기법을 사용하면서도 그 근본이 되는 통계 개념을 이해하지 못해 한계에 부딪히곤 한다. R 언어와 약간의 통계 지식만 있다면, 이 책이 건널 수 없었던 그 강을 건너게 해줄 것이다.

 

주요 내용 

  • 탐색적 데이터 분석이 핵심 단계인 이유
  • 임의표집으로 편향을 줄이고 고품질 데이터셋 얻는 법
  • 실험계획법 원칙을 적용해 질문에 명확히 답하기
  • 회귀분석으로 결과를 추정하고 이상 검출하기
  • 속한 범주를 찾아내는 주요 분류 기법
  • 데이터로 ‘학습’하는 통계적 머신러닝 기법
  • 정답 없는 데이터에서 의미를 추출하는 비지도 학습 기법

 

다른 통계 교과서나 머신러닝 매뉴얼과는 차별되는 책이다. 통계 용어와 오늘날 데이터 마이닝 용어를 연결해 설명한다는 점에서 훨씬 낫다. 설명은 간명하고 예제도 많다. 데이터 과학 입문자와 숙련자 모두에게 권할 만한 레퍼런스다.

- 갈리트 시뮤엘리, 『비즈니스 애널리틱스를 위한 데이터마이닝』 주저자

 

 

현재 IT 대세 빅데이터와 인공지능에서 꼭 필요한 공부가 있는데, 그게 바로 통계다. 이 분야에서 통계는 선택이 아닌 필수이자 기본으로 갖추어야 할 기본 능력인 것이다. 그런데 통계 공부가 참 쉽지 않다. 배워야 할 것들이 많다 보니, 학습 분량도 많은 데다, 단순히 계산만 잘한다고 통계를 잘한다고 할 수 없다. 분석 목적에 맞는 올바른 통계 방법을 적용할 줄 아는 다양한 실무 경험도 필요하다. 자칫 잘못하면, 전혀 엉뚱한 결과를 도출할 수 있기 때문이다. 특히 데이터 과학을 하는 사람은 통계학, 정보기술, 적용 분야 등을 아우르는 전문지식이 있어야 한다. 이는 통계학을 연구하는 수학자와는 통계학을 보는 입장이 다른 것이다.


'데이터 과학을 위한 통계'는 바로 그런 차이를 담은 책이다. 데이터 과학자를 대상으로 하는 책으로 통계의 핵심 개념을 전반적으로 총정리 해놓았으며, 데이터 과학의 관점에서 통계학을 다루고 있다.



 

따라서 책 처음부터 수학으로서 통계보다는 데이터 분석이라는 입장에서 통계의 역사를 보고 있으며, 통계학자와 데이터 과학자들이 쓰는 용어 차이와 개념을 곳곳에서 이야기하고 있고, 심지어 비슷해 보이는 컴퓨터 과학과 정보공학에서의 그래프라는 용어가 어떻게 다르게 쓰이는지도 말하고 있다. 이게 왜 중요하냐 할 수 있지만, 이는 기구 설계 단위로 미터법을 쓸 것이냐 인치법을 쓸 것이냐 하는 것과 같이 가장 기본적인 단위를 맞춰 같은 생각을 공유하는 것과 같은 것이다. 책 곳곳에 CAUTION으로 이런 차이에 주의를 주고 있는데, 비슷한 분야에 같은 단어, 같은 용어인데도, 다른 의미를 가지는 것을 보면, 신기할 정도다. 용어의 혼동을 피하기 위해서 주의 깊게 봐야 할 부분인 것이다.


이런 용어 정리처럼 '데이터 과학을 위한 통계'에는 잘못된 통계 이해에 관한 부분도 말하고 있다. 통계적 유의성에 나오는 p값이 그 예일 수 있다. 심리학 저널 경우 p값 사용을 금지까지 할 정도였다. 통계의 잘못된 이해로 잘못된 논문 결과를 야기한 것이다. 이를 바로잡기 위해 미국통계협회에서 연구자와 저널 편집자를 위해 성명서까지 낼 정도다. 이처럼 책에서는 기존의 통계학 책에서 볼 수 없었던 실무 차원에 도움이 되는 전문적인 내용들이 담겨 있다. 


그런데 '데이터 과학을 위한 통계'를 보기 위해서는 기본적으로 R 프로그래밍 언어를 알고 있어야 한다. R에 대한 별다른 설명없이 바로 R 코드를 이용한 각종 예제들이 나오기 때문이다. 어려운 것들은 아니지만, R을 전혀 모를 경우, 책을 온전히 이해하는 데 걸림돌도 될 수 있고, 읽는 재미도 반감할 수 있다.



 

또 한 가지는 이 책은 통계를 기본부터 가르쳐주는 책이 아니다. '데이터 분석에서 머신러닝까지 50가지 핵심 개념'이라는 부제에 나와 있듯이 이 책은 통계를 기초부터 알려주는 책이라기 보다, 기존에 알고 있는 통계 지식을 전체적으로 정리하고 점검하는 용도의 책이라고 보면 맞다. 통계 용어, 공식, 개념 설명, 적용 사례, 그래프 보는 법, 샘플과 같은 것들이 잘 나와 있지만, 주요 핵심 개념 위주라서 학습서처럼 익히기에는 한계가 있다. 물론 독자의 통계 학습에 도움을 주기 위해, 각 단원마다 '더 읽을 거리'를 두어, 관련된 각종 책과 논문을 언급해 놓고 있다는 점은 이 책이 가진 한계를 보완하기 위한 저자의 꼼꼼한 배려라고 볼 수 있다.


 

 

'데이터 과학을 위한 통계'는 화려한 풀컬러로 지루한 수학책의 단조로움을 피하고 있다.  그만큼 코드나 그래프를 보기 편하다. 그리고 각 파트마다 '용어 정리'란이 있어서, 꼭 익히고 점검할 용어를 강조해놨다. 이 부분을 제대로 보지 않으면, 내용 이해가 제대로 안될 수 있으므로 몇 번이고 다시 봐야 할 부분이다. '주요 개념'에서는 각 소단원 내용을 정리하고 있어 다시 한번 핵심 정리하게 하고 있으며, 'TIP', 'NOTE', CAUTION'을 통해 추가 정보나 보강 설명을 하고 있다.


여러 예제와 함께 간결한 설명으로 되어 있는 '데이터 과학을 위한 통계'는 통계를 전체적으로 훑어보기 좋은 책이다. 특히 인공지능, 머신러닝, 빅데이터 등과 관련된 데이터 과학을 공부하거나 그쪽에 일하는 사람들에겐 통계 지식 정리와 함께 바른 통계 적용에 좀 더 실질적인 도움을 주는 책이라 생각한다. 

 

장점

1.   통계의 경우 R언어가 파이썬보다 월등히 좋아 R언어를 사용하며 통계에 관한 내용을통알못 초보자 입장에서 보았을 때 용어에 대한 설명이 간단 명료하며 이해를 유도하기 위하여 어떠한 방법이 있으며 이러한 상황에 사용하면 유용한지설명한 후 예시를 보여주어 함축적이고 핵심을 잘 요약해 놓음

2.   주로 데이터 분석과 데이터 시각화에대해서 배우며 데이터 분석으로는 기술분석(평균, 중앙값, 표준편차)의 데이터를 요약하여 과거의 사실을 파악하는 방법과 진단분석(왜 발생하였는지), 예측 분석(기술분석 결과를 사용해 경향, 클러스터등을 탐지하고 예측)하는방법을 가르쳐주면서 데이터에 대한 이해도가 높아짐

단점

1.   예제 문제의 경우 주석 처리가 되어있으면좀 더 좋을 꺼 같다

2.   책을 간소화 할려고 그런지 상세하게알고 싶은 관련자료의 경우 사이트가 적혀 있으며 전체 코드의 경우 github로 확인해야 해서 어떻게보면 휴대하기 편하다는 장점이 될 수도 있고 단점이 될 수도 있을 꺼 같음

후기

1.   통계를 처음 접하는 사람이 읽으면통계가 얼마나 광범위하게 사용될 수 있는지 깨닫게 되며 빅데이터를 배우는 사람이라면 이 책을 읽어 봐야 된다고 생각함

 

20200927_212606.jpg

 

 

 

빅데이터, 딥러닝, 머신러닝 등 AI를 필두로 한 기술이 요즘 각광을 받고 있다. 현재 자율주행차 뿐만 아니라 음악, 미술 등 예술 분야에 이르기까지 데이터를 기반으로 한 기술은 더이상 해가 지지 않을 것 같다. 많은 사람들이 그래서 이 기술을 배우고 싶어한다. 나는 SQLD라고 하는 자격증이 있었는데 곧 만료일이 다가온다. 시험을 볼 당시에 깜짝 놀랐던 건 남자 일색일거라고 생각했던 고사장에 여성분들이 아주 많았다는 것이었다. 컴퓨터 과학 등의 전공은 다른 공대 전공처럼 남초일 것 같지만 요즘은 그렇지 않은 것 같다. 통계학과 및 경영학과에서 이 데이터를 다루는 부분이 학습에 포함되어 있다보니 특히 여학우가 많은 경영학(국제경영학, 회계학 등 인접학과 포함)에서 유입이 이루어지고 있는데 이것은 문과가 취업도 잘 안되고 차별점을 명확히 찾지 못하면 정말 경쟁이 치열하다는 것이 반영되어 있다고 생각한다. 그래서 '데이터'자가 붙은 분야에는 여풍이 만만치 않다. SQL도 근본적으로는 데이터를 추출하고 분석하기 위한 도구이니 데이터베이스를 다룰 줄 알아야 하는 이 자격증에도 여초 현상이 심화되고 있다.

아무튼 이렇게 각광을 받는 분야가 가장 먼저 맞닥드리는 것이 바로 수학과 통계가 아닐까 싶다. 사실 수학과 통계를 분리하기 쉽지 않으니 같은 것으로 보고 나 또한 대학생 시절에 통계를 배우고자 했다. 난 3학년의 이제 막 편입생 신분이었던지라 1학년이 들을 수 있는 기초 통계 과목을 수강하지 못했다. 그래서 무려 수학학과에 가서 계절학기로 기초통계학을 수강했었다. 난 수학을 잘 못하지만 그래도 나보다 훨씬 어린 그 수학학과 생들을 상대로 A이상의 점수를 받았다는것에 대해 대단히 자부스럽게 생각했다. 그런데 공부하는 과정은 쉽지 않았다. 두꺼운 법전을 들고 한자로 쓰여 있어서 다 읽을 수도 없는 전공 공부를 하다가 수학을 다뤄야 하는 통계학을 공부하기가 만만치 않았다. 그래도 수학은 아니더라도 숫자는 많이 다루는 회계 수업으로 멘탈은 다져있어서 도전해볼 수 있었다.

내가 이렇게 대학교 시절을 장황하게 늘어놓는 이유는 여기서 소개하는 책이 대학생들의 통계 교재로 적합하겠다는 생각이 들어서다. 또는 자신이 문과이지만 데이터를 다루는 공부를 해보고 싶거나 단순히 통계를 공부하는 학생에게 도움이 될 것이라는 확신이 들어서다. 지금으로부터 무려 8년 전?에 통계를 여름방학에 공부하고 있었을 나에게 보내주고 싶은 책이다.

한빛미디어 책은 전면 컬러로 인쇄되어있다는 점이 보기가 편안하고 지치지 않게 해주는것 같다. 그럼 흑백으로 인쇄되어있으면 보기 편안하지가 않다는 거냐고? 그런 것은 아니지만 확실히 심리적으로 도움이 크게 되는 것 같다. 내가 당시에 사용하던 통계 교재랑 다른 점은 컬러로 인쇄되어있다는 점 외에도 실습 도구로 R을 택했다는 것이다. 당시 그 책을 공부하기 위해서는 SAS라는 소프트웨어가 필요했다. 구입해야 하는 라이센스가 필요한 소프트웨어이다 보니 실습을 특정 강의실에서 할 수 밖에 없었다. 그때 막 C라는 프로그래밍을 배운 직후여서 인지 프로그래밍 자체는 어렵지 않았지만 방과 후 내가 집에 갔을 때 다시 연습할 수 없다는 점이 가장 막막했다. C 수업은 그냥 집에 가서 성능도 좋지 않던 넷북으로 실습과 과제를 해도 무리가 없었다. 그런데 이 책은 R로 실습을 하고 결과를 알 수 있으니 매우 편리하다는 점을 말하지 않을 수 없다. R은 오픈소스이고 무료이다^^

왜 파이썬을 택하지 않았을까라는 생각이 잠시 들었는데 개발이 아니라 통계 공부 자체에는 R이 훨씬 유익하다고 보고 있다. 다만 R의 설치 및 기본적 조작 과정은 책에 들어가 있지 않은데 그런 것은 블로그에 너무나도 쉽게 잘 나와있다. 이런 것까지 들어간다면 통계에 촛점을 맞춘 책의 발간 목적이 흐려지고 부담스럽게 책의 분량도 늘어날 것이다. 잘한 선택인 것 같다.

외국인 저자가 쓴 책에 이런 표지이면 솔직히 두려움이 살짝 있는데 이 책은 그렇지 않다. 그렇게 어렵지 않고 쉬운 편이다. 어려운 통계 용어도 '용어 정리'라는 칸을 통해 간략하게 정리해주었다. 처음부터 여럽게 가지 않고 도수분포표, 히스토그램 등으로 시작하는 등 난이도별 단계적 학습을 보여주고 있다. 최빈값, 기댓값, 산점도, 범주형 변수, 수치형 변수 같은 용어들이 크게 어렵지는 않을 것이다. 나중에는 조금은 어려울 수도 있는 가설, 회귀 등의 내용도 나오는데 R로 실습을 하고 결과를 볼 수 있으니 이 부분은 그래도 이해가 수월할 수 있겠다. 결과를 못 보고 그냥 머리로만 이해하면 얼마 못 가지만 내가 직접 코딩하고 과정, 결과도 보면 확실히 오래간다.

마지막 장에 가서 이것은 이 책의 끝판왕일 정도로 난이도가 높은 것이다! 이런 것은 아니다. 다만 배운 것을 바탕으로 하여 머신러닝의 요소가 좀 추가된 것이다. 그래서 '통계적 머신러닝'이라고 하는데 이 부분은 '우리가 통계를 앞에서 배웠는데 그럼 그 다음에는 무엇을 할 것인가?'에 대한 답이라고 볼 수 있겠다. 이 책을 선택한 사람들은 결국에는 머신러닝, 딥러닝 같은 것이 하고 싶기 때문에 그랬다고 믿는다. 그래서 그런 것들을 위해 처음 통계를 접한다면 여기서 접하는 머신러닝 내용이 많은 도움이 될 것이다.

 

작년 5월 (2019년 5월 ) 그러니까 거의 1년하고 4개월 전? 쯤에 공부한다고 사서 읽기 시작했던 기억이 있다.

그 당시엔 지금보다 더 실력이 부족했던 터라 용어들이 괜히 익숙하지 않고 멀게 느껴지는 부분들이 있었던 거 같다.


"통계" 라는 제목 그대로, contents는 아래와 같이 이루어져 있다.

1. EDA

2. 데이터와 표본분포

3. 통계적 실험과 유의성 검정

4. 회귀와 예측

5. 분류

6. 통계적 머신러닝

7. 비지도학습


당시 내 실력이라고 한다면, 수학과 학부 4학년 2학기였고 1학년 때 기초통계수업을 1년 들었으며

금융학을 부전공하면서 들은 기초통계 및 R로 하는 데이터 분석 수업 정도,

그리고 개인적으로 동아리 및 대외활동을 하면서 공부하고 있던 AI 개념정도였다.


그래서 그런지 어렵게 느껴지지는 않았고 기초를 위한 사람이라면 잘 정리된 한국어 책 같다는 생각이 들었다.


2020년 현재 다시 펼쳐서 읽었을 때 그런 생각이 더 강해지는 거 같다. 

데이터 분석을 하기 위한 통계적인 배경 지식이 필요하다면 꼭 알아야 하는 것들을 잘 담아 놓았고

변하지 않는 기초이기 때문에 사서 기반을 다지기 좋을 거 같다는 생각이 든다.

데이터 과학을 위한 통계

 

소프트웨어 엔지니어로 일하고 있지만 수포자(수학포기자)로 살아왔기 때문에 수학 관련된 공부는 항상 기피를 했었다. 게다가 게임 개발자로 오랜 시간 업무를 해왔기 때문에 생각보다 전문적인 수학 지식이 필요로 하지는 않았었다. 그렇게 지금까지 수학과는 거리감을 유지하면서 지내왔는데 몇년 전 부터 조금씩 빅데이터와 관련된 업무나 스터디를 진행하면서 수학의 필요성을 느끼게 되었다.

 

 

가장 처음 필요성을 느꼈던 때는 스타트업에서 게임 서버 개발자로 근무할 당시였는데, 사업부에서 현재 게임에 대한 동접, 사용자 이탈률, 매출, 각 기능별 사용률 등등 통계가 필요한 요구사항들이 생기면서부터 였다. 당시에는 엘라스틱서치를 사용하여 잘 모르는 통계 지식들을 겉핥기 식으로 찾아가며 대응을 했었는데 개념 잡는데 꽤 오랜 시간이 걸렸다.

 

 

이 후에는 어떤 패턴을 가진 사용자가 실제 결제까지 하게 되는지 예측을 하기 위해 머신러닝을 공부하고 PoC를 진행해보았는데 이 때도 마찬가지로 개념 잡는데 꽤 오랜 시간이 걸렸다. 이 과정들을 겪으면서 느낀 것은 수포자도 충분히 할 수 있을 것 같다는 것이었다. 그 이유는 이미 수학적으로 깊게 들어가고 어려운 부분은 라이브러리화 되어 사용하기 쉽게 제공되고 있었고, 이를 개발자 및 데이터 엔지니어들이 잘 가져다 사용하면 되기 때문이다. 가져다 사용하는 것이지만

 

 

컬러풀한 예제와 그림

 

그래도 기본적인 개념을 가지고 있어야 이마저도 할 수 있는 것이기 때문에 기본적인 공부는 필요하다. 이를 위해 좋은 선택지는 책을 통한 공부인데, 그 중에서도 이 책 "데이터 과학을 위한 통계"는 기본 이론부터 실제 사용까지 잘 정리가 되었기 때문에 공부가 필요한 부분을 찾아서 이해하는데 큰 도움이 될 것이라고 생각한다.

 

 

중간중간 노트와 주요 개념 정리

 

일단 책이 컬러풀하기 때문에 읽는 재미가 있었고, 실제 따라해볼 수 있는 예제가 존재하기 때문에 이해에도 큰 도움이 되었다. 중간 중간 주요 개념에 대한 정리가 있어서 요점을 정확히 알 수 있고, 노트와 더 읽을 거리를 통해서 부족한 지식을 더 찾아 볼 수 있어서 좋았다.

 

사실 이 책의 내용이 나에게 쉽지는 않았고, 어려운 용어들도 많아서 이해하지 못한 것이 대부분이지만 어떤 경우에 어떤 것을 가져다 사용할지에 대한 선택은 할 수 있을 것 같았다. 데이터 분석을 어떻게 시작해야 할 지 모르는 나 같은 수포자들에게는 큰 도움이 될 수 있을 것이라고 생각한다. 이 책을 시작으로 다양한 데이터 분석 사례와 머신러닝 사례가 나오면 좋겠다.



후기에 앞서 기술서 리뷰이기 때문에 어떤 사람이 리뷰하는지 명시하는 것이 좋을 것 같아 적어보겠습니다.
  • 리뷰어의 스펙
    • R은 들어보기만 하고 해본 적 없음
    • 통계는 고등학교 때 `확률과 통계`과목 이후로 공부한 적 없음
    • 확률은 `확률변수론`만 2020-1학기 에 공부
이 책의 대상 독자는 어느 정도 R을 다뤄 본 사람이며 사실 나는 알맞은 대상 독자라고 할 수는 없었다. R의 기본적인 문법을 알려주기보다는 통계 이론과 개념들을 알려주며 R에서 어떤 식으로 데이터 분석을 할 수 있는 지에 초점이 맞춰져 있다. 앞서 밝혔듯이 본인은 R 왕초보였기 때문에 처음 R을 설치하고 library를 불러오는 등의 기본 사용 방법에 대해서는 구글링하며 배웠다. 다행히 Jupyter notebook(or lab)에서 R언어도 지원해서 어렵지 않게 코딩 환경(conda virenv)을 만들 수 있었던 것 같다. (R Studio로 하지 않았다.) 따라서 본인처럼 Python으로 Jupyter notebook이 익숙하시고 (R이 아니더라도)조금만 코딩에 익숙한 사람이라면 R의 다양한 기능들을 처음 접해보고 흥미를 가지는데 괜찮을 것 같다.
이 책의 장점은 용어 정리 부분이었다. 통계 분야와 데이터 과학의 용어들을 여기저기서 들어보기만 하고 정리가 안되었었기에 가장 도움이 된 부분이다. 특히 용어들이 한자일 경우 유독 어렵게 느껴지고 친숙해지기 어려운데 통계/확률 쪽 용어들이 대부분 그런 것 같다. 또한 같은 말인데 전통 통계 분야에서 말하는 의미와 데이터 과학 분야에서 말하는 용어가 다르거나, 혹은 그 반대로 말은 똑같은데 각 분야의 맥락에서는 다른 의미인 부분들도 짚어볼 수 있었다.
또한 이론을 따라 가다 보면, 가끔 논점이 흐려지고 이 책의 제목을 까먹을 만큼 목적을 읽어버리기 쉬운데 “NOTE”에서 한번씩 “데이터 과학자”의 입장에서 다시 한 번 짚어야 할 부분을 잡아주기도 해서 좋았었다. “더 읽을 거리” section도 있었는데 각 자료들이 좋아 보였지만 1회독 차에서는 일일이 볼 순 없었다. 자연스럽게 n회독 방향을 잡아주었다.
단점이라면 기술서라면 제공하는 github code가 친절하지 않았다. (사실 이건 R 초보자인 본인에게만 해당하는 말일 수 있다.) 책에는 중요코드 5~10줄 내외로 나와있지만 github에는 대단원의 모든 코드가 한 파일에 다 들어가 있었다. Jupyter lab에서 하나씩 찍어 가보며 공부하는 스타일의 독자에게는 불편한 보기였다. 또한 data load 부분도 좀 더 설명이 있었으면 코드를 좀 더 쉽게 따라 칠 수 있지 않았을까라는 아쉬움도 있었다. 하지만 역설적이게도 원본 repository의 불편한 편집을 하나씩 관찰해가며(R을 이해했다고 할 수는 없기에 ‘관찰’이라 하겠다.) 개인 repository 에 정리하니 R에 대해 이해가 더 잘되기도 했었다.(이에 더해 github정리하는 뿌듯함은 덤..:))
전체적인 책 리뷰 만족도는 4/5인 것 같다. ML/DL에 수없이 많은 분야들 중에 <데이터 분석/과학> 쪽은 매번 넘겨짚거나 들어보기’만’하는 수준이었는데 조금은 흔들리는 초석을 다잡은 느낌(?)이었다.
--이 리뷰는 한빛미디어 “나는 리뷰어다” 프로그램을 통해 작성되었습니다--

데이터 과학을 위한 통계(Practical Statistics for Data Scienties)

요즘은 이미 빅데이터, 머신러닝, 딥러닝이 익숙해져버린 시대인거 같습니다. 딥러닝 관련 학습을 하거나 프로그래밍을 해야할 때 필수적으로 나오는게 통계에 관련된 내용들입니다. 부분 부분적으로 나오는 통계에 관한 내용을 볼 때 용어부터 시작해서 무슨무슨 이론등이 등장하는데, 통계에 대해 좀 더 자세히 알고 싶을때 어떻게 시작할 지 어디부터 어디까지 봐야할 지 판단이 쉽지 않습니다.

이 책은 통계학을 기본으로 통계 용어부터 핵심 개념정리, 데이타를 다루고 분석하는 방법, 머신러닝의 내용을 예제와 그래프를 통해 시각적으로도 설명해 줌으로써 통계학적 의미들을 잘 정리할 수 있게 도와주는 책입니다.

목차
탐색적 데이터 분석
데이터와 표본분포
통계적 실험과 유의성 검정
회귀와 예측
분류
통계적 머신러닝
비지도학습

탐색적 데이터 분석
과거의 통계는 방대한 자료를 모두 모아서 본석하는게 힘들어서 표본(샘플)로 부터 모집단의 형태를 최대한 유사하게 추정하는 식이었다면
최근에는 (빅)데이타는 주어진 상태에서 이 데이타들이 어떤 형태이고 어떤 특성들이 있는지 판단하고, 활용하는 형태로 활용되고 있습니다.

수집한 데이터가 들어왔을 때, 이를 다양한 각도에서 관찰하고 이해하는 과정입니다. 한마디로 데이터를 분석하기 전에 그래프나 통계적인 방법으로 자료를 직관적으로 바라보는 과정입니다

이를 위한 기법으로는 위치 추정, 변이 추정, 데이터 분포 탐색등의 방법을 사용합니다.
캐글등에서 문제를 풀때 초반에 pandas의 describe() 같은 함수를 실행시키면
평균이나 중간값, 표준편차, 100분위수 구하기등을 통해 대략의 데이타형태를 가늠할 수 있습니다.
이런 용어들의 정의와 함께 다른 학문에 쓰는 유의어 및 각 용어(혹은 개념)들이 왜 무엇을 보완하기 위해 나오는지등을 알려주고 있습니다.

무엇을 설명하기 전에 예를 들어 특정 상황을 설명하고 질문이나 화두를 던진 후에 간략한 설명과 함께 수식과 코드 그래프를 곁들이는데
수식은 거의 없거나 예제를 설명하는 선정도로 간단히 나옵니다.
코드는 R로 작성된 코드가 나옵니다. 어떤 항목이 어떤 함수나 라이브러리를 통해 구하거나 표시할 수 있는지를 알려주기 위한 용도의 스니펫으로 
R문법을 설명하거나 전체동작코드가 모두 책에 나와있지는 않습니다. 실행가능한 코드는 github자료실에 받아 실행하실 수 있습니다.
통계학 용어(혹은 개념)에 대해 몇 페이지마다 그래프가 표시되어 설명을 읽고 좀 더 직관적으로 이해하기에 도움이 많이 되었습니다.
파트가 길지 않으면서  도입부 주요 개념과 마무리글등이 있어서 큰 무리없이 읽을 수 있었던 거 같습니다.
데이터과학자 혹은 머신러닝쪽만 한다면 크게 관련이 없는 통계의 항목(개념)들은 설명하면서 알려주어서 이해를 못해도 부담없이 넘어가거나 할 수 있었습니다.

코딩을 위한 책이 아니므로 R을 몰라도 읽는데 무리는 없을 거 같습니다.
다만 설치 및 library 설치 소스내 경로 수정, 그리고 예제파일 실행을 위한 데이타파일 다운로드 등은 소스내 다운로드용 프로그램을 실행시켜서 직접 해야 하는 불편은 있습니다

빅데이터 분석과 머신러닝이 각광받는 세상이 도래하였다. 하지만 수학적 통계지식과 벡터연산 등 수포자들에게 빅데이터 분석과 머신러닝을 공부한다는건 먼나라 이야기와 다르지 않다. 그렇다고 이제와서 다시 수리통계학을 공부할 수도... 그럴 효용성도 떨어진다는 것 또한 사실이다. 이런 Needs를 반영한 책이 [데이터 과학을 위한 통계(Practical Statistics for Data Scientists)]이다.

데이터과학 실무 전문가인 앤드루 브루스와 통계교육기관 설립자인 피터 브루스가 공저한 책이다. 탐색적 데이터 분석을 필두로 데이터와 표본분포, 통계적 실허모가 유의성 검정, 회귀와 예측, 분류, 통계적 머신러닝, 비지도학습에 이르기 까지 각 Chapter마다 주요개념과 용어정리가 잘되어 있다. 각자가 동일한 의미를 다른 단어로 표현하거나, 다른의미를 같은 단어로 이야기한다면 의사소통은 달나라여행을 떠나게 된다. 그렇기에 용어정리과 개념정리가 들어있어 저자와 독자가 같은 방향을 바로보고 의사소통할 수 있도록 배려하고 있는 책이라 좋았다.

처음부터 읽어나가기 부담스러운 분들은 책 말미에 있는 index를 참고하여 필요할 때마다 찾아보며 차근차근 읽어 나간다면 더욱 알차게 이 책을 활용할 수 있을것으로 판단된다. 특히 설명이 간결하고 R언어로 제공되는 코딩 예제 또한 다운로드가 가능하니 직접 실습을 통해 공부한다면 분석기법과 통계 개념을 이해하는데 많은 도움이 될것이라 생각한다. 빅데이터 분석과 머신러닝 분야에 종사하거나 관심있으나 수학적 개념의 벽에 무릎꿇은 분들이라면 이 책을 읽어보기를 추천한다.

#데이터과학을위한통계 #데이터과학 #통계분석 #한빛미디어 #피터브루스 #앤드루브루스 #데이터분석 #회귀 #예측 #책스타그램 #북스타그램 #서평 #독서 #독서스타그램 #책스타그램 #신간 #북리뷰 #책리뷰 #책리뷰 #추천

이번 달에 리뷰 할 책은 통계학과 데이터 과학에 관한 책입니다. 이 책을 고민하실 때 가장 중요한 이야기를 먼저 하자면 `R`로 쓰여진 책 입니다. `R`에 익숙하지 않아 책을 읽으면서 코드가 쭉쭉 읽히지 않았던 점은 아쉬웠지만 통계를 다루시는 분들 중에 `R`유저가 많기 때문에 개인적인 아쉬움으로 묻어두고 리뷰를 시작하겠습니다. 책의 구성은 정말 마음에 들었습니다. 각 절을 시작하면서 다루는 핵심 용어들을 요약 정리를 해줍니다. 해당 절에서 어떤 내용을 다룰지 미리 볼 수도 있고, 개념이 헷갈릴 때 책 중간을 다시 찾지 않아도 되어서 좋았습니다. 역자 분께서 대부분의 용어를 한국어화 하셨는데 용어 정리 부분에 영어로 병기를 해주셔서 영어 명칭이 익숙하거나 인공지능 커뮤니티들에서 눈에 익은 용어를 볼 수 있어 개념 연결에 도움이 되었습니다. 통계에 다양한 개념들을 두루두루 다루고 있습니다. 하지만 개념의 가짓수에 비해서는 책의 두께가 다소 얇다는 생각이 들 정도입니다. 즉 다양한 개념은 다루고 있지만 각 개념을 세세하게 다루지는 않는 다는 의미입니다. 그렇다고 무책임하게 짧게 다루고 끝내지 않습니다. 좀 더 알고 싶은 사람을 위한 자료를 가이드하고 있습니다. 통계에 다양한 개념들을 데이터과학에 어떻게 적용하고, 어느 상황에 필요한지를 제시하고 있는 책이기 때문에 이 자료를 이용해서 진행 중이 프로젝트에 필요한 개념을 찾고, 딥 다이브 할 수 있게 도와줍니다. 이 책을 통해서 통계를 밑바닥부터 차근차근 쌓겠다는 생각으로 시작하면 실망감과 자괴감응 동시에 느끼실 수도 있습니다. 밑바닥이 없이 보기에는 아리송한 개념들이 다소 있기 때문에 기초 서적은 다른 책을 선택하시는 걸 추천합니다. 추천 대상 : 통계 공부를 했는데 데이터 과학을 하면서 어떤 개념들을 적용하는게 맞는지 헤매는 그대 난이도 : 보통 사용언어 : `R`

결제하기
• 문화비 소득공제 가능
• 배송료 : 2,000원배송료란?

배송료 안내

  • 20,000원 이상 구매시 도서 배송 무료
  • 브론즈, 실버, 골드회원이 주문하신 경우 무료배송

무료배송 상품을 포함하여 주문하신 경우에는 구매금액에 관계없이 무료로 배송해 드립니다.

닫기

리뷰쓰기

닫기
* 상품명 :
데이터 과학을 위한 통계
* 제목 :
* 별점평가
* 내용 :

* 리뷰 작성시 유의사항

글이나 이미지/사진 저작권 등 다른 사람의 권리를 침해하거나 명예를 훼손하는 게시물은 이용약관 및 관련법률에 의해 제재를 받을 수 있습니다.

1. 특히 뉴스/언론사 기사를 전문 또는 부분적으로 '허락없이' 갖고 와서는 안됩니다 (출처를 밝히는 경우에도 안됨).
2. 저작권자의 허락을 받지 않은 콘텐츠의 무단 사용은 저작권자의 권리를 침해하는 행위로, 이에 대한 법적 책임을 지게 될 수 있습니다.

오탈자 등록

닫기
* 도서명 :
데이터 과학을 위한 통계
* 구분 :
* 상품 버전
종이책 PDF ePub
* 페이지 :
* 위치정보 :
* 내용 :

도서 인증

닫기
도서명*
데이터 과학을 위한 통계
구입처*
구입일*
부가기호*
부가기호 안내

* 온라인 또는 오프라인 서점에서 구입한 도서를 인증하면 마일리지 500점을 드립니다.

* 도서인증은 일 3권, 월 10권, 년 50권으로 제한되며 절판도서, eBook 등 일부 도서는 인증이 제한됩니다.

* 구입하지 않고, 허위로 도서 인증을 한 것으로 판단되면 웹사이트 이용이 제한될 수 있습니다.

닫기

해당 상품을 장바구니에 담았습니다.이미 장바구니에 추가된 상품입니다.
장바구니로 이동하시겠습니까?

자료실

최근 본 상품1