메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

한빛출판네트워크

파이썬과 대스크를 활용한 고성능 데이터 분석

대규모 데이터셋 분석, 시각화, 모델링부터 분산 앱 패키징과 배포까지

한빛미디어

번역서

판매중

  • 저자 : 제시 대니얼
  • 번역 : 이준용
  • 출간 : 2020-10-05
  • 페이지 : 360 쪽
  • ISBN : 9791162243305
  • 물류코드 :10330
초급 초중급 중급 중고급 고급
5점 (1명)
좋아요 : 0

데이터 과학의 전체 워크플로를 단계별로 소개하는 종합 안내서

 

이 책은 대스크를 활용한 데이터 정리에서 배포에 이르기까지 데이터 과학의 일반적인 워크플로를 따라가는 여정으로 우리를 안내한다. 먼저 확장 가능한 컴퓨팅을 익히고 이를 대스크가 어떤 방식으로 활용하는지 살펴본다. 이어서 다양한 실제 데이터셋을 준비하고 분석, 시각화, 모델링하는 과정에서 대스크로 일반적인 데이터 과학 작업을 수행하는 방법을 실용 예제로 제공한다. 마지막으로 AWS에 자신만의 대스크 클러스터를 배포해 분석 코드를 확장하는 과정을 단계별로 소개한다.

 

주요 대상 독자는 초중급 데이터 과학자나 데이터 엔지니어다. 단일 머신의 한계를 벗어나는 크기의 데이터 작업을 아직 경험해보지 못했다면 특히 유용할 것이다. 파이스파크 등 다른 분산 프레임워크를 이전에 다뤄본 경험이 있다면 대스크만의 기능과 효율성을 비교해보는 것만으로도 도움이 될 것이다.

 

 

출판사 리뷰

 

파이썬 병렬 컴퓨팅을 실현하는 대스크로 더 쉽고 효율적인 데이터 분석하기

파이썬을 이용한 데이터 작업을 경험해본 사람이라면 한 번쯤 팬더스와 넘파이 패키지를 접해봤을 것이다. 하지만 대스크라는 패키지는 조금 낯설 수 있다. 대스크는 데이터 과학 분야에서 매우 유용하게 활용할 수 있는 도구다. 특히 이 책은 ‘대용량 데이터의 병렬 처리’라는 주제를 이해하기 쉬운 비유와 상세한 설명을 통해 쉽게 풀어놓았다. 기존에 팬더스와 넘파이를 이용하여 데이터를 처리한 경험이 있는 개발자라면 코드 예제를 따라 하기만 해도 대스크의 기본 원리와 새로운 기능을 금방 파악할 수 있을 것이다. 이 책이 대스크라는 새로운 ‘강력한 무기’를 하나 더 장착할 좋은 기회가 되기를 바란다.

 

 

주요 내용 

  • 대규모 정형/비정형 데이터 작업하기
  • 시본과 데이터 셰이더를 사용한 시각화
  • 필요한 알고리즘 직접 구현하기
  • Dask Distributed로 분산 앱 빌드
  • 대스크 앱 패키징과 배포
저자

제시 대니얼

경험이 풍부한 파이썬 개발자. 지난 3년간은 특별히 PyData 스택(팬더스, 넘파이, 사이파이, 사이킷런)과 함께 했다. 2016년 덴버 대학교의 비즈니스 정보 및 분석학과 부교수로 ‘데이터 과학을 위한 파이썬’ 과목을 개설하고 가르쳤다. 현재는 덴버 지역의 미디어 기술 관련 업체에서 데이터 과학팀을 이끌고 있다.

역자

이준용

인공지능과 빅데이터 기술에 관심이 많은 연구원. 한국과학기술원(KAIST)에서 전자공학 박사학위를 받았다. 일본 ATR IRC 연구소에서 인간-로봇 상호작용 연구에 참여했으며 미국 아이오와 주립 대학교에서 대사회로 관련 연구를 했다. 현재 미국 퍼시픽 노스웨스트 국립연구소에서 연구원으로 일한다. 다양한 프로그래밍 언어로 데이터 과학 실무 경력을 쌓고 있다. 역서로 『데이터 과학을 위한 통계』(2018), 『손에 잡히는 R 프로그래밍』(이상 한빛미디어, 2015), 『R 교과서』(2020, 길벗)이 있다. 

Part I 확장 가능한 컴퓨팅의 빌딩 블록


CHAPTER 1 왜 확장 가능한 컴퓨팅이 중요한가?

__1.1 왜 대스크인가?

__1.2 DAG 요리하기

__1.3 확장성, 동시성과 복구

__1.4 예제 데이터셋 소개

__1.5 마치며

 

CHAPTER 2 대스크 시작하기

__2.1 데이터 프레임 API와의 첫 만남

__2.2 DAG 시각화하기

__2.3 작업 스케줄링 

__2.4 마치며

 

Part II 대스크 데이터 프레임을 이용해 정형 데이터 작업하기


CHAPTER 3 대스크 데이터 프레임 소개하기

__3.1 왜 데이터 프레임을 사용하는가?

__3.2 대스크와 팬더스

__3.3 대스크 데이터 프레임의 한계 

__3.4 마치며

 

CHAPTER 4 대스크 데이터 프레임으로 데이터 불러오기

__4.1 텍스트 파일에서 데이터 읽기 

__4.2 관계형 데이터베이스에서 데이터 읽어오기 

__4.3 HDFS와 S3에서 데이터 읽어오기

__4.4 파케이 형식으로 데이터 읽어오기 

__4.5 마치며 

 

CHAPTER 5 데이터 프레임의 정리와 변환

__5.1 인덱스 및 축 작업하기

__5.2 결측값 다루기 

__5.3 데이터 기록하기

__5.4 요소별 연산 

__5.5 데이터 프레임의 필터링과 재색인 

__5.6 데이터 프레임들을 조인하고 연결하기 

__5.7 텍스트 파일과 파케이 파일에 데이터 쓰기 

__5.8 마치며 

 

CHAPTER 6 데이터 프레임 요약과 분석

__6.1 기술 통계 

__6.2 내장된 집계 함수

__6.3 사용자 정의 집계 함수 

__6.4 롤링(윈도우) 함수 

__6.5 마치며 

 

CHAPTER 7 시본 라이브러리로 데이터 프레임 시각화하기

__7.1 준비-리듀스-수집-플롯 패턴

__7.2 scatterplot 함수와 regplot 함수로 연속형 관계 시각화하기 

__7.3 바이올린 플롯으로 범주형 관계 시각화하기

__7.4 히트맵으로 두 가지 범주형 관계 시각화하기

__7.5 마치며

 

CHAPTER 8 데이터 셰이더로 위치 데이터 시각화하기

__8.1 데이터 셰이더란 무엇이며 어떤 원리로 동작하는가?

__8.2 대화식 히트맵으로 위치 데이터 플로팅하기 

__8.3 마치며

 

Part III 대스크의 확장과 배포


CHAPTER 9 백(Bags)과 배열 활용하기

__9.1 Bags으로 비정형 데이터 읽고 파싱하기 

__9.2 요소 변형, 요소 필터링, 그리고 요소 폴딩하기

__9.3 Bags으로부터 배열 및 데이터 프레임 만들기 

__9.4 자연어 툴킷으로 병렬 텍스트 분석을 위해 Bags 사용하기 

__9.5 마치며 

 

CHAPTER 10 대스크 ML을 이용한 머신러닝

__10.1 대스크 ML로 선형 모델 만들기

__10.2 대스크 ML 모델 평가 및 튜닝 

__10.3 대스크 ML 모델 저장하기 

__10.4 마치며 

 

CHAPTER 11 대스크 확장 및 배포

__11.1 도커로 아마존 AWS에서 대스크 클러스터 빌드하기

__11.2 클러스터에서 대스크 작업 실행하고 모니터링하기 

__11.3 AWS에서 대스크 클러스터 정리하기

__11.4 마치며

 

APPENDIX A 소프트웨어 설치

__A.1 아나콘다로 추가 패키지 설치하기 

__A.2 아나콘다 없이 패키지 설치하기 

__A.3 주피터 노트북 서버 시작하기 

__A.4 NLTK 구성하기

  • 16G의 메모리가 있는 장비를 주로 사용하며 판다스로 10G정도의 파일을 불러온 사람들이면 판다스의 굼뜬 반응에 답답함을 느꼈을 사람들이 많을 것이다. 그나마 16G의 메모리를 사용하고 있어 10G정도까지라도 로드를 할 수 있지만 8G나 4G의 메모리를 사용하고 있다면 1G의 파일만 로드해도 작업을 할 수 없을 정도로 느려지는 것을 느낄 수 있었을 것이다.

    최근 10G이상의 파일을 로드할 때 모든 데이터가 필요하지 않기 때문에 판다스로 필요한 데이터만 불러와서 파일사이즈를 최대한 줄여서 사용하는 방법으로 로컬장비를 활용해 왔다. 이렇게 큰 파일을 다룰 때마다 dask를 써야겠다고 마음만 먹고 실행해 옮기지 못 했는데 드디어 dask 책이 나와서 실행에 옮겨보기로 했다!

    이 책에서는 4G정도의 데이터셋은 작은 데이터로 다루기는 하지만 이 또한 판다스로 작은 메모리를 사용해서 로드하기에는 부담이 된다. Dask는 CPU의 단일코어를 사용하는 문제를 모든 CPU코어를 사용하게 함으로써 병렬처리를 해준다.

    그리고 dask 는 pandas 와 호환이 아주 잘 되는 인터페이스를 가지고 있으며 사용법도 판다스와 매우 유사하다. 그래서 pandas 에 익숙한 사람이라면 dask에 적응하는게 크게 어렵지 않을것이다.

    서울지하철데이터를 통해 dask를 사용해 봤다. pandas 에서 사용했던 API가 대부분 그대로 동작하며 .compute()를 통해 연산이 가능함을 확인할 수 있었다.

    dask를 소개하는 번역서가 있었으면 좋겠다고 생각했는데 내가 알기로는 국내 첫 번역서로 알고 있다. 앞으로 곁에 두고 dask에 익숙해 질때까지 닳도록 보려고 한다.

    깃헙저장소는 여기에 있다. 이 책 덕분에 앞으로 판다스와 함께 자주 사용하게 될것 같다 :)

    https://github.com/coldfire79/data-science-with-python-and-dask

결재하기
• 문화비 소득공제 가능

배송료 안내

  • 책, 아이템 등 상품을 1만원 이상 구매시 무료배송
  • 브론즈, 실버, 골드회원이 주문하신 경우 무료배송

무료배송 상품을 포함하여 주문하신 경우에는 구매금액에 관계없이 무료로 배송해 드립니다.

닫기

리뷰쓰기

닫기
* 도서명 :
파이썬과 대스크를 활용한 고성능 데이터 분석
* 제목 :
* 별점평가
* 내용 :

* 리뷰 작성시 유의사항

글이나 이미지/사진 저작권 등 다른 사람의 권리를 침해하거나 명예를 훼손하는 게시물은 이용약관 및 관련법률에 의해 제재를 받을 수 있습니다.

1. 특히 뉴스/언론사 기사를 전문 또는 부분적으로 '허락없이' 갖고 와서는 안됩니다 (출처를 밝히는 경우에도 안됨).
2. 저작권자의 허락을 받지 않은 콘텐츠의 무단 사용은 저작권자의 권리를 침해하는 행위로, 이에 대한 법적 책임을 지게 될 수 있습니다.

오탈자 등록

닫기
* 도서명 :
파이썬과 대스크를 활용한 고성능 데이터 분석
* 구분 :
* 상품 버전
종이책 PDF ePub
* 페이지 :
* 위치정보 :
* 내용 :

도서 인증

닫기
도서명*
파이썬과 대스크를 활용한 고성능 데이터 분석
구입처*
구입일*
부가기호*
부가기호 안내

* 회원가입후 도서인증을 하시면 마일리지 500점을 드립니다.

* 한빛 웹사이트에서 구입한 도서는 자동 인증됩니다.

* 도서인증은 일 3권, 월 10권, 년 50권으로 제한됩니다.

* 절판도서, eBook 등 일부 도서는 도서인증이 제한됩니다.

닫기

해당 상품을 장바구니에 담았습니다.이미 장바구니에 추가된 상품입니다.
장바구니로 이동하시겠습니까?

자료실