메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

한빛출판네트워크

한빛랩스 - 지식에 가능성을 머지하다 / 강의 콘텐츠 무료로 수강하시고 피드백을 남겨주세요. ▶︎

파이썬 라이브러리를 활용한 데이터 분석(수정보완판)

한빛미디어

번역서

절판

  • 저자 : 웨스 맥키니(Wes Mckinney)
  • 번역 : 김영근
  • 출간 : 2013-10-26
  • 페이지 : 592 쪽
  • ISBN : 9788968480478
  • 물류코드 :2047
  • 개정판정보 :개정판이 새로 출간되었습니다. 개정판 보기
  • 초급 초중급 중급 중고급 고급
4.8점 (4명)
좋아요 : 111

파이썬 라이브러리를 활용한 데이터 분석 독자를 위한 'Anaconda 설치법'

2013년 10월 한빛미디어에서 출간된 파이썬 라이브러리를 활용한 데이터 분석 (원서: Python for Data Analysis)는 Enthought에서 배포하는 Scientific Python 배포판인 EPD(Enthought Python Distribution)의 무료버전을 기준으로 설명하고 있습니다.

문제는, 책이 출간된 이후에 Enthought에서 EPD Free 버전을 중단하고 Canopy Express라는 새로운 제품을 내놨는데, 아무래도 이름이 바뀌다보니 첫 장에서부터 당황하는 독자분들을 위해 'Anaconda 설치법'을 별도로 제공합니다. 참고하시기 바랍니다.

>자세히 보기

 

파이썬을 이용한 데이터 조작, 처리, 정비에 관한 완벽한 교재가 필요한가?


이 책은 NumPy, pandas, matplotlib, IPython 등의 다양한 파이썬 라이브러리를 사용해서 효과적으로 데이터를 분석할 수 있게 알려준다. 연대별 이름 통계 자료, 미 대선 데이터베이스 자료를 기반으로 한 실사례 연구를 따라하다보면 어느덧 여러분도 데이터에 알맞게 접근하고 효과적으로 분석하는 전문가가 될 것이다. pandas는 특히 파이썬을 처음 접하는 애널리스트와 처음으로 데이터를 분석하는 파이썬 개발자가 손쉽게 활용할 수 있는 도구로 유명하다.

 

이 책의 특징과 장점

  • pandas, NumPy, matplotlib, IPython 등 다양한 파이썬 라이브러리 소개 및 활용
  • 연대별 이름 통계 자료, 미 대선 데이터베이스 자료 등의 사례 연구

 

어떤 독자를 위한 책인가?

  • 빅데이터 관련 개발자
  • 데이터를 분석해서 비즈니스에 활용하고자 하는 사람
  • 데이터 과학자
  • R 이외의 데이터 분석 언어를 배우고자 하는 사람

 

 

파이썬을 이용한 데이터 조작, 처리, 정비에 관한 완벽한 교재가 필요한가? 아나콘다 설치와 파이썬 3, pandas 0.17 버전 테스트를 마친 수정보완판을 만나보자

 

이 책은 NumPy, pandas, matplotlib, IPython 등의 다양한 파이썬 라이브러리를 사용해서 효과적으로 데이터를 분석할 수 있게 알려준다. 연대별 이름 통계 자료, 미 대선 데이터베이스 자료를 기반으로 한 실사례 연구를 따라하다보면 어느덧 여러분도 데이터에 알맞게 접근하고 효과적으로 분석하는 전문가가 될 것이다. pandas는 특히 파이썬을 처음 접하는 애널리스트와 처음으로 데이터를 분석하는 파이썬 개발자가 손쉽게 활용할 수 있는 도구로 유명하다.

 

웨스 맥키니 저자

웨스 맥키니

미국 내슈빌에서 활동하고 있는 소프트웨어 개발자이자 기업가. 2007년 MIT 수학과 학부 과정을 마치고 코네티컷주 그리니치에 있는 AQR 캐피털 매니지먼트에서 금융 분석가로 근무했다. 복잡하고 느린 데이터 분석 도구에 실망해 2008년 파이썬을 배우면서 판다스 프로젝트를 시작했다. 파이썬 데이터 커뮤니티의 활발한 일원이며 데이터 분석, 금융, 통계 계산 애플리케이션에서 파이썬 사용을 독려하고 있다.

공동 창업한 DataPad가 2014년 클라우데라(Cloudera)에 인수된 이후 빅데이터 기술에 집중하기 시작했고, 아파치 소프트웨어 재단의 프로젝트인 아파치 애로(Apache Arrow)와 아파치 파케이(Apache Parquet)의 PMC(프로젝트 관리 위원)로 합류했다. 2018년 R스튜디오(RStudio), Two Sigma Investments와 협력해 아파치 애로 개발에 중점을 둔 비영리단체 Ursa Labs를 설립했다. 2021년에는 기술 스타트업인 Voltron Data를 공동 설립해 현재 최고 기술 책임자로 일하고 있다.

 

 

김영근 역자

김영근

애플 II에서 베이직으로 처음 프로그래밍을 시작했고, 장래 희망은 항상 프로그래머라고 말하고 다니다 정신 차리고 보니 어느덧 개발 경력이 10년을 훌쩍 넘긴 중년(?) 개발자가 되었다. 국립금오공과대학교에서 컴퓨터공학을 전공하고 리눅스 커뮤니티에서 오랫동안 활동했다. 임베디드 환경에서부터 미들웨어, 스마트폰 애플리케이션에 이르기까지 다양한 분야의 개발 경험이 있으며, 현재는 스타트업 아이플래테아(http://www.iplateia.com)에서 새로운 서비스 개발에 푹 빠져있다.

CHAPTER 1 시작하기 전에
  1.1 이 책은? 
  1.2 왜 데이터 분석을 위한 파이썬인가? 
    1.2.1 접착제처럼 사용하는 파이썬 
    1.2.2 한 가지 언어만 사용 
    1.2.3 파이썬을 사용하면 안 되는 경우 
  1.3 필수 파이썬 라이브러리 
    1.3.1 NumPy 
    1.3.2 pandas 
    1.3.3 matplotlib 
    1.3.4 IPython 
    1.3.5 SciPy 
  1.4 설치와 설정 
    1.4.1 윈도우 
    1.4.2 애플 OS X 
    1.4.3 리눅스 
    1.4.4 파이썬 2.x와 파이썬 3.x 
    1.4.5 통합 개발 환경 
  1.5 커뮤니티와 컨퍼런스 
  1.6 이 책을 살펴보는 방법 
    1.6.1 예제 코드 
    1.6.2 예제에 사용된 데이터 
    1.6.3 import 컨벤션 
    1.6.4 용어 
  1.7 감사의 말

 

CHAPTER 2 사례 소개
  2.1 bit.ly의 1.usa.gov 데이터 
    2.1.1 순수 파이썬으로 표준시간대 세어보기 
    2.1.2 pandas로 표준시간대 세어보기 
  2.2 MovieLens의 영화 평점 데이터 
    2.2.1 평점 차이 구하기 
  2.3 신생아 이름 
    2.3.1 이름 유행 분석 
  2.4 맺음말

 

CHAPTER 3 IPython 소개
  3.1 IPython 기본 
    3.1.1 탭 자동 완성 
    3.1.2 자기관찰 
    3.1.3 %run 명령어 
    3.1.4 클립보드에 있는 코드 실행하기 
    3.1.5 키보드 단축키 
    3.1.6 예외와 트레이스백 
    3.1.7 매직 명령어 
    3.1.8 Qt 기반의 GUI 콘솔 
    3.1.9 Pylab 모드와 Matplolib 통합 
  3.2 명령어 히스토리 사용하기 
    3.2.1 명령어 검색과 재사용 
    3.2.2 입·출력 변수 
    3.2.3 입·출력 기록하기 
  3.3 운영체제와 함께 사용하기 
    3.3.1 셸 명령어와 별칭 
    3.3.2 디렉터리 북마크 시스템 
  3.4 소프트웨어 개발 도구 
    3.4.1 인터랙티브 디버거 
    3.4.2 코드 시간 측정: %time과 %timeit 
    3.4.3 기본적인 프로파일링: %prun과 %run -p 
    3.4.4 함수의 각 줄마다 프로파일링하기 
  3.5 IPython HTML 노트북 
  3.6 IPython을 사용한 제품 개발을 위한 팁 
    3.6.1 모듈 의존성 리로딩하기 
    3.6.2 코드 설계 팁 
  3.7 IPython 고급 기능 
    3.7.1 IPython 친화적인 클래스 만들기 
    3.7.2 프로파일과 설정 
  3.8 감사의 글

 

CHAPTER 4 NumPy 기본: 배열과 벡터 계산
  4.1 NumPy ndarray: 다차원 배열 객체 
    4.1.1 ndarray 생성 
    4.1.2 ndarray의 자료형 
    4.1.3 배열과 스칼라 간의 연산 
    4.1.4 색인과 슬라이싱 기초 
    4.1.5 불리언 색인 
    4.1.6 팬시 색인 
    4.1.7 배열 전치와 축 바꾸기 
  4.2 유니버설 함수 
  4.3 배열을 사용한 데이터 처리 
    4.3.1 배열연산으로 조건절 표현하기 
    4.3.2 수학 메서드와 통계 메서드 
    4.3.3 불리언 배열을 위한 메서드 
    4.3.4 정렬 
    4.3.5 집합 함수 
  4.4 배열의 파일 입·출력 
    4.4.1 배열을 바이너리 형식으로 디스크에 저장하기 
    4.4.2 텍스트 파일 불러오기와 저장하기 
  4.5 선형대수 
  4.6 난수 생성 
  4.7 계단 오르내리기 예제 
    4.7.1 한 번에 계단 오르내리기 시뮬레이션하기

 

CHAPTER 5 pandas 시작하기
  5.1 pandas 자료 구조 소개 
    5.1.1 Series 
    5.1.2 DataFrame 
    5.1.3 색인 객체 
  5.2 핵심 기능 
    5.2.1 재색인 
    5.2.2 하나의 로우 또는 칼럼 삭제하기 
    5.2.3 색인하기, 선택하기, 거르기 
    5.2.4 산술연산과 데이터 정렬 
    5.2.5 함수 적용과 매핑 
    5.2.6 정렬과 순위 
    5.2.7 중복 색인 
  5.3 기술통계 계산과 요약 
    5.3.1 상관관계와 공분산 
    5.3.2 유일 값, 값 세기, 멤버십 
  5.4 누락된 데이터 처리하기 
    5.4.1 누락된 데이터 골라내기 
    5.4.2 누락된 값 채우기 
  5.5 계층적 색인 
    5.5.1 계층 순서 바꾸고 정렬하기 
    5.5.2 단계별 요약통계 
    5.5.3 DataFrame의 칼럼 사용하기 
  5.6 pandas와 관련된 기타 주제 
    5.6.1 정수 색인 
    5.6.2 Panel 데이터

 

CHAPTER 6 데이터 로딩, 저장, 파일 형식
  6.1 텍스트 파일 이용하는 방법 
    6.1.1 텍스트 파일 조금씩 읽어오기 
    6.1.2 데이터를 텍스트 형식으로 기록하기 
    6.1.3 수동으로 구분 형식 처리하기 
    6.1.4 JSON 데이터 
    6.1.5 XML과 HTML: 웹 내용 긁어오기 
  6.2 이진 데이터 형식 
    6.2.1 HDF5 형식 사용하기 
    6.2.2 마이크로소프트 엑셀 파일에서 데이터 읽어오기 
  6.3 HTML, 웹 API와 함께 사용하기 
  6.4 데이터베이스와 함께 사용하기 
    6.4.1 MongoDB에 데이터 저장하고 불러오기

 

CHAPTER 7 데이터 준비하기: 다듬기, 변형, 병합
  7.1 데이터 합치기 
    7.1.1 데이터베이스 스타일로 DataFrame 합치기 
    7.1.2 색인 머지하기 
    7.1.3 축 따라 이어붙이기 
    7.1.4 겹치는 데이터 합치기 
  7.2 재형성과 피벗 
    7.2.1 계층적 색인으로 재형성하기 
    7.2.2 피버팅으로 데이터 나열 방식 바꾸기 
  7.3 데이터 변형 
    7.3.1 중복 제거하기 
    7.3.2 함수나 매핑 이용해 데이터 변형하기 
    7.3.3 값 치환하기 
    7.3.4 축 색인 이름 바꾸기 
    7.3.5 개별화와 양자화 
    7.3.6 특이값 찾아내고 제외하기 
    7.3.7 치환과 임의 샘플링 
    7.3.8 표시자/더미 변수 
  7.4 문자열 다루기 
    7.4.1 문자열 객체 메서드 
    7.4.2 정규표현식 
    7.4.3 pandas의 벡터화된 문자열 함수 
  7.5 예제: 미국 농무부 음식 데이터베이스

 

CHAPTER 8 도식화와 시각화
  8.1 matplotlib API 간략하게 살펴보기 
    8.1.1 Figure와 서브플롯 
    8.1.2 색상, 마커, 선 스타일 
    8.1.3 눈금, 라벨, 범례 
    8.1.4 주석과 그림 추가 
    8.1.5 그래프를 파일로 저장 
    8.1.6 matplotlib 설정 
  8.2 pandas에서 그래프 그리기 
    8.2.1 선 그래프 
    8.2.2 막대 그래프 
    8.2.3 히스토그램과 밀도 그래프 
    8.2.4 산포도 
  8.3 지도 그리기: 아이티 지진 데이터 시각화하기 
  8.4 파이썬 시각화 도구 생태계 
    8.4.1 Chaco 
    8.4.2 mayavi 
    8.4.3 기타 패키지 
    8.4.4 시각화 도구의 미래

 

CHAPTER 9 데이터 수집과 그룹 연산
  9.1 GroupBy 메카닉 
    9.1.1 그룹 간 순회하기 
    9.1.2 칼럼 또는 칼럼의 일부만 선택하기 
    9.1.3 사전과 Series에서 묶기 
    9.1.4 함수로 묶기 
    9.1.5 색인 단계로 묶기 
  9.2 데이터 수집 
    9.2.1 칼럼에 여러 가지 함수 적용하기 
    9.2.2 색인되지 않은 형태로 집계된 데이터 반환하기 
  9.3 그룹별 연산과 변형 
    9.3.1 apply: 분리-적용-병합 
    9.3.2 변위치 분석과 버킷 분석 
    9.3.3 예제: 그룹에 국한된 값으로 누락된 값 채우기 
    9.3.4 예제: 랜덤 표본과 순열 
    9.3.5 예제: 그룹 가중 평균과 상관관계 
    9.3.6 예제: 그룹 상의 선형 회귀 
  9.4 피벗 테이블과 교차일람표 
    9.4.1 교차일람표 
  9.5 예제: 2012년 연방 선거관리위원회 데이터베이스 
    9.5.1 직장 및 피고용별 기부 통계 
    9.5.2 기부금액 
    9.5.3 주별 기부 통계

 

CHAPTER 10 시계열
  10.1 날짜, 시간 자료형, 도구 
    10.1.1 문자열을 datetime으로 변환하기 
  10.2 시계열 기초 
    10.2.1 인덱싱, 선택, 부분 선택 
    10.2.2 중복된 색인을 갖는 시계열 
  10.3 날짜 범위, 빈도, 이동 
    10.3.1 날짜 범위 생성하기 
    10.3.2 빈도와 날짜 오프셋 
    10.3.3 데이터 시프트 
  10.4 시간대 다루기 
    10.4.1 지역화와 변환 
    10.4.2 시간대 고려해 Timestamp 객체 다루기 
    10.4.3 다른 시간대 간의 연산 
  10.5 기간과 기간 연산 
    10.5.1 Period의 빈도 변환 
    10.5.2 분기 빈도 
    10.5.3 타임스탬프와 기간 서로 변환하기 
    10.5.4 배열을 이용해 PeriodIndex 생성하기 
  10.6 리샘플링과 빈도 변환 
    10.6.1 다운샘플링 
    10.6.2 업샘플링과 보간 
    10.6.3 기간 리샘플링 
  10.7 시계열 그래프 
  10.8 이동창 기능 
    10.8.1 지수 가중 함수 
    10.8.2 이진 이동창 함수 
    10.8.3 사용자 정의 이동창 함수 
  10.9 성능과 메모리 사용량에 대한 노트

 

CHAPTER 11 금융, 경제 데이터 애플리케이션
  11.1 데이터 준비 
    11.1.1 시계열과 크로스 섹션 정렬 
    11.1.2 다른 빈도를 가지는 시계열 연산 
    11.1.3 일별 시간과 현재 최신 데이터 선택하기 
    11.1.4 데이터와 함께 나누기 
    11.1.5 수익 지수와 누적 수익 
  11.2 그룹 변환과 분석 
    11.2.1 그룹 요인 밝히기 
    11.2.2 십분위와 사분위 분석 
  11.3 추가 예제 애플리케이션 
    11.3.1 신호 경계 분석 
    11.3.2 선물 계약 롤링 
    11.3.3 롤링 상관관계와 선형 회귀

 

CHAPTER 12 고급 NumPy
  12.1 ndarray 객체 내부 알아보기 
  12.1.1 NumPy dtype 구조 
  12.2 고급 배열 조작 기법 
    12.2.1 배열 재형성하기 
    12.2.2 C와 포트란 순서 
    12.2.3 배열 이어붙이고 나누기 
    12.2.4 원소 반복시키기: repeat과 tile 
    12.2.5 팬시 색인: take와 put 
  12.3 브로드캐스팅 
    12.3.1 다른 축에 대해 브로드캐스팅하기 
    12.3.2 브로드캐스팅 이용해 배열에 값 대입하기 
  12.4 고급 ufunc 사용법 
    12.4.1 ufunc 인스턴스 메서드 
    12.4.2 사용자 ufunc 
  12.5 구조화된 배열과 레코드 배열 
    12.5.1 중첩된 dtype과 다차원 필드 
    12.5.2 구조화된 배열을 사용해야 하는 이유 
    12.5.3 구조화된 배열 다루기: numpy.lib.recfunctions 
  12.6 정렬에 관하여 
    12.6.1 간접 정렬: argsort와 lexsort 
    12.6.2 다른 정렬 알고리즘 
    12.6.3 numpy.searchsorted: 정렬된 배열에서 원소 찾기 
  12.7 NumPy matrix 클래스 
  12.8 고급 배열 입·출력 
    12.8.1 메모리 맵 파일 
    12.8.2 HDF5 및 기타 배열 저장 옵션 
  12.9 성능 팁 
    12.9.1 인접 메모리의 중요성 
  12.9.2 기타 성능 옵션: Cython, f2py, C

 

부록 파이썬 언어의 기본
  A.1 파이썬 인터프리터 
  A.2 파이썬 기초 
    A.2.1 시멘틱 
    A.2.2 스칼라형 
    A.2.3 흐름 제어 
  A.3 자료 구조와 순차 자료형 
    A.3.1 튜플 
    A.3.2 리스트 
    A.3.3 내장 순차 자료형 함수 
    A.3.4 사전 
    A.3.5 세트 
    A.3.6 리스트 내포, 사전 내포, 세트 내포 
  A.4 함수 
    A.4.1 네임스페이스, 스코프, 지역 함수 
    A.4.2 여러 값 반환하기 
    A.4.3 함수도 객체다 
    A.4.4 익명 함수 
    A.4.5 클로저: 함수를 반환하는 함수 
    A.4.6 *args와 **kwargs를 사용해서 호출 문법 확장하기 
    A.4.7 커링: 일부 인자만 취하기 
    A.4.8 제너레이터 
  A.5 파일과 운영체제

1.인트로 - 

최근에 AI, 인공지능과 함께 가시한번 조명을 받고 있는 것이 데이터 분석이다. 데이터 분석을 활용할 줄 알면 좀 더 일이 편해지고 자동화를 통해 필요없는 일처리를 줄일수 있다. 하지만 기본적인 컴퓨터 프로그래밍과 다르게 데이터 분석은 python을 활용하지만 다양한 라이브러리를 사용해서 첫 시작을 하기가 힘들다. 그러던 도중 이 책을 알게되었고, 두껍지만 데이터 분석 입문용 책으로 추천을 받아서 읽게 되었다.

 

2.메인 내용 - 

일단 아래에 보듯이 소개하는 필수 라이브러리는 NumPy, pandas, matplotlib등이 있다. 주로 대부분의 사람들이 사용하는 것이기도 하고 각 장마다 세세하게 어떻게 사용하는지도 잘 알려주고 있다. 또한 사용법부터 어떻게 공부하면 좋고 왜 공부하는지도 잘 알려주닌 구성은 정말 알차다고 생각한다.

3.나의 생각 - 

생각보다 정말 책이 쉽고 이해하기 쉽게 되어있다. 일단 이 책을 읽기전에 다른 데이터 분석 책을 1권 읽어 보았다. 그 책도 커리큘럼과 어떤 툴을 가르쳐주는 지는 비슷했었는데 너무 실습 위주라서 이론적으로 어떤 기능을 쓰고 왜 이 기능을 쓰는지는 전혀 알려주지 않았다. 하지만, 이 책은 겉으로는 두꺼워보이지만, 사실은 생각보다 그림이 더 많고 기능 및 툴에 대한 설명이 정말 자세하게 되있어서 헷갈릴 일이 없다.

4.마무리 - 

나중에 알고보니 데이터분석 분야에서 꽤나 유명한 책이였다. 이미 이 책으로 많은 분들이 도움을 많이 보셔서 데이터분석 관련 공부를 할 예정이라면 정말정말 추천드립니다.

IT의 발전 순서를 가만히 관조해보면 초창기에는 Hardware 자체가 귀했기 때문에 가격 자체가 비쌌고 따라서 모든 IT의 관심 및 Resource가 컴퓨터에 초점을 맞추었었다. 그러다 1970년대 말 PC 개념이 출현하면서 Hardware의 가격은 급속히 하락하기 시작했고, Hardware 중심의 IT 기업들은 채산성을 맞추기 힘들었다. 그러자 자연히 Software로 IT의 중심이 움직였고, 70년대에 출현한 Microsoft, Oracle, Symantec같은 Software 업체들이 자연히 IT의 Power Group을 형성하였다. (오죽하면 90년에는 Bill Gates가 얼마 안 있어 세계의 황제가 될지도 모른다는 농담이 횡행했었을까!) 하지만, 다시 IT의 Paradigm이 변하면서 Software도 Hardware와 같이 범용화의 길을 걷기 시작했고, 이제는 Service 형태로 Software의 성격이 변했다. 아직 IT의 패권은 Software 중심 업체들이 가지고 있지만, 그 권력의 힘이 점차 약화되고 있다는 것은 누구든지 느낄 것이다. 그렇다면 Hardware, Software 다음으로 IT의 초점은 어디로 이동하게 될까? 아마 누구나 예상하겠지만, Data로 자연스럽게 그 중심축이 움직이게 될 것이다.
사실 Data는 IT가 태동한 그 순간부터 존재하였고, 그 존재 가치는 누구나 중요하게 여기고 있었다. 하지만, Hardware와 Software가 Service형으로 진화하면서 이제 IT의 차별적인 요소는 Data만 남았기에, 그 중요성은 더욱 더 커질 것이라고 예측하는 것이 자연스럽다.
흔히들 Data에 대해 잘못 생각하는 것 중에 하나는 Data를 수집하는 것이 가장 핵심 요소라고 생각한다. 예전에 Data 수집 방법이 흔치 않던 때에는 타당할 수 있었으나, 요즘처럼 Data가 넘쳐나고 약간의 비용과 수고를 들이면 Data를 Gathering하는 것이 어렵지 않은 지금은 그 말이 맞지 않다. 오히려 Collect한 Data를 어떻게 분석하여 유의미한 정보를 추출하는 것인가가 더욱 더 중요해진 시점이다.
Python for Data Analysis는 이런 시대의 조류에 맞추어 나온 꽤 유용한 책이다. 이 책은 Data 분석 기법을 이론적으로 설명하기 보다는 실용적으로 Python언어 기반으로 Data 분석 알고리즘을 구현하는 방법을 알려주고 있다. 도식화, 색인 같은 기초적인 Data 처리 방식부터 시계열 분석 같은 고급 Data 분석 알고리즘을 구현하는 방법까지 설명해주고 있기 때문에, Data 분석 프로그램을 작성하고 싶은 개발자에게 무척 유용한 책이 될 것이라 생각한다. 비록 언어는 Python이지만, 구현 원리를 잘 이해한다면 C나 Java와 같은 다른 언어로 작성할 때도 많은 도움이 될 것이다. (물론 여기에서 사용한 Python 산술연산 Library들을 이해해야 된다는 전제조건이 붙긴 하지만…)
IT 시대의 변화는 이제 비IT인이더라도 느낄 정도로 그 강도는 점차 강해지고 있다. 과거의 관습에 얽매이는 것보다, 좀더 미래를 이끌어갈 것이 무엇인지 생각하고 이를 대비하는 것이 좋지 않을까?

데이터 분석, 데이터 시각화에 관한 트렌디한 이야기를 들으면서, 관심이 하루하루 늘어가고 있던 와중!
학교를 다니면서 Matlab이나 ModelSim 같은 수학적이고, 종속적인 툴들을 접하다보니, 자유로우면서도 어느정도 공학적 요소를 살릴 수 있는 프로그래밍을 하고 싶다는 생각이 들었다. 광범위하게 쓸 수 있으면서 C언어처럼 자유로우면서 강력한 라이브러리들이 있다는 Python에 대한 관심이 높아져서 이 책을 읽어보았다.

Python를 부담 때문에 접하지 않은 ^^;; 한가지 핑계로써 기존에 가지고 있던 생각은 C나 JAVA보다 느리다라는 것이었는데, 들어가는 저자의 말에 이런 문구가 있었다.
‘개발자의 시간 비용은 CPU의 시간 비용보다 비싸므로 대개는 이런 등가교환에 만족해한다.’

양쪽은 비교할 수 없는 level이지만, 어플리케이션의 성능이 문제가 되지 않는 한 개발자가 Python을 이용하면 이해와 개발 과정에 있어서 시간을 많이 단축시킬 수 있으므로 쓸만하다는 것이다. 새로운 말은 아니지만 Python이 근처 산업 내에서도 많이 쓰이는 걸 부정할 순 없는 설명인 것 같다. 책에서도 과학계산 어플리케이션이나 프로토타입, 과학자와 기술자의 프로그래밍으로의 접근성을 높이기 위해서 Python을 추천한다.

2장은 여러 종류의 데이터를 처리하고 분석하고 시각화하는 간단한 사례를 소개했다.
외부 자료 활용, 데이터 준비, 데이터 변형, 모델링과 계산, 데이터 표현 이라는 대표적인 작업이 있다면, 보통은 각각에 맞는 툴들을 익혀야 한다. 외부 자료를 파싱하는 언어, 데이터 준비와 변형을 위한 DB 언어, 시뮬레이션을 위한 모델링과 계산 툴, 그리고 데이터 시각화 툴까지. 책에서는 이들 목적이 맞물릴 때 생기는 지식 장벽에 대해 Python 하나만으로 해결할 수 있다는 매력적인 장점을 제공한다. [그림]

3, 4장엔 차례로, IPython이라는 개발 환경, NumPy라는 기본 라이브러리에 대해 소개를 했다. 책에서는 EDP를 가지고 예제를 진행하는데 현재 EDP는 Canopy라는 제품으로 바뀌어 있는 상황이고 호환에 있어서는 아직까진 문제가 없다.

5장에서는 저자가 직접 개발한 pandas라는 고수준 자료 구조와 데이터 분석 도구를 제공하는 라이브러리를 가볍게 살펴본다. 간단한 예시만 있지만 색인(Index)를 객체로 잡고 표 모양의 자료구조에서 카테고리화하는데 유동성을 제공하는 것이 한가지 장점으로 등장한다.

6장~7장에서는 데이터를 받고 준비(다듬기, 변형, 병합)하는 과정을 예제로 들었다. 다른 부서에 서 처리한 방대한 엑셀 형태의 자료를 잘 가꾸고 noise들을 깔끔하게 처리해서, Database에 import시키는 과정은 굉장히 괴롭다. 일반적으로도 한가지 포맷에서 다른 포맷으로 자료를 전환시키는 일은 상황에 맞는 좋은 툴을 개발해놓지 않은 이상, 힘들다. 이 책에서는 상황에 딱 맞는 방법론을 빠르게 구현할 수 있는 가능성을 엿볼 수 있었다. 아마 엑셀 -> Database 이 중간의 데이터 호환 처리 과정에서 좋게 쓰일 수 있을 것 같다.

나머지 장에서는 시각화와 금융, 경제, 그밖의 모델링에 있어서 유용한 점을 살펴볼 수 있었다.

모델링 소프트웨어들은 꽤 있지만, 특정 상황에만 종속되어 있지 않다는 것이, 이론이 좋지만 표현과 시각화에 서투르다 생각하는 공대생에게 익혀두면 괜찮은 툴이라는 생각이 든다!

파이썬은 혼자서도 독학하기 좋은 언어라 해서 선택한 책입니다.
맥 os 와 윈도우는 사용을 많이 해본 상태라 리눅스도 알겸 리눅스 우분투에 파이썬을 설치 했습니다.
리눅스를 잘 모르는 상태라 리눅스 설정부터 좀 오래 걸렸구요, 파이썬 설치는 윈도우보다는 쉽더군요..
맥과 비슷해서…
파이썬 라이브러리를 활용한 빅데이터이다 보니 좀 어렵더군요.. 처음이라 잘 모르는 부분도 많구요..
한번만 보고 이해하기에는 좀 어려운 것 같구요, 파이썬의 기초를 갖춘 사람이 보아야 할 듯 합니다.
저는 한번보고 이해가 안가서 여러번 다시 볼려구요….
파이썬을 잘 모르는 상태라 파이썬 기초도 함께공부해야 할 듯 합니다.
하지만 이 책 한권이면 빅데이터 분석을 공부하는데 효과적일 것 같습니다.
저는 아직 미흡한 상태라 아직 좀 더 보아야 할 것 같구요…오래두고 계속 보면 좋을 듯 합니다.
githup 도 함께 알아야 할 책입니다..

결제하기
• 문화비 소득공제 가능
• 배송료 : 2,000원배송료란?

배송료 안내

  • 20,000원 이상 구매시 도서 배송 무료
  • 브론즈, 실버, 골드회원이 주문하신 경우 무료배송

무료배송 상품을 포함하여 주문하신 경우에는 구매금액에 관계없이 무료로 배송해 드립니다.

닫기

리뷰쓰기

닫기
* 상품명 :
파이썬 라이브러리를 활용한 데이터 분석(수정보완판)
* 제목 :
* 별점평가
* 내용 :

* 리뷰 작성시 유의사항

글이나 이미지/사진 저작권 등 다른 사람의 권리를 침해하거나 명예를 훼손하는 게시물은 이용약관 및 관련법률에 의해 제재를 받을 수 있습니다.

1. 특히 뉴스/언론사 기사를 전문 또는 부분적으로 '허락없이' 갖고 와서는 안됩니다 (출처를 밝히는 경우에도 안됨).
2. 저작권자의 허락을 받지 않은 콘텐츠의 무단 사용은 저작권자의 권리를 침해하는 행위로, 이에 대한 법적 책임을 지게 될 수 있습니다.

오탈자 등록

닫기
* 도서명 :
파이썬 라이브러리를 활용한 데이터 분석(수정보완판)
* 구분 :
* 상품 버전
종이책 PDF ePub
* 페이지 :
* 위치정보 :
* 내용 :

도서 인증

닫기
도서명*
파이썬 라이브러리를 활용한 데이터 분석(수정보완판)
구입처*
구입일*
부가기호*
부가기호 안내

* 온라인 또는 오프라인 서점에서 구입한 도서를 인증하면 마일리지 500점을 드립니다.

* 도서인증은 일 3권, 월 10권, 년 50권으로 제한되며 절판도서, eBook 등 일부 도서는 인증이 제한됩니다.

* 구입하지 않고, 허위로 도서 인증을 한 것으로 판단되면 웹사이트 이용이 제한될 수 있습니다.

닫기

해당 상품을 장바구니에 담았습니다.이미 장바구니에 추가된 상품입니다.
장바구니로 이동하시겠습니까?

자료실

최근 본 상품1