메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

한빛출판네트워크

오래된 내 정보 속 옥의 티를 찾아라(2022.9.22~12.31) / 회원정보 UPDATE하고 선물도 받고!

데이터 과학을 위한 파이썬과 R

오픈소스를 활용한 데이터 분석, 시각화, 머신러닝 | 파이썬-R 사전 부록 제공

한빛미디어

번역서

판매중

  • 저자 : 릭 슈카페타 , 보이안 앙겔로프
  • 번역 : 임혜연
  • 출간 : 2022-10-28
  • 페이지 : 216 쪽
  • ISBN : 9791169210430
  • 물류코드 :11043
초급 초중급 중급 중고급 고급
5점 (3명)
좋아요 : 1

이중 언어 사용 스킬 대방출! 상황별 언어 선택법과 두 언어로 작성된 스크립트 통합법

 

데이터 과학 프로젝트를 성공적으로 끝내려면 상황에 맞게 적절한 도구를 선택할 수 있어야 합니다. 어떤 작업에서는 R이 더 적절할 수 있지만 또 다른 작업에서는 범용 언어인 파이썬이 더 나을 수도 있기 때문입니다. 이 책은 데이터 과학에서 필수 도구인 파이썬과 R의 기술적 상호 작용에 대해 설명하고, 사례 연구를 통해 각 언어의 강점과 시너지 효과를 보여줍니다. 그리고 한 걸음 더 나아가 오픈소스 생태계를 활용한 데이터 분석, 시각화, 머신러닝 실습을 제공합니다. 파이썬과 R의 장점을 모두 활용하면 더 크고 복잡한 데이터 과학 프로젝트에서도 만족스러운 결과를 얻을 수 있을 것입니다.

 

 

상세이미지_데이터 과학을 위한 파이썬과 R_700px.jpg

 

릭 슈카페타 저자

릭 슈카페타

2012년부터 독립 워크숍 트레이너, 프리랜서 데이터 과학자, 공동 창업자로 일하고 있습니다. 슈카페타 아카데미를 운영하며 독일 전역에 있는 주요 연구 기관과 협력하고 있습니다. 2016년부터 맡은 데이터 캠프 강의는 20만 명이 넘는 사람이 수강했으며 오라일리(O’Reilly)와 매닝(Manning)의 고급 데이터 과학 강의에도 기여했습니다. 현재는 사우디아라비아에 있는 미스크(Misk) 아카데미의 기술 교육과정 고문으로 데이터 과학 프로그램 개발을 이끌고 있습니다.

보이안 앙겔로프 저자

보이안 앙겔로프

보이안 앙겔로프는 10년 이상의 학계와 산업계 경험이 있는 데이터 전략가이자 컨설턴트입니다. 생물정보학, 임상 실험, 인적 자원 기술, 관리 컨설팅 등의 분야에서 활동합니다. XAI 분야의 오픈소스 과학 프로젝트에 기여했으며 정기적으로 콘퍼런스와 모임에서 발표합니다.

임혜연 역자

임혜연

인터넷 세상의 언어에 관심이 많은 개발자입니다. 지금은 어떻게 하면 검색을 통해 좋은 연결을 만들 수 있을지 고민하는 일을 주로 하고 있습니다.

PART 1 새로운 언어의 발견


CHAPTER 1 첫걸음

1.1 R의 기원

1.2 파이썬의 기원

1.3 언어 전쟁의 시작

1.4 데이터 과학에서의 승자는?

1.5 협력과 커뮤니티 구축

정리하기

 

 

PART 2 새로운 언어 시작하기


CHAPTER 2 파이썬 사용자를 위한 R

2.1 R 제대로 사용하기

2.2 프로젝트와 패키지

2.3 티블의 성공

2.4 데이터 타입과 탐색

2.5 내부 요소 명명 규칙

2.6 리스트

2.7 팩터의 실체

2.8 필요한 내용을 찾는 방법

2.9 반복 다시 실행하기

정리하기

 

CHAPTER 3 R 사용자를 위한 파이썬

3.1 버전과 빌드

3.2 표준 도구

3.3 가상 환경

3.4 패키지 설치

3.5 노트북

3.6 파이썬과 R 비교

    _데이터셋 가져오기

    _데이터 조사하기

3.7 데이터 구조와 기술 통계

    _데이터 구조: 기본으로 돌아가기

    _인덱싱과 논리 표현식

    _플로팅

3.8 추론 통계

정리하기

 

 

PART 3 현대적 컨텍스트


CHAPTER 4 데이터 포맷 컨텍스트

4.1 외부 패키지와 기본 패키지

4.2 이미지 데이터

4.3 텍스트 데이터

4.4 시계열 데이터

    _베이스 R

    _프로펫

4.5 공간 정보 데이터

정리하기

 

CHAPTER 5 워크플로 컨텍스트

5.1 워크플로란?

5.2 탐색적 데이터 분석

    _정적 시각화

    _인터랙티브 시각화

5.3 머신러닝

5.4 데이터 엔지니어링

5.5 보고서 작성

    _정적 보고서 작성

    _인터랙티브 보고서 작성

정리하기

 

 

PART 4 파이썬과 R 함께 사용하기


CHAPTER 6 파이썬과 R의 시너지 효과

6.1 가짜 운용성

6.2 상호 운용성

6.3 한 걸음 더

    _R 마크다운 문서에서 파이썬으로 객체 전달하기

    _R 마크다운 문서에서 파이썬 호출하기

    _파이썬 스크립트를 소싱해서 파이썬 호출하기

    _REPL을 사용하여 파이썬 호출하기

    _인터랙티브 문서에서 동적 입력으로 파이썬 호출하기

정리하기

 

CHAPTER 7 데이터 과학 사례 연구

7.1 24년 그리고 188만 건의 산불

7.2 설정과 데이터 불러오기

7.3 탐색적 데이터 분석과 데이터 시각화

7.4 머신러닝

    _파이썬 환경 설정

    _피처 엔지니어링

    _모델 학습

7.5 예측과 UI

정리하기

 

[부록] 파이썬-R 사전

- 패키지 관리

- 할당 연산자

- 타입

- 산술 연산자

- 속성

- 키워드

- 함수와 메서드

- 스타일과 명명 규칙

- 유사한 데이터 스토리지 객체

- 데이터 프레임

- 논리 표현식

- 인덱싱

파이썬과 R, 무엇이 더 강력한 데이터 과학 도구일까요?

 

데이터 과학 분야에서는 파이썬과 R이 주축을 이루고 있습니다. 그렇다면 둘 중 더 강력한 도구는 무엇일까요? 이 책은 특정 상황에서 어떤 언어가 더 큰 장점을 갖는지 알아보고, 각 언어의 장점을 최대한으로 활용하는 방법을 다룹니다.

 

그런데 데이터 과학에서 파이썬과 R은 “함께 사용할 때” 정말로 강력한 도구가 된다는 사실을 알고 있나요? 이 책은 어디서도 다루지 않는 파이썬과 R의 시너지 효과를 설명하고, 각 언어로 작성된 스크립트를 단일 워크플로에서 단일 스크립트로 만드는 방법도 살펴봅니다!

 

평소 데이터 과학 프로젝트에서 한 가지 언어만 사용했다면 이 책을 통해 원래 사용하던 언어를 기반으로 다른 언어를 배울 수 있습니다. 그렇게 파이썬과 R을 모두 다룰 수 있는 이중 언어 사용자가 되면 예제를 통해 특정 상황에서 어떤 언어를 선택해야 하는지 학습합니다. 최종적으로는 두 언어를 모두 사용하여 성공적인 데이터 과학 프로젝트를 완성할 수 있습니다.

 

 

대상 독자

  • 데이터 과학 이론이 아닌 ‘데이터 과학을 위한 언어(도구)’에 관심 있는 사람
  • 데이터 과학 분야의 실무자

 

주요 내용

 

1. 맞춤형 학습

  • 파이썬 사용자를 위한 맞춤형 R 학습
  • R 사용자를 위한 맞춤형 파이썬 학습

2. 이중 언어 사용자를 위한 스킬

  • 파이썬과 R의 장단점 비교
  • 상황에 맞는 언어를 선택하는 방법

3. 파이썬과 R의 시너지 효과

  • 파이썬과 R을 단일 워크플로로 통합하는 방법
  • 파이썬과 R을 함께 사용하는 사례 연구

 

추천사

 

이 책에는 다양한 도메인의 예제, 여러 패키지 안내와 참고 자료가 꽉 들어차 있습니다. 이 책의 가르침에 따라 두 세계의 장점을 취사선택할 수 있다면 더 쉽고 멋지게 문제를 해결할 수 있을 것입니다.

_정지용(구글 ML인프라 엔지니어)

 

두 언어의 시너지와 관련된 부분이 인상적입니다. 데이터 과학 분야에 관심이 있는 사람에게 추천하기에 충분히 매력적인 책입니다.

_김선겸(SKTelecom 검색/추천팀)

 

데이터 과학 분야의 큰 흐름을 파악하는 데 도움이 되며, 특히 하나의 언어에 익숙한 현업 데이터 분석가에게 또 다른 언어를 선물하는 책이 되어줄 것입니다.

_임중선(당근마켓 NLP 엔지니어)

 

파이썬과 R의 기원을 알 수 있고, 파이썬과 R이 서로를 보완하는 방법에 대해 배울 수 있습니다.

_조지 마운트(Stringfest Analytics CEO)

 

데이터 과학을 시작하는 데 도움을 주며, 파이썬과 R 중 무엇으로든 작업할 수 있는 방법을 알려줍니다.

_노아 기프트(Pragmatic AI Labs 창립자)

20221126_152720.jpg

 

 "한빛미디어 <나는 리뷰어다>활동을 위해서 책을 제공받아 작성된 서평입니다."

 

책을 다 읽고 난 후의 가장 큰 소득은 R과 파이썬이라는 두 언어를상호운용할 수 있는 방법을 알았다는 것이다. 가장 아쉬운 점은 설명이 그다지 상세하고 친절하지는 않다고느껴지는 것이다. 그래서, 머리말 부분을 다시 살펴보니 대상독자를 데이터과학 분야의 실무자로 하고 있고, 책을 최대한 활용하려면 배경지식으로 R이나 파이썬 중 한 언어에는 익숙해야 한다고 미리 밝히고 있음을 다시 확인했다. 개인차가 있는 부분으로 어느 정도 이해해야 할 것같다. 파이썬은데이터분석에 대한 기본 패턴인 데이터 읽기, EDA, 전처리, 훈련/테스트 데이터 분리, 모델 피팅, 분류/예측, 성능평가의 익숙한 문장들만 알고 있고, R은 실무로 사용하고 있지는 않지만 학습자 수준에서 조금 사용해 본 정도의 수준이라 책이 그다지 상세하지 않다고느껴진 것같다. 아울러 한빛미디어나 길벗 등에서 출판되는 IT 책들이경쟁적으로 내용이나 편집면에서 다양하게 독자들을 배려하고 있어 상대적으로 세심하지 않은 것같다고 느껴진 것같다.

 

책은 Part 01 새로운 언어의 발견에서 각 언어의 역사를 중심으로한 내용이 나온다. Part02 새로운 언어 시작하기에서는 파이썬 사용자를 위한 R, R 사용자를 위한 파이썬에서 각 언어의 사용환경에 대한 설명을 포함해서 기본적인 각 언어의 특징과 사용법을제한적이긴 하지만 따라해 볼 수 있도록 하고 있다.

Part03 현대적 컨텍스트에서는 데이터포맷 컨텍스트와 워크플로 컨텍스트부분으로 나누어 각 언어가 강점을 가지는 영역을 알려주고 있다. 데이터포맷 컨텍스트에서 이미지와 텍스트의처리 및 분석은 파이썬이 강점이 있고, 시계열과 공간정보는 R의손을 들어주고 있다. 워크플로 컨텍스트에서는 EDA, 보고서작성은 R이 강점이 있고 머신러닝, 딥러닝, 데이터 엔지니어링은 파이썬이 여러 도구들과 잘 어울리는 접착제 같은 특성을 들어 강점이 있다고 안내하고 있다.

Part04 파이썬과 R 함께사용하기에서는 파이썬과 R의 상호운용성을 구현하기 위해 필요한 R 진영의reticulate라는 패키지와 파이썬 진영의 rpy2 모듈을소개하고, 이어서 미국 농무부가 제공하는 Wildfires 산불데이터셋을 재료로 RStudio IDE에서 R과 파이썬을적절하게 활용하는 방법을 제시하고 있다.

 

특히 흥미로왔던 부분은 Part01이었다. ANOVA 분석후 사후검정의 한 방법으로 사용하는 Tukey’ HSD의그 튜키라는 사람이 EDA에 자주 사용하는 박스플랏(상자수염그림)을 개발했다는 사실이나 R Core라는 것이 있고 자발적 기여자 그룹에의해 문서화, 빌드, 테스트, 배포 등의 작업에 필요한 인프라를 포함하는 베이스R을 구현하고 있는데초기 멤버인 존 체임버스, 로스 이하카, 로버트 젠틀맨을포함한 몇 명의 멤버가 여전히 참여하고 있다는 점 등의 흥미로운 사실을 알게 되어 좋았다.

파이썬 진영에서는 창시자인 귀도 반 로섬이라는 네덜란드 프로그래머가 2018년까지파이썬 운영 위원회에 머물면서 자비로운 종신 독재자(BDFL, Benevolent Dictator For Life)라불리며 영향력을 행사했다는 점 등이 흥미로왔다.

 

Part02 Chapter3 R 사용자를 위한 파이썬은 많이 관심이갔었는데 사용환경 설정에서 원활하게 따라가지 못 해 아쉬웠다. 파이썬 환경이 다양하고 책에서는 그 중VS Code를 사용하는 방법을 비교적 상세하게 안내하고는 있어 VSCode 설치하고, 가상환경 구성하고 일부 패키지 설치하는 것까지는 따라 했다. 이후 Part03 Chapter4 데이터 포맷 컨텍스트에서 이미지데이터를 불러오기 위해 cv2(OpenCV) 패키지 설치하는데 에러가 나서 구글링하니 OpenCV라는 패키지명으로 설치해야 한다고 하고, skimage(scikit-image)패키지 설치하는데 에러가 나서 일단 실습은 포기했더랬다. 저자가 서두에 언급했던 것처럼어느 정도 파이썬이나 R 한 가지 언어에 익숙한 데이터 과학 분야의 실무자를 대상독자로 했기 때문에개인의 역량이 부족한 부분을 자책해야 할 것같다.

 

 

Part04 Chapter6 파이썬과 R의 시너지 효과에서는 R 코드를 작성하는 경우 reticulate가 보장하는 상호운영성과 파이썬 코드를 작성하는 경우 rpy2가보장하는 상호운영성에 대해 함수, 객체, 패키지 레벨에서사용할 수 있는 방법을 제시하고 있다.

 

20221126_152859.jpg

 

Part04 Chapter7 데이터 과학 사례 연구에서는 데이터를불러오고, EDA와 데이터 시각화는 R을 이용하고, 피처 엔지니어링과 머신러닝은 파이썬을 이용하고, 동적보고서로 대화형웹 인터페이스는 R을 이용하는 것으로 R과 파이썬이라는 두언어를 상호운용할 수 있는 방법을 제시하고 있다

20221126_152931.jpg

 

 

파이썬과 R을 상호운영하는데에 관심이 있는 데이터 과학 분야 실무자에게유익할 것같고, 초보자에게는 온전히 내 것으로 하기에는 좀 무리가 있지 않을까 하는 생각이 든다. 마찬가지로 번역도 약간 의역보다 직역에 가까운 것같다고 개인적으로 생각했는데,저자의 느낌과 의도 표현의 장점은 있으나 초보자에게는 내용 전달에 약점으로 작용하지 않았을까하는 생각이 든다.

 

데이터 과학을 위한 파이썬과 R

Rick J. Scavetta

2012년부터 독립 워크숍 트레이너, 프리랜서 데이터 과학자, 공동 창업자로 일하고 있다. 슈카페타 아카데미를 운영하며 독일 전역에 있는 주요 연구 기관과 협력하고 있다. 2016년부터 맡은 데이터 캠프 강의는 20만 명이 넘는 사람이 수강했으며 오라일리(O’Reilly)와 매닝(Manning)의 고급 데이터 과학 강의에도 기여했다. 현재는 사우디아라비아에 있는 미스크(Misk) 아카데미의 기술 교육과정 고문으로 데이터 과학 프로그램 개발을 이끌고 있다.

본 도서는

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

이 책은 파이썬과 R 커뮤니티 사이의 간극을 메우기에 적합한 도서이다.

#구성

데이터 과학 분야 실무자에게 적합하다. 데이터 과학이 무엇인지에 대해 설명하기보다 파이썬과 R의 장점을 활용하여 자유자재로 사용하는 방법을 알려주는것을 목표로 하고 있다. Exploratoy Data Analysis, Statistics, Visualization, Markdown에 강력한 R과 Machine Learning, Development에 강력한 파이썬을 둘 다 사용할 수 있다면 무기를 하나 더 가진 것이나 다름없다.

데이터 과학에서 주로 사용하고 있는 언어인 파이썬과 R 둘 중 하나는 익숙하게 다룰 줄 아는 데이터 과학자가 읽는 것을 추천한다. 책의 난이도는 전반적으로 어렵지 않으나, 다양한 기능을 제공하는 몇 개의Packages, Library를 소개한다. 그러니 언어를 사용하고 있는 데이터 과학자가 읽어야 할 것이다.

출처 : https://www.forbes.com/sites/bernardmarr/2021/10/04/the-5-biggest-data-science-trends-in-2022/?sh=ea7b3c40d3f8

#워크플로

데이터 과학자는 근접 분야에서 일하는 동료와 프로젝트에 대해 논의할 때 스스로를 의심하게 되는 경우가 있을 것이다. 서로의 작업 Domain이 다를 뿐인데 스스로가 부족하다고 느끼게 되는 그런 경우가 있다.

예를 들어, A는 ML 모형 개발이고 B는 시각화,보고서 작성을 주로 할 때, 함께 작업하게 되는 경우 서로의 작업에 대해 이야기 나눈다고 생각해보자. A는 B의 그래픽 문법을 잘 모를 것이고 B는 A의 API 구축 방법을 모를 것이다. 이렇게 되면 스스로의 능력에 의심을 하게 되고 서로가 불편해진다. 우리는 이런 WorkFlow를 유연하게 다룰 줄 알아야 한다. 그러한 간극을 줄이는 방법 중 하나는 이전에 말했듯 Python과 R을 장점만 부각시키며 사용할 필요가 있다.


200페이지 책이라 다소 가볍게 읽을 수 있었던 책이다. 그리고 120페이지까지 대부분 알고 있는 내용이라 복습하는 느낌으로 읽을 수 있었다. 이후 챕터 5에서 워크플로 컨텍스트를 읽으면서 중요한 내용들을 파악할 수 있었다. 여기서 말하는 워크플로는 특정 기능에 필요한 모든 작업을 수행할 수 있는 도구 및 프레임워크 컬렉션이다. 좋은 워크플로는 무엇인지 알 수 있었다..

  • 커뮤니티에서 널리 받아들여진 것이어야 한다.

  • 잘 관리된 오픈 소스 생태계와 커뮤니티 자원을 받아야 한다. 비공개 소스와 상용 애플리케이션에 주로 의존하는 워크플로는 고려하지 않는다.

  • 중복되는 작업 기능에 적합해야 한다. 모듈화된 설계와 확장성은 다양한 기술 스택을 지원할 수 있다.

EDA에 좋은 GUI

  • AWS QuickSight

  • Google Data Studio

  • Orange(orange.biolab.si) <- Open Source

해당 도서는 Python과 R이란 언어를 처음 접하거나, 두 언어를 모두 사용할 줄 알거나, 둘 중 하나를 사용하면서 새롭게 다른 언어를 배우려는 분들에게 모두 도움이 되는 책입니다. 각 언어의 특징을 비교 형식으로 자세히 설명하고, 상황에 따라 어떤 언어를 사용하는 것이 적합한지 설명합니다.
 
또한, 데이터 분석 파이프라인을 소개하며, 주어진 데이터에 따라 어떤 처리가 필요한지, 해당 태스크(task)에서는 어떤 언어가 효율적인 프로그래밍이 가능한지 설명하고 있습니다.
 
개인적으로 두 언어 선택의 기로에 있는 분들에게 큰 도움이 되는 책이라고 생각하며, 주변의 고민하고 계신분들에게 추천드리고 싶은 책이었습니다. 내용, 가격 모두 마음에 드는 도서 입니다. 

1.png

 

 

부록/예제소스
자료명 등록일 다운로드
DOWNLOAD 예제소스 2022-11-24 다운로드
결제하기
• 문화비 소득공제 가능
• 배송료 : 2,000원배송료란?

배송료 안내

  • 20,000원 이상 구매시 도서 배송 무료
  • 브론즈, 실버, 골드회원이 주문하신 경우 무료배송

무료배송 상품을 포함하여 주문하신 경우에는 구매금액에 관계없이 무료로 배송해 드립니다.

닫기

도서판매처

리뷰쓰기

닫기
* 도서명 :
데이터 과학을 위한 파이썬과 R
* 제목 :
* 별점평가
* 내용 :

* 리뷰 작성시 유의사항

글이나 이미지/사진 저작권 등 다른 사람의 권리를 침해하거나 명예를 훼손하는 게시물은 이용약관 및 관련법률에 의해 제재를 받을 수 있습니다.

1. 특히 뉴스/언론사 기사를 전문 또는 부분적으로 '허락없이' 갖고 와서는 안됩니다 (출처를 밝히는 경우에도 안됨).
2. 저작권자의 허락을 받지 않은 콘텐츠의 무단 사용은 저작권자의 권리를 침해하는 행위로, 이에 대한 법적 책임을 지게 될 수 있습니다.

오탈자 등록

닫기
* 도서명 :
데이터 과학을 위한 파이썬과 R
* 구분 :
* 상품 버전
종이책 PDF ePub
* 페이지 :
* 위치정보 :
* 내용 :

도서 인증

닫기
도서명*
데이터 과학을 위한 파이썬과 R
구입처*
구입일*
부가기호*
부가기호 안내

* 온라인 또는 오프라인 서점에서 구입한 도서를 인증하면 마일리지 500점을 드립니다.

* 도서인증은 일 3권, 월 10권, 년 50권으로 제한되며 절판도서, eBook 등 일부 도서는 인증이 제한됩니다.

* 구입하지 않고, 허위로 도서 인증을 한 것으로 판단되면 웹사이트 이용이 제한될 수 있습니다.

닫기

해당 상품을 장바구니에 담았습니다.이미 장바구니에 추가된 상품입니다.
장바구니로 이동하시겠습니까?

자료실