아마존 세이지메이커와 쥬피터 노트북을 통해 머신러닝 서비스를 현실의 의사결정에 적용할 수 있을지를 다룬 책이다. 머신러닝에 대한 이해가 없는 엔지니어라면 머신러닝 입문서로서 적합하며, 머신러닝에 익숙한 분석가에게는 아마존 세이지메이커를 통해 머신러닝 모델을 어떻게 개발하고 어떻게 배포하면 되는지에 대한 좋은 자습서가 될 수 있다.
세이지메이커는 머신러닝 애플리케이션을 구축하고 배포하기 위해 아마존이 제공하는 머신러닝 환경이다. 개인 컴퓨터에 개발 환경을 구성할 필요가 없도록 클라우드에서 개발 환경을 제공해 준다고 볼 수 있다.
엔드포인트와 주피터 노트북을 사용하지 않을 때는 반드시 엔드포인트를 삭제하고 주피터 노트북을 중지해야한다. 이 서비스들을 사용하지 않을 때도 계속 켜놓으면 초 단위로 비용을 지불해야한다.
첫 번째로 "이탈 조짐을 보이는 고객을 찾기" 예제가 수록되어 있다. 아래는 카를로스의 업무 처리 절차이다. 카를로스는 이탈할 고객의 주문에는 일정한 패턴이 있다고 생각한다. 따라서 이러한 고객을 찾으려면 주문 단위의 데이터를 고객 단위의 데이터로 바꿔야 한다.
혼동 행렬에 대해 나오는데. 혼동 행렬은 동일한 개수의 행과 열을 포함하는 테이블이다. 각 행과 열의 수는 목표 변수가 가질 수 있는 값(클래스)의 수와 동일하다. 예를 들어 카를로스의 데이터셋에서 목표 변숫값은 0 또는 1만 있으므로 혼동 행렬에는 두 개의 행과 열이 있다.
NLP에서 다루는 단일 차원 벡터와 다차원 벡터의 개념을 다루고 있다. 이와 더불어 유니그램, 바이그램 그리고 트라이그램을 다루고 있다.
유니그램은 단일 단어를 사용하는 것이고 바이그램은 단어 2개로 된 단어쌍을 사용하는 경우이며 트라이그램은 단어 3개로 구성된 단어쌍을 사용하는 경우이다.
이 책을 통해 머신러닝이 비지니스에서 어떻게 사용되는지를 파이썬의 사이킷런 라이브러리를 사용하여 쉽게 따라해 볼 수 있다. 데이터도 아마존 세이지메이커에서 예제로 제공해 주는 것을 사용하므로 제공된 데이터를 사용해 실습이 가능하다.
이 책의 예제를 따라함으로서 비지니스의 의사결정 관점에서 머신러닝이 어떻게 사용될 수 있는지를 배울 수 있을 것이리라 생각한다.