메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

한빛출판네트워크

밑바닥부터 시작하는 딥러닝 4

직접 구현하며 익히는 강화 학습 알고리즘

한빛미디어

번역서

판매중

  • 저자 : 사이토 고키
  • 번역 : 개앞맵시(이복연)
  • 출간 : 2024-01-26
  • 페이지 : 372 쪽
  • ISBN : 9791169211956
  • 물류코드 :11195
  • 초급 초중급 중급 중고급 고급
5점 (16명)
좋아요 : 1

밑바닥부터 시작하는 딥러닝』 시리즈, 이번엔 강화 학습이다!

강화 학습 핵심 이론부터 문제 풀이, 심층 강화 학습까지 한 권에!

 

이 책의 특징은 제목 그대로 ‘밑바닥부터 만들어가는 것’입니다. 속을 알 수 없는 외부 라이브러리에 의존하지 않고 강화 학습 알고리즘을 처음부터 구현하면서 배웁니다. 그림으로 원리를 이해하고 수학으로 강화 학습 문제를 풀어본 다음, 코드로 구현해 배운 내용을 되짚어봅니다. 코드는 최대한 간결하면서도 강화 학습에서 중요한 아이디어가 명확하게 드러나도록 짰습니다. 단계적으로 수준을 높이면서 다양한 문제에 접할 수 있도록 구성하였으니 강화 학습의 어려움과 재미를 모두 느낄 수 있을 것입니다.

상세이미지_밑바닥부터 시작하는 딥러닝 4(700).jpg

사이토 고키 저자

사이토 고키

1984년 나가사키 현 쓰시마 출생. 도쿄공업대학 공학부를 졸업하고 도쿄대학대학원 학제정보학부 석사 과정을 수료했다. 현재는 기업에서 인공지능 관련 연구·개발에 매진하고 있다. 오라일리재팬에서 『밑바닥부터 시작하는 딥러닝』 시리즈를 집필했으며 『파이썬 인 프랙티스』, 『밑바닥부터 만드는 컴퓨팅 시스템』, 『Building Machine Learning Systems with Python』 등을 일본어로 옮겼다.

 

개앞맵시(이복연) 역자

개앞맵시(이복연)

고려대학교 컴퓨터학과를 졸업하고 삼성전자에서 자바 가상 머신, 바다 플랫폼, 챗온 메신저 서비스 등을 개발했다. 주 업무 외에 분산 빌드, 지속적 통합, 수명주기 관리 도구, 애자일 도입 등 동료 개발자들에게 실질적인 도움을 주는 일에 적극적이었다. 그 후 창업 전선에 뛰어들어 좌충우돌하다가 개발자 커뮤니티에 기여하는 더 나은 방법을 찾아 출판 시장에 뛰어들었다.

『밑바닥부터 시작하는 딥러닝』 시리즈, 『구글 엔지니어는 이렇게 일한다』, 『리팩터링 2판』, 『이펙티브 자바 3판』 등을 번역했다.

개발자들과의 소통 창구로 소소하게 facebook.com/dev.loadmap 페이지를 운영 중이다.

 

CHAPTER 1 밴디트 문제

_1.1 머신러닝 분류와 강화 학습

_1.2 밴디트 문제

_1.3 밴디트 알고리즘

_1.4 밴디트 알고리즘 구현

_1.5 비정상 문제

_1.6 정리

 

CHAPTER 2 마르코프 결정 과정

_2.1 마르코프 결정 과정(MDP)이란?

_2.2 환경과 에이전트를 수식으로

_2.3 MDP의 목표

_2.4 MDP 예제

_2.5 정리

 

CHAPTER 3 벨만 방정식

_3.1 벨만 방정식 도출

_3.2 벨만 방정식의 예

_3.3 행동 가치 함수(Q 함수)와 벨만 방정식

_3.4 벨만 최적 방정식

_3.5 벨만 최적 방정식의 예

_3.6 정리

 

CHAPTER 4 동적 프로그래밍

_4.1 동적 프로그래밍과 정책 평가

_4.2 더 큰 문제를 향해

_4.3 정책 반복법

_4.4 정책 반복법 구현

_4.5 가치 반복법

_4.6 정리

 

CHAPTER 5 몬테카를로법

_5.1 몬테카를로법 기초

_5.2 몬테카를로법으로 정책 평가하기

_5.3 몬테카를로법 구현

_5.4 몬테카를로법으로 정책 제어하기

_5.5 오프-정책과 중요도 샘플링

_5.6 정리

 

CHAPTER 6 TD법

_6.1 TD법으로 정책 평가하기

_6.2 SARSA

_6.3 오프-정책 SARSA

_6.4 Q 러닝

_6.5 분포 모델과 샘플 모델

_6.6 정리

 

CHAPTER 7 신경망과 Q 러닝

_7.1 DeZero 기초

_7.2 선형 회귀

_7.3 신경망

_7.4 Q 러닝과 신경망

_7.5 정리

 

CHAPTER 8 DQN

_8.1 OpenAI Gym

_8.2 DQN의 핵심 기술

_8.3 DQN과 아타리

_8.4 DQN 확장

_8.5 정리

 

CHAPTER 9 정책 경사법

_9.1 가장 간단한 정책 경사법

_9.2 REINFORCE

_9.3 베이스라인

_9.4 행위자-비평자

_9.5 정책 기반 기법의 장점

_9.6 정리

 

CHAPTER 10 한 걸음 더

_10.1 심층 강화 학습 알고리즘 분류

_10.2 정책 경사법 계열의 고급 알고리즘

_10.3 DQN 계열의 고급 알고리즘

_10.4 사례 연구

_10.5 심층 강화 학습이 풀어야 할 숙제와 가능성

_10.6 정리

 

APPENDIX A 오프-정책 몬테카를로법

A.1 오프-정책 몬테카를로법 이론

A.2 오프-정책 몬테카를로법 구현

 

APPENDIX B n단계 TD법


APPENDIX C Double DQN 이해하기

C.1 DQN에서의 과대적합이란?

C.2 과대적합 해결 방법

 

APPENDIX D 정책 경사법 증명

D.1 정책 경사법 도출

D.2 베이스라인 도출

강화 학습 마스터의 지름길은 기초를 다지는 것!

 

딥러닝은 매우 핫한 분야여서 하루가 멀다 하고 새로운 알고리즘과 응용 사례가 발표되고 있습니다.

엄청난 발전 속도에 따라 관련 기술과 서비스도 빠르게 진화해서, 이전에는 유행이었던 것들이 지금은 사라지기도 합니다. 하지만 한편으로는 변하지 않고 전해져 내려오는 것도 있죠. 이 책에서는 배우는 지식이 바로 그 변하지 않는 것입니다.

 

강화 학습의 기초를 이루는 아이디어와 기술은 예나 지금이나 변함이 없습니다. 최신 알고리즘도 오래전부터 존재해온 아이디어를 토대로 합니다. 강화 학습의 기본 원리, 마르코프 결정 과정, 벨만 방정식, Q 러닝, 신경망 등과 같은 주제는 앞으로도 변함없이 중요하게 여겨질 것입니다. 따라서 현재의 강화 학습, 나아가 심층 강화 학습까지 이해하려면 강화 학습의 기초부터 차근차근 학습하는 것이 오히려 지름길입니다.

 

파이썬과 수학에 대한 기초만 있다면 읽을 수 있도록 수식 기호 하나하나, 코드 한 줄 한 줄 친절히 설명합니다. 이 책으로 강화 학습의 기초를 제대로 배우고 ‘변하지 않는 것’의 아름다움을 맛보기 바랍니다. 여러분 곁에 포스가 함께 하기를…

 

대상 독자

  • 강화 학습의 원리를 제대로 배우고자 하는 독자
  • 딥러닝을 더 깊게 이해하고 싶은 개발자 
  • 파이썬 지식이 있으며 딥러닝과 강화 학습에 흥미가 있는 데이터 과학 입문자 

 

주요 내용 

  • 여러 후보 가운데 가장 좋은 것을 순차적으로 찾는 '밴디트 문제' 풀어보기(1장)
  • 일반적인 강화 학습 문제를 ‘마르코프 결정 과정’으로 정의하기(2장)
  • 마르코프 결정 과정에서 최적의 답을 찾는 데 핵심이 되는 ‘벨만 방정식’ 도출하기(3장)
  • 벨만 방정식을 풀기 위한 방법: 동적 프로그래밍(4장), 몬테카를로법(5장), TD법(6장)
  • 딥러닝에 대해 알아보고 딥러닝을 강화 학습 알고리즘에 적용하기(7장)
  • DQN을 구현하고 DQN을 확장한 방법 알아보기(8장)
  • DQN과는 다른 접근법: ‘정책 경사법’ 알고리즘(9장)
  • A3C/DDPG/TRPO/레인보우 알고리즘과 심층 강화 학습(10장)

아직도 이쪽으로 파고 또 파야 한다는 강박과 미련을 버리지 못했나보다.

마음으로는 LLM 쪽으로 중심을 옮겨보고 싶었다. 그런데 그게 마음대로 되지는 않는구나.

 

4편은 강화학습에 관한 책이다. 이 책에 관심을 갖는 사람들은 당연히 머신러닝, 딥러닝에 대한 기본적인 이해 이상의 식견이 있는 사람들일 것이다. 나도 강의를 하면서 강화학습에 대해서 살짝 언급을 하기만 하지 구체적으로 어떻게 흘러가는지는 잘 모르고, 또 접할 기회도 별로 없었기에 강화학습 스터디모임을 만들어 다들 해보는 미로찾기 소스코드 분석해 보다가 "이게 왜 되지?" 하는 식의 현타가 오기도 했었다^^.

 

이 책은 "밑바닥부터 만들어 가면서 강화학습의 핵심 이론을 익히고, 문제를 풀고, 심층 강화학습까지 한 권으로 공부할 수 있는 책"이라고 소개하고 있다. 목차를 보아도 뭔가 알아야 할 것들을 차례차례, 차곡차곡 알려주는 느낌이다. 그런데 끝까지 다 보지는 못하고 리뷰를 써본다.........

 

책의 내용이 쉬운 내용은 아닌데 앞장부터 한 장씩 읽어가다 보면 묘하게 설득이 된다. 용어 설명, 원리를 쉬운 예를 들어서 설명한다. 그러다가 휘발성 메모리를 가진 내가 "앞에서 무슨 얘기 했더라" 하는 생각이 들 때쯤 코드로 구현을 통해 일단 다지기를 시연한다. 한 단원을 마무리하기 전에는 한 페이지 정도를 할애해서 '정리'를 해준다. 이런 식으로 한 챕터씩 읽어 나가다 보면 적어도 한 가지 개념에 대해서는 확실하게 알고 넘어갈 수 있는 구조로 되어 있다. 강화학습이 궁금해서 몇 가지 책을 뒤적여(만) 본 내가 느끼기엔 설명이 비교적 자세하고 친절한 책에 속한다.

 

 

그렇다고 해서 쉽다는 얘기는 아니다. 수식이 계속 나오기 때문에 우선은 수식에 대한 거부감을 없애고 나서 읽어야 지루하지 않게 넘어갈 수 있다.

 

10장 4절에서는 바둑, 장기와 같은 보드계임, 로봇제어, NAS(Neural Architecture Search, 최적의 아키텍처를 컴퓨터가 자동으로 설계하는 연구) 등의 사례들도 소개하고 있는데 조금 더 자세하면 좋겠지만^^ 이것들만 읽어봐도 재미있다. 특히 자율주행은 우리 생활과 밀접하면서도 빠르게 실현될 분야일 것이다.

좋은기회에 좋은 책을 알게 되어 배운 내용을 공유해봅니다 :)
https://blog.naver.com/esjekal/223366845364

 

*이번 장에서 배운 것

기계학습에서 사용하는 데이터 셋은 훈련 데이터와 시험 데이터로 나눠 사용

학습한 데이터의 범용 능력을 시험 데이터로 평가

신경망 학습은 손실 함수를 지표로, 손실 함수의 값이 작아지는 방향으로 가중치 매개변수를 갱신

이를 갱신할 때 가중치 매개변수의 기울기를 이용. 기울어진 방향으로 가중치의 값을 갱신하는 작업 반복

수치 미분 : 아주 작은 값을 주었을 때의 차분으로 미분을 구하는 것

수치 미분으로 가중치 매개변수의 기울기를 구할 수 있음

수히 미분을 이용한 계산은 시간이 걸림. 그 구현이 간단.

오차역전파법은 기울기를 고속으로 구할 수 있음.

.

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

이 책의 저자는 사이토 고키인데,

밑바닥부터 시작하는 딥러닝 시리즈가 벌써 4권째에 다다랐다.

1편을 처음봤을때가 생각난다.

학부 시절 인공지능 수업에서 들었던 MLP를 다시금 떠올랐었고

다시금 대세가 될 딥러닝의 근본을 되짚어준 책이었다.

이해가 안되던 부분을 다시 보느라 책은 닳고 달았다.

그 책이 위대한 책이라고 하지는 않겠다. 하지만 그 책은 좋은 책이었다.

뭐랄까... 비유하자면 지도와 나침반을 알려준 책이랄까

 

그런 책을 쓴 저자의 책, 거기다가 강화학습이라니.

사실 강화학습에 매우 관심이 많아 개인적으로 공부는 이미 했었다.

그런데 내가 어렵게 어렵게 이해한 것들을 이렇게 이해 하기 쉽게 설명해두었다니..

솔직히 이런 책이 있다는 것을 많은 사람이 알지 않았으면 하는게 내 개인적인 못된 마음이다.

하지만 이 책 하나만으로 모든 것을 알 수는 없다.

입문서로는 이만한게 없다. 먼저 이야기 했듯이 저자 스타일이, 본인이 이해를 확실하게 한 다음,

독자가 이해하기 쉽게 풀어서 설명하는 스타일이다. 입문하기에 매우 좋은 책이다.

 

 


 

"딥러닝에 대해 공부하려면 제일 먼저 읽어야 할 책"

 

머신러닝과 딥러닝에 대해 배우고 싶을 때 가장 좋은 방법은 강의에서 설명하는 내용을 따라가는 방법도 있지만, 책 한권의 내용을 따라가면서 익히는 방법을 가장 추천한다. 딥러닝의 기초를 익히는데 참고할만한 많은 도서들이 있지만, 그중에서도 '밑바닥부터 시작하는 딥러닝'이 참고도서로 가장 적합한 것 같다.

 

이 책은 밴디트 알고리즘을 구현하는 것부터 시작해서, 마르코프 결정과정, 벨만 방정식, 몬테카를로법 등 수학적 알고리즘을 구현하는 이유와 방법에 대해서 차근차근 설명한다. 각각의 개념들에 대해서 딥러닝 문외한도 쉽게 이해할 수 있도록 구성되어있다.

 

"밴디트 알고리즘이란?"

Building a Multi-Armed Bandit System from the Ground Up: A Recommendations  and Ranking Case Study, Part I | by Austin Wang | Udemy Tech Blog | Medium

밴디트 문제에 대해서 설명할 때, 일반적인 방식으로는 손잡이 하나짜리 슬롯머신 여러대인 상황을 가정하고 이야기를 풀어 나간다. 강화학습의 용어로 설명할 때는 전에 가정한 슬롯머신을 환경으로, 플레이어를 에이전트로 가정하고 둘 간의 상호작용이라고 말한다. 즉, 이 책의 문장을 하나씩 따라가면 아무리 어려운 개념이라도 이해할 수 있다.

 

예를 들면, 밴디트 알고리즘을 쉽게 이해하기 위해 상황을 가정한다. 슬롯머신에서 가장 중요한 특성이 무작위성이고, 이 무작위성을 반박하기 위해 '확률'을 사용한다. 슬롯머신의 우열은 기댓값으로 판단하고, 이 값을 기준으로 큰 쪽이 좋은 슬롯머신이라고 판단한다.

 

밴디트 알고리즘을 이해하기 위해서는 슬롯머신 a와 b를 총 3번 플레이한 결과를 표로 보여주고, 슬롯머신의 가치를 추정하는 코드, 그리고 수식을 통해 플레이어가 어떤 전략을 취해야 하는지 '강화학습'에서 쓰는 용어 '탐욕 정책'을 가지고 설명한다. 이렇게 보면 정말 쉬워 보이지만, 누군가에게 '밴디트 알고리즘'과 '비정상 문제'를 말로 풀어 설명하기에 이보다 좋은 설명은 없다. 

 

 

"수식과 코드를 한눈에"

 

특히, 수식에 약한 사람은 수학책만 보면 덮는 경향이 있는데, 이 책에 제시된 그림은 복잡한 수식을 직관적으로 이해가 가능하도록 한다. 또한, 기초 알고리즘을 구현하는 코드를 함께 제시하고 있어 수학과 코드를 한번에 보면서 이해할 수 있을 것이다.

이와 같이 책에서 설명하는 내용을 천천히 따라가면 딥러닝의 기초를 정복하고, 다양한 딥러닝 알고리즘을 사용하여 프로젝트에 적용이 가능하다. 밑바닥부터 시작하는 딥러닝 시리즈는 4권까지 나올 정도로 유명한 책이라서 집에 한권 있다면 딥러닝 원리를 참고할 때에 활용하기 정말 좋을 것이다.

 

이 책에서 설명하는 내용만 천천히 따라가면 딥러닝의 기초에 대해 이해할 수 있고, 향후 프로젝트에서도 다양한 딥러닝 알고리즘을 사용할 수 있다. 딥러닝에 대해 깊이 있게 공부하고 싶은 분들에게 정말 추천한다.

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

과거의 인공지능이 쫄쫄 흐르는 약수물과 같았다면, 지금의 인공지능은 마구 쏟아지는 폭포수가 떠오를 정도로 엄청난 발전과 파급 효과를 낳고 있다. 많은 전문가들이 올 2024년에는 인공지능 기술과 산업이 폭발적으로 발전하는 모습을 보게 될 것이라고 예측하고 있다. 작년 챗 GPT를 처음 접하고 이거 꽤 쓸만한데 했는데, 어느새 AI 기능이 스마트폰에 기본 탑재가 되어 버렸다.

 

암울한 것은 인공지능으로 인해, 많은 예술 창작자들 뿐만 아니라, 나름 견고한 위치에 있다고 여겨져왔던 개발자의 밥줄도 위협을 받고 있는 상황이다. 많은 초급 개발자들이 직장을 잃고 있다고 한다. 인공지능에 먹히지 않고 조금이라도 오래 개발자로 살아 남기 위해서는 보다 전문적인 인공지능 지식은 필수인 것이다.

 

 

'밑바닥부터 시작하는 딥러닝 4'은 그러한 인공지능 지식과 기술을 쌓는데, 참 도움이 되는 책이다. '밑바닥부터 시작하는 딥러닝' 시리즈는 역자의 설명을 보면, 총 5편으로 구성된다고 한다. 최근 나온 것이 4편이고 5편은 앞으로 나올 예정이다. 1편에서는 CNN과 이미지 처리, 2편은 RNN과 자연어 처리, 3편은 딥러닝 프레임워크, 그리고 이번 4편은 심층 강화 학습이 핵심 주제다.

 

 

심층 강화 학습은 강화 학습과 딥러닝이 결합된 분야다. 강화 학습은 아이가 손을 사용하고, 걷는 방법을 스스로 익히는 거처럼 하나하나 과정을 가르치는 사람 없이 환경과 상호작용한 데이터를 바탕으로 더 많은 보상을 얻는 방법을 학습하는 것을 말한다.

 

'밑바닥부터 시작하는 딥러닝 4'는 가장 대중적으로 쓰이는 파이썬을 사용하며, 넘파이, 맷플롯립, 3편에서 나왔던 딥러닝 프레임워크 DeZero, 파이토치, OpenAI Gym 등도 사용한다. 내용은 크게 전반부와 후반부 둘로 나눠지는데, 전반부인 1장부터 6장까지는 강화 학습 기초를 공부하고, 후반부 7장부터 10장까지는 강화 학습 적용과 심층 강화 학습의 미래를 다룬다.

 

 

전반부에 등장하는 슬롯머신, 밴디트 문제, 마르코프 결정 과정, 벨만 방정식, 정책 반복법, 몬테카를로법 등은 강화 학습을 처음 공부하는 사람 입장에서는 이름만 봐도 참 어렵게 느껴질 것이다. 그러나 미리 겁먹을 필요는 없다. '밑바닥부터 시작하는 딥러닝 4'라는 책 이름처럼 강화 학습에 관련된 지식을 밑바닥 기초부터 설명하고 있다. 복잡한 개념을 핵심만 잡아 단순화 시킨 그림과 도표, 심플한 예제 코드를 활용해서 이해를 돕고 있다.

 

 

특히 인공지능을 공부하는데 큰 걸림돌이 되는 수학적인 부분도 '밑바닥부터 시작하는 딥러닝 4'에서는 그리스 문자 읽는 법까지 알려줘가면서, 식의 의미를 하나하나 알려주며, 풀어가고 있어서 별도의 수학 책이 없어도 이해할 수 있다. 그러나 후반부는 편미분, 벡터 같은 것이 나오다 보니, 책에 있는 설명만으로는 부족함을 느낄 수도 있을 것이다. 그레디언트, 나블라 같은 기호 읽는 법이 빠져 있기도 했다. 그러나 전반적인 의미는 잘 설명 되어 있어 맥락을 이해하는 데는 어렵지 않을 것이다. 어쨌든 이 책 뿐만 아니라, 보다 전문적인 인공지능 책을 보기 위해서는 수학 능력을 갖출 필요는 있다.

 

내 경우 이전에 나온 '밑바닥부터 시작하는 딥러닝' 시리즈 전부를 본 것이 아니라, 이해하는 데 어렵지 않을까 걱정했는데, 이 책 설명이 쉽게 잘 되어 있는 것도 있고, 전에 봤던 인공지능 서적들을 통해 얻은 단편적인 지식 덕도 있어서 그런지 큰 어려움 없이 볼 수 있었다. 원리 설명, 수학 적 이해, 예제 코드, 이 모든 삼박자가 잘 맞는 책이라 느꼈다.

 

그리고 강화 학습을 잘 모르는 초보일수록 이 책 순서 그대로 공부하는 것을 추천한다. 에이전트, 환경, 행동, 보상, 상태라는 강화 학습의 기본 메커니즘을 항상 염두에 두고 이어지는 인공지능 알고리즘을 학습한다. 후반부에서는 강화 학습에 딥러닝을 추가 결합하게 된다. DeZero로 신경망을 쉽게 구현하여 Q 러닝을 해본다. OpenAI Gym으로 막대의 균형을 잡는 게임도 해보고, DQN으로 경험 재생과 목표 신경망을 더해도 본다. 이처럼 '밑바닥부터 시작하는 딥러닝 4'은 내용이 한 단계 한 단계 강화 학습 지식을 쌓는 점진적 구성으로 되어 있다.

 

 

혹, 책을 보다가 내가 왜 이런 걸 배우나 의문점이 든다면, 마지막 10장을 먼저 보는 것도 추천한다. 심층 강화 학습 전체 큰 그림을 볼 수 있고, 각종 활용 분야에 대해서도 알 수 있게 되어, 다시 열공하는데 필요한 학습 동기 부여를 얻을 수 있을 것이다.

 

이번 '밑바닥부터 시작하는 딥러닝 4'을 통해 막연하고 복잡하게만 생각된 강화 학습 전반을 잘 이해할 수 있었고, 개념도 확실히 잡을 수 있었다. 강화 학습이 자율주행이며, 앞으로 인공지능 시대와 함께할 로봇 기술에도 빼 놓을 수 없는 중요한 AI 기술이라는 것을 알 수 있었다.

강화 학습을 보다 쉽고 제대로 배우고 싶다면, '밑바닥부터 시작하는 딥러닝 4'가 분명 좋은 출발점이 되어 줄 것이다.

개발자로 20년을 보내고 있지만 큰 파도로 다가온 AI의 물결에 개발자로 살아가기에는 시간이 지날수록 힘들어 지는 것 같습니다. 특히나 춘추전국시대처럼 거대 기업의 각축장이 된 지금,  Open AI를 선두로 마이크로 소프트, 구글등 많은 기업들이 플랫폼을 발표하고 있습니다. 이런 흐름에 맞추어서 몇 년 전부터 딥러닝, 머신러닝에 대해서 학습을 하고 있지만 수학이라는 벽에 멈추어서 고등 수학부터 차근히 학습하는 중에 만난 도서입니다. 

이 도서는 "밑바닥부터 시작하는 딥러닝"이라는 부제 처럼 기본적인 문제에 대한 설명과 해석을 다양한 이미지와 수학 공식으로 풀고 Python으로 코드를 통해 확인할 수 있게 구성하고 있으며, 행동이 어떤 환경에 놓여져 있을 때 행동을 취한 결과로 환경의 상태라 변하고 보상을 받음과 동시애 변화된 새로운 상태를 관찰은 보상의 극대화하는 강화학습에 대해서 다음과 같이 설명하고 있습니다.

  • 여러 후보 가운데 가장 좋은 것을 순차적으로 찾는 '밴디트 문제' 풀어보기(1장)
  • 일반적인 강화 학습 문제를 ‘마르코프 결정 과정’으로 정의하기(2장)
  • 마르코프 결정 과정에서 최적의 답을 찾는 데 핵심이 되는 ‘벨만 방정식’ 도출하기(3장)
  • 벨만 방정식을 풀기 위한 방법: 동적 프로그래밍(4장), 몬테카를로법(5장), TD 법(6장)
  • 딥러닝에 대해 알아보고 딥러닝을 강화 학습 알고리즘에 적용하기(7장)
  • DQN을 구현하고 DQN을 확장한 방법 알아보기(8장)
  • DQN과는 다른 접근법: ‘정책 경사법’ 알고리즘(9장)
  • A3C/DDPG/TRPO/레인보우 알고리즘과 심층 강화 학습(10장)

가장 간단한 문제에 속하는 밴티드 문제를 슬롯 머신으로 설명하고 수식으로 전개되는 시키고 알고리즘화 하여 Python코드로 풀어가는 과정 속에서 어렵게 느껴지던 수학이 책 속의 내용으로 정리되는 것을 느끼게 됩니다. 모든 장이 하나하나 문제에 대한 해답을 수식으로 풀어 가면서 코드를 통해 확인하는 과정은 읽은 독자에게 새로운 맛을 느끼게 합니다.

특히 7장의  딥러닝 프레임워크인 DeZero를 사용한 신경망을 6장에서 설명한 Q러닝을 신경망을 사용하여 구현하는 과정에서 DeZero에 대한 기본적인 사용법과 기능을 설명하고 있어서 Python을 알고 있는 저에게는 밑바닥부터 시작하는 딥러닝 3을 읽지 않아도 이 도서를 학습하는 데는 문제가 없어서 좋았습니다.

최근 각광받고 있는 LLM(Large Language Model) 모델인 ChatCPT의 프롬프트를 어떻게 작성하면 좋은 답변을 받을 수 있는지에 대해서 강화 학습을 조그나마 이해 하면서 알게 되어 도움이 되었으며 앞으로 AI 시대에 개발자로 살아가기 위해 막연했던 부분이 풀린 것 같습니다. 

이 도서는 데이터 과학자, 데이터 엔지니어 뿐만 아니라 AI 시대를 살아가는 개발자에게 어떻게 AI를 활용하는데 기초를 만들려고 하는 분들에게 추천합니다.

자바 진영에서 많이 사용하는 Spring Framework에서도 Spring AI Project를 진행하고 있으며 v0.8.0(2024.02) 발표 하고 있습니다. 

 

 "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

'밑바닥부터 시작하는 딥러닝4'는 강화학습에 대해 바닥부터 다루는 책입니다. 마음에 들었던 점은 각 개념의 정의와 용어를 명확하게 정리하여 배경지식이 많지 않은 사람들도 쉽게 접근할 수 있다는 점이었습니다.

 

또한, 수학적 개념들을 매우 쉬운 설명으로 풀어내고 있습니다. 기초적인 확률, 예를 들어 기댓값부터 시작해 큰 수의 법칙과 확률의 배경까지 세세하게 설명합니다. 왜 수학적 개념들이 필요한지 배경까지 설명해주니까 자연스럽게 이해할 수 있게 되었습니다.

수학적 개념 뿐만 아니라 동적 프로그래밍과 부트스트래핑 같은 많은 개념들도 왜 필요한지 이해할 수 있도록 자연스러운 흐름으로 설명하고 있습니다. 알고리즘은 코드 레벨까지 제공되어서 깊은 이해도 할 수 있으며 실제 구현까지 가능합니다.

코드 구현에서는 '밑바닥부터 시작하는 딥러닝3'에서 사용된 DeZero 프레임워크를 활용하는데요, 복습 차원에서 DeZero 프레임워크를 사용한 다차원 배열과 행렬의 곱 같은 기본적인 부분부터 선형회귀, 신경망 구현, 옵티마이저 등을 다시 설명해주고 있습니다.

 

따라서 프레임워크에 익숙한 분이라면 '밑바닥부터 시작하는 딥러닝3'을 다시 보지 않고도 충분히 따라갈 수 있다고 생각합니다.

또한, 깃허브에는 파이토치 버전의 코드도 제공되므로 파이토치 버전으로 코드를 실행할 수 있게 했습니다.


총체적으로 '밑바닥부터 시작하는 딥러닝4'는 강화학습의 복잡한 세계를 친절하고 명확하게 풀어내는 책입니다. 수학적 기초부터 실제 코드 구현까지 깊이 있는 내용을 담고 있어서, 강화학습을 처음 접하는 사람부터 이미 일정 수준의 지식을 가진 사람까지 모두에게 유익한 내용이 될 것이라고 생각합니다. 

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

“한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.”

리뷰 요약

저는 강화학습에 대해 자세히 알고 있지 않았던 사람입니다. 하지만, 이 책을 통해 강화학습의 기초 원리를 파악하고 직접 코드를 구현하며 개념들을 파악해나갈 때 이 책이 많은 도움이 되었습니다. 앞으로 강화학습 관련된 다른 논문들을 읽으며 배웠던 내용을 응용해볼 예정입니다. 

 

 

책 소개

이 책은 '나 딥러닝 좀 공부해봤다' 하는 사람들이라면 무조건 들어봤을 책 입니다. 정말 읽고 싶었던 책을 읽게 되어 영광입니다.

이번 밑바닥부터 시작하는 딥러닝4에서는 '강화학습'을 다루게 됩니다. ChatGPT에 사용된 강화학습 방법이 널리 알려지게 되면서 강화학습의 중요성이 드러나고 있습니다. 하루가 다르게 새로운 알고리즘들이 나오는 세상 속에서, 우리는 강화학습의 기초부터 단단하게 쌓아나가야 합니다. 이 책은 다양한 강화학습 알고리즘들의 기초가 되는 을 통해 강화학습의 기초가 되는 알고리즘을 꼼꼼하게 알려주고 있습니다. 수식부터 그림으로 차근차근한 설명까지, 특히 유명한 강화학습 알고리즘 및 강화학습의 시초부터 이어나가는 형식이 마치 알고리즘들을 자연스럽게 이해하게 되는 효과가 있습니다.

 

 

책 추천 대상

수식을 통해 원리부터 실제 적용 방법까지 학습하고자 하시는 분들께 추천드리는 책 입니다. 단순히 강화학습이 뭘까? 에서 그치지 않고, 원리부터 하나하나 파고들어 강화학습이라는 개념 자체를 완성시키고 싶으시다면, 꼭 읽어보세요!

이 책은 밑바닥부터 시작하는 딥러닝의 4번째 시리즈로 심층 강화학습을 다룬다.

 

강화학습에 대한 이론은 이미 오래전에 정리가 되었지만 딥러닝의 등장으로 심층 강화학습이라는 형태로 더 발전하여 기존 강화학습의 한계를 뛰어넘게 되었다.

 

 

 

 

 

 

 

강화학습에 대한 이론은 그다지 새로울 것이 없기 때문에 이 책에서 어떻게 강화학습에 대한 이론을 풀어가는지에 대해 중점적으로 살펴보았다.

 

개인적으로 강화학습에 대한 이론을 어느정도 알고서 보는 것이기 때문에 이 책을 더 재밌게 읽을 수가 있었던 것 같다.

 

 

 

이 책은 밑바닥부터 시작하는 딥러닝 3과 연결되는 코드가 있다는 점은 참고해야한다. 비록 3권을 보지 않더라도 큰 문제는 되지 않지만 시간이 되고 가능하면 3편을 보는 것이 좋다는 생각이 든다.

 

 

 

 

 

우선 이 책은 설명이 대단이 구체적이라 느껴졌다. 이론과 예제의 간극을 좁혀 어떤 방식으로 동작하는지에대해 구체적으로 이해하기 쉽게 설명이 좋다.

 

게다가 시각화를 통한 설명이 잘되어 있다는 점이 정말 맘에 들었다.

 

 

 

좋았지만 어쩔 수 없이 아쉬운 부분은 강화학습의 적용 사례에 대한 부분이다. 강화학습은 만능이 아니기 때문에 적용해야할 사례에 대한 한계점이 존재하고 이로인해서 많은 사례가 아직까지는 없는 것 같다. 이 책에서 간단히 소개하는 사례 역시 새로운 것들은 아니지만 잘 정리하여 설명해주어서 좋았고 한계점 역시 잘 설명해준다.

 

강화학습은 시행을 통해서 발전하는 시스템이므로 시뮬레이터의 중요성도 설명한다.

 

 

 

간만에 좋은 책을 읽어서 기분이 좋았다.

 

 

 

사실 이 책에 대해서 크게 기대는 하지 않았지만 한층 강화학습에 대한 이해도가 높아진 것 같다. 그만큼 강화학습은 이론을 잘 정리하는 것이 중요하고 이 책은 자세한 설명과 시각화 그리고 적절한 코드로 강화학습을 이해하기 쉽도록 잘 정리한 입문서라고 생각한다

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평임."

“한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.”

밑바닥부터 시작하는 딥러닝 3권 이후, 드디어 4권이 강화학습에 대한 주제로 돌아왔습니다.

SORA AI, ChatGPT, Gemini와 같은 점점 정교한 AI 들이 등장하고 있고 이젠 정말 멀지 않은 미래에 AGI가 등장할 것이란 믿음마저 의심할 수 없습니다.

그럼에도 변하지 않는 기본 지식이 존재하므로, 학습하는 우리로선 기본기를 튼튼이 다져나가는 과정을 밑시딥4권에서 알아갈 수 있습니다.



한빛미디어 <나는 리뷰어다> 활동을 위해 책을 제공받아 작성한 서평입니다.

밑바닥부터 시작하는 딥러닝 4

 

이번 밑딥에서는 강화학습을 다룬다. 이미 강화학습을 다룬 도서는 쉽게 많이 출간되었지만, 늘 그렇듯 밑바닥부터 강화학습을 구현한다는 게 차별화된 점 같다.

기초적인 모델을 구현하는 방법을 공부하면서 어느정도의 성능과 모델이 잘 작동할 가능성을 원한다면, Tensorflow나 Pytorch를 활용하는 자료를 참고하면 되겠지만, 이 시리즈는 3권에서 프레임워크까지 거의 밑바닥부터 구현하는 과정을 다뤘기 때문에, 알고리즘을 설명하고, 몇몇 기초적인 라이브러리들만 사용해서 구현하는 과정을 다룬다.

 

예제를 따라 Tensorflow로 모델을 구현하면, 함수들을 몇 개 나열해놓으면 꽤 잘 작동한다.

하지만 이 과정을 이해하고, 성능을 더 개선함과 동시에 발생하는 문제를 해결하려면, 여러 알고리즘과 수학적 배경지식이 필요하다.

그리고 이 배경지식들은 외부 프레임워크를 먼저 접한다면, 큰 필요성을 느끼지 못할수도 있다.

문제를 해결하거나 수식적으로 접근하기보다, 그냥 인터넷에서 더 잘 작동하면서 내가 이해할 수 있는 코드를 찾으면 되기 때문이다.

 

체계적으로 인공지능을 공부할 자료가 필요하다면, 적절한 자료같다.

 

인공지능 모델을 구현하면서, 프레임워크의 편의성을 완전히 무시할 수는 없기 때문에 3권에서 직접 만드는 내용을 다룬 프레임워크를 끌어와서 쓰는 부분이 장점이자 단점이 될 수 있겠지만, 필요한 내용이 있다면 읽어만 봐도 도움이 안 되진 않을 것이다.



Author: 사이토 고키 지음 / 개앞맵시 옮김

출판사: 한빛미디어

Score /5: ⭐️⭐️⭐️⭐️⭐️

 

대학교 때 일입니다. 저는 시험기간만 되면 친구들과 강의실에서 상습적으로 밤을 새는(?) 습관이 있었습니다. 네 그렇습니다. 벼락치기를 많이 했죠. 그때 서로 친구들끼리 익힌걸 서로 공유하는 시간이 있었습니다. 정말 신기한 건 같은 주제라도 정말 이해되기 싶게 설명하는 친구가 있고 본인만의 언어로 너무 어렵게 설명하는 친구들이 있었습니다. 

 

 

정말 실력있는 친구는 쉽게 설명해줄 수 있는 친구야!
 

 

 

이 생각은 지금도 변함 없습니다.

머신러닝은 어렵습니다. 어렵게 설명하려면 한없이 어렵게 설명할 수 있는 분야입니다. 강화학습은 특히 말이죠. 그런 의미에서 밑바닥부터 시작하는 딥러닝 시리즈는 초보자에게 한없이 관대합니다. 초보자의 시각에서 하나씩 풀어서 설명해주는 점이 너무 좋았습니다. 

개인적으로는 Note 부분을 통해서 해당 수식이 가지는 의미를 알려준 점이 좋았습니다.

노트를 통해서 수식의 의미를 정말 친절히 설명해 준다!

 

그리고 개인적으로 시각 자료(그림, 영상)을 좋아하는 편인데 적절한 그림을 통해 이해를 돕고 있습니다. 

 위 그림을 속으로 상상해야 한다면 할수는 있겠지만 내용의 완전한 이해를 위해서는 어느정도 시간이 필요했을 것입니다. 이 부분을 간단하게 그림을 그려줘 머릿속에 상상할 필요 없이 바로 인지하고 받아들일 수 있습니다.

 

이렇게 알고리즘 및 기법을 하나씩 정복해가다 보면 어느새 373페이지의 남아있는 페이지가 없어지게 됩니다. 과장 한 스푼을 더해 술술 읽힌다고 할까요? 이야기 책을 읽듯이 개념과 수식을 한번 곱씹어 보고 또다른 알고리즘을 공부하는 서두에서처럼 대학교 때 쉽게 쉽게 설명해주는 친구가 옆에서 알려주는 느낌이 참 좋습니다.

 

마지막으로 요즘 Chat GPT등의 인공지능 열풍이 뜨겁습니다. 엔지니어에게는 어떻게 잘 활용하는 것도 중요하지만 왜 이렇게 이루어지는지에 대한 기초도 필요하다고 생각됩니다. 여러분들의 딥러닝에 대한 이해의 뼈대를 만들어 줄 수 있는 밑바닥부터 시작하는 딥러닝 시리즈를 추천합니다.

 

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평임."

우연히 이 시리즈 책 4권중 3권을 읽었습니다. 첫번째 책은 거의 7년전에 읽었기 때문에 두 편의 리뷰가 어떠했는지 다시 찾아보았습니다. 아마 "딥러닝"이라는 말이 낯설었던 7년전에는 어떻게 해야 하나하는 두려움을 가지고 첫 번째 책을 읽었던 것 같습니다. 그리고, "딥러닝"이란게 이런거구나, 하며 약간의 안도감을 느끼게 해준 책이었던 것 같네요. 그래서 두번째 책도 읽었고, 딥러닝이 어떻게 음성인식분야에서 사용되고 있는지 이해하게 되었습니다.

번엔 "강화학습"이라는 분야를 다루는 책입니다. 사실 저는 딥러닝이나 인공지능을 사용하는 업무를 하지 않고, 평생을 수포자로 살아왔기 때문에 엄청난 수식이 몰려 나오는 인공지능 관련 책들은 읽으면 멀미 할 것 같은 느낌을 받는데요.

하지만, 업계 분위기라는 걸 느끼기 때문에, 언젠가는 반강제적으로 인공지능 관련 업무를 하게 될 거라 예상하고 있습니다. 따라서, 이해못하더라도 꾸준히 읽으면서 익숙해지려고 노력하는 편입니다. 그래서 그 '언젠가'가 된다면, 바로 뛰어들어서 사용할 수 있을 만큼은 되려고요.

그런 면에서 이 책 그리고 이 책의 시리즈는 보석같다고 말할 수 있습니다. 수포자인 제가 공식을 읽으면서 무슨 말인지 이해할 것 같았거든요. 너무 쉽게 그리고 차근 차근 단계를 밟아가며 "강화학습"(그리고 딥러닝)을 설명하고 있기 때문입니다.

당장 책의 모든 내용을 기억하고 사용하려는 사람이라도 그리고 저처럼 기억은 못하더라도 정리해 두고 나중에 써먹고 싶은 사람이라도, 충분히 쉽게 책장을 넘길 수 있게 설명하고 있습니다. 심지어, 파이썬 코드로 저자가 말하는 내용이 얼마나 간단하게 코딩되는지를 보여주고 있는데요. 저같이 수포자라하더라도 코딩을 좀 해본 사람들은 파이썬을 배우지 않았다 하더라도 읽을 만큼 충분히 쉬운 코드로 설명하고 있기 때문에 (저 처럼) 공식에 구토반응이 있다면 코드로 이해할 수 있을 것같습니다.

제 기억에, 어떤 공식을 코드로 넘기는 건, 의외로 힘든 일이었습니다. 코드를 먼저 봐도 공식을 먼저 봐도 같이 봐도 납득이 안되는 경우도 꽤 많았거든요. 그런데, 인공지능 분야는 의외로 공식에 대한 라이브러리들이 잘 추상화 되어 있어서, 그런 라이브러리를 사용하면 코드가 짧고 간결해지는 것 같습니다.

특히 7장 부터는 DeZero라는 라이브러리를 사용합니다. 이게 제가 읽지 못했던 이 시리즈 3편에서 만든 라이브러리더라고요. 3년전에 3편이 나왔을 때, 무슨생각으로 구해읽지 않았나 싶더군요. 그래도 다른 인공지능 라이브러리들고 비슷하게 만들어져 있기 때문에 3편을 읽지 않아도 코드를 읽고 이해하는 건 문제 없었습니다.

인간의 지식을 활용하는 지도 학습이 도달할 수 있는 수준은 학습 데이터에 반영된 인간의 실력까지입니다. 한편 강화 학습은 스스로 새로운 경험을 쌓아가며 학습하기 때문에 이런 한계가 없습니다. 이론적으로는 인간을 뛰어넘을 수 있는 것이죠. 실제로 알파고 제로는 인간의 수준을 한참 넘어섰습니다. 그래서 알파고 제로 또한 강화 학습의 가능성을 보여준 중요한 연구입니다

본문 330 페이지

상력을 자극하는 표현이 있어서 가져왔습니다. 근래 인공지능의 눈부신 발전은 결과적으로 미래에 대한 예측이 힘들게 만들고 있는데요. 그 이유는 인공지능이 정말 인간을 넘어 설수 있느냐 없느냐의 문제가 있기 때문입니다. 인공지능이 인간을 넘어설 수 있을까? 라는 질문에 "강화학습"을 설명하는 저자는 알파고 제로의 예를 보여줍니다. 알파고 제로는 이세돌 구단을 이긴 "알파고 리"와는 다른 학습 방법을 사용한 인공지능인데요. 인간이 만들어 놓은 정석이나 기보를 학습한게 아니라 스스로 바둑의 룰을 가지고 학습한 버전이기 때문입니다.

( 어떤 책에서는 알파고 제로가 인간이 3000년동안 만들어 놓은 "바둑의 정석"을 넘어선 전략을 찾아냈다고 설명하기도 하는데요. ) 여하튼, 알파고 제로의 바둑 실력은 인간을 넘어선건 확실한 상황입니다. 그럼 인공지능이 인간을 넘어설 수 있을까요? 바둑처럼 룰이 있는 '게임'에서는 그럴지도 모르지만, 일반적인 모든 분야에서 그렇게 될 거라는 건 아닌것 같습니다.

그런데, 얼마전 엔비디아의 '젠슨 황'이 프로그래머가 될 필요가 없다는 식의 발언을 했다는 기사를 접했습니다. 인공지능이 발전하면 프로그래머들이 할 일을 인공지능이 해줄 수 있고, 그 결과 코딩 기술이 아니라 다른 걸 공부해야 한다는 생각이었을 거라 짐작합니다.

하지만, 이런 류의 발언에는 빠진 부분이 있습니다. "지도학습이 도달할 수 있는 수준은 학습 데이터에 반영된 인간의 실력까지"라는 개념입니다. 즉 인간이 만들어 낼 수 없는 결과물은 인공지능도 할 수 없는 겁니다. 다만 게임의 룰이 정의 가능한 바둑같은 상황에서는 넘어설 수 있다는 건데요. 어떤 근거로 모든 분야의 룰을 정할 수 있다고 자부한다고는 설명하지 않습니다. 전문가이니 그 사람 말이 맞을 거라 보는 것 뿐이죠.

인공지능이 극단적으로 발전한다면, 아마 누군가가 만든 코드 또는 개념이 인터넷에 공개되는 즉시 (지금은 몇 달 걸리지만요) 인공지능을 사용하는 모두가 공유할 수 있게 되겠지만, 그건, 거기까지 입니다. 항상 시장을 지배하는 제품을 만드는 사람들은 한발 더 앞서는 사람들이었습니다. 스마트폰 시장을 만든 스티브 잡스의 일을 인공지능이 할 수 없는 거죠.

그러나 인공지능이 발전하게 되면, 지식노동이라는 걸 하는 사람들은 머리 터지게 공부할게 많아질 것 같긴 합니다. 프로그래머들은 대충 코드 작성하는 것만 공부해서는 먹고 살지 못할 거란 예측은 가능하거든요.

그래서 이 책 처럼 밑바닥 부터 개념을 설명하는 책이 귀중한 것 아닐까 싶습니다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

기초적인 내용과 실습으로 구성된 도서만 있어서 깊이 있게 알기 어려웠던 분
수학, 실습, 그림 등의 조화를 통해 어려움 없이 기본부터 내 것으로 만들 수 있는 책

 

항상 딥러닝 책을 서점에 가서 살펴보거나 구매해서 읽어보면 내용은 대부분 비슷하다.

시작은 머신러닝에 대한 내용, 이후 약간의 딥러닝에 대한 내용, 정말 기본적인 내용과 실습 코드만으로 구성되어 있다.

수학적인 내용은 당연히 적은 비율을 차지한다.

 

솔직히 실습 코드가 있으면 눈으로 보이는 결과와 과정이 있기 때문에 동기부여와 흥미는 계속 생기더라.

하지만 필자와 같은 사람은 분명 수학적인 내용을 기반으로 해당 코드, 방법에 대해 이해하고 싶을 것이다.

그렇다고 글만 빼곡한 개론 등의 책은 와닿지가 않는다..

 

밑바닥부터 시작하는 딥러닝 4

OREILLY는 항상 책 표지에 생물의 사진을 넣는다. 기준이 뭔지 궁금하다.

 

이 도서는 1~3편에 이어서 제작된 4편으로 딥러닝 중에서도 강화학습에 대한 내용으로 순서는 아래 사진과 같다.

공부하고 있는 것도 그렇고 관심이 많다 보니 프로그래밍, 인공지능 분야의 도서는 꽤 많이 구매하고 읽고 있다.

그래서 가지고 있던 도서들과 비교해보았는데 당연하게도 이렇게까지 깊은 내용은 없었다. 

물론 한 분야에 대해 시리즈로 나오는 도서도 없으니 그럴만하다.

 

 

 

도서의 목차

 

요즘 인터넷에는 모든 자료가 있어서 공부하기에 어려움이 없다고는 하지만 위와 같은 내용들은 대부분 영어로 된 영상이나 글로 되어 있는 경우가 많다. 또한 개인 블로그 같은 경우에는 본인 해석대로 어디선가 복붙한 내용으로 작성되어 있어 기초를 잘못 알게 된다.

이렇게 되면 이후의 내용들에 대해서도 다 잘못된 방식으로 이해하거나 이해가 불가능하게 되어버리므로 제대로 된 내용으로 시작해야한다.

 

그런점에서 보았을 때 위와 같은 내용을 세부적으로 이해하기 쉽게 풀어놓은 도서는 큰 도움이 될 것이다.

아래 사진은 도서를 구성하는 그림, 수식, 예제 코드이다.

 

 

이 도서를 보면서 이해하는데 시간이 걸리던 수학 기반의 이해나 알고리즘에 대해 어려움 없이 이해할 수 있었고 가독성이 상당히 좋았다.

시간이 지날수록 부족함을 느껴가고 있는만큼 1~3편에 대한 관심이 생겨서 구매하려고 하는 시점에서 이 도서는 같은 계열의 사람이라면 무조건 추천하고 싶은 도서였다.

기회가 된다면 읽어보기를 바라며 나와 같은 분야에 있는 친구, 동료가 있다면 생일과 같은 날에 선물하고 싶다.(선물이 아닐수도 있나 싶긴 하다.)

 


 "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다." 

리뷰는 실제 도서를 읽어본 후 작성되었으며, 도서의 제공 여부와 상관 없이 독자의 시점으로 작성하였습니다.

 

이 책은 딥러닝 입문자들에게 유명한 책으로 알고 있었습니다.

기초부터 차근차근 알려주기에 이해하기 쉽고 이론과 함께 코드가 즉시 제공되어 필사를 하기에도 좋은 책이었습니다.

또한 이론 설명 시 수식과 그림을 함께 제공해 보다 직관적으로 이해할 수 있게 도움을 주었습니다.

단순한 코딩 능력보다는 원리를 이해하고 잘 활용할 수 있는 능력이 중요시 되는 요즘 기초를 다지기에 정말 좋은 책인 것 같습니다.

우선 이 책을 한 줄 요약하지면 '파이썬으로 직접 구현하며 배우는 강화학습 알고리즘'이다.

밑바닥부터 시작하는 딥러닝 1에서는 CNN(합성곱 신경망)을,

밑바닥부터 시작하는 딥러닝 2에서는 RNN(순환 신경망)을 프레임 워크 없이 밑바닥에서 직접 구현한다.

밑바닥부터 시작하는 딥러닝 3에서는 파이토치와 비슷한 딥러능 프레임워크를 만들고 CNN과 RNN 모델들이 동작함을 확인한다.

밑바닥부터 시작하는 딥러닝 4에서는 강화 학습에 딥러닝을 결합한 심층 강화 학습을 설명하며 3에서 만든 프레임워크를 사용한다.

밑바닥부터 시작하는 딥러닝 5에서는 생성 모델을 다룰 예정이다.

시리즈물이지만 이전 편을 읽지 않아도 된다. 책의 1~6장은 강화 학습의 기초를 다루며 딥러닝은 7장~10장에서 강화학습 문제에 적용하는 방법으로 배운다.

1장 - 여러 후보 중에 가장 좋은 것을 순차적으로 찾는 밴디트 문제

2장 - 일반적인 강화 학습 문제를 마르코프 결정 과정이라는 매커니즘으로 정의

3장 - 마르코프 결정 과정에서 최적의 답을 찾는데 핵심이 되는 벨만 방정식 도출

4장 - 벨만 방정식을 풀기 위한 방법들인 동적 프로그래밍

5장 - 몬테카를로법

6장 - TD법

7장 - 딥러닝을 강화 학습 알고리즘에 적용하는 방법

8장 - DQN 구현하고 확장

9장 - 정책 경사법 알고리즘

10장 - 최신 딥러닝 알고리즘의 목차를

 

사실 한빛 미디어 이 시리즈 전체의 장점이기도 한데

1. 풍부한 이미지를 사용하고 개념을 하나하나 매칭 되는 예시를 들어줌

2. 깃허브에 주석과 함께 코드 제공함

 

이 2개가 좋았다.

 

나는 비전공자고 딥러닝 관련 아주아주아주 간단한 프로젝트를 해본적 있지만 실무에 필요한것만 공부해서 이 책에서 처럼 이렇게 자세하게 강화학습을 볼 기회가 없었다. 수학 공식 자주 나오는데 영어가 많이 나와 ㅋㅋ 낯설겠지만 어쨌든 식을 찾는 방정식이라서 너무 겁먹을 필요는 없다. 1~6장에서는 강화 학습을 공부하기 위해 알아야하는 개념들을 소개했고 7장부터는 딥러닝에 본격적으로 도입한며 어떻게 적용하는지에 대한 설명이 나온다. 책 전체적으로 비슷한 논조다. 이 책의 목적처럼 강화학습의 강화학습에 의한 강하학습을 위한 책임. 그리고 읽으면서 밑바닥부터 시작하는 딥러닝 3이 궁금해졌다. ㅋㅋㅋ 이거 파이토치랑 아주 유사한 딥러닝 프레임워크를 만드는 프로젝트를 다룬 내용이라고 하더라고.

 

 

결제하기
• 문화비 소득공제 가능
• 배송료 : 2,000원배송료란?

배송료 안내

  • 20,000원 이상 구매시 도서 배송 무료
  • 브론즈, 실버, 골드회원이 주문하신 경우 무료배송

무료배송 상품을 포함하여 주문하신 경우에는 구매금액에 관계없이 무료로 배송해 드립니다.

닫기

리뷰쓰기

닫기
* 도서명 :
밑바닥부터 시작하는 딥러닝 4
* 제목 :
* 별점평가
* 내용 :

* 리뷰 작성시 유의사항

글이나 이미지/사진 저작권 등 다른 사람의 권리를 침해하거나 명예를 훼손하는 게시물은 이용약관 및 관련법률에 의해 제재를 받을 수 있습니다.

1. 특히 뉴스/언론사 기사를 전문 또는 부분적으로 '허락없이' 갖고 와서는 안됩니다 (출처를 밝히는 경우에도 안됨).
2. 저작권자의 허락을 받지 않은 콘텐츠의 무단 사용은 저작권자의 권리를 침해하는 행위로, 이에 대한 법적 책임을 지게 될 수 있습니다.

오탈자 등록

닫기
* 도서명 :
밑바닥부터 시작하는 딥러닝 4
* 구분 :
* 상품 버전
종이책 PDF ePub
* 페이지 :
* 위치정보 :
* 내용 :

도서 인증

닫기
도서명*
밑바닥부터 시작하는 딥러닝 4
구입처*
구입일*
부가기호*
부가기호 안내

* 온라인 또는 오프라인 서점에서 구입한 도서를 인증하면 마일리지 500점을 드립니다.

* 도서인증은 일 3권, 월 10권, 년 50권으로 제한되며 절판도서, eBook 등 일부 도서는 인증이 제한됩니다.

* 구입하지 않고, 허위로 도서 인증을 한 것으로 판단되면 웹사이트 이용이 제한될 수 있습니다.

닫기

해당 상품을 장바구니에 담았습니다.이미 장바구니에 추가된 상품입니다.
장바구니로 이동하시겠습니까?

자료실

최근 본 책0