메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

한빛출판네트워크

한빛랩스 - 지식에 가능성을 머지하다 / 강의 콘텐츠 무료로 수강하시고 피드백을 남겨주세요. ▶︎

비전 시스템을 위한 딥러닝

신경망을 활용한 엔드투엔드 컴퓨터 비전 애플리케이션 구축하기

한빛미디어

번역서

판매중

  • 저자 : 모하메드 엘겐디
  • 번역 : 심효섭
  • 출간 : 2021-12-20
  • 페이지 : 536 쪽
  • ISBN : 9791162244975
  • 물류코드 :10497
  • 초급 초중급 중급 중고급 고급
4.8점 (35명)
좋아요 : 120

인공지능에서 가장 빛나는 컴퓨터 비전의 모든 것

 

컴퓨터 비전은 최근 인공지능과 딥러닝의 눈부신 발전과 함께 얼굴 인식, 의학 영상, 자율주행 등 다양한 산업에서 괄목할 만한 성과를 보여주고 있다. 그중 가장 흥미로운 기술은 주행 시 전방의 차량이나 장애물을 감지해 차의 속도를 스스로 조절하는 자율주행이다. 이 책에서는 컴퓨터가 이런 시각 정보를 어떻게 얻는지, 컴퓨터 비전에서 딥러닝을 어떻게 응용하는지 매우 실용적인 관점으로 안내한다.

고등학교 수학 교과 과정을 배운 독자라면 누구나 딥러닝을 가능케 하는 원리와 개념을 이해할 수 있으며, 이미지 생성부터 얼굴 인식까지 다양하게 응용되는 딥러닝 구조를 배울 수 있다. 이 책에 담긴 고급 딥러닝 알고리즘을 활용해 이미지, 비디오 및 실생활에서 물체를 식별하고 반응할 수 있는 컴퓨터 비전 시스템을 구축하는 방법을 익히고, 모든 산업에서 인정받는 엔지니어로 거듭나길 바란다.

 

 

상세이미지_비전 시스템을 위한 딥러닝_940px.jpg

모하메드 엘겐디 저자

모하메드 엘겐디

라쿠텐에서 엔지니어링 부사장을 맡아 AI 플랫폼 및 프로덕트 개발을 이끌고 있다. 또한 시냅스 테크놀로지에서 엔지니어링 부서장을 맡아 전 세계에 제공되는 상업용 컴퓨터 비전 보안 애플리케이션을 개발했으며, 아마존에서는 AWS와 아마존 고 팀에 자문을 제공하는 딥러닝 싱크탱크 팀을 꾸리고 이끌었다. 아마존 머신러닝 대학교에서 컴퓨터 비전을 위한 딥러닝 과목의 커리큘럼을 구성하기도 했다. 아마존의 데브콘, 오라일리의 AI 콘퍼런스, 구글의 I/O에서도 여러 차례 발표했다.

심효섭 역자

심효섭

연세대학교 문헌정보학과를 졸업하고 모교 중앙도서관과의 인연으로 도서관 솔루션 업체에서 일하면서 개발을 시작했다. 네이버에서 웹 서비스 개발 업무를 맡았으며, 웹 서비스 외에 머신러닝 공부도 꾸준히 하고 있다. 최근 관심사는 회사에 속하지 않고 지속 가능한 삶이다. 옮긴 책으로는 『돈 되는 파이썬 인공지능 프로그래밍』(위키북스, 2021), 『처음 시작하는 딥러닝』(한빛미디어, 2020), 『파이썬으로 시작하는 컴퓨터 과학 입문』(인사이트, 2017), 『도메인 주도 설계 철저 입문』(위키북스, 2020) 등이 있다.

 

[PART I 딥러닝 기초]


CHAPTER 1 컴퓨터 비전 입문

1.1 컴퓨터 비전

1.2 컴퓨터 비전 응용 분야

1.3 컴퓨터 비전 파이프라인 전체 처리 과정

1.4 이미지 입력

1.5 이미지 전처리

1.6 특징 추출

1.7 분류 학습 알고리즘

1.8 마치며

 

CHAPTER 2 딥러닝과 신경망

2.1 퍼셉트론

2.2 다층 퍼셉트론

2.3 활성화 함수

2.4 순방향 계산

2.5 오차 함수

2.6 최적화 알고리즘

2.7 역전파 알고리즘

2.8 마치며

 

CHAPTER 3 합성곱 신경망

3.1 다층 퍼셉트론을 이용한 이미지 분류

3.2 합성곱 신경망 구조

3.3 합성곱 신경망의 기본 요소

3.4 CNN을 이용한 이미지 분류

3.5 과적합을 방지하기 위해 드롭아웃층 추가하기

3.6 컬러 이미지의 합성곱 연산(3D 이미지)

3.7 프로젝트: 컬러 이미지 분류 문제

3.8 마치며

 

CHAPTER 4 딥러닝 프로젝트 시동 걸기와 하이퍼파라미터 튜닝

4.1 성능 지표란

4.2 베이스라인 모델 설정하기

4.3 학습 데이터 준비하기

4.4 모델을 평가하고 성능 지표 해석하기

4.5 신경망을 개선하고 하이퍼파라미터 튜닝하기

4.6 학습 및 최적화

4.7 최적화 알고리즘

4.8 과적합을 방지하기 위한 규제화 기법

4.9 배치 정규화

4.10 프로젝트: 이미지 분류 정확도 개선하기

4.11 마치며

 

 

[PART II 이미지 분류와 탐지]


CHAPTER 5 고급 합성곱 신경망 구조

5.1 CNN의 디자인 패턴

5.2 LeNet-5

5.3 AlexNet

5.4 VGGNet

5.5 인셉션과 GoogLeNet

5.6 ResNet

5.7 마치며

 

CHAPTER 6 전이학습

6.1 전이학습으로 해결할 수 있는 문제

6.2 전이학습이란

6.3 전이학습의 원리

6.4 전이학습의 세 가지 방식

6.5 적합한 전이학습 수준 선택하기

6.6 오픈 소스 데이터셋

6.7 프로젝트 1: 사전 학습된 신경망을 특징 추출기로 사용하기

6.8 프로젝트 2: 미세 조정

6.9 마치며

 

CHAPTER 7 R-CNN, SSD, YOLO를 이용한 사물 탐지

7.1 사물 탐지 알고리즘의 일반적인 프레임워크

7.2 영역 기반 합성곱 신경망

7.3 싱글샷 탐지기

7.4 YOLO

7.5 프로젝트: 자율주행차를 위한 싱글샷 탐지기 학습하기

7.6 마치며

 

 

[PART III 생성 모델과 시각 임베딩]


CHAPTER 8 생성적 적대 신경망

8.1 GAN 구조

8.2 GAN 모델의 평가 방법

8.3 GAN 응용 분야

8.4 프로젝트: GAN 모델 직접 구현해보기

8.5 마치며

 

CHAPTER 9 딥드림과 신경 스타일 전이

9.1 합성곱 신경망이 본 세계는 어떤 것일까

9.2 딥드림

9.3 신경 스타일 전이

9.4 마치며


CHAPTER 10 시각 임베딩

10.1 시각 임베딩 응용 분야

10.2 임베딩 학습하기

10.3 손실 함수

10.4 정보량이 높은 데이터를 골라내는 마이닝

10.5 프로젝트: 임베딩 신경망 학습하기

10.6 현재 성능 더욱 끌어올리기

10.7 마치며

10.8 참고 문헌

 

APPENDIX A 실습 환경 설정하기

A.1 코드 저장소 내려받기 

A.2 아나콘다 설치하기 

A.3 딥러닝 실습 환경 설정하기

A.4 AWS EC2 환경 설정하기

파이썬, 텐서플로, 케라스, OpenCV를 활용한 컴퓨터 비전 완벽 가이드

 

컴퓨터 비전은 컴퓨터의 시각을 의미합니다. 사람이 눈으로 사물을 보고 뇌로 분석하듯이, 컴퓨터는 감지 장치를 통해 이미지를 인식하고 해석 장치를 통해 사물을 분석합니다. 그래서 컴퓨터 비전은 AI와 관련이 깊습니다. 따라서 컴퓨터 비전 시장에서 AI가 컴퓨터 비전을 효과적으로 활용하려면 복잡한 AI 알고리즘을 잘 이해하고 있어야 합니다. 

 

이 책은 아주 어렵지 않은 수준에서 컴퓨터 비전을 다루기 때문에 머신러닝에 대한 기본적인 이해와 파이썬 코드를 어느 정도 작성할 수 있는 사람이라면 어려운 컴퓨터 비전 문제를 쉽게 해결할 수 있습니다. 1부는 컴퓨터 비전의 밑바탕이 되는 딥러닝에 대해 신경망의 구성 요소, 신경망의 원리를 이해하는 데 필요한 여러 표기법을 상세히 설명합니다. 2부는 이미지 분류 및 이미지 탐지 문제에 활용하는 CNN, LeNet-5, AlexNet, GooLeNet, ResNet, R-CNN, Fast R-CNN, Faster R-CNN, SSD, YOLO를 소개합니다. 3부는 이미지 생성 및 시각 임베딩에 활용하는 GAN, 딥드림 등을 다룹니다. 

 

이 책 한 권이면 복잡한 컴퓨터 비전을 완벽하게 이해하고 다양한 딥러닝 기반 알고리즘을 활용해 컴퓨터 비전을 구현할 수 있게 됩니다. 국내 최고 컴퓨터 비전 인공지능 연구원으로 성장하길 꿈꾸는 모든 이에게 훌륭한 안내서가 되어줄 것입니다.

 

 

주요 내용

  • 이미지 분류와 물체 인식
  • 고급 딥러닝 기법
  • 전이학습과 생성적 적대 신경망
  • 딥드림과 신경 스타일 전이
  • 시각 임베딩과 이미지 검색

 

추천사

 

컴퓨터 비전 분야에서 응용된 손글씨 인식, 물체 인식, 얼굴 인식, 딥드림 등 딥러닝의 최신 기술을 이해하기 쉽게 설명한다. 

- 보얀 뒤르코비치, 디지털오션

실제 문제를 해결할 수 있는 고급 기술을 요점만 간단히, 중요한 개념을 정확히 전달한다. 

- 부르한 울 하크, Audit XPRTS

문제를 해결하는 컴퓨터 비전 시스템을 만들고 싶다면 반드시 읽어야 하는 책이다. 

- 리처드 본, Purple Monkey Collective

딥러닝 분야 최고의 입문서 및 응용자료 입니다.

 "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

 

책제목 : 비전 시스템을 위한 딥러닝


저자 : 모하메드 엘겐디 지음

            심효섭 옮김
출판년도 : 2012/12/20

 

책을 읽기 전에...

오랜만에 읽어보는 컴퓨터 비전 관련 도서.

컴퓨터 비전은 예전부터 관심이 많았다.

대학시절 컴퓨터 비전 연구실에서 참여했던 프로젝트가 화면인식으로 인해

정보를 출력해서 예측해서 결과를 알려주는 비전시스템 관련 프로젝트였다.

그렇게 영상처리 관련 프로젝트를 몇번 하다가 결국 게임 그래픽에 흥미를 느껴

게임 그래픽 프로그래머가 되긴 했지만 아직까지 게임비전에 대해서는 가끔 흥미를 가지고

괜찮은 책이 나올 때 마다 읽어보곤 한다.

여기에 최근 관심을 가지게 된 딥러닝까지 한데 엮어 비전시스템을 위한 딥러닝이라는 책을

알게되서 흥미를 가지고 읽게 되었다.

 

책의 내용...

딥러닝이라는 기술을 컴퓨터 비전이라는 분야와 함께 다룬다.

알게 모르게 실 생활에서도 많이 사용되는 컴퓨터 비전에 딥러닝을

응용하여 어떠한 것들이 가능한지 소개한다.

 

Part 1. 딥러닝 기초

1부에서는 2,3부에서 다룰 내용의 기반이 되는 딥러닝이라는 주제에 대해 깊이있게 다룬다.

첫 시작으로 컴퓨터 비전 입문자를 위해 컴퓨터 비전에 대해 설명하고

컴퓨터 비전을 응용한 것들에 대해간략하게 소개 후 컴퓨터 비전 파이프라인 전체과정에 대해 설명해 준다.

컴퓨터 비전을 생각하면 대표적으로 떠오르는게 안면인식이다.

이 안면인식 기술은 참으로 많이 발전하여 핸드폰 잠금이나 셀프사진등에서열심히 활약중이다.

이렇게 컴퓨터 비전을 응용한 제품이나 서비스가 이미 일상생활에 녹아들어 있다.

하지만 이제는 물체를 단순히 인식하고 처리하는것을 넘어 딥러닝을 접목시켜 새로운 기능들을 개발하고 있다.

인공지능으로 만들어 내는 사람의 얼굴이나 2D 이미지로 만들어 지는 3D 모델링등이 그 예다.

1부의 내용은 컴퓨터 비전에 대한 설명 후 본격적으로 딥러닝에 대해 설명하는데 신경망,

딥러닝 프로젝트 등을 예제로 설명한다.

 

 

Part 2. 이미지 분류와 탐지

사물 분류 및 사물 탐지 문제를 풀 수 있는 딥러닝 기법을 소개한다.

2부에서는 주로 딥러팅을 통한 실제 프로젝트에 적용에 대한 내용을 담고 있다.

또한 빠르고 효율적으로 딥러닝 시스템을 구현한 다음 결과를 분석해

성능을 개선하는 방법도 다룬다.

특히 고급 합성곱 시경망 구조, 전이학습, 사물탐지를 자세히 살펴본다.

프로젝트로는 사전 학습된 신경망을 특징 추출기로 사용하기,

자율주행차를 위한 싱글샷 탐지기 학습하기 를 수행한다.

 

Part  3. 생성 모델과 시각 임베딩

이미지 생성과 시각 임베딩을 다룬다.

3부에서는 컴퓨터 비전 분야에 딥러닝을 접목시켜 좀 더 도전적인 분야인 생성모델에 대해 다룬다.

신경망으로 구현한 생성 모델은 기존에 존재하지 않았던 새로운 컨텐츠를 생성해 낸다.

위 이미지 처럼 저해상도 이미지에서 고해상도 이미지를 만들 수 도 있다.

생성적 적대 신경망, 딥드림과 신경 스타일 전이, 시각 임베딩에 대해 설명하고

프로젝트로 임베딩 신경망 학습하기를 수행한다.

 

 

마지막에 파이썬을 실습환경 설정을 위한 내용이 추가로 있는데

작업물 보관을 위한 코드 저장소나 파이썬 프로젝트를 위한 아나콘다 설치방법,

딥러닝 실습환경을 위해 깃허브에 있는 콘다 환경설정하는 법, 

QWS 계정 생성해서 접속하는 법, 주피터 노트북 실행하는 법 등에 대해 다룬다.

 

책을 읽고나서

책을 읽어보니 책의 난이도가 입문서라고 보기에는 조금 난이도가 있다.

이 책은 기본적인 머신러닝에 대해 이미 알고 있고 파이썬으로 작업 가능을 기본 전제로 한다.

책에서 다루는 주제 자체가 조금 어려운 감이 있긴 한데 그래도 최대한 풀어서 설명하고 있긴 하다.

인지하고 있지 않았지만 파고들어 보면 어느순간부터 자연스럽게 컴퓨터 비전과 인공지능, 딥러닝이

함께 발전해 가고 있었다.

대표적으로 보면 얼굴인식, 의학영상, 자율주행등이 그렇다.

이 책을 통해 컴퓨터 비전 분야와 최신기술들을 연관지어서 개발하는 방법을 알 수 있어 좋았다.

책의 내용 역시 그림 위주의 설명이 많아서 이해하는데 도움이 많이 되었다.

 

 "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

● 2012년, 이미지 인식 경연대회(ILSVRC)에서 세상을 놀라게 했던 딥러닝은 계속해서 눈부신 발전을 계속해왔습니다. 그 결과, 현재 인공지능이 아직 다다르지 못한 영역, 즉, 사람보다 더 뛰어난 성능을 발휘하는 분야가 나타났습니다. 그 영역이 바로 컴퓨터 비전 분야입니다.

● 컴퓨터 비전은 얼굴인식, 사물인식, 자율주행자동차, 의료영상 기기 등에서 다방면으로 활용되고 있습니다. 고양이가 어떻게 사물을 인식하고 바라보는지에 대한 과거 초기의 연구에서부터 쿠니히코 후쿠시마 박사의 네오코그니트론, 얀 르쿤의 CNN에 이르기까지 인공지능 시대를 살아가는 사람이라면 컴퓨터가 어떻게 시각 정보를 얻고, 컴퓨터 비전분야에서 딥러닝은 어떻게 작동하는지에 대해 이해해볼 필요가 있습니다.

● 수학은 여전히 필요합니다. 때론 수식이 나와 당황하게 하는 경우도 있습니다. 즉, 이 책은 수학을 피해가지 않습니다. 간혹 독자들의 쉬운 이해를 위해 수식을 빼는 경우가 많은데, 이 책은 계산과정까지 소개해주는 경우가 있어서 좋았습니다. 물론, 알고리즘과 관련한 식에서는 고등 수학 수준 이상의 부분이 나와 이해하기 어려운 점도 있었습니다. 하지만 천천히 그 의미를 이해하려고 노력하는 과정 속에 컴퓨터 비전에 녹아든 딥러닝의 원리를 전반의 맥락과 의미를 파악할 수 있으리라 생각합니다.

● 이 책은 536쪽으로 구성되어 있어 두껍습니다. 단기간에 독파하기에는 많은 분량입니다. 하지만 필자는 어렵지 않은 수준에서 풀어 설명하기 위해 노력을 기울였다는 점을 느낄 수 있었습니다.

이 책은 어렵지 않은 수준에서 컴퓨터 비전을 다루기 때문에 머신러닝에 대한 기본적인 이해와 파이썬에 조금 익숙한 사람이라면, 쉽게 접근할 수 있습니다. 그러나 중급을 대상으로 하는 책임은 분명히 밝혀둡니다. 파이썬 사용법을 알고 있어야 하고, 케라스에 대해서도 익숙해야 한다. 대체적으로 코드는 한 눈에 알아볼 수 있도록 직관적으로 잘 편집되어 있다는 느낌을 받았습니다.

● 신경망의 구성 요소, 신경망의 원리를 자세히 설명합니다. 또, 이미지 분류 및 이미지 탐지 문제에 활용하는 CNN, LeNet-5, AlexNet, GooLeNet, ResNet, R-CNN, Fast R-CNN, Faster R-CNN, SSD, YOLO 등 다양한 고급 알고리즘을 설명합니다. 마지막 챕터에서는 이미지 생성 및 시각 임베딩에 활용하는 GAN, 딥드림 등을 다룹니다.

 

● 컴퓨터 비전에 관심을 가지고 있었거나 딥러닝 자체에 관심이 있는 사람들이라면 책꽂이에 한 권 꼽아놓고, 필요할 때마다 의미를 되새기며, 도움을 얻을 수 있는 책입니다.

● 딥러닝과 컴퓨터 비전에 대해 관심을 갖고 있으면서 무언가 정리가 되지 못한 느낌을 받으셨던 분들, 자신의 도메인에 컴퓨터 비전을 적용하길 원하는 분들, 기타 컴퓨터 비전 관련 다양한 프로젝트와 아이디어를 준비하고 계신 분들이라면 기대 이상의 인사이트까지 기대할 수 있는 책이라 생각합니다.

저자가 밝혔듯이 공부할 때 없어서 내가 일일히 찾아서 공부하고 찾은 것들을 친절히 공개하는 책입니다. 저자의 학습경험에서 나온 설명은 큰 도움이 될 수 있습니다.

● 그저 이해하고, 발만 담구다 끝나는 것을 원하지 않고, 컴퓨터 비전 분야에 입문하면서도 기본과 응용을 동시에 다뤄보길 원하신다면 비전 시스템을 위한 딥러닝(모하메드 엘겐디, 2021) 도서를 추천합니다.

 

※ "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 


 

 

원래 자동화 프로그램 개발 쪽은 아니지만, 가끔 요구가 있을 때마다, 폭넓은 경험을 쌓기 위해 적극 참여 하고 있다. 규모가 있거나 대기업 신규 공장 현장에는 아주 다양한 #자동화 기계들을 볼 수 있는데, 장비 중에는 #비전 시스템을 이용한 것들도 많이 있다. 주로 제품이 제대로 가공됐는지 검수하는 장비에 #인공지능 을 이용하여 개발한다. 예전에는 사람이 일일이 확인해서 판정했는데, 지금은 가공 각도, 흠집 수와 크기 등을 종합적으로 #딥러닝 응용 장비가 알아서 결과를 기록하고 판정까지 해주고 있다.

 

딥러닝 비전 기술을 응용한 사례들은 무척 많다. 드론으로 폐수 방류 감시도 하고, 산림 해충 상황, 실종자 수색 등에도 이용한다. 좋은 사례는 아니지만, 중국에서는 거리의 CCTV를 통해, 카메라에 잡힌 사람들의 전과 기록, 정치 성향, 직장, 학력 등을 실시간으로 조회하고 있다고 한다. 이처럼 #AI 비전 시스템은 활용처가 무궁무진하다. 인공지능을 공부하는 사람 대부분이 크게 관심을 가지고 있는 분야다.

 

그러나 인공지능 공부 자체가 단순한 #프로그래밍 공부보다 난이도가 높다 보니, 익히기가 쉽지 않다. 인공지능 개념도 이해해야 하고, 풀어나가는데 중요한 관련 수학 지식도 필요하다. 게다가 인공지능 알고리즘만 안다고 끝난 것이 아니다. 알고리즘을 응용하는데 축적된 노하우가 필요하다. 많은 시행착오가 동반되곤 한다. 그러다 보니 인공지능 학습자에게 있어, 좋은 스승, 좋은 멘토를 만나는 것은 엄청난 행운이자 중요한 요소라는 생각도 든다.

 

 


 

이번에 본, 모하메드 엘겐디의 '비전 시스템을 위한 딥러닝'은 인공지능을 공부하는 사람에게 좋은 선생님 역할을 해주는 책이다. 적어도 비전 시스템을 제대로 공부할 수 있게 도와주는 가이드 역할을 해주는 교과서와 같은 책이라 할 수 있다. 필자가 서문에도 밝혔듯이 이 책은 컴퓨터 비전을 위한 딥러닝을 직관적으로 가르치기 위한 책이다. 기존에 이런 식의 책이 없어서 다양한 자료들을 연구하여 스스로 컴퓨터 비전 문제를 해결하며 실력을 키워 나갈 수 있게 구성한 책이라고 한다.

 

 


 

실제 '비전 시스템을 위한 딥러닝'을 보면, 비전 관련 딥러닝 기초부터 응용까지 이 책 한 권에 내실 있게 잘 담겨 있는 것을 바로 알 수 있다. 전체 3부로 나눠 구성되어 있는데, 1부에서는 비전 관련 중심으로 꼭 알아둬야 할 딥러닝, #신경망, 하이퍼파라미터 튜닝, 정규화 같은 것을 컬러로 된 많은 그림과 사진, 도표를 가지고 설명하고 있고, 반듯이 알아야 할 것들을 강조하고 재정리하고 있다. 기본이 되는 내용인 만큼, 다른 책에서 많이 봤던 내용도 여기에 나오는데, '이것만 있어도 되겠네' 할 정도로 여기서는 눈에 쏙쏙 들어오게 아주 잘 정리되어 있었다.

 

2부는 #CNN, ResNet, 전이학습, SSD, YOLO 등을 통해 사물 분류, 사물 탐지에 관련된 딥러닝 기법을 익히고, 좀 더 최신의 기술 내용을 담은 #GAN, 딥드림, 신경 스타일 전이, 이미지 생성, 시각 임베딩을 학습한다. 반드시 읽기를 권하는 1부와는 달리 2, 3부는 골라 읽어도 좋다고 말하고 있는데, 교과서처럼 단계적으로 딥러닝 기술을 쌓아가는 형식으로 되어 있다 보니, 일단 처음에는 순서대로 보는 것이 전반적인 이해에 더 도움이 될 것이라 생각한다.

 


 

#비전시스템을위한딥러닝 은 어디까지나 중급 이상을 대상하는 책이다. 파이썬은 기본으로 할 수 있어야 한다. 케라스를 중심으로 나온다. 직접 해보기 위한 실습 환경 설정은 부록편에 잘 정리되어 있다. 책에 나온 코드들은 길지 않고, 군더더기 없게 코딩 되어 있다. 코드에 대한 설명도 코드 바로 옆에 나와 있어서, 시선을 위아래 오르락 내리락 하지 않고, 바로 직관적으로 이해할 수 있게 되어 편리하다.

 

 


 

'비전 시스템을 위한 딥러닝'의 또 하나 특징은 관련 수학 부분을 일부러 피하지 않고 있다는 점이다. 이론과 알고리즘 이해에 꼭 필요한 수학 이론은 추가 설명도 하고, 아예 직접 계산 과정까지 보여주기도 한다. 간단한 계산도 일일이 식과 함께 나오기도 해서, 계산 과정을 명확하게 이해할 수 있게 돕는다. 그렇다고 수학이 책 한가득 나오는 것도 아니고, 어렵지도 않다. 다만 알고리즘 관련 식에서 고등학교 수학 과정 이상의 것들이 나오다 보니, 이런 부분은 별도 학습이 필요하겠지만, 공식 자체에 대한 설명이 자세하게 되어 있어, 식 전반을 이해하는데 큰 도움이 된다.

 

 

 

아울러 책에는 저자의 경험과 노하우에 대한 이야기도 곳곳에 목격하게 된다. 본문 속에 녹아 들어 있기도 하고, 연두색의 박스에 적어 두기도 했다. 알고리즘 관련해서 임곗값이나 가중치 같은 것을 참고해서 실습하거나 응용할 때 적용해 보는 것도 좋을 것이다.
 

'비전 시스템을 위한 딥러닝'을 통해 전에는 그저 막연하고 신기하기만 했던 딥러닝 비전 시스템을 좀 더 깊이 있게 이해할 수 있었다. 딥러닝 비전 시스템에 대해 속 후련하게 해주는 책이다. 그리고 책 속에 많은 비전 기술 적용 사진들이 많이 나오다 보니, 이것을 응용한 다른 비전 활용 비즈니스 아이디어도 샘솟게 자극한다. 내 경우 '비전 시스템을 위한 딥러닝' 덕분에 전부터 관심에 뒀던 드론 활용 비전 아이디어에 대한 방향도 잡을 수 있었고, 좀 더 구체화 할 수도 있었다. 이 책이 딥러닝 비전을 워낙 잘 정리하고 있어서 교과서 같은 책이라고 했는데, 사실 나에게 있어 그 이상인 면이 많았다. 비전 쪽으로 강추하고 싶은 책이다.

옛날에는 컴퓨터 비전을 한다고 하면, 제일 먼저 하는 것이, OpenCV 책을 찾아보는 것이었죠.

그 이후에는 "컴퓨터 비전 : 기본 개념부터 최신 모바일 응용 예까지 (한빛 미디어/오일석)" 의 책이 나름 한 시대를 풍미했었습니다.

기존의 픽실 수준에서의 패턴을 찾아서, 엣지를 찾고, 오브젝트를 찾고 하는 것들에서, 이제는 딥러닝을 활용하는 쪽으로 넘어가게 된 것이죠.

"컴퓨터 비전" 에서도 딥러닝 관련 내용이 있기는 했지만, 그 내용은 오늘날 딥러닝 기술 이전의 MLP, SVM 같은 것들의 사용에 그쳤습니다.

그리고, 지금 이 책은, 온전한 딥러닝에 기반한 비전 처리 기법들을 설명하는 책이었습니다.

최소한 이전에는 "그래도 openCV는 할 줄 알아야지"였었는데, 이제는 openCV 몰라도 할 수 있는 컴퓨터 비전이 된 것이죠.

물론, 이미지 영상을 불러오고, 기본 데이터 포맷을 이해하려면, openCV는 필요합니다만, 몰라도 할 수 있는 상황이 되어버린 것입니다.

마치 "탑건:매버릭"에서 <이제 드론/무인기가 핵심이니까, 개인 파일럿의 비행 능력은 중요하지 않다> 라는 것처럼 말이죠. 옛날 매버릭의 재능이 더이상 필요하지 않은 시대가 되어버린 것이지만, 그래도 openCV는 중요하지 않나 하는 생각을 해 봅니다.

다시, 책 내용으로 되돌아와서,

이 책은 CNN을 필두로, 다양한 딥러닝 모델을 활용해, 영상을 처리하는 방법을 오라일리 책 답지 않은 세세함으로 설명해주고 있습니다. 심지어, 초반에는 딥러닝 모델 개념을 설명해 주는 챕터도 있어서, 다른 책으로 미리 딥러닝 개념에 대한 공부를 하지 않아도, 이 책으로 바로 시작할 수도 있었습니다.

그동안 오라일리 책은 중급자용이라는 선입견이 있었는데, 이렇게, 세세하고 친절하게 설명해주는 책이 오라일리 시리즈로 나온 것이 조금은 낯설기도 했던, 초심자를 위한 최고의 딥러닝 책이 아닐까 싶었습니다.

이런 책이 나왔다는 것에 저자에게도 고맙고, 또 이런 책을 골라서 번역서로 출판해준 출판사에게도 고맙다는 생각이 절로 드는 책이었습니다.

-------------

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

---------------

오늘 리뷰할 도서는 [비전 시스템을 위한 딥러닝] 이다.
 
간만에 다시 보는 딥러닝 책이라 반갑다(라고 쓰고 머리가 아플 예정이다???)
 
 
 

표지 KakaoTalk_20220828_020943601.jpg

 

 
이 책은 일단 번역서이고 검색을 해보니 원서의 경우 아마존 평이 4.8 이었던걸로 기억한다. 평이 상당히 좋은 편이다.
 
일단 빠르게 훑어보니 컬러 덕후인 나로서는 좋은 점수를 줄 수 밖에 없었다. 책 전체가 컬러판 인쇄라서 너무 좋다.
 
컬러는 가독성을 좋게 하는데 일등공신~!
 
 

컬러 KakaoTalk_20220828_020943601_06.jpg

 

 
그동안 딥러닝 관련 책을 본 적이 있어서 눈여겨 보게 된게 기본이 되는 활성화 함수였다. 
 
일부 책에서는 활성화 함수나 이런 부분들을 대충 넘어가는 경우도 있었는데, 
 
이 책은 하나 하나 잘 설명하고 일목요연하게 정리도 하고 있다. 항상 기본이 중요하다는걸 잊지 말자.
 
 

활성화 함수 KakaoTalk_20220828_020943601_04.jpg

 

 
비전 시스템에서는 CNN이 항상 기본으로 다뤄지는데 이 책도 당연히 CNN을 다루고 있다. 
 
예전에 공부할때 도대체 이해가 안가던 내용들이 이 책에서는 쉽게 설명하고 있다.
 
 

CNN KakaoTalk_20220828_020943601_03.jpg

 

 
CNN이 끝나면 "객체 탐지" 도 눈 여겨 볼만 했다. 
 
나도 전에 YOLO 라는걸 알고 공부하고 예제도 꽤 돌려봤었는데, 다시 보니 반갑다. 
 
 

욜로 KakaoTalk_20220828_020943601_02.jpg

 

 
사실 여기까지 책을 보는건 쉽지 않은 일이다. 내용도 어렵고 슬슬 지칠 타이밍이다.
 
책 끝부분에는 GAN에 대해서도 챕터가 있었다. 딥드림 이나 스타일GAN 으로 생성된 이미지는 매우 흥미롭다.
 
 

딥드림 KakaoTalk_20220828_020943601_01.jpg

 

 
정리하면 이 책은 어려운 내용을 쉽게 설명하려고 많이 노력한 책이었다. 한빛에서는 "중고급" 대상으로 표시하고 있다.
 
530여 페이지의 적당한 분량에 딥러닝 이용한 비전 시스템에서 나올만한 주제는 거의 다루었다.
 
파이썬과 머신 러닝에 경험이 있다면 이 책으로 딥러닝 공부도 해보길 추천한다.
 
 
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

추천 독자

딥러닝 기반 컴퓨터비전 애플리케이션 개발하려는 사람

파이썬 코드와 머신러닝 기본 이해를 가진 사람

 

사용 언어 및 프레임워크

Python

Thensorflow & Keras

OpenCV

 

총평

 

 

딥러닝과 비전 분야 기초 논문에 대한 리뷰를 바탕으로 쓰여진 최고의 입문서라고 생각된다. 이를 바탕으로, 비전 분야에서 사용되는 딥러닝 모델들의 구조와 성능, 학습 방법에 대해서 충분히 설명해주고 있기 때문에, 이 책 한 권을 통해서 기초 내용만큼은 충분히 학습할 수 있다고 생각한다.

다만, 후반부 생성 모델과 임베딩에 대한 내용은 앞서 있었던 내용들에 비해 아쉬웠다. 책이 기초 논문에 대한 리뷰 및 활용에 초점을 둬서인지, 관련하여 파생되고 있는 내용들을 많이 덜어낸 느낌이었다. 학습하는 입장에서는 책의 부록처럼 느껴지는 감이 있었다.

 

 

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

 

 

 

이 도서는 “한빛미디어 <나는 리뷰어다> 활동”을 위해서 책을 제공받아 작성된 서평입니다.

 

딥러닝 관련 온라인 강의를 수강한 이후에 실습 또는 프로젝트를 시도해 볼 수 있는 자료를 찾는다면, 이 책을 찾아온 것은 정확한 판단일 수 있습니다.

 

딥러닝 기초 내용을 소화할겸 앞 부분을 확인하고, 뒷 장에서는 R-CNN, YOLO, GAN 등 Vision 쪽 기초 논문들을 함께 확인할 수 있기 때문입니다.

 

다만, 코드가 텐서플로우로 작성되어 있어서 최근 추세와는 별개로 토치로 된 코드를 별도로 찾아봐야하는 것이 수고로울 수 있으나, 어차피 학습하는 단계라면 둘 다 찾아보면서 학습해보는 것도 묘미가 될 것입니다.

 

최근 인공지능과 딥러닝의 발전으로 얼굴 인식, 영상, 자율 주행 등과같은 컴퓨터 비전 관련 산업에서 큰 성과를 이루고 있습니다. 이 책에서는 이러한 기술과 관련해 딥러닝을 이용해 어떻게 컴퓨터 비전에서 실용적인 문제들을 풀어낼 수 있는지 설명해 줍니다.

『비전 시스템을 위한 딥러닝』 리뷰 비전 시스템을 위한 딥러닝 저자 모하메드 엘겐디 출판 한빛미디어 발매 2021.12.20. ​ ​ > 책 소개 * 책 제목 : 비전 시스템을 위한 딥러닝 * 지은이(옮긴이) : 모하메드 엘겐디(심효섭) * 출판사 : 한빛미디어 * 페이지 : 536 ​ > 책을 읽기 전, 나의 지식 ​ 나는 컴퓨터공학과를 복전하기 이전에 컴공은 인공지능을 배우는 곳인줄 알았다. 하지만 실제로는 컴퓨터 언어, 웹 ° 앱 개발이 주를 이루었다! ​ 인공지능과 관련된 교양 수업 하나를 들은 것 이외에 아주 조금의 관심이 있는 것 빼고 이 분야에 지식이 없었다. ​ > 리뷰 ​ 발만 담구는 책이 아니다! 기본 개념부터 고급기술까지 하나로 얻을게 많은 책 딥러닝 개념이 정말 어렵다. 그래서 기초부터 시작해야 겠다고 기본 이론서를 구매하면 정말 기본적인 개념만 알고 끝나는 책들이 많다. 물론 기초 개념을 습득하는 것은 굉장히 필요한 부분이지만, 직접 코드로 구현해보는 것까지 이어진 학생은 같은 시간 내 습득한 양의 차이가 확연히 다를 것이다. ​ 그런데 이 책은 기본 개념부터 고급기술까지 꼼꼼히 이야기해준다. ​ ​ ​ 딥러닝은 적절한 사진이 있어야 이해하기 쉽다는 점을 잘 알고 있는 책. 딥러닝 책답게 이 책에도 사진과 그림이 굉장히 많다. 딥러닝은 기술 자체가 이미지를 다루는 것이 많고 인간의 신경과 닮았다. 사진이 필수적인 딥러닝에서 이 책은 이해에 도움을 주는 사진을 적절하게 이용하고 있다. ​ 시선이 꽂히는 사진을 넣어 학습에 이해와 흥미를 주는 책이다. *한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.* ​

 

제목은 비전이 들어가고, 그래서 비전 관련된 내용이 주된 부분이긴 하지만, 1부는 초보자에게도 유용하다. 부록을 통해 기본적인 설치 방법도 친절히 알려주기 때문에 처음 시작하는 사람까지는 몰라도 초보자도 따라하며 코드를 실행해볼 수 있다(다만 아쉬운 점은 Mac M1에서는 책의 안내대로 설치해서는 실습을 진행할 수 없다는 부분이다).

다른 분야와 마찬가지로 컴퓨터 비전도 이미 많은 연구가 이뤄졌고, 알려졌다시피 DL중에서 가장 발전한 분야이기도 하므로 그만큼 성숙했기에 초보자는 어디부터 접근하고 시작할지부터 어려울 수 있다. 이 책은 그런 관점에서 매우 유용하다. 수학을 깊이 파고들지 않고(기본적인 부분을 다루지, 없다는 뜻이 아니다), 또 현재 산업에서 사용하는 기술에 관계된 부분을 설명하는 데 촛점을 맞추므로 (즉 사용하지 않는 분야는 다루지 않음) 매우 실용적이다.

정리하면, 최신 모델을 다루지는 않지만 비전 분야를 배우려는 사람들에겐 최고의 안내서가 될 책이다.

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

Ref.

 

IMG_3369.jpg

Vision 이라는 분야는 딥러닝을 공부한다면 항상 먼저 접하는 분야입니다.

 

이 책은 딥러닝 기초부터 시작해서 합성곱 신경망을 거쳐 응용 분야인 사물 탐지, 생성 모델과 시각 임베딩까지 알기 쉽게 설명한 책입니다.

 

"5장 합성곱 신경망 구조" 에서는 주요 신경망 네트워크인 LeNet-5, AlexNet, VGGNet, Inception 그리고 ResNet의 구조와 특징에 대해 설명을 하고 있는데 단순히 설명만 하는 것이 아니라 실제로 케라스로 구현함으로써 이론과 개발이라는 두마리 토끼를 잡을 수 있도록 합니다.

 

또한 주요 객체 탐지 알고리즘인 R-CNN 계열, YOLO 계열 그리고 SSD를 설명하고 예제를 통해 SSD 모델을 구현해 보면서 비전 시스템의 응용 분야를 접할 수 있도록 합니다.

 

이 책을 차근 차근 읽다보면 비전 태스크에 대한 이해도와 실제 개발 능력을 쌓을 수 있을 것 같습니다.

 

한마디로 뻔하지만 뻔하지 않은 내용이 있는 책입니다.

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."  

 

이 책은 '21년 12월 발간한 책으로 22년 8월 현재 초판 1쇄 발행본이다.

저자는 모하메드 엘겐디로 라쿠텐에서 엔지니어링 부사장을 맡아 AI 플랫폼 및 프로덕트 개발을 관리하며 아마존에서 AWS와 아마존고 팀에 자문을 하기도 했다.

저자의 약력에서 살펴볼 수 있듯 책의 내용은 학술에 치우친 내용이 아닌 실제 업무에서 많이 사용하는 예제를 적용하여 현업자에게 많은 도움이 되어 보인다.

책 내용은 전체적으로 총 536페이지 가량의 조금 두꺼운 분량으로 보이며 책상앞에 두어도 큰 부담이 되지는 않아 가까이 두고 활용할 수 있어 보인다.

본문은 총 10장으로 구성되어 있으며 10장 중,  

1장은 컴퓨터 비전과 관련한 일반적으로 알아야 할 내용과 본 책에 대한 전반적인 안내, 도입에 관한 내용을 다루고 있는데 딥러닝 교과서와 내용은 유사해 이미 이에 대해 알고 있는 사람은 수월하게 넘어간다.

2장은 딥러닝과 신경망을 소개하며 퍼셉트론, 다층퍼셉트론, 활성화 함수의 종류, 순방향계산, 오차함수, 최적화 알고리즘, 역전파 알고리즘에 대해서도 간략히 소개하고 있다.

3장은 합성곱 신경망을 설명한 장으로 입력층, 출력층, 은닉층, 신경망 구조, 과적합 방지를 위한 드롭아웃층 추가등에 대해 설명하고 있다.

4장은 기초를 지나 본격적인 내용을 다루고 있으며 성능지표, 하이퍼 파라미터 튜닝, 배치정규화등에 대해 다루고 있다

5장은 시각화 경진대회에서 수상한 이미 이름을 많이 들어본 신경망 모델에 대해 설명하고 있는데 그 내용으로는 LeNet-5, AlexNet, VGGNet, GoogLeNet, ResNet을 다루고 있다.

6장은 전이학습을 설명하고 있는데 전이학습의 3가지 방식인 사전학습된 신경망을 분류기로 이용하기, 사전 학습된 신경망을 특징 추출기로 이용하기, 미세 조정하기등에 대해 친절히 알려주고 있으며 적합한 전이 수준의 선택을 위해 4가지 시나리오를 상정하여 시뮬레이션을 하고 있다.

7장은 사물탐지를 다루고 있으며 관심있는 사람들은 이미 들어본 R-CNN, SSD, YOLO를 상세히 설명하고 있으며 장 말미엔 자율주행차를 위한 싱글샷 탐지기 학습에 대해 총 7단계로 상세히 나누어 이를 설명하고 있다.

8장은 생성적 적대 신경망(GAN)을 설명하고 있는데 GAN구조, 모델의 평가방법, 응용분야, 프로젝트 실습을 통해 간단하나마 GAN에 대해 맛을 보여주고 있다.

9장은 딥드림과 신경 스타일 전이를 다루고 있는데 과학 기술적인 부분을 예술적인 분야로 업그레이드 하는 내용으로 기존의 표현방식에 식상해 있거나 새로운 표현을 시도하고자 하는 사람들에게 매우 유용한 내용으로 보이며 본문엔 코드도 있어 직접 실행해 볼 수 있다. 

 10장에선 시각 임베딩을 설명하며 응용분야인 안면인식, 이미지 추천, 물체 재식별에 대해 그림을 통해 쉽게 설명하고 있으며 손실함수, 정보량이 높은 데이터를 고르는 마이닝과 본 장과 관련한 주제를 다룬 프로젝트를 실행한다.

전체적인 총평은 출판사측에선 난이도 중고급으로 설정하였으나 앞부분은 대학교 교재의 일반적인 내용 위주로 설명되어 있어 코드로 도배되어 있는 일반 컴퓨터 도서와는 달리 난해하지 않으며 일반인이나 초중고등 학생에게도 선행 학습없이 책을 한장 한장 천천히 따라서 실습하면 딥러닝 비전에 대해 더 많은 호기심이 자극되어 더 깊은 바다로 내려가게 될 것으로 보인다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

오라일리(O'Reilly)의 빨간 동물 표지와 양대산맥을 가지고 있는 Manning Publications의 중세시대 사람 표지 책 중 하나이다. 
 
특히 OOO in action으로 유명한데, 표지만 봐도 "믿고 본다"라는 인식이 강하다. 
 
사실 이전부터 딥러닝에 관한 책은 수도 없이 많이 출시가 되었다. 이 책의 특징은 "비전"에 초점을 맞췄다는것. 딥러닝은 CNN으로부터 부흥을 얻었다고 해도 반박할 사람은 없을 것이다. 그만큼 여러 인공지능 뉴비들은 비전 분야에 쉽게 접근할 수 있었을 것이다. 
 
이 책에서 마음에 들었던 부분은 1장 "컴퓨터 비전 입문" 이다. 신경망이 어쩌고 저쩌고 부터 시작하기 보다는, 비전 시스템이 어떻게 구성되는지, 비전 응용 분야에는 어떤 것들이 있는지 소개하기 때문에 비전공자들도 쉽게 이해할 수 있을 것 같다. 
 
이후 2장 "딥러닝과 신경망"에서는 퍼셉트론부터 시작해서 활성화 함수, 오차 함수, 최적화, 역전파 알고리즘까지 딥러닝을 공부했더라면 필수적으로 알아야할 것들에 대한 설명이 나온다. 
 
사실 ML/DL 면접에서도 필수적으로 나오는 질문 중 하나라고 생각한다. 그만큼 중요한 딥러닝 기초이기 때문에 가장 중요한 장이지 않을까 생각한다.
 
 
이후 3장 "합성곱 신경망"에서는 CNN이 발전해왔던 History를 배운다. 사실 현재는 전혀 사용하지 않은 네트워크이겠지만, 네트워크의 발전 방향을 공부하면서 '아 이런 문제 발생했을 때, 해결을 이렇게 했구나' 생각을 하면서 배우는 것이 중요하다고 생각한다.   
 
4장 "딥러닝 프로젝트 시동 걸기와 하이퍼파라미터 튜닝"은 실습을 통해 하이퍼파라미터 튜닝을 진행한다. 사실 이론만 공부하면 뭐하겠는가? 실제로 모델을 구축하고 loss를 줄여나가는 과정은 꼭 필요하다. keras를 바탕으로 쉽게 코드를 작성할 수 있고 중요한 부분은 전부 주석처리가 되어있어서 이해도 쉽다. 
 
다만 요즘에는 하이퍼파라미터 튜닝을 자동으로 해주는 tool이 많은데, '이거를 소개시켜줬으면 참 좋았겠다' 라는 생각이 들었다. 
 
이후에는 5장 "고급 합성곱 신경망 구조", 6장 "전이학습", 7장 "R-CNN, SSD, YOLO를 이용한 사물 탐지"가 나오는데 필자는 7장에 주목하고 싶다. 
 
이 책 제목이 "비전 시스템을 위한 딥러닝"인데, 이 책을 구매한 사람들은 아무래도 Object Detection을 실제로 구현해보고 싶은 사람들일 것이기 때문이다. YOLO와 같은 객체탐지 오픈 소스는 말 그대로 오픈 소스이기 때문에 Github에서 긁어서 쉽게 시스템을 구축할 수 있다. 이 책에서는 어떻게 객체 탐지를 하는지에 대한 근본적인 설명이 있었기 때문에 필자는 YOLO를 사용한지 2년이 넘었지만 이제 원리를 하나씩 이해했다. 
 
이후에 나오는 8장 "생성적 적대 신경망", 9장 "딥드림과 신경 스타일 전이", 10장 "시각 임베딩"에서는 이미지를 생성하는 분야에 대한 소개가 담겨있다. 특히 요즘 인기있는 GAN, Face Recognition, Re-identify 등에 대한 소개가 담겨있지만, 실습이 없다는 것이 아쉬웠다.
 
 
총평을 하자면, 
딥러닝을 처음 접하는 사람들에게도 적합하고, 공부는 이미 했지만 면접준비 등 다시 생각 정리를 하고 싶은 사람에게 이 책을 추천한다.
 
 
<이 리뷰는 한빛미디어 '나는 리뷰어다'로 부터 책을 지원 받아 작성되었습니다>

 

[서론]

 

 

다양한 이미지/영상을 합성해서 

존재하지 않는 사람의 

사진이나 영상을 만들어내는 기술은

완성도가 너무 높아서 

 

최근에는 가상 인간이 

연예인으로 데뷔하는 수준에 이르렀다. 

 

이렇게 컴퓨터로 시각적인 이미지나 

동영상을 인식하고 다루는 것은

다양한 인공지능 관련 기술 중

딥러닝이 가장 빛을 내는 분야이다. 

 

이미 구현 편의성과 높은 성능으로 

활용성이 검증되었기 때문이다.

 

이 <비전 시스템을 위한 딥러닝>은 

바로 그런 딥러닝과 컴퓨터 비전 기술을 

익히기를 원하는 사람을 위한 책이다.

 

 

[내용]

 

1부는 초보를 위한 딥러닝 입문이다. 

 

초보자를 위해 

신경망과 딥러닝의 기초를 

차근차근 소개한다. 

 

생각보다 굉장히 낮은 단계에서부터 

설명을 시작해서 읽기가 쉬웠다. 

 

2부는 사물 분류 및 탐지 응용 기법을 다룬다.

 

고급 CNN과 전이학습, 사물탐지에

R-CNN, SSD, YOLO를 이용한

사물탐지 기법이 가장 재미있다.

 

3부는 이미지 생성 및 시각 임베딩이다.

 

GAN, 딥드림, 신경 스타일 전이, 시각 임베딩을

작은 분량으로 가볍게 맛볼 수 있다. 

 

여기까지 공부하고 나면, 

컴퓨터 비전 분야에서 

최근에 많이 사용되는 대중적인 기법은 

대체적으로 체험해본 느낌이다.

 

 

[대상 독자]

 

파이썬에 기초적인 지식이 있고

딥러닝에 입문하고 싶은 초보자가 

대상 독자이다.

 

이미지 인식과 딥러닝의 이론을

너무 깊이 설명하지 않고

반드시 알아야 하는 내용 위주로 

간단히 설명한다.

 

소스코드와 실제 동작 결과를

바로바로 눈으로 볼 수 있도록 

구성되었기 때문이다. 

 

 

[저자]

 

저자 모하메드 엘겐디는 

글로벌 쇼핑몰인 라쿠텐에서

부사장으로 재직하며

AI 플랫폼 및 프로덕트 

개발을 담당하고 있다.

 

AWS와 아마존과 협업했으며

아마존 머신러닝 대학교에서 

컴퓨터 비전을 위한 딥러닝 과목의 

커리큘럼을 구성하기도 했다.

 

 

[편집]

 

아름다운 풀컬러 인쇄가 최고다.

 

주제가 컴퓨터 비전이므로 

학습 대상과 결과물인 이미지를 

정확하게 보여주기 주는 것은 물론이고

 

본문 소스코드까지 컬러가 적용되어

읽는 내내 눈에 잘 들어왔다. 

 

 

[장점]

 

내용의 깊이가 딱 적절하다.

수학 수식이 너무 많이 나오지 않고,

직관적으로 이해에 필요한 만큼만 등장한다.

 

게다가 상당히 실용적이다. 

 

딥러닝과 컴퓨터 비전의 

이론에 치중하지 않는다. 

 

개념을 간단하게 풀어주고 

예제와 소스코드, 결과물을 통해

바로 실습해볼 수 있다.

 

특히 이 책은 소스코드 바로 옆에 

화살표로 주석이 아주 자세하게 

달려 있는 점이 이해하기에 특히 좋았다. 

 

 

[단점]

 

번역된 기술 용어가 

일반적인 딥러닝 필드에서 사용되는 것과 

차이가 있는 점이 간혹 있었다. 

 

번역하신 분이 고민하신

용어 한글화에 대한 

새로운 시도일지도 모르겠으나,

 

독자 입장에서 쭉 읽어나가기에는 

눈에 자꾸 걸리는 부분도 있는 것은 사실이다. 

 

 

[결론]

 

딥러닝이 가장 빛을 발하는 장소가

바로 이 컴퓨터 비전 분야이다

 

저자가 이 주제에 대해서

효과적으로 교육하기 위해,

내용의 전달 방법을

많이 고민했던 흔적이 느껴지는 책이다.

 

개인적으로 지난 몇 년간

이미지 인식이 필요한 일이 있었는데,

아쉽게도 당시 내 기술수준으로는 

필요한만큼 검출이 되지 않아서 슬펐었다. 

 

이 책을 통해 기초 개념을 다지고 

다양한 예제를 실행해 보았으니,

이후 유사한 업무가 생기면

확실히 큰 도움이 되리라 생각한다.

 

딥러닝 기초 이론에 있어서도

평소에 궁금했던 점이 해소된 부분이 있어서

상당히 유용했다.

 

 

[목차]

 

- CHAPTER 01 컴퓨터 비전 입문

- CHAPTER 02 딥러닝과 신경망

- CHAPTER 03 합성곱 신경망

- CHAPTER 04 딥러닝 프로젝트 시동 걸기와 하이퍼파라미터 튜닝

- CHAPTER 05 고급 합성곱 신경망 구조

- CHAPTER 06 전이학습

- CHAPTER 07 R-CNN, SSD, YOLO를 이용한 사물 탐지

- CHAPTER 08 생성적 적대 신경망

- CHAPTER 09 딥드림과 신경 스타일 전이

- CHAPTER 10 시각 임베딩

- APPENDIX A 실습 환경 설정하기

 

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

SE-641fbe81-6fe3-4948-921c-952a759f67a5.jpg

딥러닝은 컴퓨터 비전 분야에서 엄청난 활약을 하고 있으며 대단한 성능, 결과를 내놓고 있다.

지금껏 여러 딥러닝 책을 봐왔지만 너무 쉽거나 너무 어렵거나 둘 중 하나였다.

보통은 가장 인기 많은 GAN을 집중적으로 다루는 책이 많았다.

그러나 이 책은 비전 시스템을 공부하고자 하는 학생들을 위한 교과서라고 볼 수 있다.

이 책은 컴퓨터 비전을 위한 딥러닝을 직관적으로 가르치는 책이다.

그러나 적어도 머신러닝의 기본적인 개념과 파이썬을 할 줄 아는 사람을 대상으로 한다.

초반부에는 머신러닝의 기초를 가볍게 다루고, 이후 본격적으로 수학 개념을 설명하면서

고급 딥러닝을 그냥 이런 느낌으로 동작한다고 설명하는 것이 아니라,

개념과 이론이 수학적으로 어떻게 들어맞는지 더 갚은게 이해시켜준다.

SE-2876aa8b-2238-4376-abd5-6ee013aa28a3.jpg

내가 이런 책들을 리뷰할 때마다 가장 중요시 보는 것은 파이썬 프로그래밍 기초 설명이 있냐없냐이다.

좋은 딥러닝 책은 당.연.히 파이썬 프로그래밍 문법 설명이 없다.

지극히 당연한 사실이고 그래야만 하는데, 돈 벌려고 하는 저자들은 항상 프로그래밍 문법을 설명하면서 지면을 억지로 늘린다. 지면이 늘어날수록 책 값이 오르고 본인들이 더 많은 저작권료를 얻을 수 있기 때문이다.

위의 이미지처럼  해당 코드가 어떠한 일을 하는지 옆에다가 설명을 적어주면 된다.

이걸 넘어서서 코드 첫 줄에 import는 무슨 기능이고 keras는 어떤 라이브러리며 이딴걸 적는 딥러닝 책은 그냥 버리면 된다.

어쨌든 그러한 점에 이 책은 교과서답게 핵심적인 코드만 간략하게 나타나고, 어떤 일을 하는지 자세히 알려준다.

 

SE-6607a9b8-c254-4bbd-b5fd-b4c5ee285ec3.jpg

모든 이미지와 그림이 칼라로 되어있기 때문에 책 값이 올라간 점은 단점이라고 볼 수 있지만,

컴퓨터 비전 분야 책에서 직관적인 이해를 위해서는 어쩔 수 없다고 생각한다.

첫 장부터 저자의 설명을 잘 따라왔다면 위 이미지 처리 과정도 아주 쉽게 이해할 수 있다.

책의 대상 독자는 컴퓨터 비전 엔지니어를 지망하거나 컴퓨터 비전에 응용되는 고급 신경망 알고리즘을 익히고 싶거나 제품 또는 스타트업을 시작하려는 사람들이다.

나 역시 딥러닝이 거둔 가장 가시적인 성과는 GAN과 YOLO라고 생각한다.

물론 현재 GAN과 YOLO는 더욱더 발전하고 있지만 가장 기본적인 알고리즘은 똑같다.

그렇기 때문에 이 책으로 학습하면 충분히 GAN과 YOLO를 넘어서서 다른 컴퓨터 비전 분야 고급 알고리즘도 쉽게 이해할 수 있다고 판단된다.

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

달마다 그렇듯 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받았습니다. 

 제목 그대로 이 책은 시각정보 처리에 딥러닝을 적용하는 방법을 다룬다.저자인 모하메드 엘겐디는 컴퓨터 비전과 딥러닝을 모두 다루는 책 한권이 있으면 좋겠다고 생각해서 이 책을 쓰게 되었는데, 한 1년만 일찍 나왔으면 작년에 내가 대회나갈 때 더 도움이 되었을 것 같다. 

ㅂㅍ.jpg

 

 내가 딥러닝 관련 책을 읽으면서 가장 먼저, 많이 접한 응용분야가 비전관련 분야였고, 이미 나같은 초보자가 접할 수 있다는 것은 그만큼 해당 영역에서 연구가 충분히 활발히 진행되어 진입장벽이 다소 낮아졌기 때문일 것이다.하지만 이러한 과정에서도 많은 자료들은 MNIST같은 잘 만들어진 데이터로 기본적인 내용만 다루고 딥러닝에 관한 설명에 치우쳐져 있어 독자가 내용을 바탕으로 활용하기 위해 필요한 컴퓨터 비전기법 관련 내용이 부족하거나.반대로 책은 컴퓨터 비전을 주로 다루고 딥러닝을 사용한 기법은 책의 일부에 결국엔 컴퓨터 비전의 일부로만 다루는 경우가 적지 않았다.작년 대회 준비 하면서 본 여러책의 예제와 블로그 등을 찾아보면서 '딥러닝으로 분류하기' 등의 주제를 다룬 책의 챕터나 인터넷 글들이 대다수 이런 식이었다. 

 비유를 하자면 '수능공부를 하려는데 세상에는 기본적인 내용을 다룬 교과서만 있는' 느낌. 

 어쨌든 지금이라도 괜찮아 보이는 책이 등장해서 다행이다. 

 

 1장에선 컴퓨터 비전에 대한 소개를 한다.어떤 응용분야가 있고, 어떤식으로 처리과정이 흘러가고 진행되는지. 

 2장은 퍼셉트론부터 시작해 신경망과 딥러닝 알고리즘에 대한 설명을 진행한다.2장부터가 저자가 한권에 담고 싶었던 내용의 본격적인 시작이라고 할 수 있는데. 다른 수많은 딥러닝 도서들이 3-4만원짜리 책 한권으로 써낼 분량을 요약적으로 잘 압축했다는 생각이 들었다.

 

ㄹㅋㄹㄹ.jpg

 

 

 다만 개인적으로 Leaky ReLU를 누설 ReLU로 번역한 건 처음 본것 같아서 다소 어색한 부분이 있었다.강의같은거 보면 거의 대부분의 용어들을 영어 그대로 사용하시는데, 가끔 과하게 다 번역한 책들을 접하면 해당 분야의 다른 사람들과 나중에 이야기 할 때 의사전달의 오류를 일으키는 계기가 될 것 같아 조금 우려스러운 측면이 있다.물론 책에도 이 용어가 처음 등장할 때 영어표기가 등장하긴 하지만, 우리나라에서도 해외의 영어 자료들을 접할 일이 훨씬 많으니 이런 전문적인 분야에선 의미전달이 원활한 선에선 최대한 영어표기를 따르는 것이 좋다고 생각한다. 

ㅎㄱㅂ.jpg

 

 

친절한 하이퍼파라미터 경보!!

대회때 이거 진짜 고민 많이 했는데. 

 3장은 컴퓨터비전 딥러닝 하면 빠지지 않는 CNN을 설명하고, 4장은 하이퍼파라미터 튜닝을 다룬다.뭔가 데이터가 왕창 있어도, 하이퍼파라미터를 설정하는데 잘못된 개념을 적용하거나, 실수가 있으면 수많은 자원을 낭비하고 결과물도 빨리 나오지 않으며 무엇보다 원하는 결과를 거의 달성하기 어렵기 때문에 나는 이 부분이 상당히 중요하다고 생각한다. 

 

 

 이어서 5장은 LeNet-5, AlexNet, VGGNet, 인셉션, ResNet 등 성능이 좋다고 이 분야 사람은 한 번 쯤은 들어봤을 모델들도 다룬다. 

 

ㅈㅇ.jpg

 

그리고 6장은 모델만 만들어서 두고두고 잘 활용하기 위한 전이학습에 관련해서 자세히 설명해준다. 파인-튜닝을 어떻게 해야하고(파튜를 미세조정으로 번역하니 잘 와닿는다! 근데 페북 딥러닝 그룹에선 fine-tuning을 훨씬 더 많이 봐서 그런지 약간 낯설기도 하다.), 시나리오를 제시해 전이학습을 어느 수준으로 적용해야 할지 도와준다! 그리고 대부분의 개인 프로젝트가 직접 준비한 데이터셋을 사용해야 하겠지만, 친절하게 오픈소스 데이터셋도 몇페이지를 할당해 알려준다.

 

ㄷㄷㄹ.jpg

 

 7, 8, 9, 10 장은 응용분야인데 YOLO3, SSD, R-CNN으로 객체 탐지에 관련된 기법과 GAN, 딥드림의 작동법도 다룬다! 

 

 

 

 뭔가 '나도 이 분야 전문가인데 책이나 한번 써볼까?' 해서 쓴게 아니라, 저자의 집필 동기 그대로 '나 공부할 때 이거 없어서 내가 일일히 찾은것들 좀 공개해볼까' 하는 책같다는 느낌이 들었다.이 책이 딥러닝+컴퓨터 비전의 모든것을 다루고 있진 않지만, 경험에서 나온 설명은 큰 도움이 될 것 같다. 

 

 아쉬운건 이 책도 저자가 마련한 실제로 쓰일만한 데이터셋보단 MNIST데이터넷이 꽤 쓰인거.차라리 Kaggle 데이터셋이 조금 더 응용하는 느낌도 나고 좋은데, 너무 특이한 경우면 주제에 대한 설명이 객관적이지가 않을것 같긴 하다.

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

파이썬에 익숙하면 코드를 이해하는데에 많은 도움이 된다.
신경망과 딥러닝 이론의 기본에 대한 이해가 없더라도 책에서 설명을 하고 있기에 부담없이 읽어보기를 권한다.
책 제목에서 알 수 있듯이 비전 시스템에 초점을 맞추어 설명을 하기에 RNN에 대한 내용은 없다.
자연어 처리를 원하는 분들은 다른 책을 찾아보기를 바란다.

차분히 책의 설명과 예제를 따라가다보면 자연스레 기본적인 이론과 프레임워크 사용에 대해 익숙해 질 것이라 생각한다.
다만 아쉬운점은 예제에서 텐서플로우를 사용하는 것이 아니라 케라스를 사용하고 있다. 텐서플로우에서 케라스를 병합한 것으로 알고 있다. 그래서 텐서플로우를 바탕으로 한 예제 설명이 있었으면 활용하기 더 좋지 않았을까 싶다.

 

image0(1).jpeg image1(1).jpeg

읽어보며


일반적으로 NLP보다 CV의 생성 태스크가 세상의 관심을 더욱 많이 받는데, 생성 결과를 바로 직관적으로 볼 수 있어서 연구자들 뿐만 아니라 일반인들도 흥미로워해서 더욱 그런 듯 하다. 나 또한, Part 3에서 소개하는 이미지-이미지 번역, 스타일 전이 등을 결과물들을 보며 흥미를 많이 느꼈다. ‘조금 변형해서 NLP에 이렇게 적용할 수도 있겠는데?’ ‘이미 진행중인 비슷한 연구가 있을까?’ 하는 생각에 갑자기 눈이 번쩍 떠지며 초 집중모드로 들어가서 Part 3 전 챕터를 순식간에 읽어버렸다. 그래서 정작 흥미를 가장 많이 느꼈던 부분은 GAN, 신경 스타일 전이, 그리고 시각 임베딩을 다룬 Part 3였다 :)

평소 거의 NLP 관련 서적만 찾아보다 보면, 원래 많이 접하는 익숙한 내용들만 보게되니 머리를 아무리 쥐어짜도 ‘이걸로 될까’ 싶은 아이디어나 간신히 나올 때가 많다. 오픈된 태도로 다른 분야의 지식 또한 많이 접하고 아이디어 풀을 넓히는 것이 좋은 연구자의 자질임을 알면서도, 당장 눈앞에 주어진 일이 많을 때 다른 분야의 책에 손을 뻗기가 여간 부담되는 것이 아니다. 하지만 이번 기회에 이 책을 읽으며 스스로에게 강제성을 부여해서라도 주기적으로 다양한 분야의 지식을 접해야겠다는 생각을 더 강하게 하게 되었다. 큰 감흥없이 기초 딥러닝 지식을 다루는 Part 1를 훑고, ‘이 정도는 알아놓으면 좋지’ 하는 의무감(?)으로 비전 분야의 중요한 모델들을 다루는 Part 2를 읽고, Part 3에서 생각지도 못하게 샘솟는 영감을 받게 되면서 말이다.

그래서 비전 엔지니어를 꿈꾸는 이들에게 뿐만 아니라, NLP 등 다른 분야의 딥러닝 연구자/엔지니어들 또한 기분전환 삼아 읽어보면 의외의 것들을 얻어갈 수 있는 책이란 생각이 들었다. 개인적으로 이 전에 읽어본 딥러닝 서적들에 비해 설명이 친절해서(책이 많이 두껍기도..) 크게 고생하지 않고 읽을 수 있던 것도 한몫 했다.

 

추천 대상


저자는 “머신러닝 프레임워크의 기본을 이해하고 있으며 파이썬 코드를 작성할 수 있고 고급 머신러닝 모델 학습 기법과 함께 실무 수준의 신경망 구조를 이용해 복잡한 컴퓨터 비전 문제를 해결하길 원하는” 사람들이 대상 독자라고 말한다.

이에 조금 더 보태면, 비전 엔지니어를 지망한다면, 컴퓨터 비전을 위한 딥러닝을 직관적으로 공부해보고 싶다면, 최신 논문을 이해하기 위한 기초를 다지고 싶다면, 비전 모델 개발에 필요한 기본적인 수학적 원리를 이해하고 싶다면, 대상 독자가 될 수 있다.

NLP 연구자의 관점에서 더 보태자면, 위에서 서술한 것처럼 다른 분야의 딥러닝 연구자/엔지니어들이 읽기에도 충분히 친절하며, 좋은 아이디어 발상의 기회가 될 수도 있어 보인다. 단, 기초적인 지식을 다루는 Part 1에 더불어 상세한 코드 주석이나 친절한 수식 설명 등은 이미 딥러닝을 공부한지 어느정도 된 사람들에게는 거추장스럽게 느껴질 수도 있겠다.

 

이 책의 특징 요약


  1. 설명이 친절하다. (책이 두껍다)
  2. 요약이 잘 되어있다.
  3. 코드도 알아보기 쉽다. (주석도 많다.)
  4. 기본적인 딥러닝 지식을 익혔고, 더 나아가 비전에 관심있는 학습자에게는 더할것 없이 좋은 책이다.


 

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

 

 

Deep Learning for Vision Systems

 

 

대상독자

첫째로 당연한 얘기지만 파이썬이 익숙해야 합니다.

둘째로 머신러닝에 대한 기본 지식이 있어야 합니다. 만약 둘중 하나라도 부족하다면 선행학습을 하길 바랍니다.

 

 

난이도

네.. 어렵습니다.

자세히 가르쳐주고 있지만 저한테는 어려웠습니다. 머신러닝에 대한 지식이 아직은 부족해서 그럴 수 있지만 지금 리뷰를 작성 하는중에도 책을 끝까지 읽지 못했습니다.

하지만 확실한것은 재미있습니다.

예제 코드를 따라 하고 결과를 보고 코드를 다시 읽으면서 이해를 하고

이 과정이 어렵지만 계속 읽어 나갈 수 있게 해줍니다.

 

내용

이 책은 크게 3개의 파트와 10개의 챕터로 나누어져 있습니다.

파트1에서 딥러닝의 기초를 다루고 있습니다.

4개의 챕터에 걸쳐서 컴퓨터 비전, 딥러닝과 신경망, 합성곱 신경망과 신경망을 개선하기 위한 여러가직 작업에 대해 가르쳐주고 있습니다.

 

파트2에서 이미지를 분류 하고 탐지에 대해 다루고 있습니다.

3개의 챕터를 할당하여 CNN과 여러가지 개선된 파생 버전들에 대해서 다루고 있습니다.

 

파트3에서 모델과 컴퓨터가 읽을 수 있도록 변환해주는 임베딩에 대해 가르쳐주고 있습니다.

3개의 챕터에서 GAN, 딥드림, 임베딩에 대해 배울 수 있습니다.

 

책 중간중간에 초록색 박스를 통해 추가정보와 그 다음에 어떤것을 더 공부 해야 하는지 가이드를 해주고 있습니다

 

 

 

챕터의 마무리는 해당 챕터를 한번 정리를 해줍니다.

읽었을 때 모르겠다 하면 해당 부분을 다시 공부 하는게 좋습니다.

 

 

그 외...

처음부터 CV를 공부 해야겠다 하고 시작하지 않았습니다

우연히 팀장님이 OCR프로젝트에 대해 얘길 하셨고 내가 할 수 있겠다 생각 해서 덤벼들었습니다.

지금 생각 하면 진짜 무식해서 용감했던것 같습니다.

단순 OCR이 아니라 이미지를 인식 하여 문자로 변환하고 그 문자를 의미 있는 데이터로 만들기 위해 형태소를 분석 해야 하고 우리가 가지고 있는 데이터와 비교 해서 매핑을 해줘야 한다는것을 그때는 몰랐습니다.

그렇게 CV라는것을 처음 접하게 되었습니다.

관련 자료를 찾으려 하니 찾을 수 있는것들은 영문으로 된 책이었고 짧은 영어 실력으로는 도저히 헤쳐나갈 수 없어서 위 프로젝트는 잠시 접어두었습니다.

 

그러던 중 한빛 미디어에서 이 책을 제공 해주셔서 읽고 있습니다.

지금은 OCR 프로젝트를 어떻게 풀어나가야 할지 머리속에 그려지고 있습니다.

빨리 이 책을 다 읽고 OCR 프로젝트를 시작 하고 싶어졌습니다.



출처: https://ddasix.tistory.com/entry/비전시스템을-위한-딥러닝-Deep-Learning-for-Vision-Systems [부산사는신씨]

 

 

image0.jpeg

 


 


한빛미디어에서 "비전 시스템을 위한 딥러닝" 이라는 책이 출간되었다. 개인적으로 딥러닝 책은 영상, 음성, 자연어 등의 분야들이 모두 포함되어 있는 책이 많았어서 오로지 "컴퓨터 비전"만을 위한 책이 발간됬다는 소식이 무척이나 반가웠다! 컴퓨터비전이란 이 책에서도 말하고 있듯 "생물의 시각을 모사한다"라는 목표를 지향하는 기술 분야이다. 즉 인간의 눈으로 인지하는 모든 것들을 위한 기술이라고 말할 수 있다. 컴퓨터 비전이라는 연구분야는 결과물이 정적인 이미지나 동적인 영상으로 눈에 가시적으로 보이니까 더 흥미로운 분야인 것 같다.

 

한빛미디어에서 출간된 비전 시스템을 위한 딥러닝이라는 책의 목차는 다음과 같이 알짜배기만 쏙 담긴 구성으로 이루어져있다. 

 

- 초보자를 위한 신경망과 딥러닝의 기초

- 사물 분류 및 사물 탐지 과업에서 사용된 응용 기법

- 최신 연구 성과인 이미지 생성과 시각 임베딩 

 

이 책의 대상 독자는 머신러닝 프레임워크의 기본을 이해하고 있으며, 파이썬 코드를 작성할 수 있고 고급 머신러닝 모델 학습 기법과 함께 실무 수준의 신경망 구조를 이용해 복잡한 컴퓨터 비전 문제를 해결하길 원하는 사람들이다. 한마디로 말하자면 이미 컴퓨터 비전 분야에서 종사하고 있는 분들이나 컴퓨터비전 분야를 공부하려는 학생들이 필독하면 좋을 책이다. 

 

책을 읽어보면서 느낀점은 "컴퓨터 비전" 중심으로 딥러닝을 소개하고 있기 때문에, 컴퓨터 비전 분야 프로젝트를 수행하는 관점에서 개념들을 설명하고 있다. 그래서 이미지 전처리하는 과정 부터 시작해서 합성곱 필터가 어떻게 적용되는지 정말 상세하게 설명하고 있다. 또한 기본적인 개념 설명에 끝나지 않고, 실무에 필요한 오픈 데이터 세트에 대한 설명까지 포함되어 있어서 좋았다. 더군다나 데이터 라벨링을 위한 LabelImg 프로그램 설명까지 포함되어있는 것을 보고 정말 완벽하다고 생각했다. 그리고 GAN과 딥드림에 대한 설명도 깔끔했으며, 개인적으로 9장에서 CNN의 특징맵을 시각화해놓은 부분이 굉장히 흥미로웠고, 이러한 시각화가 가지는 의미를 설명해놓은 부분이 꽤 유익했다. 궁금하면 구매해서 읽어보기를 바란다. 


 "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

인공지능 기술이 다양한 분야에 적용되고 있다고는 하지만, 가장 많이 드러나있고, 성과로 보여지는 분야는 역시 컴퓨터 비전이 아닐까 싶다. 우리가 눈뜨고 살아가는 이상, 눈으로 들어오는 시각 정보의 양도 어마어마하면서, 뭔가 변화나 결과가 나왔을때 제일 확 와닿기 때문이다. 그래서 아마 대부분의 인공지능 기술 책을 살펴보면 제일 처음 배우는 MLP이후로 바로 나오는 것이 CNN과 이를 활용한 비전 처리인듯 하다. (물론 음성이나 언어와 같이 주제가 특정지어진 책은 RNN을 주요하게 다루겠지만, 모든 기술이 포괄적으로 담겨있는 책은 대부분 위의 주제로 나아가는 듯 하다.)

요새는 관련 교육이나 책이 워낙 잘 나와있기 때문에 인공지능을 깊이있게 공부해보고자 하는 사람들은 잘 찾아보면 양질의 정보를 얻을 수 있다. 특히 비전에 한정지으면 유명한 강의 중 하나가 stanford에서 공개하는 cs231n이 있고 잘 짜여진 커리큘럼과 과제 덕분에 비전을 공부하는 사람이라면 한번쯤은 살펴봤을 것이다. (예전에는 강의영상도 공개했었는데, 최근에는 학생들에게만 공개하는식으로 변경된거 같다..)

 

Stanford University CS231n: Convolutional Neural Networks for Visual Recognition

Course Description Computer Vision has become ubiquitous in our society, with applications in search, image understanding, apps, mapping, medicine, drones, and self-driving cars. Core to many of these applications are visual recognition tasks such as image

cs231n.stanford.edu

그런데 아마 이 분야를 처음 접하는 사람이라면 고민이 많을 것이다. 보통 LeNet이라는 거의 태초의 CNN 모델부터 많이 활용되고 있는 ResNet이나 Inception과 같이 복잡한 형태의 모델까지 다양한 모델이 존재한다. 이 모델들을 모두 알아야하고, 구조를 살펴보려면 논문을 직접 살펴보면서 구현을 해봐야하는 것일까 말이다. 물론 가장 좋은 방법은 논문보고 직접 구현해볼 수 있어야하겠지만, 논문을 살펴보면 알고리즘이 나오게된 수식적 내용과 증명, 그리고 결과에 대해서만 자세하게 나오지 어떻게 구현하는지에 대해서는 잘 기술되어있지 않다. 그런 부분이 사실 인공지능을 공부하고 구현해보려는 사람한테는 하나의 장애물이 될 수 있다.

 

비전 시스템을 위한 딥러닝

 

이 책의 저자도 서문에서 언급하는 것처럼 이런 부분에 대해서 고민하고 두가지 원칙, "광범위한 주제"와 "충분한 깊이"에 한정해서 구성했다. 그래서 이 책을 살펴보면 비전 시스템에서 활용되고 있는 다양한 모델에 대해서 살펴보고, 이를 코드 레벨에서 다루는 방향으로 내용이 진행된다. 개인적으로 책에서 괜찮았던 것은 책안에 포함되어 있는 도식들인데, 도식들이 각 주제에 담겨져 있는 내용들을 잘 묘사하고 있어서 이해하는데 도움이 되었다. 참고로 책의 서두는 비전 시스템의 이해를 위한 기본적인 딥러닝 지식들, 예를 들어서 activation function과 optimizer, hyperparameter optimization같은 내용들이 설명되어 있는데, 이미 해당 내용에 익숙한 사람이라도 한번 remind식으로 읽어보면 생각보다 도움이 될만한 내용을 얻을 수 있다. (어떻게 보면 단점일 수도 있는게 책의 주제는 비전 시스템에 대한 내용이라고 못박았는데, 기초적인 내용에 대한 내용이 책의 1/3 정도를 차지하고 있다. 오히려 책의 주 독자가 고급 모델에 대한 기술 동향을 빠르게 파악하려는 사람에게는 조금 책이 심심하다고 느낄수도 있다.)

책에서 다루는 큰 주제와 세부 모델에 대한 내용은 다음과 같다.

  • 이미지 분류와 탐지
    • LeNet-5
    • AlexNet
    • VGGNet
    • Inception & GoogLeNet
    • ResNet
  • 전이 학습
  • 사물 탐지
    • R-CNN, Fast R-CNN
    • Single Shot Detector
    • YOLO
  • GAN
    • DCGAN
  • Deep Dream & Neural Style Transfer
  • Visual Embedding

물론 책에서 다루는 내용이 비전 시스템 쪽의 내용 전부를 다루는 것은 아니지만, 각 모델에서 개선이 이뤄졌던 부분에 대한 설명과 이를 구현하는 방법을 주제별 프로젝트 형식으로 제공하기 때문에 내용을 처음부터 따라해보려는 사람에게는 도움이 될 것 같다. 이전에 리뷰했던 책 중 하나였던 "배우면서 배우는 파이토치 딥러닝"도 다양한 모델을 실제로 구현해보면서 이론을 배울 수 있던 부분이 좋았었는데, 이번 책도 역시 비전이라는 특화된 주제에 맞게 다양한 주제를 깊이있게 살펴볼 수 있었던 부분은 다른 책과 비교할 수 있는 특징이 아닐까 싶다. 



출처: https://talkingaboutme.tistory.com/entry/Book-deep-learning-for-vision-systems [자신에 대한 고찰]

기존의 딥러닝책은 CNN, LSTM, 강화학습든 여러 분야에 대해서 설명되어있지만

이책은 이미지 처리에 특화되어 있습니다. 그 중에서 최근에 많이 사용하고 있는 유명한 모델을 도식화하여 각각의 레이어 구조가 탄생된 배경 및 이점이 무엇인지 설명되어 있습니다.

 

중간 중간 그림과 도식으로 정리되어 있는 부분에서 직관적으로 이해가 가능하여 이해하기 수훨 하였습니다.



머신 비전 분야는 제게 정말 흥미로운 분야입니다. 저는 수학을 싫어하기 때문에 수식을 통해 딥러닝이나 인공지능 분야를 이해하는 것 자체가 참 힘들긴하지만, 머신 비전 분야의 연구 결과는 그런 힘든 부분들을 상쇄할 만큼 놀랍기 때문에, 이 책을 읽게 되었던 것같습니다.

 

책은 정말 쉽게 씌여져 있었습니다. "컴퓨터 비전", "신경망", "딥러닝", 그리고 "합성곱" 같은 개념들을 설명하는 1-4장을 읽으면서, 고등학생만 되도 혼자 읽으면서 이해할 수 있지 않을까 싶었거든요. ( 사실, 역자인 "심효섭"님의 다른 책도 읽어보았었는데요. 번역을 참 매끄럽게 하시는 분이라서, 그런면도 작용한것 같긴합니다. )

 

게다가 확장된 개념을 설명하는 5장 부터는 각장에서 설명하는 주제가 다음장의 주제를 설명하는 기반이 되기 때문에 제가 흥미롭게 여겼던 "딥러닝 비전" 분야의 결과물들이 어떤 과정으로 나왔는지 이해할 수 있어서 좋았습니다.

"전이 학습", "사물 탐지", " 생성적 적대 신경망", "시각 임베딩" 같은 좀 어려운 개념에 이르기까지 무난하게 이해할 수 있었거든요.

요즘 대학에서 이 분야를 배우는지는 모르지만, 대학에서 배우는 학생이라면, 이 책을 사서 읽어보면 많이 도움받을 수 있을 것 같았습니다.

코드 실습은 파이썬기반에 주피터 노트북을 사용하게 되어 있고요. 부록에서 이걸 설치하고 사용하는 방법도 간단하게 설명하고 있더군요.

 

과거 신경망 분야의 연구는 "인식"의 기준이 되는 "특징"을 사람이 만드는 방식으로 이루어졌었습니다. 그러나 딥러닝은 "특징"을 학습과정에서 자동으로 생성되게 만들어진 것이죠. 이렇게 하면, 컴퓨터가 할일은 훨씬 많아지지만 사람은 그만큼 쉽게 학습된 인공지능을 얻을 수 있게 됩니다.

이건, 라는 책에서 "크리스 앤더슨"이 했던 말을 생각 나게 합니다. 크리스 앤더슨은 "이제 우리는 트랜지스터가 보호할 가치가 있는 희소한 상품이라는 생각을 버리고, '낭비'해도 괜찮은 풍부한 상품으로 대해야 한다" 라고 했거든요.

트랜지스터를 낭비하는 순간 기술적인 혁신이 일어납니다. 1980년대 초반 대규모로 트랜지스터를 낭비하는 기술이 세상에 나왔는데요. 그게 GUI 즉 그래픽사용자인터페이스 이거든요. 그때까지 사람들은 컴퓨터와 대화할때 문자로 대화했습니다. 문자로 명령을 내리고 그 결과를 문자로 알려줬죠. 그런데 그래픽 사용자 인터페이스가 세상에 나오기 시작한 이후 사람들은 컴퓨터와 대화할때 그림(그래픽)으로 대화할 수 있게 되었습니다. 컴퓨터 명령을 기억할 필요가 없게 된 거죠.

인공지능 분야에서 딥러닝은 트랜지스터를 아주 많이 낭비하는 기술입니다. 학습해야 할 "특징"을 컴퓨터 스스로 추려내게 했기 때문에 학습을 위해 입력되는 사진을 전처리해야 하는 과정도 상당히 줄었고, 특징을 선택하는데 필요한 수고도 필요없게 되었거든요. 또 다른 혁신이 일어난 것이죠. 그래픽 사용자 인터페이스가 만들어졌던 그때 혁신보다 더 엄청난 혁신이 아닐까 싶네요.

 

그러니, 업무상 이런 기술을 쓰지 않더라도, 이런 책을 읽을 수 있는 기회가 생긴다면 계속 읽게 되는 것 아닌가 싶습니다.

 

 

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."



자세한 리뷰는 블로그에 작성하였습니다!

 

이 책의 원칙에 대해서 다시 한 번 적어본다.

1. 지식이 아닌 학습 방법을 가르치자.

기술의 나열하는 책은 지양한다.

2. 깊이 있게 설명하자.

복잡한 수식을 회피하지 않는다.

그렇다고 수식을 무턱대고 들이대지는 않고,

수식 부분 없이도 학습의 흐름을 방해하지 않도록 구성했다.

컴퓨터 비전을 공부하면서 다양한 책들을 봤지만,

정말 오랜만에 만족스러운 책이었다.

단순히 "체험"하는 느낌이 아닌, "공부"를 하는 느낌을 받을 수 있었고,

비록 알던 내용일지라도,

다시 생각을 해보면서 더 깊은 내용까지

복습을 하는 의미있는 시간이었던 것 같다.

무엇보다 책을 볼 때, 꼭 코드를 실행시키지 않더라도

코드 자체에 디테일한 설명이 존재해서 알아보기 쉬웠고

수식이 나오더라도, 자세한 설명들로 쉽게 잘 읽혔던 좋은 책인 것 같다.

# Deep Learning for Vision Systems

 

- 딥러닝 기술이 보편화되면서 컴퓨터 비전을 활용한 다양한 분야의 눈부신 발전이 진행되고 있습니다. [비전 시스템을 위한 딥러닝]은 컴퓨터 비전 분야의 최신 기술을 **실무** 관점에서 쉽게 이해할 수 있도록 잘 정리된 책입니다.

 

## 책의 특징

 

- 다른 딥러닝 또는 컴퓨터 비전 책들과는 다른 부분이 분명 있습니다.

  - 일부 딥러닝 책은 퍼셉트론으로 시작해 기본적인 CNN, LSTM 구조를 수학적으로 설명합니다.

  - 하지만 이 책은 객체 인식(Object Detection), GAN, Deep Dream 또는 Style Transfer, Visual Embedding 등 다양한 기술을 소개합니다.

  - 또한 **프로젝트**를 통해 학습한 기술이 실제 문제에 어떻게 활용하는지 직관적으로 학습할 수 있도록 도와줍니다.

- 코드를 보고 의미를 독자가 힘들게 해석하지 않도록, 라인 수준으로 코드의 의미와 역할을 아주 자세하게 설명하고 있습니다. 책에서 사용하는 프레임워크를 전문가 수준으로 다루지 못하더라도, 책에서 제공하는 코드를 쉽게 이해할 수 있습니다.

 

## 추천하는 대상 독자

 

- 이 책은 컴퓨터 비전 기술로 어떤 문제들을 해결하는지 실무 관점에서 소개하는 책이기 때문에 입문자가 읽기에 좋은 책이라 생각합니다.

 

1. 기초적인 딥러닝 내용은 학습하였지만, 딥러닝을 활용한 컴퓨터 비전은 아직 공부하지 않은 사람

2. 컴퓨터 비전 프로젝트를 시작하기 전, 프로젝트 진행 계획을 미리 확인해 보고 싶은 사람

3. 객체 인식과 같이 컴퓨터 비전의 특정 기술은 잘 이해하고 있지만, 다른 기술도 학습하고 싶은 사람

 

- 따라서 이 책은 익숙하지 않거나, 해당 기술을 처음 접하는 사람에게 학습을 도와줍니다.

 

> 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

이 책은 컴퓨터 비전을 위한 인공 지능을 처음 공부해보려고 하는 사람에게 추천할 만한 책이다. 그렇다고 마냥 기초적인 내용만 있는 것이 아니라 후반부에는 꽤 중요하고 어느 정도 수준이 있는 내용도 다루며 실습 자료나 코드 설명이 친절하여 이 책을 읽고 실습을 따라온다면 꽤 많은 지식을 얻을 수 있을 것 같다. 무엇보다 번역은 당연하고 용어들 또한 모두 한국어로 되어 있어 편하게 읽을 수 있다.

 

컴퓨터 비전에서 사용되는 인공 지능이 무엇인지 알고 싶고 한 번 만들어 보고 싶은 사람들을 위한 책이다. 특히, 하나도 모르는 사람도 충분히 잘 따라올 수 있으며 내용도 자세하고 읽기 편했다. 또, 후반부에는 꽤 심화된 내용을 다루기 때문에 이 책의 내용을 모두 공부한다면 일반인이라고 부를 수 없을 것 같다. 또한 사진 자료가 많고 코드에 대한 상세한 설명이 풍부해 지루하지도 않았던 것 같다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."


책 소개

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

  • 비전 딥러닝 관련 혹? 할만한 내용들을 잘 모아놓았다.
  • 기본서로 활용하기 좋을 참고서.

크게 3파트로 나누어져 있다.

  1. [PART I 딥러닝 기초] - p28 ~ p239
    • 컴퓨터 비전 입문. 딥러닝과 신경망. 합성곱 신경망. 딥러닝 프로젝트 시동 걸기와 하이퍼파라미터 튜닝
  2. [PART II 이미지 분류와 탐지] - p245 ~ p404
    • 고급 합성곱 신경망 구조. 전이학습. R-CNN, SSD, YOLO를 이용한 사물 탐지
  3. [PART III 생성 모델과 시각 임베딩] - p411 ~ p 514
    • 생성적 적대 신경망. 딥드림과 신경 스타일 전이. 시각 임베딩

상세 목차는 많아서 중단원까지만 적어보았다.
위 링크에서 세부 단원까지 보시면 아시겠지만 부족함이 없는 구성으로 보인다.
책을 받아보기 전에 목차를 봤을 때 느낌은, 그동안 놓쳤던 내용들이 집합되어있어 너무 좋았다면.
페이지에도 보시다시피 뒤에 핫한 내용으로 갈수록 분량이 적어진다(?)

책에 여백이나 글씨크기가 넉넉하기 때문에 생각보다 분량이 많게 느껴지지는 않기 때문에 너무 깊게 기대하기는 어렵지 않을까 싶다.

그래도 구성면에서는 알차게 잘 짜여져있다고 생각된다. 대상 독자기준.

책 느낌

  • 전공개론 서적이나 교과서 느낌의 친절한 구성이다.

  • 표지에서는 전공서적 느낌을 받았다면, 내용은 의외로 친근한 참고서를 보는 것 같았다.
    실제로 내용도 딥러닝 기초부터 넓은 스펙트럽의 난이도를 설정한듯 하다.

  • 코드의 양도 생각보다 많지 않고, 오히려 설명글이나 이미지를 통해서 자세하게 설명해주는 형식이다. 코드는 목차에서 프로젝트라고 되어있는 부분에서 주로 가벼운 실습형태로 샘플이 주어진다.

  • 딥러닝 비전 관련 영상이나 강의를 보고 공부했다면, 다시 책읽듯이 술술 되짚어보기도 좋아보인다.
    왠만한 영상이나 강의보다 더 다양한 그림이나 그래프로 설명을 해준다.

  • 혹시 주로 후반부 내용을 기대했다면, 아직 관련 책이 많지도 않지만, 해당 주제로 쓰여진 책을 찾는 것도 좋겠다.

  • 후반부에 분량상 다양한 예제면에서 부족할 뿐이지 관련 내용은 빠짐없이 잘 설명하고 있다.

  • 아래 프로젝트도 예시로 올려보았다. 관심있을 만한 부분들은 잘 구성해 놓았다.

 "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

 이 책은 Computer Vision을 공부하고자 하는 입문자에게 도움이 될 수 있는 책입니다. 특히, 모든 코드가 Tensorflow, Keras로 작성되어 있어, 해당 프레임워크를 사용하시려고 하시는 분이나 익숙하신 분들에게 추천드립니다. 딥러닝을 공부하기 위해 기초가 되는 지식들을 1부에서 주로 다루고 있으며, 2부에서는 CNN에서 굵직한 모델들과 우리가 가진 데이터로 전이 학습하는 방법, 객체 탐지 모델을 다룹니다. 3부에서는 생성 모델에 대한 내용을 주로 다루고 있습니다. 어느 정도 인공지능에 대해서 공부하신 분이라면 1부와 2부는 빠르게 읽어 내려가실 수 있을 것 같습니다.

 그림이나 예제가 입문자가 이해하기 쉽도록 쓰여진 책이기에 처음 공부하신다면 도움이 될 것입니다. 특히, 어려운 개념을 풀어서 설명하거나 모델 빌딩 과정에서 발생할 수 있는 문제들을 시나리오화해서 언급해주기 때문에 프로젝트 과정 중 좋은 길잡이의 역할을 할 수 있을 것 같습니다. 또한 코드에도 직접 부연설명이 되어 있어서 해당 코드가 어떤 이유에서 작성되었는지 용도는 무엇인지 이해하기 쉽습니다.

 특히 CNN 파트에서는 직접 다양한 모델을 Keras로 구현할 수 있습니다. 많은 모델을 다루다보니, 최신 모델을 다루지는 않는 점이 조금은 아쉽습니다. AWS EC2와 연결하는 방법도 소개하고 있어서 End-to-End 프로젝트를 진행하시려는 분이라면 한번 참고하시는 것도 좋을 것 같습니다. 

비전 시스템을 위한 딥러닝

* 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

 

책을 가장 먼저 받아 보았을 때의 느낌은 "정말 고수들을 위한 책인가 보다"라는 생각이었다. 약 500페이지로 꽤 두꺼운 데다, <비전 시스템을 위한 딥러닝>이라는 제목을 보면 정말 비전 시스템에서의 Fancy한 어프로치들과 최신 지견을 담고 있을 것이라는 기대가 되었기 때문이다.

 

책을 펴고, 목차를 훑고, 1회 완독하고 나서는 사실 아쉬움이 있었다.

첫째로, 비전 시스템에서 당연히 중요한 아키텍처는 CNN임에 분명하지만, CNN에 관한 설명은 마치 풍요 속의 빈곤 같았다. CNN 자체만으로도 50페이지 정도의 지면을 할애했지만, CNN의 개념과 그 함의에 대해 자세하게 설명하다 보니 다소 지루해지는 감이 있었다.

둘째로, 이전의 Neural Network, MLP를 비롯해 일반론적인 딥러닝에 적용될 법한 내용들이 마찬가지로 초반부를 장악하고 있다. CV task가 아닌 NLP, Graph 등의 다른 Deep Learning task에 익숙한 사람이라면 지나치고 다음 챕터를 읽어도 되겠지만, 그러기에는 책의 1/3 가까이 되는 너무 많은 분량이었다고 생각한다.

마지막으로, 비전 시스템에서의 중요한 Task는 Classification, Object Detection, Segmentation 그리고 Generative한 task 정도가 있다고 생각하는데 이 책에서는 위에서 언급한 주제들의 절반 정도를 다루는 느낌이다. Segmentation은 제외되어 있고, GAN 역시 그 의미와 아키텍처, 활용 사례를 소개하는 정도였다. 

 

사실 책에 대한 기대가 컸던 만큼, 일부러 아쉬운 점들을 꼬집어 내려고 노력했다. 위에서 말한 점들을 제외하면 입문자에게는 이상적인 책이라고 생각한다. Deep Learning에 자체에 대한 이해가 높지 않더라도 충분히 따라갈 수 있을 정도로 상세하고 친절한 책이었다. 또한 R-CNN의 variation들과 YOLOv3, GAN의 여러 variation에 대한 챕터를 읽으면 특정 CV task를 다루는 책(이를테면 Object Detection에 특화된 책, GAN에 특화된 책)을 바로 읽어도 될 만큼 해당 분야의 기초적인 내용들을 상세히 설명하고 있었다. 

 

요약하자면, 다음과 같다.

1. Deep Learning은 완전히 처음이고, 통계적인 머신러닝 기법들만 조금 알고 있다. -> CV task에 대한 정말 좋은 입문서

2. NLP, Graph등 다른 task에 대해서는 이해도가 있지만, CV는 처음이다. -> 앞부분은 가볍게 recap한다는 의미로 읽은 다음, 책의 내용을 따라가면 충분

3. Computer Vision에 대한 이해도가 어느 정도 있는데, 특정 task에 대해 깊이 있는 이해를 하고 싶다. -> 이 책은 기대를 충족하기에는 아쉬움이 남을 수도...

  책을 받기 전 목차를 보았을 때는.... 몇 페이지짜리 책이길래 이렇게 넓은 범위를 다 다룬다는 거지?라는 생각이 들었지만, 막상 책을 받아 읽어보니 컴퓨터 비전 분양의 전공자가 아닌 내가 전반적으로 다양한 내용들을 두루 살펴볼 수 있어서 많은 도움이 되었다. 꽤나 넓은 범위의 내용을 다루면서도 너무 얕지 않게, 하지만 입문자도 어렵지 않게 학습할 수 있을 것 같다. 여기서 말하는 입문자는 컴퓨터 프로그래밍 자체의 입문이 아닌, 컴퓨터 비전으로의 입문을 말한다.

   또, 주요 챕터마다 실습이 포함되어있는데, 저자의 github에 들어가면 해당 코드가 있어, 실습 환경 설정 후 코드를 학습할 수 있도록 해놓은 것이 이 책의 강점인 것 같다. 아직 모든 실습을 다 마무리 해보지는 못했지만, 제공된 실습 외에도 소개만 된 딥러닝 모델들을 직접 구현해보면서 학습해볼 계획이다. 

  책 안에서 코드만 제공되었다면 귀찮아서라도 다 학습하지 못했을텐데, 잘 갖춰진 github 저장소를 이용해서 실습해볼 수 있다는 것이 학습을 지속하는데 참 도움이 크게 되는 것 같다. 많은 이들이 코딩을 잘하려면 '백문이 불여일타'라고 하지않았던가...,  그런면에서 이 책은 나와 같이 computer vision 분야의 초심자가 부담없이 학습하기에 좋은 잘 쓰여진 책인 것 같다.

  만약 가능하다면 가장 최신의 기술들까지 다룬 저자의 후속버전의 책이 나오면 또 더 좋을 것 같다.

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

KakaoTalk_20220213_225031415.jpg

 

KakaoTalk_20220213_225031415_01.jpg

 

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

 

현재 회사에서 맡은 분야가 object detection 분야이기도 하고 관심있는 분야이다 보니, 쉽고 빠르게 이해할 수 있는 책을 찾다가 운이 좋게 한빛미디어의 <나는 리뷰어다>의 책 목록에 속해 있어 신청하게 되었다. 

 

이 책은 단순히 컴퓨터 비전에 관한 딥러닝만 담은 것이 아니다. 즉, 자율주행 또는 산업에 적용되는 1-stage, 2-stage detecion model에 대한 설명 만이 있는 것이 아니라, 초보자들도 이해하기 쉽게 딥러닝에 대한 기본적인 지식에 대해 우선 설명하고 넘어간다. 

 

크게는 part3로 구성되어 있으며 chapter는 10개로 구성되어 있다. 

 

part1 

part 1에서는 딥러닝을 이해하기 위한 기본적인 개념을 설명한다. Parameter부터 시작하여 Activation Function, Optimization algorithm, Loss Function등이 왜 필요한 것인지 설명되어 있다. 또한, Deep Learning의 구조와 Hyperparameter의 튜닝하는 법 하는 이유 등에 대한 내용도 있다. 이러한 내용들은 비전 딥러닝 시스템을 이해하기 위한 개념을 쌓는 단계라고 볼 수 있다.

 

part2

​part 2에서는 비전 시스템에 대한 전반적인 내용들이 나오게 된다. CNN의 가장 기본적인 구조인 LeNet-5부터 시작하여 Alexnet, VGGNet, ResNet등 비전 시스템에서 빠지지 않는 backbone에 대해 자세하게 설명한다.  그 뒤로, 2-stage인 R-CNN, Fast-RCNN, Faster-RCNN을 먼저 설명하고 1-stage YOLO를 설명한다. 살짝 아쉬운건 YOLOV5까지 다루지 않았다는 것이 매우 아쉽다. 

 

part3

part 3에서는 비전 시스템에 빠지지 않는 GAN에 대해서 설명한다. 하지만, GAN의 다양한 model에 대해서는 말하지 않고 Deepdream과 style transfer에 대해서만 말한다. 

part 3에 속하는 chapter10에서는 임베딩 분야까지 알려주는 친절한 책이다.

 

대부분은 만족하지만 아쉬웠던 건 모든 것을 번역하려는 점이다. 필요없는 부분까지 번역을 하다보니 원래 원어가 익숙한 전공자들이나 중급자들에겐 생소한 한국어들이 너무 많다. 전문용어들을 굳이 한국어로 번역을 하다 보니, 내가 알고 있는 것이 맞나? 라고 생각할때가 있어보인다. 아무리 모든 사람들이 쉽게 접할 수 있는 책을 만든다고 해도 전문 분야에 대한 핵심 단어들은 논문 그대로 두는 것이 맞지 않나 싶다. 

최근 인공지능과 딥러닝의 부상으로 여러 분야가 각광을 받기 시작하고 있다. 그 중 대표적인 분야를 꼽자면 역시 컴퓨터비전일 것이다. 이미지나 영상처리를 주로 다루는 컴퓨터비전은 image segmentation, augementation, captioning등 원하는 결과에 따라 다양하게 확장될 수 있는 분야다보니 의료,교통 등 다양한 산업에 대해 수요도 많고 활용도도 높아 아직까지도 열심히 연구되고 있기도 한다. 

 

 

개인적으로 회사에서 진행하는 프로젝트도 있었고, 전공과목으로도 배웠던 부분이 있어 관심은 있었지만 처음 배우는 입문자에게는 양이 방대한게 많아 이에 대한 방향성이 잡히면 좋을 것 같다는 생각을 늘 가지고 있었다. 그런데 이번에 한빛미디어에서 괜찮은 책이 나온 것 같아 한번 읽어보게 되었다.

 

 

이 책은 컴퓨터 비전에 대한 내용중 크게 딥러닝 기초와 이미지분류, 그리고 생성모델(GAN)에 대한 내용을 중심으로 소개를 하고 있다. 딥러닝 기초 부분에서는 컴퓨터 비전의 세부분야에 대해서 소개한 뒤 CNN을 기본으로 하여 keras를 활용한 딥러닝 모델 설계와 최적의 파라미터를 갖는 과정을 설명하고 있었다. 

 

 

 

 

사실 딥러닝 기초만 하더라도 무척 어려운 난이도를 보이면서 공부를 하기 어려워해 포기를 하는 사람이 많다고 생각하는데, 이 책은 예제에 적힌 그림들이 다른 책에 비교해서 더 직관적이고, 크고 자세하게 보여주고 있어서 이해하기가 무척 쉽게 설명하고 있다. 특히 딥러닝이 계산하는 과정인 역전파와 경사하강법에서 보여준 설명은 그림만 보아도 잘 알 수 있게 설명하고 있는 모습을 보여서 인상깊게 본 기억이 있다.

 

 

이미지 분류 모델에서는 AlexNet, VGGNet, ResNet 등 고급 신경망 모델과 이를 활용한 프로젝트에 대한 부분을 소개해주고 있었다, 모델의 종류가 급격히 늘어났기에 각 모델별로 특징을 잘 보여주는게 중요한데 케라스로 한층한층 구현하는 과정을보여주면서 각 층이 어떤 역할을 하는지를 설명하고 있어 차근차근 따라만 간다면 이해하기 쉽게 하는 모습을 보여주고 있었다. 또한 YOLO등을 활용해서 사물탐지를 하는 방법을 소개해주면서 실제 프로젝트 결과도 맛볼 수 있기도 하였다.

 

 

마지막 챕터에서는 GAN은 활용해서 생성모델을 활용한 프로젝트를 진행하고 있는데, 개인적으로 주제가 무척 흥미로운게 많아 재밌게 읽은 파트이기도 하다. 딥드림으로 현재 이미지를 새롭게 꾸미기도 하고, 이미지의 해상도를 높이는 것을 체험해보기도 하며 여러 자세로 포착되는 물체를 재인식하는 프로젝트도 맛볼수 있어 GAN이 어떤 프로젝트에 넣을 수 있는지를 확인해볼수 있는 유익한 시간이라는 생각이 들었다.

 

 

전체적으로 컴퓨터비전에 대한 기초와 실제 프로젝트를 맛볼 수 있어서 이 분야에 대한 기초를 잡기엔 괜찮은 책이란 생각이 든다. 무엇보다 책에 나온 설명과 예시 그림이 무척 마음에 들어서 가볍게 읽어도 이해하기 좋아 도움이 많이 되리라는 생각이 들었다. 갓 컴퓨터비전에 입문한 사람이나 컴퓨터비전에 관심있는 사람에게 추천드리며 리뷰를 마쳐볼까 한다.

 

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

Deep Learning이 대중들에게 이름을 알리기 시작한 것은 무엇보다도 Image Data를 처리하는 데에 있어서 인간에 버금가는 능력을 보여주면서부터라고 생각합니다.

그 이후로 Deep Learning / AI가 우리가 알게 모르게 일상생활에 깊숙이 파고들고 있는 것이 사실입니다.

하지만, Python을 익히고 Deep Learning에 자주 사용되는 Package들의 사용법을 익힌 후에 실제로 간단한 Image Classification 작업을 해보는 것은 생각만큼 쉽지 않습니다.

다양한 예제들이 많지만 대부분 수학적인 원리나 해당 Code가 어떤 일을 하는지 그리고 왜 필요한지에 대해서는 자세히 설명되어 있지 않거나 알 수 없는 수학 기호들만 나열되어 있을 뿐 무슨 말인지 이해하기 힘든 것이 입문자들의 현실입니다.

Deep Learning, 특히 Image 관련 쪽에 괜찮은 입문서가 하나 나와서 소개해 드리려고 합니다.

 

표지는 푸른색 옷을 입고 패션감각을 뽐내는 이븐 알하이삼입니다.

이분은 현대 광학의 큰 공헌을 한 ‘광학의 아버지’라고 불리고 계신다고 합니다.

이 책을 접하는 여러분들도 이븐 알하이삼처럼 Image 분야에 한 획을 그으시기를 바랍니다.

 

 

1. 전체 소개Permalink


1.1. 목차Permalink

이 책은 총 3개의 Part, 10개의 Chapter로 구성되어 있습니다.

Part 1은 Deep Learning 기초에 대해서 다루고 있으며, Part 2는 실제 Image를 다루는 다양한 Deep Learning Model의 이론적 배경와 함께 실제 사용법에 대해서 다루고 있습니다.

마지막 Part 3는 Image 분야의 최신 트렌드인 GAN(Generative Adversarial Network)과 Image Embedding에 대해서 소개하고 있습니다.


1.2. Part 1 - Deep Learning 기초Permalink

이 부분에서는 Deep Learning의 기본적인 부분과 Deep Learning을 어떤 방식으로 Image 처리에 응용할 수 있는가를 소개하는 것으로 시작됩니다.

Deep Learning의 Input은 어떤 Data이던지 반드시 숫자로 표현이 되어야 하기 때문에, Image를 어떻게 전처리(Pre Processing)를 거쳐서 Deep Learning Model에 적용하는지에 대해서도 다룹니다.

또한, Deep Learning이 어떻게 스스로 학습을 하는지에 대한 중요한 개념들(Perceptron , Activation Function , Loss Function , Backpropagation 등)에 대한 설명을 쉽게 되어 있습니다.

마지막으로, Image 뿐만 아니라 다양한 분야에도 응용되는 CNN(Convolution Neural Network)에 대한 설명도 하고 있습니다.


1.3. Part 2 - 이미지 분류와 탐지Permalink

기본 개념에 대한 워밍업 후에 본격적으로 AlexNet , VGGNet , Inception , ResNet 등과 같은 다양한 Image 처리 관련 Deep Learning Model들에 대한 설명을 합니다.

이 Model들을 이용한(그리고 가장 흔히 사용되는) Tranfer Learning에 대해서도 매우 상세하게 다룹니다.

뿐만 아니라, R-CNN, SSD, YOLO와 같은 Object Detection / Segmentation 기법들도 소개하고 있습니다.


1.4. Part 3 - 생성 모델과 시각 임베딩Permalink

마지막 Part에서는 현재 Deep Learning을 이용한 Image 처리 분야의 최신 트렌드인 GAN(Generative Adversarial Network)을 소개하고 있습니다.

사실, GAN은 Dataset의 확률분포를 학습하여 이와 유사한 Data를 생성한다는 기본 속성을 Image 뿐만 아니라 다양한 분야에도 응용할 수 있습니다.

응용 가능성이 높은 GAN을 Image에 분야에 사용하면서 감을 익힐 수 있는 좋은 기회라고 생각합니다.



2. 장점Permalink


1) 복잡한 수식이 나오지만 매우 쉽게 개념을 설명하고 있습니다. 예를 들어, Activation Function 이나 Backpropagation과 같은 개념을 설명하기 위해서는 복잡한 수식없이 설명하기 힘들지만, 이 책에서는 이해하기 쉽게 설명하고 있습니다.


2) 코드 한줄 한줄 그 의미를 자세하게 설명해줍니다. 각 예제들에서 해당 코드가 전체 Model 구성에 있어서 어떤 역할을 하는지 또한, 특정 API 사용할 때는 API들의 기능과 함께 각 Parameter의 상세한 기능을 잘 설명해 줍니다.


3) 그림이 전체적으로 심플하면서도 해당 개념의 핵심을 잘 표현하고 있습니다. 이해를 돕기 위해 삽입된 그림이 Simple하면서도 핵심을 잘 나타내준다는 것이 큰 장점입니다.


4) 어떤 개념을 설명하는 경우, 그 개념이 필요한 이유와 구현 방식을 잘 설명하고 있다


5) 이 책의 예제 Code들은 Tensorflow 2.1로 작성되어 있으며, Sample Code가 군더더기 없이 깔끔합니다.


6) 딥러닝의 기초부터 최신 트렌드까지 소개하고 있기때문에 자칫 수박 겉핡기 식이 아닐까 생각할 수 있지만, 중요한 개념에 대해서는 매우 상세하게 설명하고 있습니다.



3. 대상 독자Permalink


이 책은 어느 정도 기초 지식을 필요로 합니다.

Python은 어느 정도 능숙하게 다룰 줄 안다는 가정하에, Numpy , OpenCV, Tensorflow, Keras 등과 같은 Framework & Package들을 사용하고 있습니다.

위에 언급한 Framework & Package에 대한 지식이 어느 정도 있어야 읽기가 수월할 것 같습니다.

또한, Deep Learning Framework으로 Tensorflow를 사용하고 있기 때문에, PyTorch나 그 외 Framework을 사용하고 있다면 Sample Code들이 생소하게 느껴질 수 있습니다.



4. 마치며Permalink


이 책은 Deep Learning을 이용해서 Image 관련 업무를 시작하려는 분들에게 아주 훌륭한 길라잡이가 될 것이라고 생각합니다.

쉬우면서도 핵심을 요약한 설명, 풍부한 예시, 간결한 Example Code 등은 이 책의 가장 큰 장점이라고 할 수 있습니다.

ㅁㅁㅁㅁㅁㅁ

결제하기
• 문화비 소득공제 가능
• 배송료 : 2,000원배송료란?

배송료 안내

  • 20,000원 이상 구매시 도서 배송 무료
  • 브론즈, 실버, 골드회원이 주문하신 경우 무료배송

무료배송 상품을 포함하여 주문하신 경우에는 구매금액에 관계없이 무료로 배송해 드립니다.

닫기

리뷰쓰기

닫기
* 상품명 :
비전 시스템을 위한 딥러닝
* 제목 :
* 별점평가
* 내용 :

* 리뷰 작성시 유의사항

글이나 이미지/사진 저작권 등 다른 사람의 권리를 침해하거나 명예를 훼손하는 게시물은 이용약관 및 관련법률에 의해 제재를 받을 수 있습니다.

1. 특히 뉴스/언론사 기사를 전문 또는 부분적으로 '허락없이' 갖고 와서는 안됩니다 (출처를 밝히는 경우에도 안됨).
2. 저작권자의 허락을 받지 않은 콘텐츠의 무단 사용은 저작권자의 권리를 침해하는 행위로, 이에 대한 법적 책임을 지게 될 수 있습니다.

오탈자 등록

닫기
* 도서명 :
비전 시스템을 위한 딥러닝
* 구분 :
* 상품 버전
종이책 PDF ePub
* 페이지 :
* 위치정보 :
* 내용 :

도서 인증

닫기
도서명*
비전 시스템을 위한 딥러닝
구입처*
구입일*
부가기호*
부가기호 안내

* 온라인 또는 오프라인 서점에서 구입한 도서를 인증하면 마일리지 500점을 드립니다.

* 도서인증은 일 3권, 월 10권, 년 50권으로 제한되며 절판도서, eBook 등 일부 도서는 인증이 제한됩니다.

* 구입하지 않고, 허위로 도서 인증을 한 것으로 판단되면 웹사이트 이용이 제한될 수 있습니다.

닫기

해당 상품을 장바구니에 담았습니다.이미 장바구니에 추가된 상품입니다.
장바구니로 이동하시겠습니까?

자료실

최근 본 상품1