하둡 완벽 가이드(4판)

zz***l2017-05-09

데이터 엔지니어라면 필수 바이블

데이터 엔지니어라면 꼭 가지고 있으면 좋은 책입니다!

엄청 자세한 내용을 담고 있습니다

하둡의 개념 설명 ( 역사, 맵리듀스, HDFS )부터 확장해서 YARN, 플룸, 스파크 등의 내용까지 담고 있습니다

이 책의 장점은

- 자세한 설명

- 실제 사례 포함 ( 유전 데이터를 활용한 사례 )

- 추가로 볼 자료 제공(스파크의 경우 참고 도서가 적혀있습니다)

입니다-!

단점은 책이 너무 두꺼운 점..?

가격이 생각보다 높다는 점 정도를 들 수 있겟네요

저는 특히 아래의 부분들이 마음에 들었습니다

CHAPTER 19 스파크
19.1 스파크 설치
19.2 예제
19.3 탄력적인 분산 데이터셋 RDD
19.4 공유변수
19.5 스파크 잡 수행 분석
19.6 익스큐터와 클러스터 매니저
19.7 참고 도서

★★★ Part 5 사례 연구 ★★★

CHAPTER 22 서너의 구조적 데이터
22.1 CPU에서 시맨틱 통합까지
22.2 아파치 크런치의 도입
22.3 완전한 설계도의 제작
22.4 헬스케어 데이터 통합
22.5 프레임워크를 뛰어넘는 결합성
22.6 발전 방향

CHAPTER 23 생물학의 데이터 과학: 소프트웨어로 생명 구하기
23.1 DNA 구조
23.2 유전 암호: DNA 글자의 단백질 전환
23.3 DNA를 소스 코드처럼 생각하기
23.4 인간 게놈 프로젝트와 표준 게놈
23.5 DNA 시퀀싱과 얼라이닝
23.6 대규모 게놈 분석 플랫폼 ADAM
23.7 개인맞춤광고에서 개인맞춤의학까지
23.8 참여하기

yongh***l2017-04-08

(리뷰) 하둡 완벽 가이드

#1

책을 항상 깔끔하게 유지하고 싶은 마음에 책을 받자마자 비닐 포장으로 감싸고 읽어보기 시작했습니다. 1장을 읽어나가면서 느낀 것은 번역이 정말 잘 된 것 같다는 것이었습니다. 번역서를 읽다보면 문맥이 이상해서 이해가 잘 안되는 경우가 많았는데 이 책은 마치 한국분이 작성한 책 처럼 술술 잘 읽혔습니다. 물론 책의 두께처럼 심도있는 내용들을 다루기 때문에 쉽지는 않지만 자연스러운 문장 덕에 이해하는데 도움이 많이 되었습니다.

하둡에 대해서는 이름만 알고 있는 상태였고 실제로 어떤 원리로, 어떠한 곳에 쓰이는 지는 잘 모르는 상태로 접했는데, 읽다보니 여러가지 아이디어와 현재 개발 중인 프로젝트에서 적용할 수 있을 법한 것들이 떠올랐습니다.

진행 중인 프로젝트에서는 사용자들의 정보를 수집하고 통계를 내는 데 ELK(Elasticsearch + Logstash + Kibana)를 사용하고 있는데, 유저 데이터가 쌓일 수록 Elasticsearch의 용량이 점점 커지게 되므로 나중에는 분명히 한계에 다다를 것을 예상할 수 있었습니다. 이 때 과연 어떻게 처리를 할것인가가 큰 고민중에 하나였는데, 책을 읽다보니 하둡이 좋은 해결책이 될 수 있을 것 같았습니다.

처음에는 모든 개념을 숙지하고 싶은 마음에 모든 개념을 하나하나 파악하려고 노력을 했었습니다. 하지만 1~3장을 읽다보니 생소한 개념들과 어려운 용어들이 나와서 몇번을 반복해서 읽게 되었는데, 진도가 너무 나가지 않아서 우선은 어렴풋이 이해하고 넘어가고 나중에 실제 적용할 때 디테일하게 살펴보는 방향으로 목표를 재설정해야했습니다. 그래서 이론적인 부분은 빠르게 넘어가고 실제 사용 부분을 살펴보며 막히는 부분에 대한 이론적인 내용을 다시 찾아가서 살펴보았습니다.

저의 경우 단순히 각 기능들을 사용하는 것보다는 이 기능들이 동작하는 원리에 대해 이해를 하고 조금 깊게 들여다보는 것을 좋아하는데 이 책은 그러한 부분들을 만족시켜주었습니다. 그리고 중간 중간 실제 코드를 예제로 보여주면서 거기에 대한 설명을 보충해주기 때문에 직접 따라해볼 수도 있고, 이해하는데도 큰 도움이 되었습니다.

책에서 언급하듯이 어떠한 기술이든 장점과 단점이 존재하기 때문에 자신의 프로젝트에 적합한 기술을 잘 선택하는 것이 중요합니다. 하둡은 그런면에서 실시간으로 원하는 데이터를 빠르게 가져오는 데에는 이에 적합한 다른 기술들에 비해 비효율적이지만 대량의 데이터 속에서 원하는 데이터를 검색해야 하는 경우, 거기에 더해서 속도 보다는 정확도를 중요시하는 곳에서는 적합할 수 있습니다. 이 대량의 데이터를 다루는 것이 참 어려운 부분인데 하둡에서 제공하는 기능들을 잘 활용하면 개발자가 구현해야할 번거로움을 많이 덜 수 있을 것입니다. 물론 이 책에서 이러한 기능들에 대한 설명을 디테일하게 잘 설명해주고 있습니다.

그래서 결론적으로 현재 진행 중인 프로젝트에서는 한달 이상 된 데이터는 검색할 일이 거의 없다는 판단에 근 한달간의 사용자 데이터는 Elasticsearch에 보관하고, 이보다 오래된 데이터들은 하둡에 저장하여 실시간으로 통계 정보를 눈으로 확인해야 하는 Elasticsearch에 최소한의 데이터를 유지하는 전략으로 진행해볼 생각입니다.

아직 우선순위가 높지 않아서, 실제 구현은 들어가지 않았지만 구현에 들어가면 그 과정을 블로그에 포스팅 해보려고 합니다.

출처: http://yongho1037.tistory.com/714 [용호의 블로그]

hyoungg***l2017-04-02

빅데이터를 위한 하둡 완벽 가이드

빅 데이터(영어: big data)란 기존 데이터베이스 관리도구의 능력을 넘어서는 대량(수십 테라바이트)의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다.

위키피디아

몇년 전부터 빅데이터 키워드는 흔하게 사용되고 있다. 위 설명에서도 알겠지만 대량의 정형, 비정형 데이터로부터 분석을 할 수 있게하는 기술을 말한다. 사실 나는 데이터 처리에 대해서는 몇년 전부터 관심이 있었다. 가령 CPU 명령어 레벨부터 multi-core processing, GPGPU까지 관심을 넓혀나가고 있었지만 이런 기술들은 정보를 저장하고 분석하기 보다는 실시간으로 들어오는 데이터를 처리하기 위한 기술들이다. 의료계 활용 사례들에 대한 기사를 보면서 하둡에 대해서 알게 되었고 빅데이터 및 분산 처리에 대한 관심을 갖게 되었다.

이 책은 톰 화이트가 지었다. 톰 화이트는 하둡 커미터 역할과 프로젝트 관리 위원회 위원으로써 아마존의 EC2와 S3서비스에서도 제대로 동작하는 하둡을 만드는 전문적인 기술을 가진 사람이다. 우선 하둡을 만들어가고 있는 사람이 작성한 책으로써 가치가 있다. 알라딘이나 yes24등 온라인 서점에서 "하둡"이란 키워드를 검색하면 맨 처음 나올 정도로 인지도고 있는 책이기도 하다. 인지도나 저자면에서 책을 살만한 충분한 동기가 되지만 무지막지하게 비싼 가격은 큰 단점이다.

이 책은 크게 5부로 구성되어 있으며, 1~3부는 하둡의 핵심을, 4부에서는 하둡 에코시스템, 5부는 하둡 사례연구를 다룬다. 하둡에 대한 기본 내용만 따진다면 3부까지 400페이지가 된다.

"Part1 하둡 기초" 부분의 설명은 몇번이나 볼 정도로 괜찮다. 데이터 처리량이 증가되고 있는 현실부터 시작하여 단일 디스크의 한계점, 다른 시스템과의 비교(RDBMS, HPC) 비교, 맵 리듀스의 특징등을 잘 설명하고 있다.

아래는 맵 리듀스에 대한 책 내용 중 일부이다. 저장된 전 세계 기온 정보를 가지고 연도별 최고 기온을 찾는 예제를 기반으로 쉘로 작성한 것과 맵 리듀스로 작성한 것을 비교하여 설명한다. 실제로 예제 코드를 보여주고 아래와 같이 논리적 데이터 흐름을 그림으로 정리해주기 때문에 기술을 이해하기 좋다.

전반적으로 많은 예제들과 그림들이 포함되어 있어 읽는데 어려움은 없지만 약간의 팁을 적는다면 Part I을 읽고 Part III 하둡 운영, Part II 맵 리듀스 순서로 보는게 좋다. Part I에서 기본적인 개념의 감을 잡고, Part III 를 활용하여 실습 환경을 꾸민 뒤, Part II 내용을 실습하길 바란다.

작년부터 머신러닝으로 인하여 인지도가 높아지고 있는 스파크에 대한 설명도 있다. 그외 하이브, 플룹등 다양한 관련 프로젝트에 대한 설명이 있으니 각각의 내용을 읽어보고 필요시 활용하면 좋을 듯 싶다.

이러 사람이 읽으면 좋다.

빅데이터에 관심이 있고 하둡을 고려하고 있는 사람

이 책을 읽으려면, 아니 몰입을 하기 위해서는

CPU, 메모리, 디스크 I/O 등 컴퓨터 구조에 대한 기본 지식을 알고 있어야 한다.
대부분의 예시는 자바로 작성되어 있다. 최소 객체 지향 언어에 대한 기본적인 이해가 필요하다.
실습을 위해, 리눅스 배포판에서 패키지를 설치하고 설정할 수 잇어야 한다.
실습을 위해, 분산 처리 구성을 해야 하니 네트워크에 대한 기본 지식을 가지고 있어야 한다.

빅데이터 또한 예전부터 존재하고 있는 기술이지만 하둡을 통해서 손쉽게 사용할 수 있게 되지 않았을까 싶다. 그런면에서 하둡의 동작방식을 이해하고 학습하는 것은 꽤 의미있는 일이라고 생각한다.

kangba***l2017-03-28

[도서리뷰] 하둡 개발자의 바이블

빅데이터에 관심은 있었지만 실제로 어떻게 접근해야 할지 막막한 초보자에게 한줄기 빛이 되는 바이블격 책이 나왔다.

<하둡 완벽 가이드 4판>은 판올림이 되면서 새로운 사례들과 최신 기술들을 소개하고 있다.

크게 4가지 Part로 나누어져있다.

Part1 하둡 기초에서는 하둡의 기반 구성요소를 다루게 된다. 뒤에 나오는 내용을 이해하기 위해 읽어야하는 Part이다.

Part2 맵리듀스에서는 맵리듀스를 심도 있게 다룬다. 맵리듀스는 데이터 처리를 위한 프로그래밍 모델이다.

Part3 하둡 운영에서는 실무에서 필요한 기본적인 클러스터 구축 방법과 운영할 때 필요한 충분한 정보를 제공한다.

Part4 관련 프로젝트에서는 하둡 기반의 전용 프로젝트와 관련 프로젝트를 다룬다. 페이스북의 대량의 데이터를 분석할 수 있도록 개발된 하이브, 아파치 스파크, 컬럼 기반 분산 데이터베이스 HBase, 하둡의 분산 코디네이션 서비스인 주키퍼 등 다양한 프로젝트를 소개해 준다.

Part5 사례 연구에서는 흥미로운 방식으로 하둡을 사용한 사람들이 기고한 사례 연구를 설명한다.

책을 읽으면서 느낀건 일단 어느정도 프로그래밍에 대한 지식과 리눅스 운영체제, 데이터베이스 경험이 있어야 한다는 점이고,

빅데이터 입문자라면 Part1을 집중공략하는것이 좋아 보인다.

특히 Part4의 경우 어떤 프로젝트는 설치법도 나오고 API 소개도 해주는데 초보자가 따라하기에는 힘든 부분이 없지 않다. 각 프로젝트 하나 가지고도 책한권이 필요한 것들이 이기 때문에 이 책에서는 맛보기 정도라고 생각하면 좋을 것이다.

초보자라도 Part5 사례 연구는 읽어보길 추천한다. 하둡을 어떻게 적용했는지 아이디어 적인 측면에서도 도움이 많이 된다.

맨 마지막에 INDEX가 잘 되어있어 필요한 명령어나 용어를 찾기 쉽게 되어 있다. 하둡 작업을 하면서 레퍼런스로 사용하면 좋다.

하둡 설치법도 친절하게 설명되어있으니 이 책을 옆에 끼고 실습을 해보면서 실력을 늘려보자.