빅데이터를 여는 열쇠, SQL온하둡(SQL-on-Hadoop)의 선두주자, 임팔라!
아파치 하둡 에코시스템은 데이터에 중점을 두고 있어 SQL 경험이 있는 데이터베이스 개발자에 안성맞춤이다. 하둡 애플리케이션 개발 작업의 많은 부분이 데이터 파일을 복사하고 변환하고 재조직화하여 분석하는 프로그램을 작성하는 일로 이루어져 있다. 이러한 일들을 대규모 병렬 방식의 네트워크 장비로 묶인 클러스터에서 신뢰성 있게 수행하려면 엄청난 노력이 필요하다.
임팔라는 이러한 활동을 쉽고 빠르게 해주기 때문에 분산 컴퓨팅에 관한 전문적인 지식이나 새로운 API를 배울 필요도 없다. 심지어 수행하려는 작업이 단일 SQL 문장으로 표현할 수 있을 정도라면 프로그램을 작성할 필요조차 없다.
이 책은 데이터베이스 경험은 있지만 아파치 하둡 소프트웨어 스택 경험은 없는 사람을 대상으로 임팔라 아키텍처와 사용법 측면에서 사례를 알려준다. SQL 예제는 이해를 돕는 단순한 예제를 시작으로 고성능과 확장성을 보여주는 모범사례를 다루는 예제로 확장해 나간다.
이 책의 대상독자
이 책은 데이터베이스, 데이터 웨어하우스, 빅데이터에 관한 지식이 있는 독자를 대상으로 한다. 따라서 CREATE TABLE, SELECT, INSERT 같은 구문과 주요 절에 관한 설명이 따로 필요 없을 정도로 독자는 SQL에 충분히 경험이 있다고 가정한다. 또한, 리눅스 경험이 있으면 더욱 좋다. 아파치 하둡 소프트웨어 스택 경험이 있으면 유용하나 필수는 아니다.
1 왜 임팔라인가
1.1 빅데이터 에코시스템에서 임팔라의 지위
1.2 빅데이터 워크플로우 유연성
1.3 고성능 분석
1.4 탐색적 비즈니스 인텔리전스
2 임팔라 준비와 구동
2.1 설치
2.2 임팔라 접속
2.3 첫 임팔라 질의
3 데이터베이스 개발자를 위한 임팔라
3.1 SQL 언어
3.2 빅데이터 고려사항
3.3 임팔라가 데이터 웨어하우스와 유사한가
3.4 물리적이고 논리적인 데이터 레이아웃
3.5 분산 질의
3.6 정규화와 비정규화 데이터
3.7 파일 포맷
3.8 집계
4 임팔라 개발 기본 작업
4.1 임팔라 테이블에 데이터 입력하기
4.2 코드를 임팔라 SQL로 포팅하기
4.3 JDBC 또는 ODBC 애플리케이션에서 임팔라 사용하기
4.4 스크립트 언어로 임팔라 사용하기
4.5 임팔라 성능 최적화
4.6 사용자 정의 함수
4.7 관리자와 협업
5 튜토리얼과 깊이 파고들기
5.1 튜토리얼: 유닉스 데이터 파일을 임팔라 테이블로
5.2 튜토리얼: 테이블 없는 질의
5.3 튜토리얼: 수십억 로우로의 여행
5.4 깊이 파고들기: 통계의 역할과 조인
5.5 안티 패턴: 수백만의 작은 조각
5.6 튜토리얼: 4차원을 넘어
5.7 튜토리얼: 자술과 침묵 impala-shell 출력
5.8 튜토리얼: 스키마가 진화할 때
5.9 튜토리얼: 추상화 단계
리얼타임 eBook 안내
PDF 형식으로 제공되며, 다운로드한 eBook은 PDF 포맷을 지원하는 디바이스 또는 프로그램에서 제한없이 열람할 수 있습니다. 또한 eBook 내의 텍스트 검색 및 인쇄도 가능합니다.