데이터 메시는 기존의 데이터 웨어하우스나 데이터 레이크와는 차별화된 혁신적인 데이터 관리 접근 방식입니다. 중앙 집중화된 구조가 아닌 분산 및 탈중앙화된 개념에 중점을 두어, 복잡하고 혼란스러운 상황에서도 조직이 대규모 데이터로부터 가치를 얻을 수 있게 도와줍니다. 이러한 특징 때문에 멀티클라우드 환경에서 데이터에 쉽게 접근할 수 있는 가장 현대적인 방법 중 하나로 각광받고 있습니다.
하지만 데이터 메시는 아직 초기 단계에 머물고 있습니다. 이 책은 데이터 메시 창시자가 '다프'라는 가상기업을 사례로 들어 기업에 데이터 메시를 도입하는 과정을 상세히 서술하고 있어, 초기 단계에 놓인 데이터 메시의 현황과 도입 과정에 대한 인사이트를 제공합니다. 따라서 이 책을 통해 초기 단계의 데이터 메시를 보다 심층적으로 이해할 수 있습니다. 매번 단일 중앙 집중식 허브를 통하지 않고도 멀티클라우드 환경에서 다양한 경로를 통해 스트리밍 데이터를 효율적으로 라이팅하는 방법을 이 책에 배울 수 있습니다. 데이터의 중앙 집중화를 벗어나는 데 관심 있는 최고 기술 책임자(CTO), 최고 디지털 책임자(CDO), 데이터 매니저, 아키텍트, 그리고 엔지니어에게 이 책은 멀티클라우드 시대의 필수 안내서가 되어줄 것입니다.
저자소개
저자
세막 데그하니
데이터 메시 창시자. 쏘우트웍스(Thoughworks)사의 기술 담당 이사이며 기업의 분산 시스템과 데이터 아키텍처에 초점을 두고 있습니다. 쏘우트웍스를 포함한 여러 기술 자문 위원회의 멤버이기도 합니다. 궁극적으로 아키텍처, 데이터, 오너십을 포함한 모든 것의 탈중앙화를 옹호합니다.
학창 시절부터 컴퓨터가 주는 즐거움에 빠져 광주과학기술원(GIST)에서 전기전자컴퓨터공학부를 전공했습니다. 새로운 기술을 실생활에 적용하는 데 관심이 많아 다양한 경험을 쌓고 있습니다. 특히, 데이터 시각화 분야에서 고객이 지속적으로 참여할 수 있는 콘텐츠에 큰 관심을 갖고 있어 개발자에만 국한하지 않고 디자이너로도 프로젝트에 참여하고 있습니다.
목차
프롤로그 진화적 소프트웨어 아키텍처
P.1 실생활에서의 데이터 메시
P.2 왜 데이터 메시로 변환해야 하는가
P.3 앞으로 가야 할 길
[PART 1 데이터 메시란]
CHAPTER 1 데이터 메시를 요약하면
1.1 데이터 메시를 도입한 결과
1.2 데이터 메시로 일어나는 변화
1.3 데이터 메시의 원칙
1.4 데이터 메시 4대 원칙의 상호작용
1.5 데이터 메시 모델 한눈에 보기
1.6 데이터
정리하기
CHAPTER 2 데이터의 도메인 오너십 원칙
2.1 DDD 전략의 배경
2.2 데이터에 DDD 전략 적용하기
2.3 도메인 데이터의 아키타입
2.4 데이터의 도메인 오너십 원칙 적용하기
정리하기
CHAPTER 3 제품으로서의 데이터 원칙
3.1 데이터에 프로덕트 중심 사고 적용하기
3.2 제품으로서의 데이터 원칙 적용하기
정리하기
CHAPTER 4 셀프 서비스 데이터 플랫폼의 원칙
4.1 데이터 메시 플랫폼: 비교하고 대조하라
4.2 데이터 메시 플랫폼 사고
4.3 셀프 서비스 데이터 메시 플랫폼 원칙 적용하기
정리하기
CHAPTER 5 연합 컴퓨팅 거버넌스의 원칙
5.1 데이터 메시 거버넌스에 시스템 사고 적용하기
5.2 거버넌스 모델에 연합 적용하기
5.3 거버넌스 모델에 컴퓨팅 적용하기
5.4 연합 컴퓨팅 거버넌스 원칙 적용하기
정리하기
[PART 2 왜 데이터 메시인가]
CHAPTER 6 전략적 변곡점
6.1 데이터에 대한 높은 기대치
6.2 데이터의 이분법적 분화
6.3 스케일: 전례 없는 새로운 걸림돌
6.4 비즈니스의 끊임없는 복잡성과 변동성
6.5 데이터 투자 및 수익률 간 불협화음
정리하기
CHAPTER 7 전략적 변곡점 이후
7.1 복잡한 비즈니스 내의 변화에 우아하게 대응하기
7.2 복잡성의 증가 속에서 민첩성 유지하기
7.3 투자 대비 데이터 가치 비율 높이기
정리하기
CHAPTER 8 전략적 변곡점 이전
8.1 분석 데이터 아키텍처의 진화
8.2 분석 데이터 아키텍처의 특징
정리하기
[PART 3 데이터 메시 아키텍처의 설계 방법]
CHAPTER 9 논리적 아키텍처
9.1 도메인별 분석 데이터 공유 인터페이스
9.2 아키텍처 퀀텀으로서의 데이터 프로덕트
9.3 멀티플레인 데이터 플랫폼
9.4 임베딩된 컴퓨팅 정책
정리하기
CHAPTER 10 멀티플레인 데이터 플랫폼 아키텍처
10.1 사용자 여정 중심 플랫폼 설계
10.2 데이터 프로덕트 개발자의 여정
10.3 데이터 프로덕트 소비자의 여정
정리하기
[PART 4 데이터 프로덕트 아키텍처의 설계방법]
CHAPTER 11 행위 지원성에 의한 데이터 프로덕트 설계
11.1 데이터 프로덕트의 행위 지원성
11.2 데이터 프로덕트 아키텍처의 특징
11.3 복잡적응계의 간결함에 영향을 받는 설계
정리하기
CHAPTER 12 데이터 소비, 변환 및 제공 설계
12.1 데이터 제공
12.2 데이터 소비
12.3 데이터 변환
정리하기
CHAPTER 13 데이터 검색, 이해 및 구성 설계
13.1 데이터 검색, 이해, 신뢰 및 탐색
13.2 데이터 구성
정리하기
CHAPTER 14 데이터 관리, 거버닝 및 관찰 설계
14.1 데이터 수명 주기 관리
14.2 데이터 거버닝
14.3 데이터 관찰, 디버깅 및 감사
정리하기
[PART 5 새로운 시작]
CHAPTER 15 전략과 실행
15.1 지금 당장 채택해야 하는가?
15.2 데이터 전략 요소로서의 데이터 메시
15.3 데이터 메시 실행 프레임워크
정리하기
CHAPTER 16 조직과 문화
16.1 변화
16.2 문화
16.3 보상
16.4 구조
16.5 인력
16.6 프로세스
정리하기
출판사리뷰
데이터 혁신의 새로운 지평을 열어줄 데이터 메시
데이터 메시는 대규모로 분산된 데이터를 효과적으로 관리하고 활용하기 위한 접근 방법이자 아키텍처를 의미합니다. 이 개념은 데이터 관리 시스템 분야에서 차세대 키워드로 떠오르고 있습니다. 이 책에서 데이터 메시의 창시자가 직접 이 개념을 소개하고 있어 데이터 메시의 핵심 원리와 구현 방법에 대한 창시자의 통찰력을 직접적으로 배워볼 수 있습니다.
이 책은 데이터 메시를 기술적으로 어떻게 구현해야 하는지를 크게 다섯 가지 주제로 나누어서 설명합니다. 1부에서는 데이터 메시의 기본 원칙을 소개하고, 2부에서는 모든 조직이 데이터 메시를 사용해야 하는 이유를 설명합니다. 3부와 4부에서는 데이터 메시 아키텍처와 데이터 프로덕트 아키텍처를 설계하는 방법을 안내하며, 마지막으로 5부에서는 데이터 메시가 조직의 변환에 미치는 영향과 좋은 설계 방법에 대한 실용적인 조언을 제공합니다. 이 책을 따라 모든 학습을 마치고 나면 멀티클라우드 환경에서 효율적으로 데이터를 운영하고 분산형 데이터 메시로 전환하는 방법을 습득할 수 있을 것입니다.
책은 '다프'라는 가상의 음악 스트리밍 회사를 가정한다. 가상의 회사를 기반으로 데이터 메시를 활용한 경우와 아닌 경우를 실례로 비교해서 설명해준다. 따라가기 쉽고 어떤 구조로 회사에서 데이터 팀을 운영하면 좋을지 힌트를 얻을 수 있다.
실제로 중앙집권적인 데이터 팀 구성의 경우 책에 나온 것처럼 새롭게 만들어야 ETL이나 데이터의 최신성 문제 등이 현장에서 문제가 될 것이다. 각 팀이 해야 되는 업무가 도메인 중심이 아니라 역할 중심으로 짜여져 있다보니 실제 데이터를 주무를 때 도메인이 깊게 들어가는 영역(아마 대부분이 이러지 싶다)을 맞닥뜨리면 이것저것을 하느라 업무가 늘어지는 경향이 있다. 하지만 초기 데이터 팀을 구성할 때 겪어야 할 시행착오라고 생각한다. 다양하고 큰 데이터를 처리해야 할 필요가 늘어남에 따라 데이터 메시 구조가 필요해졌다.
저자는 이 병목현상을 지금의 중앙 데이터팀과 모놀리식 아키텍처의 한계라고 지적한다. 그러면서 데이터 메시로 넘어가면 각 도메인마다 엔드투엔드 팀이 있기 때문에 책임의 경계가 명확하고 책임감을 공유할 수 있다고 설명한다. 일견 동의하는 바이지만 다른 의미로는 팀 간 알력다툼이 있을 수 있고(더 유리한 팀이 분명 생길 것이므로) 각 팀이 드림팀이 되기 위해 무한경쟁을 할 수도 있다. 다시 말해 데이터 원팀이 되는 게 아니라 팀간 데이터 경쟁을 부추길 수도 있으며 회사에서 특정 도메인이 더이상 필요가 없거나 성과가 지속적으로 나지 않으면 해당 도메인 팀을 모두 해고할 수도 있겠다.
하지만 확실히 이제 앞으로 몇 년간은 책에서 제시하는 데이터 메시로 데이터 팀이 재편될 가능성이 높다. 지금처럼 데이터 팀이 많은 부담을 안으면서 야근을 밥먹듯이 하는 게 과연 효율적인가 하는 의문이 지속되기 때문이다. 작업, 대응 속도가 간혹 문제가 되기도 하고 무슨 이슈가 하나라도 생기면 그걸 해결하느라 업무가 순간 올스탑되는 일은 그닥 좋아보이진 않는다. 차라리 책임은 분산시키고 각 팀을 p2p 형식으로 묶어서 유기적으로 결과를 공유하는 편이 향후에는 낫겠다.
- 해당 도서는 총 5부로 이루어져 있으며, 데이터 메시의 정의부터 왜 데이터 메시를 사용해야 하며, 해당 데이터 메시는 어떻게 설계하는 지에 서술하고 있다. 각 정의 및 아키텍쳐는 삽화를 통해 하고자 하는 이야기를 풀어서 설명하고 있다. 데이터 메시 및 아키텍쳐에 대한 설명은 존재하나 예시 및 코드를 통한 실습으로 이루어지지는 않았기에 실무에 적용하기에는 부족한 부분이 존재한다.
요즘 데이터에 대한 관심이 어느때보다 더 뜨거운 것 같습니다. 우리는 알파고에서 시작해서 ChatGPT까지 여러 인공지능 및 머신러닝의 변화 과정을 지켜보고 있습니다. 어느때는 동료들과 기술발전이 무섭다 라는 얘기를 하기도 합니다. 이런 기술은 어디서 기반한 것일까요? 모든 것은 데이터 기반으로 동작합니다. 이런 데이터는 기업이나 개인이나 매우 소중합니다.
기업 입장에서 데이터는 비즈니스의 성과 및 추세를 결정할 수 있는 매우 중요한 기초 자산입니다. 해당 데이터를 다루기 위해 여러가지 방법을 사용합니다. 책에서도 설명하듯 이전에는 간단한 데이터베이스로부터 분석용 데이터를 생성하고 해당 데이터를 기반으로 의사결정을 합니다. 소규모 조직에서는 이 방법이 잘 동작합니다. 하지만 기업 규모가 커질수록 이 방법은 많은 문제를 발생시킵니다. 해당 문제를 해결하기 위해 다양한 방법이 시도 되고 있고 사용되고 있습니다. 데이터 웨어하우스라는 개념, 데이터 레이크라는 개념이 여기에 해당하죠.
이 책에서 필자는 여기서 한발 더 나아간 데이터 메시라는 개념을 독자에게 선물하고 있습니다. 제가 이해한 바가 정확할지는 모르겠습니다만, 간단하게 정리해보면 다음과 같이 정의할 수 있을 것 같습니다.
기존 중앙 집중적인 데이터 처리에 대한 병목을 줄이기 위해 도메인 단위로 데이터 처리 로직을 쪼개고 서로 유기적으로 통신 가능하도록 구성하는 데이터 아키텍처
정의만 보면 간단합니다. 하지만 이 방법을 실제 기업환경에 적용하기 위해서는 많은 시행착오와 도전이 필요할 것이라 생각됩니다. 기업들은 궁극적으로는 데이터 메시를 채용할거라 생각됩니다. 요즘 같이 트렌드가 자주 바뀌는 시대에 빠른 의사결정이 중요하니까요. 데이터 메시는 빠른 의사결정 및 처리를 위한 기반이 될 것입니다.
그리고 개인적으로 이 책에서 좋았던 점은 제가 몰랐던 다양한 개념을 고수준 아키텍처 범위에서 이해하기 쉽게 설명해 주고 있는 점입니다. 특히 그림을 통해서 설명하는 방법을 많이 활용합니다.
이렇게 그림을 통해서 전체적인 구조를 살펴볼 수 있도록 하고 해당 내용을 하나씩 풀어서 설명해주는 방법은 정말 선호하는 방법입니다. 이렇게 하면 머릿속에 전체적인 그림을 그릴 수 있고 내용을 하나씩 채울 수 있기 때문입니다.
다음으로 좋았던 점은 다프라고 불리는 가상의 회사를 통해서 우리에게 예시를 통해 데이터 메시에 대한 필요성과 정의등을 설명합니다. 리뷰를 보시는 분은 위에 제가 정의한 데이터 메시의 정의가 이해가 되실까요? 대부분은 이해가 되지 않을 겁니다. 데이터 메시라고 불리는 개념을 책을 통해서 저 스스로 생각해서 정의했기 때문입니다. 이 부분은 저의 정의와 다른 독자의 정의가 다를 수 있습니다. 이러한 개념을 책에서는 바로 정의로 던지는 것이 아니라 다프라는 회사의 상황과 이를 해결하기 위해서 데이터 메시를 도입하는 과정을 보여주기 때문에 좀 더 쉽게 개념에 접근할 수 있었습니다.
이 책은 데이터 과학자, 아키텍처, 개발자 모두에게 추천합니다.
단순히 한번만 보는 것이 아닌 여러번 읽고 해당 개념을 자신의 것으로 만드는 것이 필요할 것 같습니다
데이터 메시라는 2019년 본 도서의 저자인 세막 데그하니가 창시한 개념으로 전통적인 중앙 집중식 데이터 아키텍처에 대한 대안으로 등장했습니다. 저자는 데이터 메시를 통해 데이터의 오너십을 도메인별로 조직하고, 모놀리지식 데이터 웨어하우스, 레이크를 아키텍처 적으로 분산시키며, 데이터를 제품으로 취급하여 자율적 접근이 가능하게 하는, 연합 컴퓨팅 거버넌스로 지원하는 데이터 관리 패러다임의 변화를 이야기하고 있습니다.
이러한 접근 방식은 본 도서의 다프에서 예를 들고 있는 것처럼 비즈니스 팀이 데이터의 품질, 접근성 및 보안을 담당하면서 비즈니스 목적을 중심으로 데이터를 구성하여 데이터 접근성 문제를 해결할 수 있는 아이디어입니다.
본 도서에서도 이노베이터, 얼리어댑터적 성격임을 밝히고 있듯, 데이터 메시는 아직 초기 단계에 있지만 빠르게 성숙하고 있습니다. 지속적으로 데이터 메시를 도입하면서 데이터 거버넌스 모델의 진화와 새로운 거버넌스 접근 방식이 개발될 것이라 생각됩니다. 이는 데이터 메시 구현을 위한 설계 도구나 플랫폼, 서비스 개발도 수반될 것입니다. 이에 가트너도 데이터 메시를 Hype Cycle의 Innovation Trigger에 위치 시키고 있습니다.
참고 : https://atlan.com/gartner-data-mesh/
여러 전문가들은 데이터 메시의 시장 점유 및 실현 가능성에 대해 부정적으로 보고 있는데, 개념이 성숙하기 이전에 사장되는 방식이 될 것이라는 평이 대세입니다. 2023년은 더욱 데이터 메시의 가능성이 낮다고 평가하고 있으며, 데이터 거버넌스 역량의 성숙도에 따라 중앙 집중식 접근 방식이 다시 선호될 수 있다고 이야기하고 있습니다. 이는 데이터 메시가 당면한 가장 큰 도전이자 과제라고 생각됩니다.
참고 : https://nexla.com/dasummit-2023-takeaways/
데이터 메시는 데이터 관리에 있어 혁신적인 접근 방식을 제시하고 있습니다. 저자는 특히 현대의 데이터 스택, 레이크, 웨어하우스 등 중앙 집중식 구조에 대한 문제점을 깊이 이해하고 있고, 이를 전략, 조직 및 미래지향적 아키텍처 변화를 통해 해결할 수 있는 방법론을 알기 쉽게 제안합니다. 특히 1부와 2부의 내용은 데이터를 다룬다면 꼭 알아야 하는 내용이며, 저자는 이를 이해하고 알기 쉽게 설명하고 있습니다. 저자가 제안한 데이터 메시의 구현과 적용 방법은 여전히 발전하고 있습니다.
본 도서에서 데이터 메시가 대두된 현재의 문제점, 정의, 주요 장점 등을 안내하는 도서로는 훌륭합니다. 하지만, 본 도서를 통해 데이터 접근 방식의 변화에 대한 영감을 얻을 수는 있지만 데이터 메시를 구축하는 방법을 얻을 수 없습니다.구현체가 없는 이론은 흥미롭게는 들리지만 기술의 성공을 아직 인증하지 못했다는 증거이기도 합니다. 독자가 왜 이 문제에 관심을 가져야 되는지 공감시키는 데에는 훌륭했지만 그 이상의 관심을 갖는 이들을 위해 기술적 대안을 제시해 주지는 않습니다. 어쩌면 시대를 두걸음 앞서가는 미래의 방향성을 제시해 주는 이론이라 업계를 선도하는 마이크로소프트, 구글 정도의 레벨은 되야 솔루션으로 이어질 수 있을지는 모르겠습니다.
데이터 메시는 탈중앙화 된 사회 기술적 접근 방식으로서 조직 전반의 대규모적인 족잡한 환경에서 분석데이터를 공유하고 엑세스하며 관리하는 것입니다.
쉽게 말하자면,, 규모에 맞는 분석 사용 사례를 자원화하고 관리하며 액세스하기 위한 새로운 접근 방식이라고 합니다.
책에서 가상의 디지털 스트리밍 회사인 다프주식회사가 나오는데, 해당 이야기를 통하여 위에서 설명한 데이터 메시의 원리가 어떤식으로 적용되는지, 영향을 미치는지 또 조직이 성장함에 따라 증가하는 복잡성을 해결하고 많은 데이터에서 가치를 창출하고 활용하는 방법을 알려주게 됩니다.
데이터 메시는 탈중화된 사회 기술적 접근 방식으로서 조직 전반의 대규모적이고 복잡한 환경에서 데이터를 공유하고 엑세스 하며 관리합니다.
(내용 中)
사진 설명을 입력하세요.
사진 설명을 입력하세요.
사진 설명을 입력하세요.
사진 설명을 입력하세요.
한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.
출처 입력
다프 주식회사에선 머신러닝을 활용하여 사용자 경험(UX)을 개선하는데 집중한 결과 프리미엄 가입자가 크게 증가했다. 지난 3년 동안 다프는 분석 데이터를 관리하고, 사용하는 방식을 [데이터메시]로 전환했다. 데이터메시는 대규모 분석 데이터에서 가치를 활용하는 새로운 접근 방식으로, 데이터와 비즈니스를 긴밀하게 연결해준다.
데이터 메시란?
데이터 메시는 탈중앙화 된 사회 기술적 접근 방식으로서 조직 전반의 대규모적이고 복잡한 환경에서 분석데이터를 공유하고 엑세스하며 관리한다.
데이터 메시로 일어나는 변화
조직적 변화: 중앙 집중식 스페셜리스트 집단으로 이루어진 모델에서 여러 비즈니스 도메인으로 탈중앙화된 모델로 데이터 오너십 모델을 전환한다. 이와 동시에 중앙 집중식 팀이 소유하고 있는 데이터 관련 책임을 도메인 별로 데이터를 직접 생성하거나 소비하는 방식으로 전환한다.
아키텍처적 변화 : 모놀리식 아키텍처(데이터 웨어하우스 및 데이터 레스크)로 이루어진 구조에서 (표준 프로토콜로 연결된 데이터 프로덕트로 이루어진) 데이터 메시 구조로 전환한다.
기술적 변화 : 데이터를 파이프라인 코드 실행 과정에서 발생한 부산물로 취급하는 기술 솔루션에서 데이터를 유지 관리하는 코드와 하나의 살아 있는 자율적인 단위로 취급하는 기술 솔루션으로 데이터 솔루션을 전환합니다.
운영적 변화 : 데이터 거버넌스를 사람이 수동으로 개입하는 하향식 및 중앙 집중식 운영 모델에서 데이터 메시 내의 노드를 기반으로 컴퓨팅 정책이 임베딩된 연합 모델로 전환한다.
원칙적 변화 : 자산으로서의 데이터를 수집하는 가치체계 에서 조직 안팎의 데이터 사용자에게 제품으로서의 데이터를 제공하면서 만족을 주는 가치 체계로 전환한다.
인프라적 변화 : 분석 시스템과 운영 시스템으로 파편화 된 두 서비스가 엔드 투 엔드 방식으로 연결된 형태의 인프라 서비스에서 운영 데이터 분석 데이터 시스템 모두를 위해 잘 통합된 일련의 인프라로 전환한다.
DDD(Domain-Driven-Design) 전략의 배경
도메인 주도 설계(DDD)는 비즈니스의 이음매를 기반으로 소프트웨어 설계(모델)와 팀 할당을 분해하는 접근 방식이다. 비즈니스가 도메인 단위로 분해되는 방식에 따라 소프트웨어를 분해하고, 각 비즈니스 도메인에서 사용하는 언어를 기반으로 소프트웨어 모델링을 한다.
책을 읽고나서 꼭 남겨둬야 겠다고 생각한 파트는 글로 적었다.
나는 이게 어떤 기술 이라고 생각했는데 (기술이 맞긴하다..)
읽다보니 개념잡아주는 책 같았다. 뭐 이참에 DDD도 복습하고, 데이터메시 라는 기법도 익혔으니 감사할 따름이다.
이 책은 데이터 메시를 활용 및 도입하고 싶은 분들에게 추천해 드리고 싶은 책으로, 데이터 메시를 구현하기 위해서 필요한 데이터 기본부터 원리까지 설명을 해주고, 데이터 메시 도입시 필요한 프로세스, 기술 등이 담겨 있는 책입니다. 특히 기업과 실무에 적용할 수 있는 다양한 지식을 제공 받을 수 있다는 점이 매력적입니다. 데이터 분석가, 데이터 엔지니어, 데이터 사용자 모두에게 도움을 줄 수 있는 책입니다.
효과적인 데이터 활용을 위한 데이터 메시 도입 가이드
데이터 메시는 운영 데이터에서 얻은 교훈을 분석 데이터의 세계에도 적용하고 있습니다. 비즈니스의 각 도메인은 운영 데이터와 동일한 방식으로 API를 통해 분석 데이터를 퍼블리싱합니다. 이때 데이터를 일급 프로덕트처럼 취급하면서 데이터의 의미와 출처를 소비자에게 전달함으로써 데이터 소비자가 데이터 메시를 원활하게 사용할 수 있도록 합니다. 이러한 과정을 실현하려면 기업은 데이터 프로덕트를 퍼블리싱할 수 있는 플랫폼과 함께 연합된 거버넌스 구조를 제공해야 합니다. 데이터 메시의 바탕에는 비즈니스의 니즈가 변화함에 따라 플랫폼과 프로덕트가 신속하게 변화할 수 있을 만큼 기술적으로 우수해야 한다는 인식이 깔려 있습니다.
모든중요한혁신은기존의사고방식을 ‘깨뜨리면서’ 생겨난다.
토머스 S. 쿤
데이터 기반 기업들은 데이터에서 가치를 쉬고 빠르게 창출할 수 있도록, 기업마다 일정한 규칙에 맞춰 데이터를 소유하고 있습니다. 이러한 규칙으로 이루어진 데이터 구조를 데이터아키텍처라고 합니다.
데이터 아키텍처 중 가장 먼저 도입된 개념은 데이터 웨어하우스입니다. 데이터 웨어하우스는 창고라는 이름처럼 정형 데이터가 나열되어 있는 아키텍처입니다. 그러나 정형 데이터만을 취급해서 음악, 문서, 동영상 파일 같은 비정형 데이터는 사용하기 어렵다는 단점이 있습니다. 이후 데이터 레이크가 나오면서 기존 데이터 웨어하우스의 문제점은 점차 개선되기 시작했습니다.
이 책에서 설명하는 데이터 메시는 차세대 데이터 아키텍처로 병목 현상을 해결하고, 앞으로 올 변화에 유연하게 대응할 수 있습니다. 기존 아키텍처의 관습은 데이터를 데이터 덩어리 하나로 통째로 운영하는 것입니다. 이러한 관습을 여러 조작으로(도메인별로) 분산시켜 운영하는 관습으로 전환하면서 데이터를 더 효율적으로 관리하는 것이 데이터 메시의 핵심입니다.
목차
1부 데이터 메시란
2부 왜 데이터 메시인가
3부 데이터 메시 아키텍처의 설계 방법
4부 데이터 프로덕트 아키텍처의 설계 방법
5부 새로운 시작
왜 데이터 메시로 변환해야 하는가?
조직이 성장함에 따라 빠르게 증가하는 복잡성
대규모 데이터로부터 가치 창출
데이터 메시는 탐색, 확장, 추출이라는 단계의 사이클로 이루어집니다.
책의 총평
이 책을 통해서 배울 수 있는 것은 데이터, 데이터 플랫폼, 데이터 메시에 대해 체계적이고 개념적으로 배울 수 있는 책으로, 데이터에 대해 관심이 있거나 데이터 프로덕트를 만드는 사람이라면 한번쯤은 읽어 볼만한 책입니다. 저 또한 개발자로 제품을 만들거나 프로젝트에 투입이 되어 진행시 많은 시행착오와 고민을 하게 되는데 이 책의 저자 또한 그런 부분을 짚어줍니다. 혼자의 힘으로는 할 수 있는게 별로 없지만 많은 이가 같은 생각(문화 또는 가치)을 가지고 진행하면 분명 좋은 프로덕트가 많이 나올거라 생각합니다. 변화를 두려워하지 않고 도전하는 많은 이들이 생겼으면 하는 바램입니다.
데이터 메시는 기존의 데이터 웨어하우스나 데이터 레이크와는 차별화된 혁신적인 데이터 관리 접근 방식입니다. 중앙 집중화된 구조가 아닌 분산 및 탈중앙화된 개념에 중점을 두어, 복잡하고 혼란스러운 상황에서도 조직이 대규모 데이터로부터 가치를 얻을 수 있게 도와줍니다. 이러한 특징 때문에 멀티클라우드 환경에서 데이터에 쉽게 접근할 수 있는 가장 현대적인 방법 중 하나로 각광받고 있습니다.
하지만 데이터 메시는 아직 초기 단계에 머물고 있습니다. 이 책은 데이터 메시 창시자가 '다프'라는 가상기업을 사례로 들어 기업에 데이터 메시를 도입하는 과정을 상세히 서술하고 있어, 초기 단계에 놓인 데이터 메시의 현황과 도입 과정에 대한 인사이트를 제공합니다. 따라서 이 책을 통해 초기 단계의 데이터 메시를 보다 심층적으로 이해할 수 있습니다. 매번 단일 중앙 집중식 허브를 통하지 않고도 멀티클라우드 환경에서 다양한 경로를 통해 스트리밍 데이터를 효율적으로 라이팅하는 방법을 이 책에 배울 수 있습니다. 데이터의 중앙 집중화를 벗어나는 데 관심 있는 최고 기술 책임자(CTO), 최고 디지털 책임자(CDO), 데이터 매니저, 아키텍트, 그리고 엔지니어에게 이 책은 멀티클라우드 시대의 필수 안내서가 되어줄 것입니다.
[주요 내용]
- 데이터 메시 아키텍처의 4가지 원칙
- 데이터 메시 아키텍처 및 데이터 프로덕트 아키텍처 설계
- 데이터 메시 전략 가이드
- 데이터 관리, 거버닝 및 관찰 설계
- 데이터 웨어하우스와 데이터 레이크를 넘어 분산형 데이터 메시로의 전환
[서평]
이 책은 데이터 메시 아키텍처를 소개하고, 이를 효과적으로 도입하기 위한 가이드를 제공한다. 데이터 메시 아키텍처는 대규모로 분산된 데이터를 효과적으로 관리하고 활용하기 위한 접근 방법이다.
이 책은 데이터 메시 아키텍처의 4가지 원칙을 소개하고, 데이터 메시 아키텍처 및 데이터 프로덕트 아키텍처 설계 방법을 안내한다. 또, 데이터 메시 전략 가이드와 데이터 관리, 거버닝 및 관찰 설계 방법을 제공한다.
데이터 웨어하우스와 데이터 레이크를 넘어 분산형 데이터 메시로의 전환에 대한 내용도 다루고 있다.
이 책은 데이터 메시를 기술적으로 어떻게 구현해야 하는지를 자세하게 설명하고 있으며, 멀티 클라우드 환경에서 효율적으로 데이터를 운영하고 분산형 데이터 메시로 전환하는 방법을 습득할 수 있도록 도와준다.
데이터 메시 아키텍처를 도입하고자 하는 기업이나 개인에게 매우 유용한 책이다. 데이터 메시 아키텍처를 이해하고, 이를 효과적으로 도입하는 데 필요한 지식과 노하우를 얻을 수 있을 것이다.
데이터 메시 아키텍처는 데이터를 분산시켜 영업 또는 고객 지원과 같은 부서가 데이터 소유권을 행사할 수 있는 환경을 조성하는 새로운 전략으로 알려져 있는데요. 기업 내 서로 다른 부서에서 발생하는 데이터 간의 일관성을 확립하는 게 주된 목적입니다.
이번에 한빛미디어 오라일리(O'Reilly) 시리즈 데이터 메시를 통해 기업의 데이터 아키텍처는 어떻게 변화해야 하는지 확실하게 알아 갈 수 있습니다. 창시자가 직접 안내하는 데이터 메시의 A부터 Z까지인 도입 전후 변화와 전략까지 데이터 메시의 모든 내용을 담고 있습니다.
1부 데이터 메시의 4대 원칙을 통해서 데이터 메시를 시작해야 하는 이유, 데이터 메시 4대 원칙, 데이터 메시 아키텍처 설계 등 원칙을 통해 데이터 메시를 고수준 모델로 구성하는 과정에 대해 알아 갈 수 있습니다. 데이터 메시의 원칙은 서로 기반으로 하므로 소개하는 순서를 중요하게 생각합니다. 무엇보다 도메인별로 데이터를 소유하는 아키텍처를 이루도록 하는 접근 방식을 잘 기억하시길 바랍니다.
2부 왜 데이터 메시인가 주제로 모든 조직이 데이터메 시를 도입해야 하는 이유를 상세하게 설명하고 있습니다. 조직을 변환하는 건 쉬운 일이 아니며, 시간과 비용도 고려해야 하는 사항인데요. 과거 아키텍처의 진화적 접근 방식이 더 이상 제공하지 않는 티핑 포인트에 도달하게 해준 과정에 대해 분석합니다. 데이터 메시를 도입함으로써 나타난 결과와 해당 결과에 어떻게 도달했는지 대한 설명, 분석 데이터 관리 아키텍처의 역사에 흥망석쇠가 일어나는 요인을 확인할 수 있습니다.
3부 데이터 메시 아키텍처의 설계 방법을 통해 데이터 메시를 기술적으로 구현할 수 있는 아키텍처를 모델링하는 단계입니다. 직관적인 그림으로 복잡한 개념을 이해하기 쉽게 시각적으로 설명합니다. 저자가 직접 그린 그림을 보면서 이론에 대해 쉽게 접근할 수 있는 장점이 있습니다. 이뿐만 아니라 데이터 메시가 아직 낯선 독자를 위해 원서에 없는 역자의 주석 추가 제공을 통해 내용을 더 깊게 이해할 수 있는 기회가 될 수 있습니다.
4부 데이터 프로덕트 아키텍처의 설계 방법에선 데이터 프로덕트는 데이터 메시의 핵심 개념과 아키텍처적인 관점에서 데이터 프로덕트는 아키텍처 퀀텀처럼 설계되어 있는데요. 데이터 퀀텀은 제품으로서의 데이터를 처리하고 공유하는 데 필요한 동작과 구조적 구성요소를 데이터 메시 내 다른 데이터 퀀텀으로 연결합니다. 또한, 데이터 프로덕트 설계에 대한 접근 방식 소개, 데이터 프로덕트가 다양한 사용자를 위해 데이터를 소비, 변환, 제공하는 방법에 대한 설명도 담겨 있습니다.
5부 데이터 메시가 조직의 변환에 어떤 영향을 미치는가 주제로 데이터 전략을 통해 데이터 아키텍처를 다각적으로 변화시키는 방법을 안내하기 위한 고수준 접근 방식에 대한 설명으로 시작합니다.데이터 메시를 점진적으로 채택하여 플랫폼 특성을 성숙시키는 동시에 점점 더 많은 데이터 프로덕트에서 가치를 창출하는 진화적 접근 방식, 데이터 오너십과 P2P 방식의 데이터 공유 기능을 장기적으로 창출하기 위해 팀과 역할, 그리고 성과 차원에서 몇 가지 변화해야 할 사항을 다룹니다.
데이터 메시를 통해 가상 기업 다프의 사례를 통해 데이터 메시 도입 영향을 차근차근 알아갈 수 있습니다. 조직이 성장함에 따라 빠르게 증가하는 복잡성을 해결하고 대규모 데이터에서 가치 창출을 달성할 수 있습니다. 데이터를 최대한 활용한 모든 독자에게 최적의 방법과 방향을 찾아가시길 바랍니다.
하둡 시스템 구성과 시각화까지 서비스하는 업무가 메인인 회사에서 빅데이터의 다음 행보에 관한 내용은 상당히 중요하고 그에관한 도서라면 충분히 향후 업무에 도움이 될 것이라 생각 했다.
데이터 메시(메쉬가 맞지 않나?)를 설명하려면 기존의 데이터를 다루거나 관리하는 방식에 대해서 한번 볼 필요가 있을것 같다.
예전, 지금도 많이 사용하고 있는 RDBMS 를 기반으로 하는 데이터베이스는 모든 데이터를 한곳에 모아 관리하며, 로우데이터(?)나 살짝 가공된 운영데이터를 관리 하는것에 중점을 두고 있다고 생각한다.
통계등의 분석은 그때그때 어플리케이션들이 데이터를 가지고 와서 생성하여 사용자에게 제공하고 있다.
빅데이터 시스템의 경우....(사실 회사 주 업무가 하둡기반 빅데이터 시스템 운영 및 유지보수 이긴 하지만 내 업무 중 이쪽 업무 비중은 매우 낮은 편이다.) 어떤 데이터를 수집하고 사용하는지에 따라 다르겠지만 현재까지 대부분의 경우에는 기존 RDBMS때와 마찬가지로 중앙집중식으로 데이터를 관리하고 있다고 보는것이 맞을 듯 하다.
아무래도 기존 설계방식을 따르면서 데이터의 종류와 양만 어마어마 하게 늘어난게 현재 대부분의 빅데이터 시스템 이다 보니...
내가 본게 그런게 다라서 그런가...여튼...
데이터메시는 기존과 반대로 설계를 한다.
업무 도메인 별로 각 도메인별 데이터를 직접 관리하고 필요한 경우 데이터를 주고 받으며 사용한다.
로우 데이터나 운영 데이터 보다는 분석 데이터에 중점을 두고...운영 한다고 하는데 사실 직접 해보진 않아서 정확하게 와 닿지는 않았다.
이 책은 프롤로그를 반드시 읽어 보기를 추천한다.
가상의 음악 및 오디오 스트리밍 회사인 다프라는 회사에서 데이터 메시를 구현하여 사용하는 내용으로 데이터 메시의 전반적 개념과 운영 방법 등에 대해서 얘기를 시작 하고 있다.
사실 프롤로그 까지만 읽어도 데이터 메시가 무엇인지, 어떻게 이루어 지는지에 대한 어렴풋한(?) 개념은 잡을 수 있었던 것 같다.
프롤로그에서 다프라는 회사가 기존에 데이터를 다루는 방식에서 데이터 메시로 전환 하면서 어디가 어떻게 달라 졌는지, 어떤 방식으로 변화 하였는지를 설명하며 데이터 메시에 대한 이야기를 해 주고 있다.
이후 부터는 본격적으로 데이터 메시를 설명하고있다.
1~5부까지 나누어져 있는데 각각 소개 하면 다음과 같다.
1부 - 데이터 메시란
데이터 메시를 요약하고 데이터 메시의 네가지 원칙에 대하여 설명하는 내용이다. 뒤에 나오는 내용들에 비해 가장 이론적인 내용이 아닐까 싶다.
2부 - 왜 데이터 메시인가
비즈니스의 변화에 따른 전략적 이유로 기존의 데이터에 접근 하는 방식에서 데이터 메시로 바뀌어야 하는 이유를 설명하는 내용이다.
예전보다 비즈니스의 복잡도나 변동성이 증가 했다는 것에 그 이유를 두고 있다.
책 전체에서 가장 많은 비중을 차지하는 내용이다.
3부 - 데이터 메시 아키텍처의 설계 방법
말 그대로 아키텍처의 설계에 관한 내용을 다루고 있다.
중앙집중식에서 도메인별로 나누어 관리 하는 방법으로 바뀌기 때문에 당연히 아키텍쳐 설계에 대한 내용을 다루는 것 같다.
4부 - 데이터 프로덕트 아키텍처의 설계 방법
앞에서도 설계를 다루었는데 다시 설계 방법 이라고 나와서 의아할 수 도 있을듯 하다.
앞에서의 설계는 데이터 메시에 대한 설계이고 4부에서 다루는 내용은 데이터 프로덕트의 설계이다.
데이터 메시에서는 데이터의 제품화? 에 대한 이야기를 하고 있다.
중앙집중 식으로 데이터를 관리 하지 않고 도메인 별로 관리를 하기 때문에 다른 도메인에서 필요로 하여 데이터를 제공 하는 경우에 대한 데이터를 데이터 프로덕트라고 표현 하는 것 같았다.(늙어서 그런가 요즘 뭘 한번에 이해 하는게 잘 없는거 같다 ㅠㅠ)
따라서 데이터의 관리를 위한 설계가 아니라 데이터를 소비 하기 위한 설계라고 보면 이해가...(내가 이해 한거 설명해서 이해 시키는게 확실히 힘들구나...)
내용은 데이터의 제공, 소비, 변환, 검색 을 위한 데이터 구성 설계에 대한 것 들이다.
5부 - 새로운 시작
데이터 메시의 도입에 관한 내용이다.
앞서 내용들을 보면 당연히 도입 하는 것이 좋은 것 처럼 보이지만 책에서는 데이터 메시를 도입하기 전에 충분히 고려 해야 할 8가지 항목을 설명하고 있다. (신기술을 적용 하는것이 늘 좋기만 한 것은 아니니까)
그리고 마지막으로 데이터 메시를 위한 조직과 문화에 대한 얘기로 마무리를 짓는다.
이번 책은 특징이 있다면 매 장 마지막에 정리하기라는 내용이 있다.
코드 한줄 없이 이론적인 내용만 다루는 책이라 죽~ 읽다가 보면 크게 기억에 남지 않는 문제가 있다.(나만 그런가?)
그래서 매 장 마지막 정리하기에 있는 요약은 책을 이해하는데 상당히 도움이 되는것 같았다.
먼저 읽고 정리하기를 봐도 괜찮고, 정리하기를 먼저 보고 앞에 내용을 읽어 보는 방법도 괜찮은 것 같았다.
마무리를 하자면...중앙집중식 데이터 관리에서 비즈니스 도메인별로 데이터를 분산하는 데이터 메시라는 새로운 패러다임? 이 등장 했고 그 패러다임에 대한 내용 설명 이라고 하면 정리가 될까 싶다.
이론에 대한 기나긴 설명만 있으면 책을 읽어 내려 가기가 힘들어 지는데 다행이 각 장 마지막 부분에 요약을 잘 해놓아서, 그나마 쉽게? 읽을 수 있었던 데이터에 대한 새로운 개념을 다룬 책이 었던 것 같다.