메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

한빛출판네트워크

한빛랩스 - 지식에 가능성을 머지하다 / 강의 콘텐츠 무료로 수강하시고 피드백을 남겨주세요. ▶︎

머신러닝을 위한 실전 데이터셋

개인 정보를 보호하고 머신러닝 학습에 사용할 합성 데이터 만들기

한빛미디어

번역서

판매중

  • 저자 : 칼리드 엘 에맘 , 루시 모스케라 , 리처드 홉트로프
  • 번역 : 심상진
  • 출간 : 2021-01-04
  • 페이지 : 172 쪽
  • ISBN : 9791162243749
  • 물류코드 :10374
  • 초급 초중급 중급 중고급 고급
4.4점 (9명)
좋아요 : 10

개인 정보 보호와 광범위한 데이터 사용의 균형을 이루다.

 

머신러닝 모델을 구축하고, 테스트를 진행하려면 크고 다양한 종류의 데이터가 필요하다. 그러나 대부분의 데이터셋은 개인 정보 문제로 사용이 제한적이라 광범위하게 사용할 수 없다. 이 책에서는 실제 데이터로 새로운 데이터를 만드는 실용적인 합성 데이터 기술을 소개한다. 합성 데이터는 이차 분석에 용이하여 데이터 연구, 고객 행동의 이해, 신제품 개발 등 다양한 목적으로 활용될 수 있다. 

 

이 책은 실제 데이터를 합성해 다양한 산업에서 사용할 수 있는 방법을 제공하며, 개인 정보 문제를 해결하는 방법을 다룬다. 또한 실제 데이터셋에서 합성 데이터를 생성하기 위한 원칙과 단계를 배운다. 더 나아가 합성 데이터가 제품이나 솔루션 개발에 드는 시간을 어떻게 단축할 수 있는지를 학습한다. 

 

  • 다변량 정규 분포를 사용해 합성 데이터 생성하기
  • 다양한 적합도 메트릭을 분포 적합하기
  • 원본 데이터의 구조를 복제하기
  • 관계가 복잡한 데이터를 모델링하기
  • 데이터 효용성을 평가하는 방식과 측정 기준 정하기
  • 실제 데이터를 분석해 합성 데이터를 복제하기
  • 합성 데이터의 개인 정보와 신원 노출을 평가하기

 

 

출판사 리뷰

 

합성 데이터는 지난 몇 년간 주목을 받으며 사회적 관심이 급속도로 증가했는데, 이러한 현상은 다음과 같은 두 가지에 관심이 쏠리면서 촉발됐다. 첫째는 인공지능과 머신러닝(AIML) 모델을 양성하고 구축하는 데 따른 대량의 데이터 수요다. 둘째는 고품질의 합성 데이터를 생성하는 효과적인 방법을 입증한 최근의 작업이다. 이로 인해 합성 데이터가 특히 AIML 커뮤니티 내에서 어려운 문제를 일부 상당히 효과적으로 해결할 수 있음을 인식하게 됐다. 따라서 NVIDIA, IBM, 알파벳과 같은 회사들만이 아니라 미국 인구조사국 같은 정부 기관도 모델 구축, 애플리케이션 개발, 데이터 배포를 지원하기 위해 다양한 유형의 데이터 합성 방법론을 채택하기에 이르렀다.

 

1장 : 합성 데이터와 그 이점이 무엇인지 설명한다. 인공지능과 머신러닝(AIML) 프로젝트는 다양한 산업에서 사용되고 있으며, 광범위한 활용 사례 중 맛보기로 몇 가지를 발췌해 수록했다.

 

2장 : 데이터 합성의 목표를 설정하고 다른 방법들에 비해 비즈니스 우선순위에 적합한 시기를 결정하는 데 도움되는 의사결정 프레임워크를 제시한다.

 

3장 : 데이터 합성 프로세스의 첫 번째 단계인 분포 모델링을 다룬다. 비정형 데이터 분포를 머신러닝 모델에 적합하는 방법을 개략적으로 설명한다.

 

4장 : 합성 데이터에 사용할 수 있는 데이터 효용성 프레임워크를 설명한다. 데이터 합성기 최적화, 데이터 합성 접근법, 합성 데이터의 결과 파악 등을 살펴본다.

 

5장 : 기본 개념을 이용해 합성 데이터를 생성해본다. 몇 가지 기본적인 접근법으로 시작해서 뒤로 갈수록 복잡한 접근법으로 발전하며 입문자용 기술부터 고급 기술까지 다룬다.

 

6장 : 먼저 데이터 합성이 보호하려는 노출 유형을 정의한다. 미국과 유럽연합의 주요 프라이버시 규정이 합성 데이터를 어떻게 다루는지 검토하고, 프라이버시 보장 분석을 시작할 방법을 제시한다.

 

7장 : 합성 데이터셋과 합성 데이터 생성 기술을 전수해온 경험을 바탕으로 실제 데이터를 처리할 때 도움될 실용적인 고려사항을 제시한다. 도전적인 과업을 강조할 뿐만 아니라 과업을 해결할 방안도 제시한다.

 

 

칼리드 엘 에맘 저자

칼리드 엘 에맘

동부 온트리오 아동 병원의 수석 과학자이자 종합 전자 건강 정보 연구소 소장으로 합성 데이터 생성 방법과 도구, 재식별 위험 측정에 대한 응용 학술 연구를 수행하고 있다. 캐나다의 오타와 의과 대학 소아청소년과 교수이기도 하다. 의료 산업에서 AIML을 적용하기 위한 합성 데이터 개발에 주력하는 회사인 Replica Analytics의 공동 설립자이자 CEO이다. 2016년부터 2019년 말까지는 IMS 헬스(현 IQVIA)에 인수된 Privacy Analytics의 설립자이며 총괄 책임자이자 사장이었다. 현재 데이터 보호 기술을 개발하고 의료 서비스 제공 및 신약 개발 지원 분석 도구를 구축하는 기술 회사에 투자하고 자문하고 있다. 1990년대 초부터 데이터 분석을 수행하여 예측 및 평가를 위한 통계 및 머신 러닝 모델을 구축했다. 2004년부터 알고리즘에 대한 기초 연구에서 응용 솔루션 개발에 이르기까지 전 세계적으로 배포된 2차 분석을 위한 데이터 공유를 용이하게 하는 기술을 개발하고 있다. 이러한 기술은 익명화, 가명화, 합성 데이터, 보안 연산 및 데이터 워터마킹의 문제를 해결했다. 다양한 개인 정보 보호 및 소프트웨어 엔지니어링 주제에 대한 여러 책을 공동 집필하고 편집했다. 2003년과 2004년에는 측정 및 품질 평가와 개선에 대한 연구를 바탕으로 Journal of Systems and Software에서 세계 최고의 시스템 및 소프트웨어 공학자로 선정되었다. 이전에는 캐나다 국립 연구 위원회의 선임 연구 책임자였다. 또한 독일의 카이저슬라우테른에 있는 프라운호퍼 연구소에서 정량적 방법 그룹의 책임자를 역임했다. 2005년부터 2015년까지 오타와 대학교에서 전자 건강 정보 분야 캐나다 연구 위원을 역임했으며, 영국 런던 대학교 킹스 칼리지 전기전자공학부에서 박사 학위를 받았다.

 

 

 

 

루시 모스케라 저자

루시 모스케라

캐나다 킹스턴에 있는 퀸즈 대학과 브리티시컬럼비아 대학에서 학업을 마쳤으며, 생물학과 수학을 전공했다. 킹스턴 종합병원의 임상 시험 및 관찰 연구에 데이터 관리 지원을 제공하고, 다양한 회사와 동형 암호화 및 비밀 공유 프로토콜을 기반으로 한 임상 시험 데이터 공유 방법을연구한 경력이 있다. 루시는 Replica Analytics의 수석 데이터 과학자로, 건강 데이터에 대한 자신의 주제 분야 전문 지식을 합성 데이터 생성, 해당 데이터의 혁신적인 평가 방법에 통합하고 회사의 분석 프로그램을 감독하는 일을 하고 있다.

리처드 홉트로프 저자

리처드 홉트로프

박사 과정에서 개발한 인공지능과 시계열 데이터 처리 기술을 기반으로 하는 기술 스타트업을 전문으로 한다. 초기 단계 개발 시의 제품 개념을 상용화하는 일, 위험과 투자 비용을 최소화해 구매할 수 있는 제품과 서비스의 개발에 주된 관심이 있다. 지난 30여 년간 예측 소프트웨어, 데이터 마이닝, 블루투스 라디오, ASIC 제작, 고정밀 스마트 워치 제조, 서비스로서의 추적 가능한 시간(Traceable Time as a Service)에서 스타트업 창업가로 활동했다.

심상진 역자

심상진

국내 IT 대기업에서 자연어 데이터 분석 및 모델러로 활동 중이다. 물리학을 전공하고, 임베딩 소프트웨어 개발, 단백질 분자 모델링 연구 및 시스템 파이프라인 구축, 기상/지리 데이터 관련 시각화 및 관리 소프트웨어 방면에서 경력을 쌓았다. 데이터 분석을 평생의 업으로 생각하고 일에 매진하고 있다. 자연어 처리가 주 업무이며, 데이터 수집 방법과 레이블링의 효율적 처리 방법을 강구하는 중이다. BERT보다 작으면서도 효율적인 구성을 가진 모델을 연구하며, 자연어를 기계어에 일대일로 대응시킬 방법을 모색하고 있다. 무엇보다 얼마 전에 태어난 아기에게 애정 어린 관심을 쏟으며 연구를 게을리하지 않으려고 노력한다.

 

 

CHAPTER 1 합성 데이터 생성 소개

1.1 합성 데이터 정의

1.2 합성 데이터의 이점

1.3 합성 데이터의 활용 사례

1.4 요약

 

CHAPTER 2 데이터 합성

2.1 합성 시기

2.2 식별화 가능성 스펙트럼

2.3 데이터 접근 활성화를 위한 PET 선택의 절충

2.4 데이터 합성 프로젝트

2.5 데이터 합성 파이프라인

2.6 합성 프로그램 관리

2.7 요약

 

CHAPTER 3 시작: 분포 적합

3.1 데이터 프레임

3.2 데이터 분포 유형

3.3 실제 데이터에 분포 적합시키기

3.4 분포로부터 합성 데이터 생성

3.5 요약

 

CHAPTER 4 합성 데이터의 효용성 평가

4.1 합성 데이터 효용성 프레임워크: 분석 복제

4.2 합성 데이터의 효용성 프레임워크: 효용성 메트릭

4.3 요약

 

CHAPTER 5 데이터 합성 방법

5.1 합성 데이터 생성 이론

5.2 실제 합성 데이터 생성

5.3 하이브리드 합성 데이터

5.4 머신러닝 방법

5.5 딥러닝 방법

5.6 시퀀스 합성

5.7 요약

 

CHAPTER 6 합성 데이터의 신원 식별

6.1 노출 유형

6.2 개인 정보 보호법이 합성 데이터의 생성과 사용에 미치는 영향

6.3 요약

 

CHAPTER 7 실제 데이터 합성

7.1 데이터 복잡성 관리

7.2 데이터 합성 구성

7.3 결론

머신러닝과 딥러닝은 데이터가 필요하다 그것도 아주 많이...

러닝이란 단어가 의미하는 바와 같이 이 둘을 학습이란 걸 통해 무언가를 해결하고자 하는 접근인데 그 학습을 위해서는 반드시 그 과제와 관련된 데이터가 동반되지 않으면 절대 원하는 결과에 근접할 수 없게 된다.


데이터의 양과 품질에 따라 모델을 통해 얻고자 하는 결과의 품질은 극명하게 달라지는데 현실세계에서 충분한 고품질의 데이터를 확보하기란 여간 어려운 것이 아니다.


이러한 현실로 인해 최근 합성 데이터에 대한 관심이 급속도로 증가하고 있는데 이는 개념적으로 합성 데이터라는 것이 실제 데이터는 아니지만 실제 데이터에서 생성되어 실제 데이터와 통계적 속성이 동일한 특성을 가지고 있기 때문에 기인한다.


"머신러닝을 위한 실전 데이터셋" 이 책은 이러한 합성 데이터에 대한 내용을 담고 있는 책이다.

이 책은 기술적인 데이터 합성 기법에 대해서는 다루지 않는다, 책의 초점은 합성 데이터의 개념과 합성시 고려해야 할 부분 그리고 여러 산업군에서의 합성 적용 사례와 합성 기법의 유형에 대한 개괄적인 내용을 담고 있다.


실질적인 구현 로직이나 방법에 대한 구체적인 내용을 기대했다면 실망스러울 수 있다. 하지만 분야의 개념과 컨셉과 같은 큰 그림을 그려보고자 한다면 이 책을 통해서 충분히 의미있는 인사이트를 얻을 수 있을 꺼라 생각한다.

 

그리고 한 뎁스 더 들어가보면 어떨까?


퀵하게 여러 방법에서의 접근을 통한 합성 데이터와 관련해서 밑그림을 그려보기에 적당한 분량의 책이 아닐까?


※ 본 리뷰는 IT 현업개발자로서 한빛미디어 리뷰어로 출판사로부터 제공받아 읽고 작성한 글입니다.

머신러닝, 인공지능 같이 데이터와 관련된 기술은 계속해서 발전하고 있습니다. 또한 그로스 해킹, 퍼포먼스 마케팅 등 다양한 영역에서 데이터를 활용하여 성과를 개선하고, 기획의 토대로 삼고 있습니다.

 

활용범위가 넓어지면서, 우리는 데이터를 통해 더 복잡하고, 더 어려운 문제를 풀고자 합니다. 학습이 불가능하다고 했던 MLP도 계속된 발전으로 알파고도 만들고, 텍스트로 컴퓨터에게 명령하는 것 등의 연구를 가능하게 했죠.

 

하지만 데이터를 활용하는 것은 개인정보, 법률, 비용, 조직문화 등 다방면의 고려가 필요합니다. 풀고자하는 문제가 복잡할 때는 그에 맞게 복잡한 데이터가 필요하고, 개인정보 등의 프라이버시 이슈를 해결해야하기도 합니다. 이럴 때 실제 데이터가 아니라 합성 데이터를 구축하여 실제 데이터의 대체제로서 활용하고자 하는 연구가 계속되고 있습니다.

 

이 책은 합성 데이터에 대해서 소개하고 있습니다. 고도화된 합성기법이나 기술에 대해서는 소개하고 있지 않지만, 실제 데이터를 활용하는데 어려움이 있어 합성 데이터에 대해 공부하고자 하는 분들에게는 좋은 책이라고 생각합니다.

 

좋았던 점은 다양한 사례를 제시한다는 점이었습니다. 우리가 데이터를 합성하는 것은 데이터를 제대로 활용하고자 함인데, 여러 분야의 산업에서는 합성 데이터가 어떻게 활용되는지, 의사결정을 할 때 분야의 특성상 고려해야할 사항은 무엇인지 등의 이야기가 있어 좋았습니다.

 

또한 실제 데이터를 통한 설명도 이해하는데 도움을 주었습니다.

 

아쉬웠던 점은 해외 서적의 번역이다보니 한국의 사례가 없다는 것이었습니다. 또한 데이터 합성에 있어 입문자들에게 많은 내용을 소개하고자 하다보니 책과 함께 추가적인 학습이 필요해보입니다.

 

실무에서 데이터를 보는 분석가나 기획자 등의 분들이 실제 데이터를 활용하는데 있어 겪는 불편함을 해결하고자 하는데 있어 데이터 합성을 고민한다면, 좋은 선택이 될 것이라고 생각합니다.

IMG_2972.jpg

 

 

본 리뷰는 한빛미디어의 "나는 리뷰어다"를 통해 도서를 제공받았고 어떠한 피드백 가이드나 

 

금전적인 지원을 받지 않았음을 알립니다.

 

본 책을 펼치면서 다음과 같은 의문점을 해결할 기대감에 찼습니다.

 

1. 합성 데이터이지만 실제 데이터 같은 특성을 가진 데이터 합성 방법

2. 합성 데이터의 평가 방법

3. 데이터 합성에 관한 이론적, 법적 대응책

 

3가지 의문점에 대해 흡족한 기분으로 책을 덮진 못했습니다.

하지만 각 사항에 대해 참고사항이 될 법한 정보를 찾긴 했습니다.

 

1. 합성 데이터이지만 실제 데이터 같은 특성을 가진 데이터 합성 방법

 

모호한 부분이 있는 의문점이긴 합니다.

<실제 데이터 같은 특성> 이라는 것이 어떻게 정의를 해야할지 부터가 

각자 처해있는 도메인과 데이터에 따라 다르다 생각합니다.

 

결국 데이터의 생성과 생성된 데이터가 잘 만들어졌는지에 대한 평가를 하기 위해서는

정량적 기준을 잡아야 자동화를 할 것이기 때문입니다.

그리고 그런 정량적 기준이 잡힌다는 것은 곧 의문점의 해결과도 동일한 의미라 생각했습니다.

 

예를 들어서, 방화벽 로그를 파싱하여 정량화 한 데이터가 있는데

각 요청들이 정상인지 악의적 요청인지를 자동으로 판단하게 하는 모델링을 하고자 합니다.

여기서 잘 만들어진 데이터 라고 한다면, 목표인 정상/악성 요청의 분류 문제를 푸는 모델링을 한다 했을 때

어떤 모델인지는 모르겠지만 이 모델의 성능 수치가 합성데이터로 학습하고 실제 데이터를 예측하게 했을 때,

일정 수치 이상만큼 나온다면 이 합성 데이터는 괜찮다~ 라고 생각할 수 도 있을 텐데요.

 

이런 계획이 잡힌다면 생성과 검증의 파이프라인을 구축하는데에는 큰 어려움은 없을 것입니다.

하지만 여러 가지 이유로 인해 정상/악성의 기준도 데이터만으로는 모호한 사항이라면

데이터의 스키마를 재정비해야하는 문제도 있겠지요.

 

"실제 데이터 같은 특성" 이란 것을 칼럼 당 분포의 유사함이라고 정의할 수 있다면

분포 추정 후, 샘플링도 한가지 방법이겠죠.

 

2. 합성 데이터의 평가 방법

 

이 부분에서 제가 얻었던 것은 정량적 평가를 위해 통계적 방법인

카이스퀘어, 콜모고로프-스미르노프(KS) 테스트가 쓰일 수 있고

KS테스트를 쓸 때엔 희소한 데이터 구간에 신경을 써야한다는 것.

 

과적합에 대응하기위해 서브샘플링 / 홀드아웃 테스트를 통해 적합도를 테스트해보는 것.

머신러닝 모델의 과적합을 방지하기 위해 training - validation 데이터셋을 통해 

overfitting 정도 및 절충점을 찾는 것과 유사하구나 느꼈던 것.

 

데이터 합성의 평가 뿐 아니라, 실용적으로는 데이터 합성 작업의 부하 또한 평가도 필요하고

대개 어떤 지표를 쓰는지, 주관적인 평가는 어떻게 접근가능한지 도 참고가 되었습니다.

 

3. 데이터 합성에 관한 이론적, 법적 대응책

 

실제 업무를 하면서 당연하게도 각 고객사의 데이터는 소중하고 개인정보를 담은 데이터는 

절대 외부로 반출되어선 안되는 상황을 접합니다.

 

이런 규정을 위반하지 않으면서도 각 고객사 별로 데이터의 특성을 잘 보존하고 생성할 수 있는 방안이 있다면

비즈니스 적으로 상당히 유의미 하다 생각했습니다.

 

 

제가 접한 상황은 데이터는 각 고객사마다 다른 분포를 가지고 각각의 특성이 있다는 것입니다.

완벽히 빈칸에 딱 들어가는 블럭조각 같은 정보는 없었지만 많은 힌트를 얻고 시도해볼만한 가치가 있는

정보를 얻었습니다.

 

데이터의 부족과 concept drift가 자주 발생하는 데이터 특성을 지니셔서

데이터 합성을 고민하시는 개발자 시라면 일독을 권합니다.

바로바로 쓸 만한 정보나 시도해볼 코드는 없지만 이런 방식을 시도해보면 좋겠다는 힌트를 얻으실 수 있으리라 생각합니다.

이 책은 머신러닝을 위한 실전 데이터셋을 제작할 수 있도록 도와준다. 

인공지능 모델을 개발하기 위해서는 첫째로 학숩용 데이터셋을 구축해야 한다.  

최근에 GDPR, HIPAA와 같은 개인정보 보호 규정으로 인해 개인 데이터를 2차 목적으로 사용할 때 법적 근거를 요구한다. 

이런 이유로 기존 데이터셋에서 합성데이터셋이 구축되어야 한다.

제조와 유통 , 헬스케어, 디지털 의료기술 ,금융서비스, 교통 산업 분야에서 다양하게 합성데이터셋의 활용이 기대된다. 

저자는 합성데이터셋의 적합성과 효용성의 기준을 제시하며, 통계적 분포에 따른 합성 방법론을 제안한다. 

 

인공지능 모델링의 성공은  양질의 데이터셋의 구축여부에 따라 성패가 달려있다. 

앞으로도 개인정보는 보호되어야 하며, 효과적인 인공지능 모델링을 위해서는 효용성있는 합성 데이터셋의 구축 기술이 요구된다. 

1독을 권한다. 

 

 

KakaoTalk_20210221_192315564.jpg

 

KakaoTalk_20210221_192259263_2.jpg

 

KakaoTalk_20210221_192242849.jpg

 

 

목차는 다음과 같다. 

목차

CHAPTER 1 합성 데이터 생성 소개

1.1 합성 데이터 정의

1.2 합성 데이터의 이점

1.3 합성 데이터의 활용 사례

1.4 요약

 

CHAPTER 2 데이터 합성

2.1 합성 시기

2.2 식별화 가능성 스펙트럼

2.3 데이터 접근 활성화를 위한 PET 선택의 절충

2.4 데이터 합성 프로젝트

2.5 데이터 합성 파이프라인

2.6 합성 프로그램 관리

2.7 요약

 

CHAPTER 3 시작: 분포 적합

3.1 데이터 프레임

3.2 데이터 분포 유형

3.3 실제 데이터에 분포 적합시키기

3.4 분포로부터 합성 데이터 생성

3.5 요약

 

CHAPTER 4 합성 데이터의 효용성 평가

4.1 합성 데이터 효용성 프레임워크: 분석 복제

4.2 합성 데이터의 효용성 프레임워크: 효용성 메트릭

4.3 요약

 

CHAPTER 5 데이터 합성 방법

5.1 합성 데이터 생성 이론

5.2 실제 합성 데이터 생성

5.3 하이브리드 합성 데이터

5.4 머신러닝 방법

5.5 딥러닝 방법

5.6 시퀀스 합성

5.7 요약

 

CHAPTER 6 합성 데이터의 신원 식별

6.1 노출 유형

6.2 개인 정보 보호법이 합성 데이터의 생성과 사용에 미치는 영향

6.3 요약

 

CHAPTER 7 실제 데이터 합성

7.1 데이터 복잡성 관리

7.2 데이터 합성 구성

7.3 결론

 

 

 

             Author: 칼리드 엘 에맘, 루시 모스케라, 리처드 홉트로프 지음 / 심상진 옮김

             출판사: 한빛미디어

             Score /5: 4

 

요즘 머신러닝 또는 인공지능 분야가 소위 '핫' 하다.

사람이 해결할 수 없는 부분을 인공지능이라는 신기술(?)을 통해서 해결할 수 있다고 언론 또는 미디어에 과장광고가 되어 있기 때문이다.

우리가 영화로 본 터미네이터의 '스카이넷'과 같은 인공지능은 강 인공지능 또는 초 인공지능이라고 해서 인간을 추월한 인공지능이며, 해당 인공지능까지는 갈 길이 멀다.

따라서 우리가 현재 활용하고 있는 인공지능은 약 인공지능이지만, 현재의 수준으로도 만족할만한 결과를 얻을 수 있고 미래가 유망한 분야가 인공지능이기도 하다.

 

하지만 인공지능 분야가 아무런 데이터 없이 마법처럼 '내가 원하는 미래의 결과를 알려주세요' 같은 것은 불가능하다.

그렇기에 인공지능이 수많은 연산으로 모델을 만들고 해당 모델로 자신이 원하는 결과를 얻게 하기 위해서는 양질의 데이터가 정말 많이 필요하다!!

즉 데이터 수집 -> 전처리 -> 모델 생성 (학습) -> 평가의 프로세스 안에서 이 책은 전처리 부분에 가까우며,  모델(쉽게 말하면 함수라고 생각하면 된다. 일차, 이차 방정식처럼)을 만들기 위한 데이터 셋을 어떤 관점으로, 어떤 프레임워크로 접근 또는 평가할 지 가이드 해주는 실무자에게 필요한 책이다.

머신러닝 또는 인공지능 분야를 공부하고자 하는 분들도 보면 좋긴 하겠지만 생각보다 깊은 내용으로 당황할 수 있다.

만약 입문자라면 '이런 이런 생각을 가지고 접근하는 구나' 정도로 이해하고 레퍼런스 삼아서 지속적으로 보는게 좋을 것 같다.

하지만, 실무자 입장에서는 굉장히 괜찮은 책이다. 약 171 페이지 안에서 실무자에게 필요한 핵심적인 내용만 간결하게 추려 놓았다.

 

나는 데이터 사이언티스트나 엔지니어가 아니지만 주변 업계에 있는 분들의 얘기로는 데이터를 가공하는게 정말로 힘들고 고단한 일이라 한다. 이 책을 기준으로 관련 실무자 분들이 좀 더 수고를 덜 수 있었으면 좋겠다.

 

[결론]

초보자: 레퍼런스 삼아 계속 볼 것. 한번에 모두 이해하려 하지 말 것

실무자: 정말 좋은 레퍼런스 책!

 

 

"데이터 합성을 위해 읽어야 할 필수 서적"

유럽의 GDPR, 미국의 CCPA, HIPAA 등 강력한 Privacy 규제 속에서 최근 합성 데이터가 각광을 받고 있으며 책 <머신러닝을 위한 실전 데이터셋>에서는 합성 데이터 활용 사례부터 합성 방법, 효용성 평가 등 데이터 합성에 대해 자세히 설명하였다. 

 

1장에서는 제조와 유통업, 헬스케어, 금융 서비스, 교통에서 합성 데이터의 활용 사례를 소개하였고 2~5장까지는 데이터를 합성하는 방법, 6장에서는 이렇게 생성된 합성 데이터에서 노출될 수 있는 유형들과 개인정보 보호법에서의 합성데이터 이슈사항들을 자세히 설명하였다. 마지막 7장에서는 실제 데이터를 처리할 때 고려사항을 제시함으로써 실무자들에게 도움이 될만한 해결 방안을 소개하였다.

 

현업에서 데이터를 분석하는 입장에서 국내 법상 왠만한 데이터는 개인정보가 아닌 데이터가 없다보니(그 정보만으로 특정 개인을 알아볼 수 없더라도, 다른 정보와 쉽게 결합하여 개인을 알아볼 수 있다면 전부 개인정보다.) 이러한 데이터 Privacy와 데이터 효용성 사이에서 균형을 이루는 최적의 지점을 찾는 것이 가장 큰 숙제인 것 같다. 개인을 식별하는 식별자를 제거할수록 개인화된 맞춤형 서비스를 제공하기 위한 분석이 점점 어려워지기 때문이다. 이러한 데이터 접근 장벽을 해결하기 위한 강력한 솔루션이 합성 데이터라고 생각한다.

 

작년 8월 국내에서도 데이터3법(개인정보 보호법, 정보통신망법, 신용정보법) 개정안이 시행되면서 마이데이터 사업자가 생겨나고 기업들간 데이터 업무 협약도 점점 활발해지는 것 같다.

해외 서적이다보니 아쉽게도 국내 개인정보 보호법에 대한 내용은 없지만 전세계 어디서든 데이터를 다루는 실무자들의 고민은 모두 똑같을 것이다. 데이터를 가공하는 데이터 엔지니어부터 데이터 애널리틱스, 데이터 사이언티스트까지 그리고 개인정보 담당자까지 데이터를 다루는 모든 이들에게 추천한다. 

이 책은 머신러닝에서 데이터 셋을 만들 때 필요한 합성 데이터의 생성과 평가, 개인정보에 미치는 영향 등 합성 데이터를 조직 내에서 구현하는 방법을 자세히 소개 하고 있다.


1장: 합성 데이터와 그 이점이 무엇인지 설명한다. 인공지능과 머신러닝(AIML) 프로젝트는 다양한 산업에서 사용되고 있으며, 광범위한 활용 사례 중 맛보기로 몇 가지를 발췌해 수록했다.


2장: 데이터 합성의 목표를 설정하고 다른 방법들에 비해 비즈니스 우선순위에 적합한 시기를 결정하는 데 도움되는 의사결정 프레임워크를 제시한다.


3장: 데이터 합성 프로세스의 첫 번째 단계인 분포 모델링을 다룬다. 비정형 데이터 분포를 머신러닝 모델에 적합하는 방법을 개략적으로 설명한다.


4장: 합성 데이터에 사용할 수 있는 데이터 효용성 프레임워크를 설명한다. 데이터 합성기 최적화, 데이터 합성 접근법, 합성 데이터의 결과 파악 등을 살펴본다.


5장: 기본 개념을 이용해 합성 데이터를 생성해본다. 몇 가지 기본적인 접근법으로 시작해서 뒤로 갈수록 복잡한 접근법으로 발전하며 입문자용 기술부터 고급 기술까지 다룬다.


6장: 먼저 데이터 합성이 보호하려는 노출 유형을 정의한다. 미국과 유럽연합의 주요 프라이버시 규정이 합성 데이터를 어떻게 다루는지 검토하고, 프라이버시 보장 분석을 시작할 방법을 제시한다.


7장: 합성 데이터셋과 합성 데이터 생성 기술을 전수해온 경험을 바탕으로 실제 데이터를 처리할 때 도움될 실용적인 고려사항을 제시한다. 도전적인 과업을 강조할 뿐만 아니라 과업을 해결할 방안도 제시한다.

 

 

머신러닝을 하려면 먼저 데이터를 수집을 해야 한다. 한국에서는 다행이 데이터 레이크 사업을 하고 있어 조금이나마 도움이 되고 있다. 하지만 RAW의 데이터만으로는 부족 하기 때문에 데이터를 합성 하여 원하는 결과 물이 나오는 데이터를 만들어야 한다. 이책에서는 데이터를 합성할때 필요한 기법들 등 여러가지 노하우를 알려주고 있어 많은 도움이 될것이라 생각이 든다.


데이터 분석을 여러 곳에서 배워보았지만, 데이터 합성을 배운 적은 없어 제게는 새로운 주제였습니다. 

당연히 어떤 방식을 사용해서 합성 데이터를 만드는 지도 알지 못했는데요.

합성 데이터를 만들기 위해서는 분포 적합이라는 과정이 필요하다고 합니다.

분포 적합을 하는 데도 여러 방법이 있더라구요.

합성 과정이 아주 어렵지는 않았지만, 또 그렇다고 아주 간단하고 단순한 작업은 아닌 것 같다고 생각했습니다. 

 

다음으로 이 책의 장단점을 간단히 말해보자면, 

장점

1. 합성 데이터의 전반적인 지식을 얻을 수 있다

합성 데이터에 관한 거의 모든 주제를 다루고 있는 것 같습니다.

합성 데이터의 개념 소개부터 합성 방법, 프레임워크 등 다양한 챕터로 구성되어 있습니다.

2. 직관적으로 이해하기 쉽다

쉽고 간단한 예시와 적절한 시각화가 들어있어 전문가가 아니더라도 책의 내용을 이해하기 쉽습니다. 

3. 짧고 간단하여 읽는데 부담이 없다

 

단점

1. 코드가 없다

합성 방법에 대한 파이썬이나 R 코드를 포함하고 있지 않습니다.

다양한 방법을 알려주고는 있지만 그에 대한 코드는 독자가 알아서 찾아야 합니다. 

2. 구체적인 지식을 위한 추가 학습이 필요할 수 있다

다양한 내용을 짧고 간단하게 다루고 있습니다. 

따라서 특정한 내용에 대해 구체적으로 더 깊이 학습하고자 할 때는 이 책 외에도 다른 공부가 필요할 것 같습니다. 


 

머신러닝을위한.jpg

< 머신러닝을 위한 실전 데이타셋 > | 칼리드 엘 에맘,루시 모스케라,리처드 홉트로프 지음 |

심상진 옮김 | 한빛미디어

 

인공지능과 머신러닝 모델을 구축하기 위해서는 대량의 데이타가 필요하다. 대량의 데이타 또한 양질의 데이타로써 활용할 가치가 있어야 한다. 이를 위해서 합성 데이타가 많은 주목과 관심을 받아 오고 있다. 대량의 데이타를 필요로 하는 NVIDIA, IBM, 알파벳 등과 같은 IT 기업뿐만 아니라 인구조사국 같은 정부 기관도 모델 구축, 애플리케이션 개발, 데이타 배포를 지원하기 위해 다양한 유형의 데이타 합성 방법론을 채택하고 있다.

 

합성데이타는 실제 데이타가 아니라 실제 데이타에서 생성되어 실제 데이타와 통계 속성이 동일한 데이타를 말한다. 따라서 분석가는 합성 데이타셋으로 작업을 해도 실제 데이타에서 얻은 분석 결과와 동일한 분석 결과를 얻을 수 있다. 합성 데이타는 두가지 방법으로 합성할 수 있다. 첫번째는 실제 데이타셋 몇개로 실제 데이타의 분포와 구조를 포착하는 모델을 구축하는 것이다. 모델이 구축되면 합성 데이타는 해당 모델에서 샘플링되거나 생성되며, 모델이 실제 데이타를 제대로 표현한다면 합성 데이타는 실제 데이타와 통계적 특성이 유사하게 된다.

 

 

두번째는 실제 데이타없이 기존 모델이나 배경지식을 이용하여 생성하는 것이다. 특히 새로 도입된 공정이거나 분석가가 그 공정을 이해하지 못하거나 과거 데이타를 사용할 수 없는 경우, 분석가는 공정에 관련된 변수 간의 분포와 상관관계를 몇 가지로 간단하게 가정하고, 이를 기반으로 합성 데이타를 생성하게 된다.

 

이러한 합성 데이타는 여러 산업에 걸쳐 다방면으로 활용되고 있다. 제조 및 유통, 헬스케어 및 금융서비스, 교통 수단등 우리가 익히 알고 있는 여러 산업에서 사용되고 있다. 실제 데이타 접근이 어려울 경우 합성 데이타는 그 어느 방법보다도 좋은 해결책을 볼 수 있다. 데이타 합성을 비롯해 데이타 접근 시 사용할 수 있는 기술로 개인 정보 보호 강화 기술(PET)이 있다. 데이타 합성은 비지니스 기준을 최적화하는 많은 상황에서 강력한 접근법이다. 데이타 식별 시 개인 정보와 비개인 정보를 식별 가능한 스펙트럼으로 식별해야 한다.

 

데이타 합성이 조직의 우선 순위에 부합하는지 평가하기 위해서는 의사결정 프레임워크를 만들고 가장 적절한 프레임워크를 선택해야 한다. 그리고 이 프레임워크에 따라 프로세스 및 파이프라인을 구현해야하며, 규모에 맞게 구현된 합성으로 프로그램을 관리할 때 실질적으로 다양한 요소를 고려해야 한다.

 

데이타 합성을 위해서는 개별 데이타 분포를 제대로 이해해야 한다. 정규분포, 베이즈 분포, 푸아송 분포, 로그 분포, 이항 분포, 연령 분포, 요인 분포 등 다양한 유형의 분포로 해석할 수 있어야 한다. 이후 실제 데이타를 분석된 분포에 적합시키고, 분포로 부터 합성 데이타를 생성할 수 있어야 한다. 이때 합성 데이타의 분포 적합성을 측정할 수 있어야 하며, 과접합된 분포가 생기는 과적합 딜레마를 파악해야 한다. 그리고 적합하지 않은 임의의 데이타를 배제하는 단계를 수행해야 한다.

 

합성 데이타를 광범위하게 사용하고 채택하게 하려면 합성 데이타가 원본 데이타의 분석 결과와 유사한 분석 결과를 낼 수 있을 만큼 효용성이 높아야 한다. 이를 위해서는 합성 데이타의 효용성 평가가 이루어져야 한다. 이 과정은 작업부하 인식 평가와 일반적인 데이타 효용성 메트릭, 그리고 데이타 효용성의 주관적 평가로 이루어진다.

 

인공지능 및 머신러닝에는 제대로 된 데이타가 필요함을 알 수 있다. 특히 개인 정보의 경우 여러가지 법적인 문제로 인해 실제 데이타를 그대로 사용할 수 있는 경우는 거의 없다고 볼 수 있다. 이런 경우 실 데이타로 부터 가공된 임의의 데이타 또는 실 상황을 반영하는 가상의 데이타를 생성하는 기술이 꼭 필요하다. 이 책을 통해 데이타가 필요한 경우 어떻게 합성 데이타를 만들어 낼 수 있는지 제대로 이해할 수 있다. 또한 만들어진 합성 데이타가 얼마나 효용성이 있는지 평가하고 개인 정보에 관련한 규제를 얼마나 충분히 반영하는지 평가하는 방법도 동시에 얻을 수 있다.

 

기반 지식없이 읽기에는 조금 어려운 느낌은 있지만 관심을 가지고 읽어 나간다면 책에서 말하고하는 핵심 개념 및 방법에 대해서 이해하는데는 문제가 없을 것 같다. 다양한 방법으로 데이타를 합성해서 이용하고자 하는 사람이라면 꼭 한번 읽어볼 필요가 있다고 생각한다.

결제하기
• 문화비 소득공제 가능
• 배송료 : 2,000원배송료란?

배송료 안내

  • 20,000원 이상 구매시 도서 배송 무료
  • 브론즈, 실버, 골드회원이 주문하신 경우 무료배송

무료배송 상품을 포함하여 주문하신 경우에는 구매금액에 관계없이 무료로 배송해 드립니다.

닫기

리뷰쓰기

닫기
* 상품명 :
머신러닝을 위한 실전 데이터셋
* 제목 :
* 별점평가
* 내용 :

* 리뷰 작성시 유의사항

글이나 이미지/사진 저작권 등 다른 사람의 권리를 침해하거나 명예를 훼손하는 게시물은 이용약관 및 관련법률에 의해 제재를 받을 수 있습니다.

1. 특히 뉴스/언론사 기사를 전문 또는 부분적으로 '허락없이' 갖고 와서는 안됩니다 (출처를 밝히는 경우에도 안됨).
2. 저작권자의 허락을 받지 않은 콘텐츠의 무단 사용은 저작권자의 권리를 침해하는 행위로, 이에 대한 법적 책임을 지게 될 수 있습니다.

오탈자 등록

닫기
* 도서명 :
머신러닝을 위한 실전 데이터셋
* 구분 :
* 상품 버전
종이책 PDF ePub
* 페이지 :
* 위치정보 :
* 내용 :

도서 인증

닫기
도서명*
머신러닝을 위한 실전 데이터셋
구입처*
구입일*
부가기호*
부가기호 안내

* 온라인 또는 오프라인 서점에서 구입한 도서를 인증하면 마일리지 500점을 드립니다.

* 도서인증은 일 3권, 월 10권, 년 50권으로 제한되며 절판도서, eBook 등 일부 도서는 인증이 제한됩니다.

* 구입하지 않고, 허위로 도서 인증을 한 것으로 판단되면 웹사이트 이용이 제한될 수 있습니다.

닫기

해당 상품을 장바구니에 담았습니다.이미 장바구니에 추가된 상품입니다.
장바구니로 이동하시겠습니까?

자료실

최근 본 상품1