머신러닝 리스크 관리 with 파이썬

joen***l2024-07-01

의사결정나무는 if-then 분기가 5단계를 넘어가면 해석하기 어려워진다. 또한, 사운드나 이미지, 비디오, 텍스트와 같은 비정형 데이터에서는 성능이 나빠지는 경향이 있다. (p.92)

주어진 데이터셋에 대해 가능한 모델이 많은 이 문제는 좋은 모델의 다중성과 라쇼몽 효과라는 두가지 이름으로 불린다. 라쇼몽 효과는 과소특정화라는 또 다른 문제와도 관련이 있는데, 초매개변수 조정과 검증 데이터 기반 모델 선택은 테스트 시나리오에서는 괜찮아 보이지만, 실제로는 실패하는 모델이 만들어지는 것을 의미한다.(p.92)

사후 설명의 단점 3가지

모델을 이해할 수 없으면 설명도 할 수 없다

머신러닝 모델은 너무 복잡해서 정확하게 요약할 수 없다

머신러닝 시스템에 관한 설명 정보를 광범위한 사용자와 이해관계자에게 전달하기 어렵다.(p.97)

해당 분야에서의 성능을 고려하면 평가 통계량의 정확한 수치보다는 가상환경에서의 성능을 실제 성능에 맞추는 것이 더 중요하다.

--- 또한 둘 이상의 측도를 사용하고 데이터의 중요한 부분 외에 훈련과 검증, 테스트 데이터 파티션 전반에서 성능 계량을 분석하는 것이 중요하다. (p.148)

훈련에서의 불안정성은 주로 적은 훈련 데이터나 훈련 데이터에서의 희박한 영역, 훈련 데이터에서 상관관계가 높은 특성, 또는 심층 단일 의사결정나무와 같이 분산이 큰 모델 형태와 관련이 있다. 교차검증은 훈련에서의 불안정성을 감지하는 대표적인 도구다(p.152)

하나의 특성 중요도가 다른 모든 특성의 중요도를 크게 압도한다면, 실제 신뢰성과 보안에 나쁜 영향을 미친다. 이 중요한 해당 특성의 분포가 변하면 모델의 성능이 떨어질 수 있다.(p.162)

NIST의 최근 연구인 "인공지능의 편향 식별 및 관리표준"에서는 편향의 대상을 구조적 편향과 통계적 편향, 인적 편향으로 구분한다.(p184)

예를 들어 4장의 편향 부문 소제목까지 살펴보자
기본적인 편향의 정의, 분류만 있는 게 아니라, 어떻게 테스트를 하고 편향을 줄일 수 있는지에 대한 지식들이 포함되어있다(관련 논문도)

4.1 ISO 및 NIST의 편향 정의

4.1.1 구조적 편향

4.1.2 통계적 편향

4.1.3 인적 편향 및 데이터과학 문화

4.2 미국의 머신러닝 편향에 대한 법적 개념

4.3 머신러닝 시스템의 편향을 경험하는 경향이 있는 사람

4.4 사람들이 경험하는 피해

4.5 편향 테스트

4.5.1 데이터 테스트

4.5.2 기존 접근방식: 동치결과 테스트

4.5.3 새로운 사고방식: 동등한 성능 품질을 위한 테스트

4.5.4 미래 전망: 광범위한 머신러닝 생태계를 위한 테스트

4.5.5 테스트 계획 요약

4.6 편향 완화

4.6.1 편향 완화를 위한 기술적 요소

4.6.2 과학적 방법과 실험설계

4.6.3 편향 완화 접근방식

4.6.4 편향 완화의 인적 요소

4.7 사례연구: 편향 버그 바운티

책 서문에 "이 책은 머신러닝이나 머신러닝 위험관리를 책임 있게 사용하는 방법을 배우려는 초중급 머신러닝 엔지니어 및 데이터과학자를 위한 기술서다." 라고 명시되어있다.

찾아보니 2023년에 과기부와 TTA에서 "신뢰할 수 있는 인공지능 개발 안내서"가 발간되었다. 체크리스트와 간략한 설명을 제공하는 데 유용해보인다. 사실 인공지능을 적용할 줄만 알지, 그것의 위험관리를 고민하는 분위기는 아직 시작되지도 않은 것 같다.

이론적 설명이지만, 어려운 용어들도 많이 등장한다. 인공지능을 어떤식으로든 적용하는 분들 모두에게 추천할만 하다. 사고나기 전에 보안을 챙기지 않았던 것처럼, 인공지능에 대한 위험도 준비를 해야할 때 이 책이 좋은 길잡이가 되어줄 것 같다.

"한빛미디어 < 나는리뷰어다 > 활동을 위해서 책을 제공받아 작성된 서평입니다."

samj***l2024-07-01

머신러닝 리스크 관리 with 파이썬

"머신러닝 리스크 관리 with 파이썬"은 단순히 모델의 성능과 정확성에만 초점을 맞추는 것이 아니라, 실제 사회에 적용될 때 발생할 수 있는 다양한 위험 요소를 심도 있게 다루는 실용적인 안내서입니다. 저자들은 인공지능 기술 발전과 더불어 윤리적 책임과 사회적 영향력에 대한 고려가 더욱 중요해졌음을 강조하며, 책임감 있고 지속 가능한 ML 시스템 구축을 위한 명확한 지침을 제시합니다.

특히 모델의 설명 가능성, 안전성, 편향 관리, 보안 및 프라이버시 문제 등 고위험 애플리케이션에서 발생 가능한 다양한 쟁점들을 제시하고, 이를 해결하기 위한 실질적인 방법론과 기술들을 자세하게 소개합니다. 또한, 실제 사례 연구를 통해 각 문제의 심각성을 보여주고, 독자들이 실무에 적용할 수 있는 통찰력을 제공합니다.

책을 통해서 얻을 수 있는 지식

이 책을 통해 다음과 같은 실질적인 지식들을 습득할 수 있습니다.

설명 가능한 모델 (Explainable Models) 학습 및 구현: 복잡한 블랙박스 모델 대신 결과에 대한 해석과 설명이 가능한 모델을 구축하고, 이를 통해 신뢰도를 높이는 방법을 배웁니다.

모델 안전성 및 신뢰성 테스트: 다양한 진단 기법들을 활용하여 모델의 안전성과 신뢰성을 평가하고, 잠재적인 위험 요소들을 사전에 예방하는 방법을 익힙니다.

데이터 편향 식별 및 완화: 데이터 수집 단계부터 모델 학습 및 평가 과정에 이르기까지 발생할 수 있는 편향을 식별하고 완화하는 기술들을 습득하고, 공정하고 윤리적인 AI 시스템 구축을 위한 기반을 다집니다.

ML 시스템 보안 강화: ML 파이프라인 및 API 보안의 중요성을 인지하고, 잠재적인 공격으로부터 시스템을 보호하는 방법을 익힙니다.

책을 읽으면 좋은 독자

이 책은 파이썬을 사용하여 머신러닝 모델을 개발하는 초급 및 중급 데이터 과학자 및 엔지니어를 주요 독자층으로 합니다. 특히 금융, 의료, 법률 등 고위험 분야에서 ML 모델을 구축하고 배포하는 실무자들에게 매우 유용한 정보들을 제공합니다.

뿐만 아니라, ML 모델의 윤리적인 측면과 사회적 영향에 관심 있는 제품 관리자, AI 기술의 책임감 있는 활용 방안에 대해 고민하는 모든 사람들에게 깊이 있는 통찰력을 제공할 것입니다.

책에 대해 느낀 점

"머신러닝 리스크 관리 with 파이썬"은 단순한 기술 서적을 넘어, AI 시대의 윤리적 책임과 사회적 영향에 대한 진지한 고민을 담고 있다는 점에서 매우 시의적절하고 인상적인 책입니다. 특히, 전문가들의 긍정적인 평가에서 알 수 있듯이 이 책은 다음과 같은 강점을 지니고 있습니다.

실용적인 조언: 추상적인 이론 제시를 넘어 모델 디버깅, 편향 분석, 설명 가능성 확보 등 실무에 바로 적용 가능한 구체적인 조언들을 제공합니다.

최신 경향 반영: AI interpretability, explainability, security 등 최신 기술 동향과 이슈들을 균형 있게 다루고 있으며, 변화하는 AI 환경에 대한 이해를 높여줍니다.

쉬운 설명: AI 분야의 비전문가도 이해하기 쉬운 언어와 풍부한 사례들을 통해 핵심 개념들을 명확하게 전달합니다.

결론

"머신러닝 리스크 관리 with 파이썬"은 단순히 "좋은" 모델을 넘어, "올바른" 모델을 구축하는 방법을 고민하는 모든 사람들이 읽어보면 좋을 책입니다. 이 책은 머신러닝 엔지니어와 데이터 과학자들이 더욱 책임감 있는 AI를 구현하고, 궁극적으로 인간에게 도움이 되는 더 나은 세상을 만드는 데 기여할 수 있도록 돕는 책이라고 생각합니다.

"한빛미디어 < 나는리뷰어다 > 활동을 위해서 책을 제공받아 작성된 서평입니다."

nanhmjj***l2024-06-24

[리뷰] 머신러닝 리스크 관리 with 파이썬

XAI, 모델 디버깅, 편향, 보안 등의 주제를 중심으로 머신러닝 리스크의 대처법을 다룬 책이다. 인공지능 위험관리 프레임워크, Python 예제, 사례연구를 통해 추상적인 내용을 구체적으로 이해시켜 준다는 점이 이 책의 백미이다.

머신러닝 시스템의 리스크에는 어떤 것들이 있을까?

머신러닝이 흔히 활용되는 분야인 의료나 자율주행 분야는 인명사고로 이어질 수 있는 분야이고 금융거래는 재산피해로 이어진다. 인종차별 편향의 경우 윤리적인 문제로 이어지며 그 외 머신러닝 시스템 자체의 보안 및 프라이버시 유출과 관련된 부분도 머신러닝 리스크로 볼 수 있다.

이 책에서 다루는 주제가 머신러닝 리스크이다. 이 유형들에 대한 정의에서 출발하여 실제 케이스를 분석해보고 실습을 통해 리스크를 최소화 할 수 있는 다양한 방법을 학습하도록 구성되어있다.

문제는 이러한 내용들이 너무 추상적인 내용이라 이해가 쉽지 않다는 점에서 출발한다. 이 책은 이 문제를 해결하고자 최대한 구체적으로 개념들을 열거하기 위한 몇가지 장치를 사용한다. 사례, 구체화 된 프레임워크의 활용, Python 실습이 해결책으로 등장하는데 이 책의 가장 큰 장점이기도 하다.

각 장 말미에는 해당 주제에 대한 구체적인 사례를 소개한다. 해당하는 하나의 구체적인 사례이기에 머신러닝 지식이 없는 사람도 흥미롭게 읽을 수 있는 부분이며 이런 구체적인 실제 생활의 사례는 추상적인 개념을 이해하는데 큰 도움이 된다.

예를 들면 1장의 “질로우 아이바잉“을 소개할 수 있다. 3년 전 즈음 미국 주식에 투자하면서 각광받던 부동산 프롭테크의 강자인 질로우의 주가가 하루사이에 급락하여 관련 주식을 검색한 기억이 있다. 부동산 종목에 큰 관심을 두지 않던 때라 자세히 알아보지는 않았지만 머신러닝 시스템의 결함때문에 회사가 큰 손실을 보았다는 기사는 꽤 흥미로운 부분이었다.

당시의 기억 덕분에 1장의 사례연구는 꽤 재미있게 읽을 수 있었다. 요약하자면 질로우 주가 급락의 원인은 아이바잉 사업때문이었다. 이는 주택을 매입 후 되팔아 시세차익으로 수익을 창출하는 사업인데 문제는 이 사업의 판단을 머신러닝 시스템에 맡겼다는 것이고 머신러닝 시스템의 부정확성 때문에 회사에 큰 빚이 생기게 된다. 손실액만큼 감가상각을 진행했고 그 액수만큼 주가에 반영되어 하락으로 이어진 것이다. 이는 머신러닝 리스크의 대표적인 사례라 할 수 있다.

두번째로 소개한 프레임워크는 NIST에서 제작한 “인공지능 위험관리 프레임워크(NIST AI RMF)”이다.

위험관리 분야 및 절차를 정의하고 설계하는 데 있어 몇 안되는 저자만의 경험만 활용한다는 것은 다소 위험한 부분이다. 보다 구체적으로 다양한 사람들의 피드백이 수렴하는 권위있는 가이드를 중심으로 저자들이 중요하다고 생각하는 문제를 서술하고 있어 믿고 볼 만한 책으로 보인다.

2024년 3월 유럽연합 의회가 인공지능법(AI Act)을 통과시킨 것을 시작으로 앞으로 전 세계적에 인공지능에 대한 규정, 규제, 규칙 등이 제정이 가속화 될 것 같다. 다양한 지침을 만족시키기 위한 측면에서도 이 책은 높은 가치를 지녔다고 생각하며 더욱이 이런 분야를 중심으로 저술된 책은 그동안 찾아보지 못했기에 그 희소성이 더욱 귀중한 책이라 하겠다.

세번째로 소개할 Python 실습 부분은 이 책의 백미라고 할 수 있다. 1부에 이론적인 내용들이 서술되어 있긴 하지만 쉽게 이해되지 않는 부분들이 많다.

추상적인 내용이 자주 등장하며 행적적인 측면의 가이드 제시의 비중이 커 구체적으로 이해하기 어려움이 있는데 2부의 실습들이 1부가 말하고자 하는 부분들을 구체적으로 소개한다. 실습을 통해 추상적인 개념들을 명확히 이해할 수 있으며 이 책에서 가장 마음에 드는 부분이기도 하다.

이 책에서 다루는 내용을 간단히 요약한 부분이 1장이다. 리스크 관리에 대한 전반적인 방안을 제시한 후 구체적인 대응책은 2장에서 부터 시작된다. 요약하자면 XAI, 모델 디버깅, 편향, 보안 측면으로 나눌 수 있다.

먼저 XAI파트는 이론은 2장에 상세하게 설명하고 실습은 6장, 7장에서 진행한다. XAI란 인공지능의 내부에 감춰진 블랙박스를 열어보려는 기법이다. XAI를 통해 인공지능을 해석해보는 과정은 모델 디버깅, 보안 등을 위한 필수적인 사전 과정이다.

LIME, SHAP, 특성의 부분종속도, 개별조건부기대 등을 소개하고 있으며 아래 그림은 각각 XGBoost 기반의 정형 데이터 분석 과정 및 비정형 이미지 데이터의 XAI 분석을 다룬 그림이다.

이어서 디버깅 파트를 소개한다. 이론은 3장에서 소개하고 실습은 마찬가지로 정형 데이터는 5장, 비정형 데이터는 9장에서 소개한다.

비정형데이터 디버깅에 있어 대립예제를 활용하는 것이 흥미롭다. 이 기법은 5장 보안파트에서 공격 수단 중 하나로 소개되는 기법이기도 하다.

디버깅 이후에는 편향 테스트에 대하여 학습한다. 이론은 4장, 실습은 10장에서 진행된다.

마지막으로 보안에 관련된 주제는 이론은 5장에서 소개하고 있고, 실습은 거의 모든장에 포함되어있다고 보면 되는데 그 중에서도 10장에서 레드팀을 구성하는 방법은 꽤 흥미로운 부분이다. 단조제약조건 위반을 통해 백도어 유무를 판별하는 방법이 신선하다.

각각의 기법을 상세하게 설명하기에는 지루한 리뷰가 될 것 같아서 내용을 구성하는 큰 그림만 간략히 소개해보았다. 원하는 기술이나 방법을 찾아보는데 도움이 될 것이다.

이처럼 이 책의 3가지 큰 장점을 살펴보았다. 무엇보다 리스크 주제를 통합적으로 다룬 책이 희귀한만큼 머신러닝 시스템 운영자 입장에서는 필독서가 아닐까 싶다. 참고로 부록에는 컬러 이미지가 수록되어 있어 색상 정보 없이 직관적으로 파악하기 힘든 일부 그림들을 가독성있게 파악하는데 도움이 될 것이다.

책소개 - 머신러닝 리스크 관리 with 파이썬

doo***l2024-06-23

성공적인 머신러닝 시스템 배포를 위한 안내서

『머신러닝 리스크 관리 with 파이썬』은 AI 모델의 위험 관리 프로세스를 제대로 이해하고 실제로 적용할 수 있는 방법을 배울 수 있는 책입니다. 설명 가능한 AI 모델을 학습하고 안전성, 편향 관리, 보안, 프라이버시 문제를 관리하는 데 필요한 최신 도구와 기법을 소개하고 있습니다. 이를 통해 독자들은 ML 시스템을 책임감 있게 운영하고, 지속 가능한 방식으로 발전시킬 수 있는 실용적인 전략을 학습할 수 있습니다.
책은 AI 기술의 채택과 관리를 위한 기존 표준, 법률적 요구사항, 평가 방법 등에 대한 기본 가이드를 제공하며, 최신의 NIST AI 위험 관리 프레임워크를 소개하여 독자들이 이러한 요소들을 어떻게 적용할 수 있는지를 안내합니다. GitHub와 Colab 같은 온라인 플랫폼을 활용하여 실제 데이터와 모델을 다루는 방법도 포함되어 있기 때문에 이론뿐만 아니라 실제 실무 능력까지도 키울 수 있습니다.

"한빛미디어 < 나는리뷰어다 > 활동을 위해서 책을 제공받아 작성된 서평입니다."

jeee***l2024-06-23

[서평] 머신러닝 리스크 관리 with 파이썬

요즘 인공지능을 많이 활용해보면서 걱정 되는 부분은 관련 법규와 잠재적 위법 요소가 빠른 속도로 바뀌면서 해당 모델이 법적으로 적합한지가 가장 많이 걱정이 되었다. 이에 대한 책을 리뷰할 수 있게 되어 감사를 표하고 읽어보면서 느낀 점을 간단하게나마 설명해보고자 한다.
목차 1부에서는 현대의 머신러닝 위험관리, 해석 및 설명 가능한 머신러닝, 안전성과 성능을 높이는 머신러닝 시스템 디버깅, 머신러닝 편향관리, 머신러닝 보안을 알려준다. 2부에서는 설명 가능한 부스팅 머신과 XGBoost 설명, 파이토치 이미지 분류기의 모델 선택 및 디버깅, XGBoost를 사용한 평향 테스트 및 개선, 레드 팀 XGBoost 관련 파트가 있다. 3부 결론에서는 고위험 머신러닝에서 어떤 방법을 써야 안전한 결과를 낳는지를 자세하게 알려준다.
각 파트의 구성은 한 뭉텅이처럼 자연스럽게 과거부터 지금까지의 역사를 시작으로 디테일하게 알려준다. 인상적인 부분은 미리 해커들을 공격을 파악해보는 레드 팀 기능이다. 모델에 데이터를 제공하고 해당 데이터의 예측 결과를 받아보는 모델 추출 공격, 데이터 입력에 접근한 다음 모델과 상호작용을 통해 개별 예측을 받는 대립예제 공격, 데이터 유출이나 탈취를 목적으로 하는 소속 추론 공격, 데이터에 접근해 망가뜨리는 데이터 오염 등 여러 공격 유형을 알아본다. 내가 보안 팀에 근무하는 것은 아니지만 이러한 공격이 있다는 것을 알고 있다는 것이 큰 도움이 될 것 같다.
파트 끝부분에 참고자료가 종종 있는데 관련 논문이나 사이트를 참조하면서 공부하는 부분이 이해가 되는 도움이 컸다.
그리고 경험으로 얻은 교훈이 있는데 이를 통해 '이러한 문제가 있을 때 해야 하는 것'을 알 수 있어서 대처할 때 시간을 많이 쓰지 않을 수 있을 것 같아 개인적으로 마음에 들었다.

부록에는 파트 중간중간에 시각화를 해놓은 그림이 실려있어서 따로 시각화를 해볼 시간을 줄일 수 있어서 좋았다.

머신러닝을 비즈니스에 적용하면서 어떠한 부분을 조심해야하는지 알고 싶은 분들에게 추천해주고 싶다.

"한빛미디어 < 나는리뷰어다 > 활동을 위해서 책을 제공받아 작성된 서평입니다."

#한빛미디어 #머신러닝 #인공지능 #AI리스크 #패트릭홀 #제임스커티스 #파룰판데이

cepil***l2024-06-23

머신러닝을 한 다면 꼭봐야 할 책

머신러닝을 공부를 하거나 실제 직종에 있는 사람들에게는 필독서라고 생각이 듭니다. 모델을 만들면서 느꼈던 데이터 수집 및 정제, 모델에 리스크를 어떻게 해결할 것인지 이책에서는 모델의 위험관리와 보안 등 신뢰할 수 있는 안전한 머신러닝을 개발하기 위한 방법을 알 수 있습니다.

ksh***l2024-06-23

우리 회사의 머신러닝 모델을 강하게 안전하게

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

패트릭 홀, 제임스 커티스, 파룰 판데이 지음 / 윤덕상, 이상만, 김경환, 김광훈, 장기식 옮김
최근 2024년 3월 8일, 유럽연합 의회에서 인공지능 기술을 안전하고 윤리적으로 사용할 수 있도록 하는 규제법안인 인공지능법을 승인했습니다. 대표적으로 자율주행의 경우에는 자칫 잘못된 결정을 한 경우에 사람의 생명까지 위협할 만큼 위험합니다. 또한 생명을 다루는 의료 분야(진단, 신약개발 등)에서도 활발히 인공지능을 개발되고 있습니다. 이처럼, 우리 삶 속에서의 인공지능이 미칠 수 있는 영역은 확대되고 있습니다. 확대가 됨에 따라, 올바르고 안전하게 사용할 수 있도록 다양한 규제 등이 강화될 것으로 보입니다. 모델을 만들고 활용하는 입장에서 어떻게 올바르게 리스크 관리를 할 것인가에 대한 내용을 다룬 책입니다.
1. 대상 독자 및 설명
이 책은 현업에서 머신러닝, 딥러닝을 활용하여 모델을 만드시는 분에게 도움이 될 수 있을 것 같습니다. 당연하게도 큰 기업에서는 이 책에서 말하는 문제 등에 대해 이미 대비가 되어 있는 경우가 많을 것 같습니다만 저처럼 회사에서 이제 막 머신러닝을 적용하려고 하는 분들에게 더 적합할 것 같습니다. 이 책이 서비스에서 활용되는 모델을 어떻게 관리하면 좋을 지에 대해 인사이트를 제공해 줄 것입니다. 보통 머신러닝 관련 책들은 모델링 관점에서 서술한 책이 주로 많은데, 이 책은 보안관점에서 자세하게 설명하고 있어서 좋았습니다. 기본적으로 이 책에서는 강화학습, 추천시스템처럼 널리 사용되지 않는 모델보다는 지도학습을 기반으로 모든 내용을 설명하고 있습니다.
책은 크게 3개의 파트로 나뉘어져 있습니다.
Part 1 : 인공지능 위험관리의 이론과 실제 적용 사례
1장 : 현대의 머신러닝 위험관리
2장 : 해석 및 설명 가능한 머신러닝
3장 : 안정성과 성능을 높이는 머신러닝 시스템 디버깅
4장 : 머신러닝 편향관리
5장 : 머신러닝 보안
Part 2 : 인공지능 위험관리 실행하기
6장 : 설명 가능한 부스팅 머신과 XGBoost 설명
7장 : 파이토치 이미지 분류기
8장 : XGBoost 모델 선택 및 디버깅
9장 : 파이토치 이미지 분류기 디버깅
10장 : XGBoost를 사용한 편향 테스트 및 개선
11장 : 레드 팀 XGBoost
Part 3 : 결론
12장 : 고위험 머신러닝에서 성공하는 방법

2. 본문에 관하여

아무래도 이미 모델링을 하고 있는 분들을 대상으로 작성한 책이다 보니, 쉽게 읽히는 책은 아니었습니다. 만약, 처음 머신러닝을 접하시는 분이라면, 조금은 어렵다고 느낄 수 있을 것 같습니다. 기존 용어에 익숙하시다면, 쉽게 읽을 수 있겠지만, 아직 용어에 익숙하지 않다면, 시간이 꽤 걸릴 것 같습니다. 용어측면에서 번역을 해서 넣기는 했지만, 영어로 된 용어도 같이 작성해 줘서 영어 용어가 익숙한 저에게는 좋았습니다. 아무래도 전문적인 용어가 많이 있다 보니, 모든 용어를 세밀하게 첨부하기 어려운 점에서 현업하고 계신 분에게 적절할 것 같습니다.
이 책에서는 위에서 말씀드린 것처럼 생각보다 인사이트를 얻을 만한 요소가 많이 들어있습니다. 저의 경우에는 현업에서 머신러닝을 통해 예측하는 작업을 주로 진행하게 되는데, 기본적인 importance 외에도 SHAP 등과 같은 방법으로도 Feature들의 중요도를 알 수 있다는 점, 데이터 품질에 대해서 어떤 문제가 있을 때, 일반적인 증상과 해결방법을 알 수 있었습니다. 이러한 인사이트를 바탕으로 현재 우리의 상태에 대해 진단하고 데이터 품질을 올려야할 것인지에 대한 판단을 할 수 있습니다.

또한 모델링 이후 디버깅을 통해, 다양한 테스트와 논리적 오류, 부정확성, 보안 취약점을 찾는데 활용에 대한 디테일한 내용을 알 수 있었습니다.
3. 마무리하며
현업에서 우리 조직이 잘 해내고 있는 지를 체크할 수 있는 좋은 책이라고 생각합니다. 사실 머신러닝, 딥러닝은 모델링에 치우쳐서 얼마나 좋은 예측력을 내느냐에 집중하게 되는데, 실제 서비스 단에서 좋은 성능을 보이지 못하고 취약점이 발견되었을 때 더 큰 문제를 야기시킬 수 있습니다. 큰 기업에서는 이 책에 있는 것들을 잘 검증하고 있는 지를 체크해볼 수 있고, 초기 스타트업(모델링 단계)에서는 모델링 과정 및 배포 과정 등에 프로세스를 추가해 볼 만한 요소가 많은 책입니다. 고위험 머신러닝인 경우에는 특히나 이 책을 통해서 보완해야 하는 부분들을 체크해 볼 필요가 있습니다.

minjae***l2024-06-23

머신러닝 리스크 관리 with 파이썬

한빛미디어 서평단 <나는리뷰어다> 활동을 위해서 책을 제공 받아 작성된 서평입니다.

인공지능 기술은 하루가 멀다하고 나날이 발전하고 있습니다. 어느덧 인공지능이 인간의 수준에 준하는 성능을 갖추게 되면서 새로운 연구분야가 떠오르고 있습니다. 바로 AI Safety입니다. 작동 원리를 명확하게 파악할 수 없는 인공지능이 무서울 정도로 놀라운 성능을 보여주다보니 근거 없는 루머도 계속해서 퍼지고 있습니다. 하지만 그와 별개로 안전한 인공지능 연구는 분명히 필요합니다. 이 책은 그 필요성을 바탕으로 안전한 AI를 개발하고 배포하기 위한 방법에 대해 다룹니다.

인공지능 위험관리의 이론과 실제 적용 사례라는 제목으로 시작하는 1부에서는 인공지능 규제에 대한 현황을 소개하고 해석 및 설명 가능한 머신러닝, 이른바 XAI에 대해 다룹니다. 그리고 인공지능의 안전성을 높이기 위한 방법을 소개합니다. 이후 여러 장에 걸쳐 인공지능에 편향이 생기지 않도록 하는 방법, 보안을 유지하는 방법 등을 소개합니다.

이어이즌 2부에서는 인공지능 위험관리 실행하기라는 제목으로 설명 가능한 인공지능을 구현하는 방법에 대해 실제 코드를 바탕으로 설명합니다. 마지막 3부에서는 이론적인 부분에서 고위험 머신러닝을 다루는 방법을 정리하며 모든 내용이 마무리됩니다.

앞서 언급했듯 AI 안전과 윤리는 현재 전세계의 AI 연구자와 실무자의 관심을 끌고 있는 주제 중 하나입니다. 인공지능은 이제 삶의 모든 영역에 파고들고 있습니다. 그럼에도 불구하고 아직까지 인공지능에 대한 두려움은 좀처럼 사라지지 않고, AI에 대해 잘 모르는 사람들은 어딘가 찝찝한 부분을 지울 수 없어 합니다. 이런 상황에서, AI 대중화를 위해서는 안전하고 결과가 납득 가능한 AI를 잘 알고 있는 것이 필수적입니다. 이 책은 안전한 AI를 개발하고 배포하기 위한 모든 사람에게 교과서가 될 것입니다.

dbdlsg***l2024-06-21

머신러닝 분석가 및 MLops 엔지니어에게 추천합니다

작년 부터 다짐한 것은 '분석가'가 아닌 '엔지니어'의 길로 조금은 틀어봐야겠다 라는 생각으로 공부를 하고 있는 중이다.

그러던 중 회사 업무가 ML 업무가 주어진 적도 있었고, 현재는 MLops 파이프라인 구축을 진행할 예정이다. 이러한 상황에서 해당 도서는 생각보다 많은 도움이 되었다.

단순히 모델러들의 입장에서도 더 좋은 더 robust한 모델을 만들기 위해 도움이 되겠지만, MLops 구축하는 분들에게도 도움이 될만한 책이라고 보여진다.

우선, 목차 부터 확인해보자.

[1부_ 인공지능 위험관리의 이론과 실제 적용 사례]
1장 현대의 머신러닝 위험관리
2장 해석 및 설명 가능한 머신러닝
3장 안전성과 성능을 높이는 머신러닝 시스템 디버깅
4장 머신러닝 편향관리
5장 머신러닝 보안
[2부_ 인공지능 위험관리 실행하기]
6장 설명 가능한 부스팅 머신과 XGBoost 설명
7장 파이토치 이미지 분류기
8장 XGBoost 모델 선택 및 디버깅
9장 파이토치 이미지 분류기 디버깅
10장 XGBoost를 사용한 편향 테스트 및 개선
11장 레드 팀 XGBoost
[3부_ 결론]
12장 고위험 머신러닝에서 성공하는 방법

세부 목차는 생략했다. 목차만 보아도 알겠지만 일반적인 머신러닝 도서들과는 확실히 다르게 '리스크' 관점에서 서술된게 보인다.

책을 처음 접했을 때 가장 먼저 들었던 생각은 확실히 현업에서 근무를 오래하신 분이 저술한 책이구나 였다.

많은 공학도들이 간과하는 법적인 부분 부터 첫 글이 시작되었다. 해당 부분을 보면서 필자의 법적 이슈로 인한 고충이 느껴지는 부분이 많았다.

추가로 ML 리스크 관리에서 개략적으로 체크해야할 리스트를 안내해주는 부분이 있다.

1. 기본 정보
- 개발자 및 이해 관계자 이름
- 현재 날짜 및 개정표
- 모델 시스템 요약 비즈니스 또는 가치 정당화 Įvalue justification
- 사용 목적 및 대상 사용자 잠재적 피해 및 윤리적 고려 사항
2. 개발 데이터 정보
- 개발 데이터 출처
- 데이터 사전
- 프라이버시 영향 평가
- 가정 및 제한 사항
- 데이터 전처리 에 사용할 소프트웨어 구현
3. 모델 정보
- 동료 검토 참조 가 포함 된 학습 알고리즘 설명
- 모델 사양
- 성능 품질
- 가정 및 제한 사항
4. 테스트 정보
- 품질 테스트 및 수정
- 판별 테스트 및 수정
- 보안 테스트 및 수정
- 가정 및 제한 사항 테스트 에 사용할 소프트웨어 구현
5. 배포 정보
- 모니터링 계획 및 메커니즘 상위 및 하위 종속성
- 이의 제기 및 재정 의 계획 및 메커니즘
- 감사 계획 및 메커니즘
- 변경 관리 계획
- 사고 대응 계획

해당 부분을 기반으로 체크하며 리스크 관리를 추가적으로 할 수 있을 것 같았다.

추가로 단순히 MLops에 치우친 내용만 존재하는 것은 아니었다.

잔차에 관한 내용을 다루는 부분이 있는데 해당 부분에서 '잔차 국소 기여도' 에 대한 설명이 나온다.

해당 파트에서 유익했던 부분은 변수에 대한 의존도를 보는 부분이었는데 보통 모델링 후 변수 중요도에 대한 나래비를 세워 어떠한 변수가 해당 모델에서 중요한지 보는데 반대로 표본으로 추정한 예측값과 실제값의 차이인 잔차의 중요도를 같이 보는 부분이었다.

결론적으로는 1개의 변수에 너무 의존적이면 모델에 대한 신뢰도가 떨어질 수 있다는 의견이었다.

하여, 단일 변수에 의존적인 모델이 아닌 고루 의존적인 모델을 개발하는 방법도 고려하면 좋을 것 같다는 의견이었다.

모델링 측면으로도 좋은 의견이 있어 해당 도서는 엔지니어 뿐만 아니라 분석가에게도 너무 좋은 도서인 것 같았다.

haram***l2024-06-21

머신러닝 리스크 관리 with 파이썬 - 올바른 인공지능 활용을 위한 필독서 -

머신러닝 리스크 관리 with 파이썬
- 올바른 인공지능 활용을 위한 필독서 -

요즘 우리는 주변에서 AI를 아주 쉽게 접할 수 있습니다. 특히 최근에는 발표된 삼성의 AI 스마트폰, 애플도 OpenAI와 손잡고 시리를 업그레이드해서 아이폰 15pro부터 인공지능을 사용할 수 있게 업데이트를 준비중이죠.
AI가 우리 생활과 가까워짐에 따라서 AI의 문제점이나 위협을 걱정하는 목소리도 높아지고 있는데요.
기업에서는 인공지능을 활용함에 있어서 인공지능이 거짓말을 하는 것(할루시네이션)에 대한 우려가 높아졌습니다.
복잡한 머신러닝 알고리즘이나 딥러닝 모델들은 아주 복잡한 연산이 내부적으로 이루어지기 때문에 어떤 원리로 그런 결과가 나왔는지 알 수 없습니다. 기업의 경우 어떤 원리로 그런 결과가 나왔는지를 알아야 투자가 가능한데 인공지능이 어떤 원리로 그런 답을 내놓았는지 알 수 없으니 인공지능을 신뢰하기가 어렵죠.

그래서 최근에 중요하게 떠오르고 있는 주제가 설명 가능한 인공지능 입니다.
원리를 알 수 없던 블랙박스와 같던 머신러닝, 딥러닝 결과를 최대한 사람이 이해할 수 있도록 중간 단계를 보여주는 것입니다.

오늘 소개할 책 "머신러닝 리스크 관리 with 파이썬"은 설명가능한 인공지능 에 대한 전문서입니다.
AI 도입이 아직 느린 편인 우리나라에서는 아직 논의가 적지만, AI선진국인 미국의 경우 이미 법제화가 되어 있고, 유럽도 최근 인공지능 사용에 관한 법이 통과되었습니다. 우리나라도 곧 인공지능 사용에 대한 규정이 생길 것이라고 생각되는데요. 이 책을 통해서 미리 외국에서는 어떤 법이 통과 되었고, 어떤 식으로 설명가능한 인공지능을 구현하고, 인공지능 서비스에서의 보안 문제는 무엇인가에 대해서 자세히 알 수 있어 미리 공부해두면 아주 좋겠다는 생각이 듭니다.

1. 누가 읽어야 하나요?
이 책은 빅데이터/인공지능을 이미 공부했고 실무에서 활용하고 있는 분들이 읽기 좋은 책입니다. 앞으로 우리나라에서도 점점 더 설명가능한 인공지능에 대한 수요가 늘어날 것이고, 법제화도 추진될 것이기 때문에 미리 공부해두는 것이 좋다고 생각합니다.

2. 주요 내용과 특징
part1. 인공지능 위험관리의 이론과 실제 적용 사례
part1 에서는 인공지능을 사용하면서 발생할 수 있는 위험요소에 대해서 소개하고 미국과 유럽의 인공지능 사용에 대한 법제화 그리고 설명가능한 인공지능, 모델의 편향문제, 보안문제에 대해서 자세히 소개하고 있습니다.

우리나라에서는 아직 인공지능이 많이 도입되지 않아서 법적 분쟁이 발생하지 않고 있지만 점차적으로 인공지능이 도입되고 적극적으로 활용되기 시작하면 인공지능 모델의 편향이나 부족한 성능 때문에 발생하는 불합리한 사례들이 많아질 것입니다. 이를 이미 인공지능을 광범위하게 사용하고 있는 미국의 예를 통해서 미리 보고 우리나라에 어떻게 적용할지 생각해 볼 수 있다는 점에서 아주 좋았습니다.
설명 가능한 모델은 요즘 인공지능에서 자주 거론되는 화두입니다. 그동안은 인공지능이 가져다주는 신기함에 매료되어있어서 어떤 과정을 통해서 그런 결과가 나왔는지는 조금 등한시 되었었는데요. 최근에 chatGPT가 강력한 성능을 보여주면서 많이 활용되기 시작했고, 그와 동시에 할루시에이션 문제(인공지능이 거짓말을 진짜인 것 처럼 하는 경우)가 공론화되기 시작했습니다. 그래서 요즘에는 최대한 할루시에이션을 억제하고 블랙박스와 같던 인공지능 모델을 설명 가능하도록 하는것이 매우 중요해졌습니다. "머신러닝 리스크 관리 with 파이썬"에서는 이런 문제에 대해서 자세히 다루고 있습니다. 또한 그와 더불어 모델의 편향이 가져오는 불합리한 차별을 소개하고 편향을 어떻게 측정하고 바로 잡을 수 있는지 자세히 소개합니다. 마지막으로 인공지능 모델을 서비스 하는 단계에서 어떻게 보안 공격을 당할 수 있는지와 그 해결 방법도 소개하고 있습니다.

part2. 인공지능 위험관리 실행하기
파트 2에서는 설명 가능한 모델에 대해서 실제 데이터를 분석하면서 자세히 소개합니다.
머신러닝은 대만 신용 데이터를 최근 가장 많이 활용되고 있는 부스팅 모델인 XGBoost 를 사용해 분석합니다. 6장에서는 부스팅모델을 설명가능하도록 한 최근 연구결과와 그것을 구현한 마이크로소프트의 패키지를 이용해 설명가능한 부스팅 모델을 구현하고 있습니다. 그리고 복잡한 부스팅 모델이 아닌 의사결정 나무를 이용해서 어떻게 대리모델을 만들고 설명할 수 있는지도 소개하고 있습니다. 8장에서는 XGBoost 모델을 어떻게 선택하고 디버깅 할 것인가에 대해서 소개하고, 10장에서는 XGBoost를 사용한 편향 텟트 및 편향 개선을 어떻게 해야 하는지 자세히 소개합니다.

딥러닝은 엑스레이 이미지 데이터를 파이토치로 분석합니다. 7장에서는 파이토치로 이미지를 분석하며 어떻게 설명가능한 모델을 만들 수 있는지를 설명합니다. 9장에서는 파이토치 이미지 분류기 디버깅을 어떻게 할 수 있는지를 소개하고 있습니다.

11장에서는 머신러닝 서비스시 일어날 수 있는 여러가지 보안 문제에 대해서 소개하고 다양한 공격 패턴에 대해서 어떻게 해결할 수 있는지 소개합니다.

part3은 part1, 2의 내용을 마무리하는 부분입니다.
이 파트에서는 인공지능을 과신하던 초기에 어떤 실수를 저질렀으며 그것을 어떻게 해결해야 할지에 대한 방향을 제시합니다.

3. 마무리
"머신러닝 리스크 관리 with 파이썬"을 한마디로 정의하자면 올바른 인공지능 모델 개발과 안전한 서비스를 위한 가이드 라고 할 수 있습니다. 설명가능한 인공지능, 모델의 편향을 판단하고 어떻게 수정해야할지, 그리고 인공지능 모델을 서비스할 때 발생할 수 있는 보안 문제를 어떻게 해결해야 할지에 대해서 자세히 설명합니다.
마이크로소프트, 오픈AI, 메타, 아마존, 구글, 애플까지 세계적인 IT 기업들은 모두 인공지능 개발에 박차를 가하고 있고 하루가 다르게 더 성능이 뛰어난 모델과 서비스가 출시되고 있습니다.
앞으로 우리 생활에 더 많은 영향을 끼치게 될 것인데요. 인공지능을 올바르게 사용하기 위해서 꼭 필요한 내용을 "머신러닝 리스크 관리 with 파이썬"을 통해서 공부할 수 있습니다.

"머신러닝 리스크 관리 with 파이썬"은
인공지능을 공부하고 있거나 현업에서 인공지능을 활용한 서비스를 만드는 분들 연구자 분들 모두 꼭 읽어야 할 필독서라고 생각하고 추천합니다.

"한빛미디어 < 나는리뷰어다 > 활동을 위해서 책을 제공받아 작성된 서평입니다."

sigma***l2024-06-20

머신러닝 리스크 관리에 대해 살펴 본 시간..

최근 회사 신입 사원 면접을 AI 로 진행하는 경우를 흔하게 볼 수 있고, 의료 분야에서는 진단 예측은 물론 맞춤형 치료에 AI 기술이 적용되고 있다. 이러한 AI 기술은 금융 분야(사기 탐지 신용평가), 자율 주행, 물류, 고객 서비스 챗봇, 품질 관리등 다양한 분야에 적용되는등 최근 몇 년 동안 놀라운 속도로 발전과 혁신을 가져오고 있다. 이러한 인공지능(AI) 기술의 급속한 발전은 사회 전반에 걸쳐 많은 혜택을 가져왔지만, 동시에 여러 가지 리스크와 윤리적 문제를 야기하고 있다. 특히 금융, 의료, 자율주행 자동차와 같은 고위험 애플리케이션에서의 AI 사용은 잠재적인 위험을 증가시키며, 이에 대한 적절한 관리와 규제에 대한 목소리가 높아지고 있으며, 규제가 필수적이라고 인식되고 있다.[24년 3월 최근 유럽연합이 인공지능법(AI Act)을 제정한 것은 이러한 맥락]

이 책은 머신러닝 모델의 위험 관리에 대한 실무 가이드를 제공한다. 머신러닝 모델이 의사 결정에 중요한 역할을 하는 경우가 늘어나면서 모델의 오용이나 악용으로 인한 위험이 증가하고 있는데, 이 책은 이러한 위험을 완화하기 위한 다양한 방법을 제시한다.

책은 크게 3부로 구성되어 있다.

1부 : 인공지능 위험관리의 이론과 실제 적용 사례
1장: 현대의 머신러닝 위험관리 이 장에서는 현대 머신러닝의 법률, 규제, 사고 사례, 문화적 역량, 조직 프로세스를 다룬다. 질로우 아이바잉 사례 연구를 통해 실제 발생한 문제점과 해결 방안을 살펴본다. 머신러닝 시스템에서 발생할 수 있는 다양한 리스크와 이를 관리하기 위한 체계적인 접근 방식을 이해할 수 있다.
2장: 해석 및 설명 가능한 머신러닝 모델 해석의 중요성을 강조하고, 설명 가능한 모델과 사후 설명 기법을 소개한다. 알고리즘 채점 사례 연구를 통해 설명 가능한 모델의 실무적 활용 방안을 제시한다. 특히, 모델의 투명성과 이해 가능성은 신뢰 구축에 필수적이다.
3장: 안전성과 성능을 높이는 머신러닝 시스템 디버깅 훈련, 모델 디버깅, 배포 단계별 디버깅 과정을 설명하고, 자율주행차 사망 사고 사례 연구를 통해 디버깅의 중요성을 강조한다. 모델의 성능을 최적화하고 안전성을 보장하기 위해 디버깅이 필수적임을 알 수 있다.
4장: 머신러닝 편향관리 편향의 개념, 관련 법률, 피해, 테스트, 완화 방안을 다룬다. 편향 버그 바운티 사례 연구를 통해 실제 편향 문제 해결 사례를 살펴본다. 편향 문제는 머신러닝의 공정성과 관련된 중요한 이슈로, 이를 적절히 관리하는 방법을 배운다.
5장: 머신러닝 보안 보안 기초, 공격 유형, 일반적인 보안 문제, 대응책을 다룬다. 실제 우회 공격 사례 연구를 통해 보안 취약점을 파악하고 해결하는 방법을 제시한다. 머신러닝 시스템의 보안은 데이터와 모델의 신뢰성을 유지하기 위해 필수적이다.

2부: 인공지능 위험관리 실행하기
6장: 설명 가능한 부스팅 머신과 XGBoost 설명 부스팅 머신과 XGBoost를 활용한 설명 가능한 모델 구축 방법을 단계별로 안내한다. 설명 가능한 모델을 구축함으로써 모델의 투명성을 높일 수 있다.
7장: 파이토치 이미지 분류기 흉부 엑스레이 이미지 분류 사례를 통해 파이토치 이미지 분류 모델 구축 및 설명 방법을 설명한다. 실제 의료 데이터를 사용하여 모델을 구축하고 해석하는 방법을 배운다.
8장: XGBoost 모델 선택 및 디버깅 XGBoost 모델 선택 및 디버깅 방법을 단계별로 안내하고, 민감도 분석, 잔차 분석 등을 활용한 모델 개선 방안을 제시한다. 모델의 성능을 최적화하기 위한 다양한 디버깅 기법을 소개한다.
9장: 파이토치 이미지 분류기 디버깅 파이토치 이미지 분류 모델 디버깅 방법을 단계별로 안내한다. 모델의 성능을 높이기 위해 디버깅 과정이 얼마나 중요한지 알 수 있다.
10장: XGBoost를 사용한 편향 테스트 및 개선 XGBoost 모델의 편향 평가 및 개선 방법을 단계별로 안내한다. 모델의 공정성을 확보하기 위한 다양한 방법을 제시한다.
11장: 레드 팀 XGBoost 레드 팀 공격 시나리오를 활용한 XGBoost 모델 공격 및 방어 방법을 설명한다. 실제 공격 시나리오를 통해 보안 취약점을 파악하고 이를 방어하는 방법을 학습한다.

3부: 결론
12장: 고위험 머신러닝에서 성공하는 방법 고위험 ML 프로젝트 참여 시 고려해야 할 사항, 과학적 접근 방식, 결과 평가, 외부 표준 적용, 상식적 위험 완화 전략 등을 다룬다. 고위험 프로젝트를 성공적으로 수행하기 위한 다양한 전략을 제공한다.

장점 :
실용적인 가이드: 모델 배포, 위험 관리, 설명 가능성, 안정성, 안전성, 편향 관리, 보안, 프라이버시 등 다양한 주제에 대한 실용적인 지침을 제공한다.
다양한 도구 및 기법: 모델 위험을 평가하고 완화하는 데 도움이 되는 다양한 도구와 기법을 소개한다.
코드 예시: Python 코드 예시를 통해 모델 거버넌스 및 위험 관리 개념을 실제로 적용하는 방법을 보여준다.
폭넓은 대상: 머신러닝 엔지니어, 데이터 과학자, 규제 기관, 정책 전문가 등 다양한 독자에게 유용하다.

아쉬운 점 :
강화 학습, 생성 AI, GPT 모델과 같은 최신 머신러닝 기술에 대한 소개 부재
실무 경험이 적은 독자들이 이론적인 개념을 더 쉽게 이해할 수 있는 예시와 설명

'머신러닝 리스크 관리 with 파이썬'은 ML 모델 개발 및 활용 과정에서 발생하는 다양한 위험 요소를 이해하고, 이를 해결하기 위한 실용적인 방법을 제공하는 유용한 도서이다. 특히, 실무 경험을 바탕으로 구체적인 사례와 코드 예시를 제시하는 부분은 이 책의 큰 장점이다.
ML 모델 개발 및 활용에 관심 있는 전문가와 ML 위험 관리 분야에 대한 실무 지식을 쌓고 싶은 사람들에게 유용하게 활용될 수 있을 것으로 생각된다.

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

moonlight***l2024-06-17

머신러닝 리스크 관리 with 파이썬

이 책은 이런 책이에요

요즘은 산업/사회 전반적으로 Machine Learning / Deep Learning이 사용되지 않는 곳을 찾기가 어려워졌습니다.
다양한 분야에서 인간의 결정에 조금씩 도움을 줍니다.
물론 그 결정이 그리 큰 위험이 없는 분야일 수도 있지만, 어떤 경우에는 그 결정이 큰 영향을 끼치는 고위험인 경우도 있습니다.
Machine Learning Model이 이와 같은 고위험 결정을 하고 있기 때문에 최근들어서 Model 그 자체의 위험성도 서서히 드러나고 있는 실정입니다.

Machine Learning Model이 중요한 결정을 하는 일이 늘어나다 보니, 의도하지 않은 오용 혹은 의도적인 남용으로 인한 사고 사례가 속출하고 있습니다.
이러한 분위기 속에서 Machine Learning의 진정한 이점을 활용하려면 실무자의 조치가 필수적이 되었습니다만, 널리 인정받는 전문 자격증이나 모범 사례가 많이 부족한 상황입니다.

이 책은 이러한 전반적인 분위기 속에서 Model을 배포할 때 좋든 나쁘든 결과에 대한 책임에 대한 실무적인 가이드를 제공하기 위해서 기획되었습니다.
Model의 위험 관리 절차를 제대로 이해하고, 일반적인 도구를 사용해 설명가능한 Model을 제시하고, 안정성/안전성/편향관리/보안/프라이버시 등과 같은 일반적인 보안 이슈를 디버깅하고 개선하는 다양한 방법을 제시해 줍니다.

이런 분들에게 추천드려요

Machine Learning Model 배포 혹은 Machine Learning 위험 관리를 다루어야 하는 Machine Learning 엔지니어 및 Data Scientist에게 유용할 것입니다.
또한, Python Code Example을 통해서 모델 거버넌스의 기본 사항을 배우고, Workflow를 개선하여 기본적인 위험 통제 방법을 소개하기 때문에 이와 관련된 업무를 담당하고 있는 분들에게도 유용한 책입니다.

특히, Machine Learning의 자동화된 의사결정에서 발생할 수 있는 의도하지 않는 결과에 대한 우려를 가지고 있는 사람들에게도 도움이 되고, 법률이나 규정을 준수 및 관리해야 하는 규제 기관이나 정책 전문가들에게도 큰 도움이 될 것입니다.

이렇게 구성되어 있어요

이 책은 전체적으로 Machine Learning Workflow와 전통적인 모델 위험 관리나 사고 대응, 버그 바운티, 레드 팀과 같은 기존 컴퓨터 보안 모범 사례를 Machine Learning Model에 결합하여 실전 검증된 위험 통제를 적용하는 전반적인 방법을 설명합니다.
설명 가능한 여러 모델을 더 투명하게 확인하는 방법과, 모델의 안전성과 신뢰성을 테스트하고, 편향 관리를 위한 모델 구조화 방법도 제시하고, 마지막으로 Machine Learning Pipeline과 API 보안 설정을 설명하는 구성으로 되어 있습니다.

이런 점이 아쉬워요

용어의 번역이 조금 낯설고 이질적으로 느껴졌습니다. 물론 Machine Learning 리스크 관리라는 분야가 생소하다 보니 관련 용어도 조금 어려울 수도 있지만, 가끔씩 억지로 번역하지 말고 원래 단어를 그대로 적어주는 것이 더 이해하기 쉽지 않았을까 하는 부분들도 있었습니다.
그리고, 이론적으로 추상적인 개념들이 많아서 이해에 어려움이 좀 있을 수 있습니다. 예제 코드가 같이 제공된다고는 하지만 여전히 쉽게 다가가기 힘든 부분이 있습니다. 앞서 말했듯이, 이런 분야가 많이 알려진 분야가 아니다 보니 그럴 수도 있을 것입니다.
마지막으로, 요즘 소위 핫한 기법들(강화학습, Generative AI, LLM)은 다루고 있지 않고, 전통적인 Machine Learning 기법들을 다루고 있습니다.

hoyan***l2024-06-15

내가 만든 모델은 내가 책임져야...!?

암세포 조기 진단 모델과 신용평가 모델이 같을 수 없는 이유
딥러닝 모델을 통해 암세포를 조기 진단하는 경우와 신용평가 모델을 구현하는 경우를 비교해보자.

딥러닝으로 암세포를 조기 진단하는 모델에서는 높은 정확도가 무엇보다 중요하다.
정확히 암세포를 감지 할 수 있다면, 환자의 생명을 구하는데 큰 기여를 할 수 있다. 사실 그 정확도 조차도 암 발병 확률로 치환한다면 모델로서 나쁘지 않을 거라 생각한다.

어쨌든 이 경우, 설명 가능성은 상대적으로 덜 중요하고 모델이 암세포를 얼마나 정확하게 예측하는지가 중요할 것이다.

반면, 신용평가 모델의 경우, 설명 가능성이 매우 중요하다.
신용평가 모델이 딥러닝과 같은 복잡한 알고리즘을 사용할 때, 금융 기관은 왜 특정 개인이 신용을 부여받지 못했는지에 대한 명확한 이유를 제시할 수 있어야 한다.

투명성과 공정석을 보장하기 위해서 필수적이다. 만약 모델이 설명 가능하지 않다면, 고객은 자신이 왜 신용을 부여받지 못했는지 이해할 수 없고, 이는 법적 또는 윤리적 문제를 야기할 수 있다.

#️⃣ 모델 선택에 있어 ‘설명 가능성’이 중요한 이유
우리가 적절한 머신러닝 모델을 선택할 때 주로 고려해야 하는 요소는 다음과 같다.
이 문제가 분류인지 회귀인지와 같은 유형, 각 모델이 가지고 있는 정확도, 데이터의 크기와 양 그리고 비즈니스 측면에서 비용과 시간 등이다.

서두에서는 신시아 루딘의 논문을 인용하여 ‘정확성과 해석 가능성 간에 반드시 상충관계가 있다는 것은 잘못된 생각’이라고 주장하며, 설명가능한 모델의 중요성과 필요성에 대해 언급한다.

이는 시간이 지날수록 더욱 중요해지고 있는데 모델의 정확도가 아무리 100에 가까워지더라도 모델을 설명할 수 있는 근거(신뢰)가 부족하다면 새로운 학습데이터를 추가로 훈련했을 때도 그 정확도를 보장할 수 없기 때문이다.

#️⃣ 인공지능 모델의 위험 요소 파악하기
인공지능의 모델의 위험관리를 위한 요소로써 설명가능한 모델, 모델 디버깅, 편향관리, 보안에 대해서 다룬다.

디버깅은 모델이 제대로 작동하는지 확인하고, 예기치 않은 오류를 수정하는 과정이고 편향 관리는 모델이 특정 그룹에 대해 차별이지 않도록 보장하는 것이다. 모두 공정성과 윤리성 확보에 필수적이다. 보안은 말 그대로 모델이 외부 공격에 취약하지 않도록 보호하는 것을 의미한다.

이러한 요소들이 모두 설명가능한 모델을 구축하는데 모델을 구축하는데 중요한 역할을 한다.

이 책에서는 각각의 구체적인 사례와 유형을 통해 설명하고 있다.
예컨대, 보안 분야에서는 머신러닝 공격에 있어 시스템 출력을 변경하는 공격인 무결성 공격,데이터 행을 조작하는 공격을 통해 특정 목적을 이루는 대립예제 공격, 모델의 코드에 접근하여 입력변수나 예상치 못한 조합을 인식하게 만드는 백도어 공격까지 다양하게 다룬다.

데이터 사이언티스트나 프로젝트 관리자라면 소홀할 수 있는 보안 영역까지 챙겨주는 세심한 느낌이 든다.
.
#️⃣ XGBoost 모델 예시를 통해 위험 관리를 직접 실습해보기
이 책은 Python을 사용하여 설명 가능한 모델을 훈련하고 디버깅하는 방법을 실제 예제를 통해 제시한다.

특히, XGBoost 모델을 사용하여 설명 가능한 모델을 만드는 과정과 이를 디버깅 하는 방법을 상세히 다룬다.
앞서 제시한 위험 요소를 직접 실습을 해볼 수 있는데, 역시 보안 분야에서 제시한 데이터 오염을 직접 코드로 작성해서 어떤 식으로 결과에 영향을 미치는지, 또 얼마나 치명적인지를 설명한다.

추천독자
추천 독자는 머신러닝 모델링 실무를 하는 데이터 사이언티스트 혹은 데이터 조직 관리자 정도 인 것 같다.

책은 실무적인 관점에서 머신러닝 모델의 리스크 관리에 대해 서술하고 있다. 그러나 이는 AI산업이 휠씬 고도화된 미국이나 유럽의 관점이고 당장 우리나라에서 쓸 수 있을지는 잘 모르겠다. 그럼에도 머신러닝 모델 실무를 하는 입장에서 투영한다면 모델의 윤리적, 법적, 보안, 편향과 같은 위험요소를 미리 관리한다는 개념으로 접근한다면 충분히 유용하지 않을까 생각한다.

다만, 나의 경우엔 책의 내용을 따라가기도 벅차고 이해하지 못하고 넘어가는 부분이 절반이상이라 추천 독자 역시 정해두기 어려움을 밝혀둔다.

g***l2024-06-09

머신러닝 리스크 관리 with 파이썬

✅ 머신러닝 리스크 관리란?
머신러닝 리스크 관리는 머신러닝 모델의 안정성과 신뢰성을 확보하기 위한 체계적인 접근 방식을 의미해요.
데이터 품질, 모델 일반화 능력, 모델 해석 가능성, 성능 지표, 엄격한 테스트 및 검증, 지속적인 모니터링 및 유지 관리 등 다양한 요소를 고려하게 되는데요.
머신러닝 모델이 안정적이고 신뢰할 수 있도록 하여 의사결정 과정에서 발생할 수 있는 위험을 최소화하는 것을 목표로 하고 있어요.
✅ AI 모델의 안정성과 신뢰성
안정성은 모델의 성능이 일관되고 예측 가능하며 오류가 적은 것을 의미해요. 그리고 신뢰성은 모델의 결과가 투명하고 편향되지 않으며 사용자의 안전을 보장하는 것을 의미하고요.
이를 위해 AI 서비스 개발 시 윤리적 영향 검토, 학습 데이터 및 결정 근거 공개 등의 노력이 필요하고요. 최근 인공지능 LLM 개발에 특정 논문사이트의 정보를 무단으로 사용해서 발생한 문제들이 있기도 했어요.
✅ 머신러닝 리스크 관리 with 파이썬
는 새로운 NIST AI 위험 관리 프레임워크를 통해서 책임 있는 인공지능AI를 위한 기술적 접근방식을 설명하는 책이에요.
머신러닝 기술도 인류의 번영과 편의를 위해 개발되었지만, 의도치않게 발생하는 문제들도 사회적인 이슈를 발생시키고 있는 상황이거든요. "머신러닝 리스크 관리 with 파이썬"은 AI 모범 사례를 접하고, 위험 관리 프로세스를 제대로 활용해서 지속가능한 머신러닝 시스템을 배포하는 데 도움을 주는 책이에요.
✅ 추천 독자
"머신러닝 리스크 관리 with 파이썬"은 머신러닝 인공지능에 대한 기술적인 내용을 다루고 있는 IT전문서적이에요. 파이썬을 활용해서 AI 모델의 안정성, 신뢰성, 편향성 문제를 보완하고 더 나아가 보안과 프라이버시 등 이슈를 컨트롤할 수 있는 방법론을 설명하고 있거든요.
깃허브와 코랩을 통해 예제코드를 풀어가며, AI 리스크 관리에 대한 실무적인 테크닉을 학습할 수 있게 구성된 "중상급자"를 위한 교재라고 할 수 있어요. 당연하게도 '파이썬', '머신러닝', '인공지능', '깃허브' 등 개발언어, 협업 및 유지보수 기법, AI개발에 대한 지식을 모두 갖춰야 이해하고 읽어나가실 수 있을 거예요.
기존의 기술서들이 설계, 개발에 특화되어 있다면, 이 책은 배포와 유지보수, 관리 등 사람들이 이용하고 경험하게 되는 이슈를 해결하는 데 특화되어 있다고 할 수 있어요. 법률, 보안, 거버넌스, 윤리적 문제까지 다루고 있어서 머신러닝 실무자라면 꼭 읽어봐야 하는 책이에요.

한빛미디어 < 나는리뷰어다 > 활동을 위해서 책을 제공받아 작성된 서평입니다.