메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

한빛출판네트워크

한빛랩스 - 지식에 가능성을 머지하다 / 강의 콘텐츠 무료로 수강하시고 피드백을 남겨주세요. ▶︎

멀티모달 생성 AI 인사이드

멀티모달 생성 AI의 개념부터 활용 전략과 미래 전망까지

한빛미디어

집필서

판매중

  • 저자 : 홍정한 , 변형균
  • 출간 : 2024-03-04
  • 페이지 : 308 쪽
  • ISBN : 9791169212069
  • 물류코드 :11206
  • 초급 초중급 중급 중고급 고급
4.9점 (16명)
좋아요 : 31

세상을 바꾸는 메가트렌드, 멀티모달 생성 AI

 

멀티모달 생성 AI는 AI 모델이 다양한 유형의 데이터를 활용하여 새로운 결과물을 만들어주는 기술로 이미지 생성, 자연어 처리, 음성 합성 등 다양한 형태로 활용되며 AI의 발전을 이끄는 주요 기술 중 하나다. 특히 미디어 엔터테인먼트, 리테일 마케팅, 교육 컨설팅, 제조업, 금융 분야, 의료 분야, 법률과 특허 등 다양한 분야에서 활용될 가능성이 크다.

이 책은 멀티모달 생성 AI의 핵심 개념과 원리를 쉽게 설명한다. 또한 다양한 사례를 통해 멀티모달 생성 AI의 활용 가능성을 탐구한다. 나아가 빅테크와 여러 나라의 움직임을 살펴봄으로써 향후 AI 시장이 어떻게 변화할지에 대한 전망도 제시한다. 이 책을 통해 멀티모달 생성 AI가 미래 사회의 변화와 혁신에 어떤 영향을 끼치는지에 대한 통찰력을 얻을 수 있을 것이다.

홍정한 저자

홍정한

UNIST 경영과학부 겸임교수로 재직 중이다. 데이터 사이언스와 AI 기술을 이용한 바이오헬스 분야에서 전문성을 보유한 30년 경력의 데이터 사이언티스트다. UNIST와 통계교육원에서 데이터 사이언스 기본 과정, 통계적 머신러닝, 예측 분석 등을 가르치며 많은 학생에게 AI 빅데이터 분석 노하우를 전수했다. 베트남 호치민 국립의과대학과 AI 빅데이터 교육, 연구,기술 개발 협력 등 국제 활동도 활발하게 이어가고 있다. UNIST 재직 중 에이치앤비지노믹스라는 교원 벤처를 창업하여 AI 유전체 분석 기반 의료 솔루션을 제공하는 전문 기업으로 성장시켰다.

 

2022년 기술보증기금 투자 유치, 2023년 K-바이오헬스 대상과 과학기술정보통신부 대상을 받는 등 꾸준한 성과를 이루고 있다. 지능형 오믹스 빅데이터를 기반으로 한 복합 만성 질환 예측 진단 마커 실증 솔루션 소프트웨어 개발, 지능형 오믹스 기반 근골격계 예방 관리 솔루션 개발, AI 유전자 기반 만성 질환 예방 관리 솔루션, 스마트 헬스 블록체인 기반 정밀 의료 서비스 테스트베드 구축 사업 등 다양한 국가연구개발지원사업의 책임 연구자로서 멀티모달 생성 AI와 관련된 지식과 경험을 활용하여 개인 맞춤형 정밀 의료 플랫폼 개발에 주력하고 있다.

변형균 저자

변형균

퓨처웨이브 대표이자 작가, 미래경영 전문가. 연세대학교에서 경영학 박사, 미국 노스웨스턴대학교 켈로그스쿨에서 MBA 과정을 마쳤다. 2010년부터 4년간 세계적인 경영사상가 게리 해멀(Gary Hamel) 교수와 임직원 3만 2,000명의 조직을 변화시키기 위한 창의·혁신 프로젝트를 진행하며 창의적 혁신 경영 방법론을 체득했다.
2015년부터 KT그룹의 AI·빅데이터 전략 수립을 시작으로 통신·의료·금융 분야 사업 혁신과 신사업 추진 경험을 갖고 있는 AI·데이터 트랜스포메이션 전문가다. KT에서 데이터 거버넌스, 빅데이터 기획, 데이터 트랜스포메이션, AI·빅데이터 서비스 및 디지털·바이오헬스 사업을 총괄하는 상무로 일했으며, BC카드에서 AI빅데이터본부장과 데이터사업본부장을 역임했다.
K-방역으로 주목받은 통신 데이터를 활용한 이용자 동선 시스템인 GEPP(Global Epidemic Prevention Platform) 개발과 글로벌 확산을 주도했으며, 빌&멀린다 게이츠 재단으로부터 <AI 기반의 차세대 방역연구> 과제 추진을 위한 투자(1,000만 달러)를 이끌어냈다. WEF AI 위원, 신용정보원 금융데이터포럼위원, 보건부 AI 기반 조기 중재 플랫폼 개발 과제 자문위원, <MIT테크놀로지리뷰코리아> 편집위원 등으로 활동했다.
인간과 기계, 인간과 AI의 경계가 불분명해지는 AI 기술 혁명의 시대에 리더는 어떤 리더십과 마음가짐을 지녀야 하는지, 무엇이 인간이고 무엇이 인간이 아닌지에 대한 관심이 많다. 한국코치협회 및 리더십서클(Leadership Circle) 인증 코치와 명상 지도자로도 활동하며 조직과 개인의 성장 및 내면 성찰을 돕고 있다. 《멀티모달 생성 AI 인사이드》, 《테크노 사피엔스》, 《기술경영》의 공저자로 참여했다.

1장 멀티모달 생성 AI의 개념
1.1 멀티모달 생성 AI의 어원 
1.2 멀티모달의 개념 
1.3 멀티모달 데이터의 유형과 형식 
1.4 빅데이터 시대 
1.5 AI 시대의 부흥 
1.6 AI의 역사와 발전 과정 
1.7 머신러닝과 딥러닝 
1.8 AI 기술의 활용 사례 
1.9 AI 기초 수학 지식
1.10 AI 모델과 생성 AI 모델의 비교

 

2장 멀티모달 생성 AI 기술의 변천 과정
2.1 발전 요인 
2.2 VAE 
2.3 GAN 
2.4 확산 모델 
2.5 트랜스포머 
2.6 비전 트랜스포머 
2.7 CLIP 
2.8 스테이블 디퓨전 
2.9 DALL-E 2 
2.10 Imagen 
2.11 Parti 
2.12 LLaMA 
2.13 챗GPT-4 
2.14 바드 
2.15 챗GPT-4와 바드의 비교 
2.16 SAM 
2.17 ImageBind 
2.18 멀티모달 생성 AI 기술의 혁신과 도전

 

3장 멀티모달 생성 AI의 활용 분야와 애플리케이션
3.1 멀티모달 생성 AI 기술을 활용할 수 있는 주력 산업 분야 
3.2 미디어 엔터테인먼트 
3.3 리테일 마케팅 
3.4 교육 HR 컨설팅 
3.5 법률과 특허 
3.6 금융 
3.7 의료
3.8 제조 
3.9 건설 엔지니어링 
3.10 농기계 정밀농업 분야
3.11 새로운 비즈니스 모델과 분야

 

4장 AI 주도권을 위한 빅테크 기업의 경쟁
4.1 오픈AI
4.2 구글
4.3 마이크로소프트
4.4 메타
4.5 아마존
4.6 애플
4.7 테슬라
4.8 엔비디아
4.9 네이버
4.10 그 밖에 생각해야 할 것들

 

5장 AI 관련 주요 이슈
5.1 AI 관련 법과 정책
5.2 윤리적 AI 설계 및 사용
5.3 AI와 빅데이터의 법적 문제 및 책임 관계
5.4 AI의 신뢰성 확보 문제
5.5 AI와 일자리
5.6 AI와 에너지
5.7 정리

 

6장 글로벌 주도권 경쟁을 위한 국가별 AI 전략과 정책
6.1 미국
6.2 중국
6.3 EU
6.4 대한민국

 

7장 미래 시나리오와 제언
7.1 미래 시나리오
7.2 AI가 가져올 미래 모습
7.3 정부, 기업, 개인에게 주는 시사점

이 책은 AI와 빅데이터에 대해 막연한 관심이 있는 일반인, 멀티모달 생성 AI의 기본 개념을 쉽게 이해하고 싶은 비전공자, 멀티모달 생성 AI를 기반으로 새로운 비즈니스 아이디어를 찾고 싶은 독자를 대상으로 한다.

 

세상을 바꿀 혁신 기술인 멀티모달 생성 AI에 관해 기본 개념부터 핵심 원리, 다양한 분야에서의 활용 전략, AI를 주도하는 빅테크와 여러 국가 정책까지 이 책에 고스란히 담았다. 생성 AI 모델의 작동 원리나 구조 같은 기술적인 내용을 다루지만친절한 설명과 예시를 통해 쉽게 이해할 수 있도록 구성되어 있다. 따라서 AI 기술에 관심이 있는 비전공자나 일반인도 쉽게 접근할 수 있을 것이다. 또한 AI의 윤리적, 사회적 측면에 대한 통찰도 제공하여 기술적 호기심뿐 아니라 그에 따른 책임과 영향까지깊이 생각할 수 있다.

  • 멀티모달 생성 AI의 기본 개념과 원리
  •  다양한 활용 분야와 적용 사례
  •  빅테크와 여러 나라의 움직임
  • AI 관련한 윤리적 문제 및 법과 정책
  • 향후 AI 시장 변화 전망

2023년은 ChatGPT의 한해 였다고 봐도 무방했다. ChatGPT 외에 Dalle, StableDiffusion 등 생성형 AI의 비약적인 발전으로 우리 생활에 여러 영향을 주었다. 이책은 약 2년정도의 최신 트랜드와 생성 AI의 발전의 역사를 설명하고 이에 따른 윤리적인 문제에 대해서 기술 되어있다. 개발서적은 아니며 AI와 생성 AI 차이와 트랜드를 정리되어 있다. AI에 대해서 아무것도 몰라도 트랜드는 확인 할 수 있으나 AI 대해서 지식이 있다면 추천 하는 책이다.

멀티모달 생성 AI 인사이드 책을 읽게 되었다. 멀티모달의 의미를 잘 몰랐었는데 여러가지 입력과 출력으로 이루어진 AI를 가르키는듯 하다. 텍스트, 이미지와 같이 어느 타입에 구애받지 않으려는 시도로 보인다.

 

자동차, 로봇과 등의 분야에선 다양한 센서로부터 오는 정보를 복합적으로 해석해야 하므로 멀티모달이 중요하다고 한다.

확산 모델에 대해서 알게 되었는데, 본질적으론 다르지만, 마치 위상 수학에서 도넛이 컵으로 변하듯 점진적으로 데이터의 모양이 달라지는 것을 볼 수 있다. 최근 NLP를 포함한 딥러닝 분야에선 의미론적 관계를 계속해서 발전시키고 있는 것으로 보이는데 이것을 우리는 문맥이라고 부른다고 볼 수 있다.

 

스테이블 디퓨젼은 언어 그대로 안정적으로 디퓨젼을 하며 초기의 모델 보다 성능도 더 뛰어난 것으로 보인다. 이 모델은 전체 이미지를 직접 다루는 대신 잠재 공간에서 노이즈를 다루는 것으로 보인다.

 

앞으로 멀티모달 생성 AI가 우리 생활에 미칠 효과들을 생각해 보며 이만 리뷰를 마치고자 한다.

이 글은 한빛미디어로 부터 책을 증정받아 작성되었습니다.

 

소리 없는 전쟁이라는 표현이 있는데, 인공지능 비즈니스야 말로 소리 없이 맹렬한 격전이 벌어지고 있는 전쟁터다. 반도체 전쟁에서도 AI칩은 최고의 이슈다. 각국이 AI 기술과 비즈니스를 미래 최고의 먹거리 산업으로 여기고 많은 지원을 아낌 없이 하고 있다.

 

인공지능이 지금 당장은 남의 얘기처럼 들리겠지만, AI는 우리 삶을 가랑비에 속옷 젖듯이 알게 모르게 조용히 변화시키고 있다. 인공지능 챗봇은 이제 당연한 상황이 되었고, 먼 미래의 공상과학 이야기처럼 여겨왔던 자율주행 버스도 등장하고 있다. 최신 스마트폰에도 인공지능 기술을 이용한 서비스가 내장되었다.

 

이런 기술 변화는 산업과 고용 시장에도 큰 영향을 끼친다. 어떤 비즈니스를 하든, 인공지능을 어떻게 활용할 건지, 심각히 고민해야 하며, 내가 어떤 기술을 익혀야 할지, 어떤 직장을 선택할지 중요한 판단 기준이 된다. 그렇기 때문에 다양한 인공지능에 대한 이해나 정보를 갖추는 것은 장래를 생각하는 사람에게는 매우 매우 중요한 일이다.

 

이에 최신의 인공지능 기술과 산업 전반에 대해 알고 싶다면, 홍정한, 변형균 저자의 '멀티모달 생성 AI 인사이드'를 꼭 한번 읽어 보기를 추천한다. 이 책의 제목이 다소 어렵게 느껴지는 분도 있겠지만, 이 책은 최신 인공지능 비즈니스에 대한 전반적인 정보를 잘 담고 있고, 내용도 이해하기 쉽게 적어 놓았다. 부제처럼 멀티모달 생성 AI의 개념부터 활용전략과 미래 전망까지 잘 담고 있는 책이다.

 

 

여기서 '멀티모달 생성 AI'라는 용어가 생소한 분이 많을 것이다. 나도 이 용어를 처음 들었을 때는 '아이고 또 공부할 게 늘었구나'했다. 새로 등장한 인공지능 기술인가 했다. 그런데 오해였다. 멀티모달 생성 AI는 책에서 알려주고 있는 거처럼 다양한 형태의 데이터를 인공지능으로 새로운 콘텐츠를 만드는 것을 말한다. 다시 말해, 텍스트, 음성, 이미지, 동영상 등의 데이터 처리 AI 기술을 필요에 따라 통합적으로 처리하는 지능형 시스템을 지칭한다.

 

이젠 데이터 유형별로 나눠져 있던 인공지능 기술이 전체적으로 통합해서 처리하는 단계로 발전했다는 것이다. 그래서 최근 유튜브나 언론 등에서 멀티모달 생성 AI라는 용어가 자주 등장하기 시작했고, 앞으론 더욱 자주 쓰이게 될 용어인 것이다.

 

 

책 초반부에는 이러한 멀티모달 생성 AI 개념 설명과 인공지능의 역사, AI 기술 활용 사례, 필요한 수학 지식 같은 것을 담고 있다. AI의 역사 경우 이미 알고 있던 것들이지만, 연표처럼 내용을 구성해서 그런지 뭔가 연속성이 강하게 느껴지면서 기억이나 이해하기에 더욱 좋았다.

 

 

챕터 2에는 멀티모달 생성 AI 기술의 변천 과정이 나오는데, VAE부터, GAN, 확산모델, 트랜스포머, CLIP, DALL-E2, LLaMA, 챗GPT, 바드, SAM 등 다양한 대규모 언어 모델들이 소개되어 있다. 여기에는 짧은 파이썬 코드가 등장하기도 하고, 관련 수학 공식 같은 것도 나오는데, 잘 모르면 무시하고 넘어가도 전체적으로 이해하는 데, 별 다른 어려움이 없을 것이다. 물론 파이썬을 잘 알고 있다면, LLM을 어떻게 쓰이는 지 이해하는 데 좀 더 도움이 될 것이다. 그리고 책에서는 NOTE 코너를 통해 보다 자세한 추가 설명이 되어 있고, 비교하기 쉽게 표를 잘 활용하고 있다.

 

 

인공지능을 공부하다 보면, '이걸 어디다 쓰지'하는 궁금증이 자주 생기곤 한다. 내 경우 특히 그런 비즈니스 마인드가 참 부족해서, 몇 숟가락 떠먹여 주지 않으면, 전혀 머리에 그려지지도 않고, 영감도 생기지 않는다. 그러나 '멀티모달 생성 AI 인사이드'는 고맙게도 쓰이는 기술과 함께 다양한 사례도 보여준다. 덕분에 많은 참고가 되었고, 머릿속에 다양한 비즈니스 아이디어를 떠올릴 수 있었다.

 

 

AI 비즈니스를 생각 중인 분이라면, 각축전을 벌이고 있는 유수의 AI 빅 테크 기업에 대한 정보를 얻는 것도 중요할 것이다. 현재 선두를 달리고 있는 오픈AI부터 구글, 마이크로소프트, 메타, 아마존, 애플, 테슬라, 엔비디아, 네이버까지 현재 상황을 연도별 발전 과정과 함께 잘 담고 있다.

 

AI 산업은 지금 불 붙은 상황이므로 앞으로 어떻게 번질지 모른다. 아직 변수가 존재한다. 생각 보다 빠르게 발전할 수도 있지만, 반면, 예전처럼 한계에 부딪혀 또 한 번의 겨울을 맞이할 수도 있다. 사회 전반에 끼치는 영향도 워낙 크다 보니, 각종 이슈도 잘 알고 있을 필요가 있다. 딥페이크, 편향성, 지적재산권, 일자리에 대한 문제점이 그런 것들인데, 이것들에 대해 책에서도 자세히 다루고 있다.

 

 

이 가운데 편향으로 인해, 여러 차례 인공지능 서비스가 중단된 사실이 있는데, 이게 참 어려운 게, 인간 자체가 저마다 특정한 편향을 가지고 있다. 그러니 당연히 그런 자료가 많을 수 밖에 없다. 그것을 학습한 인공지능이 편향을 가지지 않는 다는 게 더 이상하다. 나는 바담 풍 해도 너는 바람 풍 하라는 속담과 같다. 그걸 바로 잡아야 하지만, 올바른 기준이라는 것 자체도 애매함이 있다. 성별, 나이, 인종, 국가, 문화를 초월하는 절대적 정의를 정한다는 것이 쉽지 않다. 인류 차원의 합의가 필요할 수도 있다. 이런 생각을 하다 보니, 이것 또한 중요한 비즈니스가 될 가능성이 있다고 보인다.

 

그밖에 '멀티모달 생성 AI 인사이드'에서는 국가별 인공지능에 대한 노력, 새로운 법률, AI의 다양한 가능성을 담은 미래 시나리오 등을 다루고 있다. 이렇게 이 책은 멀티모달 생성 AI의 개념, 활용, 산업 상황, 전망까지 담고 있어, 생성 AI 전반을 위에서 들여다 보는 느낌도 드는 책이다. 그리고 워낙 내용들이 잘 정리되어 있고, 최신의 내용을 반영하고 있어, 각종 자료로 쓰기에도 참 좋다는 생각이 든다. AI 관련자, AI 비즈니스를 하는 분 뿐만 아니라, 인공지능을 잘 모르는 분도 큰 부담 없이 이해할 수 있는 책이다. 

 

제가 본업이 개발자인지라, 독서 모임에서 이야기하기는 힘들지만, IT 관련 책들도 틈틈이 챙겨 보고 있습니다. 요즘은 개발자가 아닌 사람들도 개발자들만 사용했던 도구들을 많이 사용하게 되면서 실용서로 분류될만한 책들이 많이 출간되고 있는 것 같아 재밌는 주제들이 자주 보입니다.

 


 

이번에 읽고 있는 『멀티모달 생성 AI 인사이드』는 온전히 개발자들은 위한 책이 아니라 인공지능, 특히 생성형 AI에 관심이 있는 사람이라면 읽어볼만한 주제 같아서 추천하고 싶은 책입니다. 투자자들도 관심이 많을 주제 같아 보이네요.


 

책은 인공지능이나 빅데이터에 관심 있는 일반인, 멀티모달 생성 AI에 대한 기본적인 개념을 쉽게 배우고 싶은 사람 그리고 이 기술을 기반으로 새로운 비즈니스 아이디어를 찾고 싶은 독자를 대상으로 합니다. 책 자체가 쉽게 쓰이긴 했지만, 아무래도 인공지능에 대한 아주 기본적인, 기초적인 지식을 가지고 있다면 더 쉽게 이해할 수 있을 것 같은 입문서이자 실용서입니다.

텍스트 기반 인공지능 그다음 단계로

OpenAI의 ChatGPT를 필두로 해서 텍스트 기반의 생성형 인공지능들의 발전이 최근 몇 년 동안 상당히 빠른 속도로 이뤄졌습니다. 상용화 단계에서는 더 발전할 부분이 많이 남아있다고는 하지만 이미 기술의 발전은 그다음을 바라보고 있는 것 같습니다.

멀티모달 인공지능 Multimodal AI

멀티모달은 단어 그대로 다양한 유형의 형식, 데이터를 의미합니다. 이제 생성형 인공지능은 문자뿐만 아니라 이미지, 음성 등 다양한 정보들을 학습하는 단계로 들어갔고 서비스로 하나씩 출시되고 있어요. 가장 대표적인 예가 바로 자율주행이죠.

목차는 다음과 같이 구성되어 있습니다.

Chapter 1. 멀티모달 생성 AI의 개념

Chapter 2. 멀티모달 생성 AI의 변천 과정

Chapter 3. 멀티모달 생성 AI의 활용 분야와 애플리케이션

Chapter 4. AI 주도권을 위한 빅테크 기업의 경쟁

Chapter 5. AI 관련 주요 이슈

Chapter 6. 글로벌 주도권 경쟁을 위한 국가별 AI 전략과 정책

Chapter 7. 미래 시나리오와 제언


 

중간중간 다양한 모델의 인공지능을 사용하기 위한 간단한 프로그래밍 소스코드가 첨부되어 있긴 하지만 대부분은 개발자가 아닌 사람들도 모두 이해할 수 있는 내용으로 구성되어 있습니다. 카페에 가만히 앉아서 책만 펼쳐서 읽어 볼 수 있을 정도로 쉽고 재밌게 설명하고 있어요.

특히 챕터 4의 빅테크 기업의 경쟁과 관련된 내용은 관련 기업을 투자하고 있는 사람이라면 궁금해할 내용들로 구성되어 있습니다. 실제로 인공지능을 열심히 구현하고 있다고는 들었지만 사용해 보거나 자세한 개념을 아는 사람은 꽤 드물더라고요.

몇몇 챕터만 조금 살펴봅시다.

챕터 1에서는 멀티모달 생성 인공지능의 개념에 대해서 설명하고 다양한 분야에서 어떻게 적용될 수 있는지 간단하게 알려줍니다. 자율주행 자동차의 오토파일럿이나 의료, 헬스케어 환경에서의 영상 판독 솔루션 등이 대표적인 예입니다. 그림은 뷰노라는 회사의 솔루션이라고 합니다. 뷰노도 한국 코스닥에 상장되어 있는 회사죠!

챕터 2에서는 인공지능 서비스와 모델들의 변천 과정을 설명하고 있습니다.

이제는 대중들도 많이 사용하는 DALL-E를 포함해서 이미지를 생성하는 다양한 언어 모델들을 알려줍니다. 아주 간단한 소스코드를 이용해서 직접 동작시켜볼 수도 있는 예제도 있네요.

OpenAI의 힘을 빌려 최근에 가장 빠르게 성장하고 있는 마이크로소프트 윈도우의 코파일럿 서비스입니다. 저도 프리뷰 서비스를 이용해서 잘 사용하고 있는데, 얼마 전에 정식으로 출시되어 윈도우 11에서 대부분 사용할 수 있는 것 같더라고요. 여러분들도 모두 사용하고 계시나요?

챕터 4에서는 많은 기업들의 발전 과정들도 설명하고 있습니다. 네이버만 가져와봤어요. 네이버는 클로바라는 이름으로 서비스를 발전시키고 있죠. 아직 한국의 인공지능 서비스들이 해외보다 좀 시원찮지만 앞으로 더 멋진 서비스가 나올 것이라고 믿습니다. (저를 포함한 네이버 주주 일동)

챕터 5 이후부터는 다양한 이슈들과 국가별 주도권 경쟁 그리고 그에 대한 저자의 제언 등 약간은 거시적인 내용을 다루고 있습니다. 이 책 한 권이면 일단 경제 신문에 나오는 IT 회사들의 인공지능 관련 내용은 대부분 이해할 수 있을 것 같군요. 오히려 개발자들 보다 개발자가 아닌 사람들에게 더 추천하고 싶은 책입니다. 재밌네요.

정리

책을 좀 더 깊게 읽고 정리해 보려고 하고 있습니다. 제가 직접 투자하고 있는 회사들에 대한 이야기도 많이 나오니, 별도의 글로 책의 정보와 함께 버무려서 다른 글도 작성해 보도록 할게요. 많은 사람들에게 도움이 될 수 있을 것 같습니다. 오랜만에 흥미로운 책을 발견했습니다. 

『멀티모달 생성 AI 인사이드』 북 리뷰 끝.



 

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

AI 기술의 변천사와 현재 멀티모달 생성 AI의 트랜드를 한눈에 알 수 있는 책!

오늘날 핫한 생성형 AI들간의 비교와 기술 원리에 대해 알 수 있고, 각 기술들이 적용된 다양한 서비스들을 통해 새로운 인사이트를 얻을 수 있습니다.

이 책은 멀티모달 생성 AI 기술의 이론적 기초부터 실제 적용 사례, 그리고 글로벌 경쟁과 미래 전망에 이르기까지 다양한 이야기를 다룬다. 멀티모달 생성 AI의 기본 개념과 발전 배경을 설명하는 부분이 핵심 부분이다. AI 기술이 사회적으로 어떤 영향을 끼치고 있으며 적절한 대응 전략은 무엇인지도 소개한다. 정책 결정자와 프로젝트 팀장들이 심사숙고해 기술 발전이 사회에 미치는 다양한 영향을 이해하고 전략적으로 대응하는 방법을 제시한다.

 

AI와 멀티모달 생성 AI 기술에 대한 사전 지식이 없는 비전공자를 주 대상으로 한다. 기술적인 용어와 개념이 초보자도 이해할 수 있도록 쉽게 설명되어 있다. 2장은 변천 과정에서 수식과 코드가 표기되어 있어 난이도가 있을 수 있다. AI 기술에 대한 흥미나 관심은 있지만 복잡한 기술 용어나 개념에 익숙하지 않은 독자들에게 적합하다.

 

멀티모달 생성 AI의 어원부터 시작 다양한 모달리티가 결합된 데이터를 처리하는 AI 시스템을 소개한다. 멀티모달 데이터는 텍스트, 이미지, 오디오 등 다양한 형식의 정보를 통합해 처리할 수 있는 AI의 능력이 점점 중요해지고 있다.

 

빅데이터 시대의 도래와 함께 AI 기술, 특히 머신러닝과 딥러닝이 어떻게 발전해 왔는지 설명한다. AI의 역사와 발전 과정을 통해 현재 AI 기술이 어떻게 진화해 왔는지 이해하는 것이 중요하다. 머신러닝과 딥러닝 기술이 실생활에서 어떻게 활용되고 있는지에 대한 사례들도 제시한다.

 

또한 책에서 기초 수학 지식의 중요성에 대해서도 이야기하고 있다. AI 모델이 어떻게 구성되고 생성 AI 모델이 기존의 AI 모델과 어떻게 차별화되는지 비교 분석한다. 생성 AI 모델은 새로운 데이터를 생성할 수 있는 능력으로 예술, 디자인, 콘텐츠 제작 등 다양한 분야에서 혁신적인 가능성을 열어주고 있다.

 

그 다음에는 기술 발전을 이끈 주요 AI 모델 및 발전 과정을 상세히 다룬다. 기술 발전을 주도한 요소로는 데이터 양과 질의 증가, 컴퓨팅 파워의 상승, 알고리즘 혁신 등을 들 수 있고 이런 요소들이 AI 기술 발전의 동력이 되었다.

 

VAE, GAN, 확산 모델 같은 초기 생성 모델부터 시작해 트랜스포머 기반 모델의 발전 과정까지 상세히 설명한다. 비전 트랜스포머, CLIP, 스테이블 디퓨전, DALL-E 2 등 중요한 모델의 특성과 기여한 바를 소개한다.

 

최신 혁신 모델들인 Imagen, Parti, LLaMA, 챗GPT-4, 바드가 멀티모달 생성 AI 기술의 경계를 어떻게 확장하고 있는지 탐구한다. 각 모델들 간의 비교를 통해 챗GPT-4와 바드와 같은 최신 모델이 어떻게 서로 다른 접근 방식을 취하고 있는지 분석한다. SAM, ImageBind과 같은 신규 모델의 출현은 멀티모달 생성 AI 기술이 지속적으로 발전하고 있음을 보여준다.

 

더 자세한 내용은 아래의 게시글에서 확인할 수 있다.

https://laurent.tistory.com/entry/%EC%84%9C%ED%8F%89-%EA%B0%9C%EB%85%90%EB%B6%80%ED%84%B0-%ED%99%9C%EC%9A%A9-%EC%A0%84%EB%9E%B5%EA%B3%BC-%EB%AF%B8%EB%9E%98-%EC%A0%84%EB%A7%9D%EA%B9%8C%EC%A7%80-%EB%A9%80%ED%8B%B0%EB%AA%A8%EB%8B%AC-%EC%83%9D%EC%84%B1-AI-%EC%9D%B8%EC%82%AC%EC%9D%B4%EB%93%9C

 

'이 서평은 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.'

이번에 두번째로 읽게 된 '멀티모달 생성AI인사이드'는 최근 챗GPT4.0에서 지원해주고 있는, 텍스트 to 텍스트/이미지/음성등의 멀티모달이 본격화되면서 향후 이에 대한 다양한 분야의 발전 가능성이 있을거 같아 보게되었다.

 

책을 읽고 난 소감을 결론부터 얘기하자면, 개인적으로 작년부터 올해까지 LLM과 생성형AI 관련 책들도 생성형AI 전체를 조망하는데 가장 좋은 책으로 꼽을수 있을 거 같다. 참고로, 작년 도서들은 개인적으로 구매했었던 책들이었다. 

그 이유중의 하나는 기존의 다른책들 역시 이런 내용들을 포함하고는 있으나 어느 한쪽에 치우치는 경향들이 있었다. 그러나, 이 책에서는 관련 내용을 쉽게 설명하고, 도표등을 통해서 핵심요약까지 해주어 내용을 이해하기 쉬울 뿐만 아니라 정리까지 깔끔하게 마무리 해준다.

 

 특히, 이 책에서는 AI의 역사부터 주요 멀티모달AI기술들의 발전사, 생성AI의 다양한 활용 방안 및 비지니스 모델, AI주도권을 가지고 치열한 경쟁을 하는 글로벌 빅테크 기업들의 다양한 AI서비스들과 향후 경쟁 분야 뿐만 아니라 윤리적AI와 저작권, AI신뢰성등을 포함하는 AI관련 이슈, 각국의 AI 관련 전략과 규제 정책들을 총망라하고 있다. 그래서, 오히려, 메인 제목보다 부제인 '멀티모달 생성AI의 개념부터 활용 전략과 미래 전망까지'가 더 적합해보인다. 

 

전체를 조망하면서도 세부적인 부분의 설명에 있어서도 꼼꼼하다.

예를 들어, 음성변환 부터 언어처리를 가는 과정에 있어, 음성변환도 다시 음석인식를 통한 언어 이해와 음성합성을 통한 언어 생성이 되고, 이 2가지의 음성 변환이 대화관리로 가는 언어처리 과정을 거쳐 대화DB 또는 외부 DB로 가게 되는 이러한 상세 설명은 그 세부내용들을 제대로 이해할 수 있도록 쉽게 설명해주고 있다.

 

당연히 이 책에서는 AI의 활성화의 근간이 되는 머신러닝과 딥러닝도 다루고 있다. 다만, 이번 책을 통해서 머신러닝과 딥러닝의 차이점을 좀 더 명확히 이해하는 계기가 되었다.

 

사실 인공지능을 제대로 배우지 않았거나 데이터 사이언티스트등의 업무를 하지 않은 사람들 입장에서는 머신러닝과 딥러닝이 비슷하게 느껴지는게 사실이다. 그런데, 위의 도표를 통해서 머신러닝과 딥러닝의 차이점을 보다 쉽게 이해할 수 있도록 명시해준 것이 개인적으로는 큰 도움이 되었다.  또한, 제프리힐튼같은 교수님의 역전파에 대한 해결책 제시등의 지대한 공헌을 비롯해서, CNN신경망등의 알고리즘과 딥러닝 모델 발달과 인터넷과 스마트폰으로 급격하게 늘어난 무수한 데이터들, 그리고, 이에 대한 연산을 가능케 하는 NVIDIA의 A100 또는 H100과 같은 GPU 기술의 발전과 더불어 메타의 파이토치, 구글의 텐서플로우, 쉽게 프로그래밍 접근을 가능케했던 파이썬, 메타의 LLAMA와 같은 오픈기반의 모델들, 그리고, 허깅페이스등의 발전이 동시에 가능했기에 멀티모달(Multi-Modal) AI가 나올 수 있었다는데 아주 깊은 공감을 하게 되었다.

 

또한, 요즘의 생성형AI가 기존의 AI와 어떻게 다른지 한눈에 쉽게 볼 수 있도록 아래와 같은 도표는 정말 유용한 정보였다.  이런 부분의 기존의 다른 책들과도 차별되는 요소이기도 하다.

 

주어진 학습데이터를 활용한다는 측면에서는 유사할 수 있으나 데이터의 분류/예측보다 생성/변형이, 지도학습보다 비지도 학습이 이루어진다는 측면에서 그 구분점을 확실히 다르다.

 

그리고, 주요 분야의 멀티모달 생성AI기술을 상세히 다루고, 이에 대한 활용분야까지 명시한 점은 이 책이 원래 지향하는 멀티모달AI 인사이드의 코어로 봐도 무방할 거 같다.

  • 2013년 비지도학습방식의 VAE(변이자동인코더)
  • 2017년 살리맨스에 의한 확산모델
  • 구글브레인에서 2019년에 만든 비전트랜스포머
  • 오픈AI의 멀티모달AI모델로 ViT기반 사전학습모델로 2021년 등장한 CLIP
  • 2022년 스테이블AI가 공개한 텍스트, 이미지, 음성을 모두 지원하는 스테이블디퓨전
  • 2022년 OpenAI가 공개한 Dall-E2
  • 2023년 메타(구 페이스북)가 오픈한 자기지도학습방식의 LLAMA
  • 2023년 3월 ChatGPT4
  • 트랜스포머와 PaLM2방식을 결합하여 2023년1월 오픈한 구글의 Bard
  • 2023년 ViT기반 이미지 모델인 메타의 SAM과 멀티모달 생성AI모델인 메타의 ImageBind

 

 

개인적인 용도이자 업무용도로 현재 ChatGPT4.0을 쓰고 있는데, 이러한 멀티모달AI가 향후 어떤 비지니스나 산업에 어떻게 영향을 미칠것인지 늘 궁금한 것이 사실이다. 가장 인상깊었던 것은 이러한 멀티모달AI가 음악, 영상 분야 뿐만 아니라 금융, 의료, 제조분야에 충분히 활용될 수 있는 다양한 기술이 될 수 있음을 알게되어 향후 기대가 된다. 개인적으로는 자율주행 기술과 접목을 통해서 우리 일상에 보다 빨린 편이성과 효율성을 가져다 주길 기대한다.

 

아직 생성형AI의 갈 길이 멀고, 여전히 무주공산이다. 다만, 인간들의 자리를 위협하기보다는 새로운 일자리 창출에 더 큰 도움과 기여가 되고, 인간세상에 더 편리함을 제공해주는 그로 인하여 정보와 소득의 불평등과 격차가 해소되는 인류를 위한 기술로 활용되기를 간절히 기대해본다.

 

이번 기회를 통해서 이 책을 읽을수 있게 된 것은 개인적으로 큰 기회이자 큰 도움이 되었던 거 같다. 아무쪼록 생성형AI에 대한 현재와 앞으로를 고민하시는 분들께 강추해본다.

 

* 이 글은 한빛미디어 '나는 리뷰어다' 서평단을 통해서 도서를 제공받아 진행한 내용으로 도서를 읽고 진행한 서평후기임을 미리 밝힙니다.*

이 책은 멀티모달 생성 AI (= 텍스트, 음성, 이미지 등 다양한 형태의 데이터를 생성)와 관련된 AI기술의 발전과 그 활용에 대해서 잘 정리한 책입니다. 책 구성의 느낌은 약간 학부교재와 같은 느낌이 있어서, AI와 관련해서 개념을 잡는데에는 큰 도움을 받을 수 있습니다.

 

  • 생성 AI 모델은 기존 데이터를 기반으로 새로운 데이터를 생성하는 기술이다.
  • 차이점으로는 AI 모델은 입력 데이터를 분류하거나 예측하는 것이 목적이지만 생성 aI모델은 새로운 데이터를 생성하는 것이 목적이다.

 

개인적으로 가장 재미있게 읽은 챕터는 “2장 멀티모달 생성 AI 기술의 변천 과정”이었습니다. 

VAE에서부터, GAN, 트랜스포머, DALL-E 2, LLaMA, ImageBind에 이르기까지 18가지 생성 AI모델에 대해서 각각 2~3페이지 내외의 분량으로 소개해주고 있는데요. 각 모델별로 너무 자세히 들어가지 않고, 시간의 순서에 따라서 변천사를 알 수 있어서 전체적인 모델의 발전 방향에 대해서 이해하는데 큰 도움이 되었습니다.

 

“3장 멀티모달 생성 AI의 활용 분야와 애플리케이션” 에서는 아래의 9가지 산업 분야에 대한 주요  멀티모달 생성 AI기술과 그 활용에 대해서 다루었는데요. 개인적으로 리테일 마케팅 분야와 법률, 특허 분야를 가장 흥미롭게 읽었습니다.

 

3.3 리테일 마케팅

  • VAE는 상품 이미지 생성 및 변환, 추천 시스템 개선 등에 활용될 수 있다. 이를 통해 가상 시착 서비스를 제공하거나 맞춤형 상품 추천을 가능하게 할 수 있다.

 

이어서 “4장 AI 주도권을 위한 빅테크 기업의 경쟁” 도 주요 빅테크들이 생성 AI를 어떻게 발전시켜나가고 사업에 녹이고 있는지에 대한 설명이 좋았습니다. 특히 기술만이 중요한게 아니라 그 기술을 활용하고자 하는 리더십도 중요하다는 것을 마이크로 소프트 사례에서 알 수 있었습니다.

 

22년 9월 미국 마이크로소프트 캠퍼스에서 사티야 나델라는 오픈 AI의 대규모 언어모델 GPT-4 시연회에 참석해서 “마이크로소프트의 모든 제품에 코파일럿을 적용하라”고 지시했고 직원들은 생성형AI를 통해 고객에게 어떤 가치를 제공할지에 대해 치열한 고민을 통해 5개월만에 시장에 챗GPT를 결합한 제품을 내놓을 수 있었다.

 

그 이후에는 AI 관련 주요 정책적, 법적, 윤리적, 사회적 이슈를 다루고, 국가별 전략 및 제언이 이어지는데요.

이 책은 실제 모델링을 하거나 프롬프트로 작업을 해보고 싶은 사람을 타겟으로 했다기 보다는,

생성 AI에 대한 기술동향이나 시장동향에 대해서 알고 싶은 사업개발 담당자, 정책연구자, 일반인, 학생 등이 될 것 같습니다.

 

서두에도 말씀드렸지만, 입문서로서 AI관련한 개념과 정의, 분류 등을 착실하게 정리한 책으로 보시면 될 것 같아요!

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

 

 

 

이 책은 인공지능 자세히 하면 생성 AI의 시작부터 현재까지의 일대기를 정리해놓은 책이다. '멀티모달'의 뜻의 음성, 영상, 텍스트, 이미지 등 다양한 형식의 데이터들을 함께 처리하는 것을 의미한다. Xai나 Chatgpt들의 업데이트 내용들을 보면 단순히 많은 텍스트만을 학습하는게 아니라 이미지와 영상까지 학습하여 사용자의 질문에 자세하게 설명하기 위해 다양한 매체를 이용해 대답하는 모습을 볼 수 있다. 이 AI모델들을 이용하기 위해 이것들을 학습해볼 수 있는 책이라고 보면 된다.

 

 

책의 저자는 한명은 UNIST 교수이고, 한명은 기업의 AI빅데이터본부장을 역임하였다. 책의 전문성을 보장해줄 수 있는 부분이라고 생각한다.

1장에서는 멀티모달 생성 AI/빅데이터/AI 기술의 활용 사례를 알려준다. 2장에서는 멀티모달 AI 모델의 변천사를 알 수 있고, 3장에서는 멀티모달 생성 AI의 활용 분야와 그에 따른 예시, 4장에서는 AI를 기업이 활용하는 과정을 자세하게 알려준다. 5장에서는 AI 관련된 법적/윤리적 이슈를 알려주고, 6장에서는 국가별로 AI에 대해 어떤 스탠스를 취하고 이를 활용하기 위해 어떤 정책들을 펼치는지 알려주고 7장에서는 개인적으로 가장 중요하다고 생각되는 앞으로의 시나리오와 AI를 활용하는 사람들이 가져야하는 시사 포인트를 알려준다.



 

초심자가 읽기에는 다소 생소한 용어들이 자주 나오지만 책에서 알려주기도 하고 검색을 하면 빠르게 알 수 있어서 학습하는데 큰 어려움은 없을 것이라 생각된다. 다른 책들과 다르게 완전 처음부터 끝까지 자세하게 나와서 멀티모달 AI 모델을 변천사를 파악하는데 이 책 하나만으로 파악할 수 있을 것이다. 한 페이지에 하나씩 내용을 쉽게 이해할 수 있는 그림이나 그래프들이 나오기 때문에 흐름이 끊기지 않고 공부할 수 있다. 또 생소한 개념을 간략하게 정리해놓은 'note'부분이 있어서 검색하는 시간을 아낄 수 있다.

 

 



개인적으로 마지막 챕터에 있는 미래 시나리오와 시사점이 가장 중요하다고 생각한다. 지금부터 멀티모달 생성 AI에 대해 공부한다고 하면 시시각각 업데이트를 하면서 공부할 내용이 쌓이기 때문에 앞으로 이 AI모델이 어떻게 진화해나아갈 것 인지의 의견을 듣고 개인/기업/정부에게 묻는 시사점을 읽는다면 앞으로 어떻게 이 모델을 공부해야 겠다는 개인적인 목표가 선명해질 것이라고 생각된다. 마지막까지 읽어본다면 읽는 모든 독자가 후회하지 않을 좋은 책일 것 이다.

 

생성 AI에 관심이 있는 초심자부터 전문가분들까지 한번씩 이 책을 읽는다면 여러모로 큰 도움이 될 것이라 생각되어 이 책을 추천하는 바이다.

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."



이번에 읽은 도서는 제가 평소에 접하던 웹, 프론트엔드 분야와 조금 다른 AI에 관련된 도서였어요.

 

도서의 제목은 <멀티모달 생성 AI 인사이드> 입니다.

 

 

저는 평소에 개발을 할 때, 개인 작업을 할 때에도 GPT4를 정말 잘 사용하고 있는데요!

 

유료 버전을 구독하고 사용하고 있을만큼, 이제 GPT4가 없던 때로는 돌아가지 못할 것 같습니다.

 

 

제일 유명한 모델이 흔히들 아시는 GPT 이지만 저는 이 책을 통해서 다른 모델들도 어떤 다양한 특징이 있는지 알 수 있었어요.

 

멀티모달 생성 AI 의 기초적인 개념부터,

어떻게 활용하면 좋을지,

그리고 미래에는 어떨지 전망까지 다루고 있어서 생성 AI 에 관심이 있으신 분들이라면 흥미롭게 읽어볼 구석이 많을 것 같았습니다.

 

또한 적절히 멀티생성 AI에 대한 예시와 이해하기 쉬운 설명이 뒷받침되기 때문에 전문가가 아닌 일반인들도 좋은 인사이트를 얻을 수 있을 것 같아요.

 

 

 

 

목차는 다음과 같습니다

  • 멀티모달 생성 AI의 개념
  • 멀티모달 생성 AI 기술의 변천 과정
  • 멀티모달 생성 AI의 활용 분야와 애플리케이션
  • AI 주도권을 위한 빅테크 기업의 경쟁
  • AI 관련 주요 이슈
  • 글로벌 주도권 경쟁을 위한 국가별 AI 전략과 정책

 

 

 

특히 AI 의 밝은 면만 다루지 않아서 좋았던 것 같아요.

 

저는 읽으면서 AI 관련 주요 이슈에 대해서도 좀 유심히 읽어볼 수 있었는데요.

 

이미 많은 산업 분야에서 AI 를 활용 중에 있는데 최근에 AI 관련 윤리 문제들도 많이 나타나고 있기 때문이에요.

 

언젠간 마주할 일이기에, 윤리적인 활용에 대해서 생각해볼 수 있는 시간이었어요.

 

 

 

 

이 책을 추천하고싶은 대상은 멀티모달 생성 AI의 본질을 개념부터 원리까지 읽어보고, 다양한 사례와 영향을 읽어보고 싶은 분입니다!

 

멀티모달 생성 AI 에 대해서 기본부터 알아보고싶은 학생, 비전공자들도 유익하게 읽어볼 만한 책인 것 같아요.

 

 

 

 

====================

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

#도서제공 #서평단 #it #도서리뷰 #개발자 #개발 #컴공 #책리뷰

인공지능의 트랜드를 정리하는 책입니다.

이 책을 보면서 저는 문득 <탁월한 아이디어는 어디서 오는가>라는 책의 내용이 떠올랐습니다.

학자들은 그 패턴을 "복수성"이라 부른다. 지구 어딘가에서 과학자나 발명가 멋진 아이디어를 떠올리고, 자신이 알아낸 놀라운 사실을 발표한다. 하지만 이미 그 전 해에 다른 세 사람이 동일한 아이디어를 각각 떠올렸었다는 것을 알게 된다.

스티븐 존슨, <탁월한 아이디어는 어디스 오는가>

태양의 흑점은 1611년, 네개 나라에 있었던 4명의 과학자들에 의해 동시에 발견되었다고 합니다. 최초의 전기 베터리도 다른 두 과학자에 의해 거의 동시에, 에너지보존 법칙도, X-선과 돌연변이 연관성, 전화, 전보, 증기기관, 사진, 진공관, 그리고 라디오에 이르기까지, 정말 유명한 발명, 발견 중에 "복수성" 가진 것들이 꽤 많았다는 것이죠.

그럼 그 이유는 뭘까요?

"거인의 어깨" 덕분 입니다.

뉴턴은 "만약 내가 멀리 볼 수 있었다면 거인의 어깨 위에 앉아 있었기 때문이다"라 했다고 합니다. 즉, 학문적인 진전이나 발견은 반드시 그 토대가 있어야 가능하다는 것이죠. 토대가 생기면 그 토대 위에 올라선 사람들이 다음 단계의 진전을 이루게 되기 때문에, "복수성"패턴이 발생하게 되는 거라 볼 수 있을 것입니다.

<멀티모달 생성 AI 인사이드>!! 이 책은 지금까지 인공지능의 발전이 쌓아 올린 토대가 무엇인지 정확하게 집어서 정리해주고 있습니다. 저는 인공지능 관련 일을 하고 있지는 않지만, "한빛미디어 <나는 리뷰어다>" 활동을 하며 인공지능에 대한 책을 꽤 많이 읽어왔는데요. 그래서 다양한 인공지능의 발전이 어떤 성향을 띄고 있었는지는 어렴풋이 이해하고 있었습니다. 하지만'어렴풋이 이해'하는 것 이상을 하기엔 전문적인 지식도 부족하고 하는 일도 그게 아니니 어렵다고 생각해왔죠.

하지만, 이 책을 보면서, 지금까지 읽었던 인공지능 책들이 가리키고 있는 방향이 무엇인지 감을 잡을 수 있었습니다.

이미지를 잘 추출하고 인식하는 인공지능, 인간의 언어를 잘 분석하는 인공지능, 그리고 인간에 제공해주는 정보를 토대로 새로운 결과물을 생성하는 인공지능에 이르기까지, 다양한 인공지능들은 인간의 지적인 능력 일부를 보조해주는 역할을 향상시켜왔는데요. 저자들은 이 결과들이 모여서 "멀티모달 생성 AI"라는 개념으로 융합되고 있고, 이 개념으로 "새로운 미래"가 시작되고 있다는 "감"을 잡았던 것 같습니다. 그래서 이를 이 책을 통해 설명하려고 하신게 아닌가 싶네요.

멀티모달 생성 AI는 다양한 유형의 데이터를 결합하여 새로운 콘텐츠를 생성한다. 그리고 이 콘텐츠를 통해 다양한 문제를 해결하는 지능형 시스템을 말한다.

본문 22 페이지

그러고보니, 이런저런 뉴스를 통해서 단순히 이미지만, 단순히 언어만을 위한 인공지능이 아니라 이미지를 분석해서 말로 풀어주는 인공지능을 시도하기도 하고, 프롬프트를 입력하면 이를 이미지와 영상으로 만들어주는 인공지능들이 발전하고 있다는 걸, 떠올리게 되었습니다. 그리고 심심치 않게 "멀티모달"이라는 용어를 접했었다는 기억이 나더군요. 하지만, "멀티모달"이 미래를 이끌 중요한 "토대"가 될 거라고 까지는 생각하지 못했습니다. 그러나 이 책을 읽으면서 그런 생각을 하게 된겁니다. '멀티모달이 결국 "복수성의 토대"로서 역할을 하게 되겠구나'... 이렇게요.

그 시작점은 트랜스포머 알고리즘이었던것 같습니다. 구글의 연구원들이 2017년 발표한 논문에서 소개된 알고리즘인데요. 과거 언어 분석 모델로 사용하던 다른 인공지능 알고리즘의 문제점을 해결할 수 있는 특징을 가지고 있었죠. 시간적인 연결을 강조하다 보니, 시간적으로 멀리 떨어져 있는 요소에 대한 중요도가 떨어질 수 있었거든요.

오픈AI는 이런 특징을 잘 살려서 GPT서비스에 접목했고, GPT-3.5 서비스 가입자가 5일만에 100만 명을 넘는 쾌거를 이루어내죠. GPT가 잘 동작했던것은 결국 각 요소의 중요성에 대한 연결성을 트랜스포머가 잘 살릴 수 있어서였을 겁니다. 그리고 중요성을 연결하는 능력은 사실 문서의 요소들 뿐만 아니라 이미지나 동영상에 요소들 그리고 복합적인 데이터에서도 상당히 중요한 능력입니다. 이로 인해서 "멀티모달 생성 AI"가 탁월한 결과를 만들어 낼 수 있게 된게 아닌가 싶네요.

게다가, "복수성"은 기술 발전에 대한 "예측"을 가능하게 한다는 측면이 있습니다.

토대가 마련되고 있는 것을 보고 그 의미를 이해할 수 있는 사람이 있다면 그 사람은 그 토대 위에 어떤 혁신적인 결과들이 올라가게 될 것인지도 짐작할 수 있을 겁니다.

그래서 그런지, <멀티모달 생성 AI 인사이드> 저자들은 멀티모달 생성 AI를 설명하는 것만으로 그치지 않고 이를 둘러싼 다양한 상황에 대해서도 설명해주고 있습니다. 법률적, 윤리적, 문제와 일자리와 에너지에 이르기까지요.

이러한 변화를 책임감있게 이끌어내는 책임은 정책 입안자, 기업 리더, 그리고 사회 전체에게 달려있다

본문 257 페이지

토대와 상황을 이 책을 통해 이해하게 된다면, 이제 우리는 인공지능이 열어갈 미래를 좀더 명확하게 알고 준비할 수 있게 될 것입니다. 그런면에서 이 책이 상당히 중요한 이정표가 인것 같습니다.

최근 십년간 인공지능은 눈부시게 발전해왔습니다. 일반인은 이해하기 힘든 복잡한 과정과 이론이 있고, 상당한 크기의 컴퓨팅 파워를 쓸 수 없다면, 멀리서 목도하고 있어야만 할 정도로 전문적인 영역이었지요. 그러나 인공지능 발전의 결과물들이 토대가 되어 다음 시대를 열기 시작하는 시점이 지금이 아닌가 싶습니다. 그리고 이 책은 그 토대를 정확하게 이해할 수 있도록 정리해주는 책이 아닌가 싶네요.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

멀티모달 생성 AI 인사이드 : 멀티모달 생성 AI의 개념부터 활용 전략과 미래 전망까지

 

멀티모달 생성 AI란? 다양한 유형의 데이터를 결합하여 새로운 컨텐츠를 생성하여 문제를 해결하는 지능형 시스템 기술을 뜻한다.

인공지능의 개념은 1950년대부터 이미 존재하고 있었다. 당시에는 컴퓨터 머신 성능과 데이터의 부족, 알고리즘의 한계 등으로 인공지능 연구는 크게 발전하지 못했다고 한다.

 

머신러닝과 딥러닝 2006년 제프리 힌튼의 ‘손글씨 숫자를 인식할 수 있는 딥러닝 모형에 관한 논문’(2006)의 역전파 알고리즘에서 딥러닝은 인간보다 더 정확한 결과98%를 기록했지만 머신러닝보다 많은 데이터를 사용하는 딥러닝은 복잡한 모델을 사용하면서 문제점이 노출되고 암흑기를 맞이하게 되었다. 그러나, 오늘날의 방대한 빅데이터 IoT 시대가 도래하면서 영상, 음성 분야 주도로 성능이 비약적으로 향상되어 딥러닝은 우리에게 필수적인 기술이 되었다.

 

디지털 시대의 핵심 기술 중 하나인 멀티모달 생성 AI 전망을 기술했다. 멀티모달 생성 AI의 출현 배경부터 핵심 원리, 기술 활용, 사례까지 모두 다양하게 실었다. 그리고 전 세계가 주목한 빅테크 기업들과 전략적 경쟁의 윤리적 쟁점을 폭넓게 다루었다. 기술적인 용어를 이해하기 쉽도록 친절하게 설명하고 있어 비전공자나 일반 독자도 쉽게 접근할 수 있을 것으로 보인다.
·

 

<멀티모달 생성 AI 인사이드>책에 관한 상세한 내용은 아래 블로그를 통해 확인해주세요.

https://blog.naver.com/honeybeebin/223392401823
 

※ 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

이 책은 최근 회자되고 있는 멀티모달(multi-modal)의 개념부터 활용 전략과 함께, 미래 전망까지를 담은 것으로 생성형 인공지능이 어디까지 발전하고 있는지와 정부와 기업 그리고 개인 차원에서 이를 어떻게 인식하고 받아들여야 할지를 생각해보는 재미난 독서 여정이었습니다.

특히, 제2장의 멀티모달 생성 AI 기술의 변천 과정은 개인적으로 가장 재미있는 대목이었고, 제4장의 AI 주도권을 위한 빅테크 기업의 경쟁 파트는 오픈 AI로부터 엔비디아, 한국의 네이버까지 주요 빅테크 기업들의 상황과 방향도 살펴 볼 수 있어서 좋았습니다.

 

나아가 제5장의 AI 관련 주요 이슈에서 AI의 법적, 윤리적 이슈를 거론한 대목은 AI에 대한 신중한 접근과 인식을 도와줬고 많은 이들이 우려하는 미래 일자리 부분에 대한 언급도 유용했으며 마지막으로 제7장 미래 시나리오와 제언에서는 AI가 가져올 미래 시나리오를 그려보고 이에 대한 정부와 기업과 개인은 어떤 시사점을 받아드리고 준비해야 할지까지 생각하게 해준 부분은 나에게 AI에 대한 값어치있는 통찰을 갖게 했습니다.

 

이 책에 대한 보다 상세한 저의 리뷰는 아래 ULR에 있으니 참고해보셔도 좋을 것 같습니다.

https://blog.naver.com/kreview88/223390491295

이 책은 AI에 관한 전반적인 내용을 너무 깊지도 얕지도 않게, 부담스럽지 않게 다루고 있습니다.

딱 '요즘 AI가 대세라는데 AI가 뭔지 간략하게 알고 싶다' 하는 사람들에게 추천합니다.

멀티모달 생성 AI (Multimodal Generative Artificial Intelligence)는 다양한 유형의 데이터를 결합하여 새로운 콘텐츠를 생성하고, 이 콘텐츠를 통해 다양한 문제를 해결하는 지능형 시스템입니다.

책의 순서는 이러합니다.

먼저 멀티모달 생성 AI의 개념과 변천 과정, 활용 분야와 애플리케이션을 다룹니다.

변천 과정에서는 각 모델을 구현한 코드도 함께 나오는데 이 부분은 깊게 공부할 게 아니면 생략해도 무방합니다.

그 다음 요즘 핫한 주제인 빅테크 기업의 경쟁을 언급합니다.. 오픈AI, 구글, 엔비디아, 네이버 등..

또한 AI 관련 주요 이슈를 다루는데 개인적으로 이 부분이 중요하다고 생각합니다.

기술의 발전 속도를 제도가 따라가지 못하면 발생할 문제는 심각할 것이기 때문입니다.

AI 관련 법과 정책, 신뢰성 확보 문제, 일자리 문제 등에 대해 언급하고

마지막 챕터에서는 국가별 AI 전략과 정책을 다루고 있습니다.

현재 AI가 어떻게 발전하고 있고 앞으로 사회에 어떤 영향을 끼칠지, 국가 간 AI 경쟁에 대해 관심을 가지고 지켜 보고 싶다면 이 책을 추천합니다.

 

**한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

책의 서문에 나와있던 것처럼 AI와 빅데이터에 막연하게 관심은 있지만 구제적으로 어떤 것을 말하고 있는지, 또 어떤 상황에서 사용하는 것인지, 어떠한 상황이 주어졌을 때 어느것을 사용하는 것이 효과적인지를 대략적으로 알아보고 싶은 사람들에게 적합한 책이었다.
나는 개발자로 일하고있지만 주로 UI, UX를 그리는 프론트엔드 개발자이기에 데이터들을 활용해서 기능에 적용시키는 일은 사실 좀 드문편이라 그냥 비전문가와 다름 없는 수준의 지식을 갖고 있다고 생각한다. 그래서 초심자의 마음으로 책을 읽었을 때 드문드문 이게 뭐더라 싶은 용어들도 주석이라던가, NOTE, 이미지 등으로 풀어서 설명되어 있는 것들을 보며 도움을 받았다.

2장에서 AI기술의 변천과정을 보면서 다양한 모델 들이 설명이 되어있었는데, 어떤것을 만들어내길 원하느냐에 따라서 모델들 마다 각각의 장점과 단점이 있기에 사용하기 적합한 AI를 선택할지 고민할 수 있는 것이 좋았다. 보면서 만약 내가 이런 것을 만들어보고 싶다면 이 모델 보단 저 모델이 더 적합하겠다 싶다는 생각도 들었다.

요즘 AI를 활용한 프로필 사진만들기같은 어플같은 것들도 수많은 사료들을 통해 학습한 다음, 그 결과를 토대로 프로필 사진을 만들게 하는 기능을 더해서 우리가 쉽게 사용하는 어플로 만들어진 것들이나, 간단한 텍스트를 입력하면 그에 걸맞는 상황에 맞게 이미지를 생성하는 기술들이 예전보다 더 쉽게 사용할 수있도록 접근성도 용이해진 것을 보면 개념자체는 조금 어렵지만 예시를 보면 이해할 수 있는 내용들이 많아서 좋았다. 그리고 생각보다 의료, 건축, 법률 등 정말 다양한 분야에서 사용하고 있고, 우리가 상상하는 것보다 더 실생활에 밀접하게 적용되고 있다는 점도 신기했다.

뒷부분에 나오는 관련 이슈들이나, 각나라별 주요 정책들을 보면서 짧은시간에 실생활에 적용된 만큼 아직 미비한 법안들도 있을 것이고, 요즘 AI저작권 문제들처럼 많은 논의가 필요한 문제들도 있을 것같은데, 그런 문제들이 해결된다면 일상생활에서 생기는 복잡한 문제들을 쉽게 해결해줄 수 있는 좋은 도구가 될수 있다고 생각한다.

multimodal_ai.jpg

★★★☆☆ March 11, 2024

소제목에서도 드러나지만, 기술 서적은 아니고 AI의 전반적인 개념부터 활용 분야나 미래에 대한 전망까지 이야기하는 책이다. AI를 도입해 내부에 적용하거나 새로운 분야를 개척하는 등 어떤 집단을 담당하는 리더들을 대상으로 썼다는 생각이 들었다. 그래서 그런지 책 앞의 추천사들도 어디 원장이나 학과장, 책임자뿐 아니라 정책을 만드는 듯한 서울시 공무원분도 있었다.

  • 목차를 보면 개념, 기술 변천 과정, 활용 분야, 관련 기업, 주요 이슈, 전략 및 정책, 제언의 순서로 이어진다. 책의 장점은 정말 다양한 주제를 다룬다는 점이다. 개념, 활용 분야 같은 부분도 괜찮았지만, 기술적인 부분을 다루는 책은 정말 많지만, 이쪽을 다루는 서적은 많이 없기 때문에 전략 및 정책이나 제언 부분이 돋보였다. AI가 사회에 미치는 영향이 정말 클 거라는 건 모두 동의하는 바지만, 아직 미래가 어떻게 전개될지 정확히 예측할 수 없기 때문에 이런 저런 걱정이나 우려도 많은데 그런 점에서 이렇게 기술 외적인 부분을 논의하는 자료가 기술만큼이나 중요하다고 생각한다.
  • 아쉬운 점까지는 아니지만 약간 어울리지 않는다고 생각한 점은 두 가지. 첫째, 제목이나 각 장에서 다루는 ‘멀티모달’. 책 제목부터 ‘멀티모달 생성 AI 인사이드’로 멀티모달을 내세우고 있으나 다루는 내용을 보면 멀티모달보다는 일반적인 AI의 관점에서 보는 분량이 더 많다. 둘째, 두 번째 장에서 기술 변천 과정을 설명하면서 코드도 함께 실었으나 이 책의 (내가 추정하는) 잠재 독자층을 볼 때 코드에 관심이나 필요성은 낮다고 생각한다.
  • 책의 분량이나 내용으로 고려할 때 ‘저자의 말’에서 썼듯이 독자들에게 다양한 관점을 제시하고 가질 수 있게 하는 목적을 충분히 달성할 수 있다고 생각한다. 추천!

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다

결제하기
• 문화비 소득공제 가능
• 배송료 : 2,000원배송료란?

배송료 안내

  • 20,000원 이상 구매시 도서 배송 무료
  • 브론즈, 실버, 골드회원이 주문하신 경우 무료배송

무료배송 상품을 포함하여 주문하신 경우에는 구매금액에 관계없이 무료로 배송해 드립니다.

닫기

리뷰쓰기

닫기
* 상품명 :
멀티모달 생성 AI 인사이드
* 제목 :
* 별점평가
* 내용 :

* 리뷰 작성시 유의사항

글이나 이미지/사진 저작권 등 다른 사람의 권리를 침해하거나 명예를 훼손하는 게시물은 이용약관 및 관련법률에 의해 제재를 받을 수 있습니다.

1. 특히 뉴스/언론사 기사를 전문 또는 부분적으로 '허락없이' 갖고 와서는 안됩니다 (출처를 밝히는 경우에도 안됨).
2. 저작권자의 허락을 받지 않은 콘텐츠의 무단 사용은 저작권자의 권리를 침해하는 행위로, 이에 대한 법적 책임을 지게 될 수 있습니다.

오탈자 등록

닫기
* 도서명 :
멀티모달 생성 AI 인사이드
* 구분 :
* 상품 버전
종이책 PDF ePub
* 페이지 :
* 위치정보 :
* 내용 :

도서 인증

닫기
도서명*
멀티모달 생성 AI 인사이드
구입처*
구입일*
부가기호*
부가기호 안내

* 온라인 또는 오프라인 서점에서 구입한 도서를 인증하면 마일리지 500점을 드립니다.

* 도서인증은 일 3권, 월 10권, 년 50권으로 제한되며 절판도서, eBook 등 일부 도서는 인증이 제한됩니다.

* 구입하지 않고, 허위로 도서 인증을 한 것으로 판단되면 웹사이트 이용이 제한될 수 있습니다.

닫기

해당 상품을 장바구니에 담았습니다.이미 장바구니에 추가된 상품입니다.
장바구니로 이동하시겠습니까?

자료실

최근 본 상품1