LLM 서비스 설계와 최적화

veri2***l2025-06-01

실제로 서비스를 설계하고 운영해본 경험에서 나온 조언들이 담겨 있어 이론서와 차별화된 내용이 들어있어서 실무에 많은 도움이 되었습니다.

drv***l2025-06-01

똑똑한 최적화, 최대한의 성능을 내는 AI 서비스의 가치실현 방법 howto

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

최근 OpenAI의 GPT 스리즈와 구글의 재미나이, 메타의 라마 등 LLM에 대한 관심이 폭발적이며, 관심의 증가세는 줄어들줄 모르는 형세 입니다. 비단 취업을 준비하는 대학생 뿐만 아니라 이미 개발의 깊이가 있는 시니어 레벨의 현업 개발자까지, LLM을 접목한 애플리케이션을 구상합니다. 하지만 높은 비용과 인프라 부담 때문에 많은 이들이 실제 서비스 구현을 알아보고 망설이게 됩니다. 이 도서, LLM 서비스 설계와 최적화는 이런 문제에 명쾌한 대답과 해설을 제시합니다.
이 책은 AWS의 수석 데이터 과학자인 슈레야스 스브라마니암 박사가 현장에서 얻은 풍부한 경험을 바탕으로, 성능을 희생하지 않으면서도 비용을 획기적으로 절감할 수 있는 실무 노하우와 전략을 제시합니다. 모델 선택, 데이터 전/후처리, 프롬프트 엔지니어링, 인스트럭션 파인튜닝 등 LLM 할용 전반의 핵심 주제의 이론부터 실전까지 폭넓은 내용을 친절하게 설명하고 있으며, 비용과 성능의 최적화와 이들간의 절묘한 무게중심을 잡는 방법을 안내합니다.

이 책의 핵심 주제는 LLM 기반 서비스의 비용 최적화 입니다. 총 6개 장에 걸처 생성형 AI 서비스를 설계하고 운영하는 전과정을 다루고 있으며, 성능 저하를 최소화하면서도 비용을 효과적으로 줄이는 방버을 다양한 각도에서 모색하며 함께 생각합니다. 예를들면 모델 선택부터 프롬프트 기법, 파인튜닝, 배포에 이르기까지 각 단계별 최적화 전략을 제시하여 적은 자원으로도 높은 성능을 내는 방법을 고민합니다. 이를 통해 독자는 기업환경에서 LLM을 실제로 활용할 때 마주하게 되는 난제인 인퍼런스와 인프라 비용을 어떻게 해결할 수 있는지 구체적으로 배우게 됩니다. 결국 이상적인 AI인퍼런싱인 똑똑하게 최적화된 AI, 최대의 AI성능과 가치 실현의 방안을 알려준다고 할 수 있습니다.

(1장) 생성형 AI 기초와 비용 최적화의 필요성 : 생성형 AI와 LLM의 기본 개념과 상용화 과정에서 직면하게 되는 도전 과제들을 이해하기 쉽게 풀어써 줍니다. 특히 비용 최적화가 왜 필수적인지 다양한 사례와 구체적인 데이터를 제시하여 내용을 더욱 설득력게 만듭니다. 이를 통해 독자들은 왜 LLM 서비스의 구현단계에서 반드시 비용문제를 고려해야만 하는지 명확하게 이해할 수 있습니다.

(2장) 파인튜닝(PEFT)을 통한 비용 효율화 : 대부분의 LLM은 거대해서 전체 모델을 매번 파인튜닝 하는것은 매우 비효율적입니다. 이에대한 해결 방법중 하나로 LoRA, 프롬프트 튜닝 등 일부 파라미터만 조정하여 계산 비용을 절감하는 파라미터 효율적 파인튜닝(PEFT)을 소개하며 특정 용도에 맞게 커스터마이징 하는 기법을 다룹니다. Falcon 40B 모델 등 실제 사례를 통해 PEFT적용시 비용 절감효과와 성능 변화를 분석하고 효과를 확인하며, 전체 파인튜닝 대비 경량화된 훈련기법의 실용성을 배우면서 이에 대한 원리와 이점을 깊이있게 이해하게 됩니다.

(3장) 효과적인 추론 최적화 전략 : 가장 실용적인 내용의 챕터이며, 프롬프트 엔지니어링 기법에서 부터 텍스트 요약, 배칭 프롬프트 처리, 모델 최적화에 이르기 까지 다양한 LLM 추론 테크닉을 소개합니다. 이를 기반으로 실제 서비스 운영 단계에서 추론 비용을 획기적으로 낮출 수 있는 다양한 전략을 소개합니다. 특히 긴 문서를 효율적으로 처리하는 체인 구조, 텍스트 요약을 활용한 전처리 기법 등 실제로 실무에 적용 가능한 구체적인 사례를 제시하는데, 현장에서 이를 바로 활용할 수 있는 금가루 팁도 얻을 수 있습니다. 프롬프트 구성과 추론 효율화에 관한 다각도의 전략도 습득할 수 있습니다.

(4장) 소형 모델과 도메인 특화 모델 선택 : 모든 기업이 GPT-4 레벨의 초거대 모델을 사용할 필요는 없습니다. 적은 자원으로도 미션과 목표 달성에 충분한 성능을 낼 수 있는 소형 모델(SLM)과 도메인 특화 모델을 선택하는 기준을 제안하면서, 메타의 미스트랄, Zephyr, Phi 등 최신 소형 모델들의 성공사례를 함께 제시합니다. 범용 모델을 활용한 프롬프트의 성능 섹션에서는 현재 사용 가능한 오픈 API 기반 모델들을 최대한 똑똑하게 활용하는 방법을 다루며, 작은 모델과 대형 모델 각각의 장단점을 전략적으로 비교합니다. 선택할 수 있는 다양한 모델을 테이블위에 펼쳐 놓고 선택지를 비교 분석하며 실제 개발과 운영환경에서의 고려할 요소와 대체 모델의 현실적인 가능성 중 합리적인 선택을 하는 방법을 배우게 됩니다.

(5장) LLM 인프라 및 배포전략 : 실제 LLM 서비스 단계에서 가장 크게 고민되는 부분은 운영에 지속적으로 소요되는 큰 비용입니다. LLM 서비스를 운영 환경에 배포하고 인프라를 최적화 하는 방안을 폭넓게 다루며, 운영시 비용을 줄이고 효율을 높이는 전략을 제시합니다. GPU오 ㅏCPU를 혼용하거나 클라우드 비용을 절감하거나 시스템 자동화 모니터링을 통한 지속적인 최적화를 다룹니다. TensorRT, DJL Serving 등 GPU 및 CPU 가속화 도구를 활용하여 하드웨어를 효율적으로 사용하고 모니터링과 옵저버빌리티 기법을 통해 비용 관리 전략을 세우는 등 실무에 고려해야만 하는 매우 실용적인 안내를 합니다. 특히 자동화된 배포 튜닝 전략은 클라우드 인프라 비용을 획기적으로 낮츨 수 있는 노하우로 독자는 LLMOps 관점에서 인프라 설계와 운영 튜닝에 대한 종합적인 지식을 얻을 수 있습니다.

(6장) 성공적인 생성형 AI 도입 전략과 미래전망 : 마지막장은 전체 내용, 특히 성능과 비용의 균형 관점을 종합적으로 정리하면서 생성형 AI를 도입에 성공하기 위한 팀 구성 및 전략적 접근법을 다룹니다. 미래의 트렌드로 MoE(전문가 혼합 모델), 멀티모달 AI, Ai 에이전트 등에 대한 통찰을 제공하여 독자들에게 보다 넓은 시야와 균형잡힌 시선을 가지는 방법을 알려줍니다. 빠르게 변화하는 AI 환경 속에서도 지속 가능한 서비스 전략을 수립하는 통찰을 얻게 됩니다.

본 도서의 가장 큰 장점은 다른도서에서는 등한시하는 경향이 있는 LLM 서비스의 비용 문제를 명확하게 인지하고 이를 깊이있게 파고들어 구체적인 해결책을 제공한다는 점입니다. 단순히 모델의 활용법이나 이론 설명에 그치지 않고 실제 운영 환경에서 마주치는 현실적인 문제들을 구체적으로 다룬다는 점은 타도서에서는 찾기 힘든 확실한 차별점입니다. 반면, 모든 주제를 다루려 하다 보니 특정 기술의 깊이나 독특한 사용 사례, 기술별 적용 방안에 대한 양적인 부분에 있어서 다소 아쉬울수 있습니다. 특히 다른 도서에서도 간헐적으로 느끼는 부분인데, 제시된 각 기법의 한계점에 대한 심층 논의도 부족한 편입니다. 또한 AI 분야의 발전 속도가 워낙 빠르다 보니 최신 모델이나 트렌드 내용은 책 출간 이후 새롭게 등장한 셋터도 있습니다. 구체적인 실험 데이터와 소 주제별 현업 사례가 더욱 풍부하다면 더욱 완벽했다고 느낄 수 있을 수도 있겠습니다. 하지만 도서의 분량과 내용은 이 책이 제공하려고 하는 핵심가치를 훼손하거나 부족하지 않습니다.

LLM 서비스 설계에서 가장 현실적인 문제는 비용입니다. 생성형 AI 서비스 개발에서 비용 최적화는 더 이상 선택이 아닌 필수이며, 이를 노골적이고 직접적으로 다루는 책은 흔치 않습니다. 이 책은 한권으로 LLM 실무 지식을 폭놃게 습득할 수 있는 효율적인 방법입니다. 기술적인 팁부터 비즈니스 관점까지 아우르는 내용은 스타트업부터 엔터프라이즈까지 실무자부터 의사결정권자까지 모두에게 통찰을 제공합니다. 책 내용은 일관되도록 핵심 주제를 관통하고 있으며, 책에서 제시한 개념과 기법들을 토대로 독자가 직접 실험하고 확장하는 과정을 통하여 자연스럽게 더 큰 통찰을 얻을 수 있도록 구성되었습니다. 아무래도 저자가 AWS 현업 전문가다 보니 이또한 신뢰를 주며, 각장의 내용을 따라가다 보면 자연스럽게 LLM프로젝트를 처음부터 구현하고 임퍼런싱하고 배용을 지불하는 방법까지 완전한 사이클을 익히게 됩니다. 한정된 자원으로 최고의 성과를 내고 싶은건 기본적인 욕망입니다. AI 기술 환경속에서 지속가능한 성능과 비용의 균형잡힌 길을 찾고 있다면 이 책이 그 사이 안개를 걷히게 해줄 수 있는 마법 주문이 될 것입니다.

rer***l2025-05-31

LLM 서비스 개발자의 필독서 'LLM 서비스 설계와 최적화'

'LLM 서비스 설계와 최적화'는 생성형 AI 기술의 상용화를 고민하는 개발자와 기업을 위한 실용적인 안내서입니다. 이 책은 대규모 언어 모델(LLM)의 구축, 튜닝, 배포 과정을 효율적으로 설계하고 최적화하는 방법을 체계적으로 설명합니다. 특히, 고성능을 유지하면서도 비용을 최소화하는 전략에 중점을 두고 있습니다.
이 책의 저자인 슈레야스 수브라마니암(Shreyas Subramanian)은 AWS의 수석 데이터 과학자로서, 아마존 내부 팀과 대기업 고객을 대상으로 생성형 AI 애플리케이션의 대규모 구축, 튜닝 및 배포를 컨설팅하는 사람입니다. 저자는 기초 모델을 위한 고급 훈련, 튜닝 및 배포 기술의 최첨단 연구 개발을 담당하며, 머신러닝 중심의 비용 최적화 워크숍을 운영하여 클라우드에서 인공지능 애플리케이션의 비용을 절감하는 법을 컨설팅하는 일을 합니다.
이 책은 다음과 같은 독자들이 읽으면 좋습니다. 이 책은 실무에 바로 적용 가능한 지식과 전략을 제공하므로, 이론보다는 실제 구현과 운영에 관심 있는 독자들에게 특히 유익합니다.
- AI 서비스를 개발하면서 비용 효율성과 성능 최적화에 대한 고민이 있는 개발자
- LLM의 다양한 활용 사례와 최적화 기법을 학습하고자 하는 데이터 과학자
- 생성형 AI 기술을 도입하려는 스타트업이나 중소기업의 기술 리더
- 프롬프트 엔지니어링, 파인튜닝, 모델 배포 등 실전 기술을 익히고자 하는 독자
'LLM 서비스 설계와 최적화'는 다음과 같은 특징을 가지고 있습니다.
- 실용적인 접근: 이론보다는 실제 구현과 운영에 중점을 두어, 독자들이 바로 적용할 수 있는 지식과 전략을 제공합니다.
- 비용 최적화 전략: 모델 선택, 프롬프트 엔지니어링, 파인튜닝, 배포 등 각 단계에서 성능 저하를 최소화하면서 비용을 효과적으로 줄이는 방법을 소개합니다.
- 다양한 최적화 기법 소개: 파라미터 효율적 파인튜닝(PEFT), 모델 양자화, 추론 가속화 도구 등 최신 최적화 기법을 다루어, 독자들이 다양한 상황에 맞는 전략을 선택할 수 있도록 돕습니다.
- 균형 잡힌 시각 제공: 기술적 측면뿐만 아니라 비즈니스적 가치 평가에도 통찰을 제공하여, 기술 구현과 비즈니스 요구 사항 사이의 균형점을 찾고자 하는 독자들에게 유용한 관점을 제시합니다.
- 체계적인 구성: 기초 개념부터 고급 최적화 기법까지 단계적으로 설명하여 AI 기술 도입의 전체 흐름을 파악할 수 있게 합니다.
'LLM 서비스 설계와 최적화'는 생성형 AI 기술의 도입과 운영에 있어 실질적인 가이드를 제공하는 책입니다. 비용 효율성과 성능 최적화를 동시에 달성하고자 하는 개발자와 기업에게 이 책은 유용한 참고서가 될 것입니다.

ysm***l2025-05-31

LLM 서비스 설계와 최적화 - 슈레야스 수브라마니암

"한빛미디어 서평단 <나는리뷰어다> 활동을 위해서 책을 협찬 받아 작성된 서평입니다."

LLM 서비스 설계와 최적화

내가 아는 기술이라도, 비용을 낮추는 관점에서 설명을 해주니 새롭게 다가왔다.

컨텍스트

RAG는 단순히 LLM 의 컨텍스트 윈도를 확장하는 것보다 적은 컴퓨팅 작원으로 많은 작업에서 강력한 성능을 제공한다.

RAG 가 최신의 변경이나 도메인에 특정 문서관련된 정보를 제공하는 방법이라고 생각했는데, 비용의 관점에서 바라보니 기술이 새롭게 느껴진다.

책에서는 단순히 기술을 소개하는 것에서 어떻게 운용해야 되는지에 대한 조언도 많이 준다. 컨텍스트를 어떻게 제공하느냐가 LLM과의 상호작용 성능을 키우지만, 한계(최신 훈련데이터 학습의 부재, LLM의 컨텍스트를 유지하는 설계요소,내재된 편견으로 인한 편향) 도 같이 제시하면서 추가적인 전략을 마련하는 것을 추천한다.

출력 형식을 지정함으로써, 불필요한 상호작용도 줄이고 후처리에 들어가는 시간과 비용도 줄일 수 있음을 소개해주고 있다.

아마 가장 많이 만나는 상황은 긴 문서의 처리일 것이다.

사내의 문서들은 너무나 길고, 여러해 동안의 자료를 분석하는 경우가 실무적으로 가장 많을 것이기 때문이다.

벡터 스토어와 체이닝

벡터스토어와 체인(chunk 로 나눠서 질문) 을 활용하면 효율적으로 활용하면 된다.

방대한 모든 양의 데이터를 처리하는 것은 비용이 많이 들기 때문에, 가장 핵심적인 부분으로 요약해 모델이 요약된 버전의 데이터 셋이서 작동하도록 한다.

그러면, LLM 의 계산 비용도 줄고, 효율적으로 저장할 수 있으며, 다른 애플리케이션의 입력으로도 사용할 수 있다. 캐싱 기능의 공간과 시간도 줄일 수 있다.

모델의 최적화도 다루고 있다. 하지만, 실제적으로 모델은 외부에서 가져다 쓰는 것이 많다보니,

중복된 가중치를 제거하는 프루닝, 더 작은 모델이 더 큰 모델을 모방하도록 훈련하는 증류, 낮은 정밀도의 데이터 타입으로 가중치와 활성화를 표현하는 양자화에 대한 내용이 나오니 참고하면 좋다.

se***l2025-05-31

프롬프트 엔지니어링, 추론 파이프라인 구성, 모델 선택과 평가 기준, 리소스 최적화와 캐싱 전략, 사용자 피드백 반영과 서비스 개선 루틴까지 다루는 책

실무 현장에서 LLM을 기반으로 한 서비스를 설계하고 운영하려는 개발자와 기획자를 위한 실용적인 가이드를 제공한다는 점에서 분명 강점을 지닌다. 실제 사례를 바탕으로 프롬프트 엔지니어링, 아키텍처 설계, 비용 최적화 전략 등을 체계적으로 설명하며, 특히 성능과 비용의 균형이라는 현실적인 과제를 중심에 두고 접근하는 점은 실무자에게 높은 실용성을 제공한다.

alstjs4***l2025-05-31

직접 시행착오를 겪지 않고 체득할 수 있는 LLM 서비스 설계 및 최적화 실전 전략

한빛미디어 서평단 <나는 리뷰어다> 활동을 위해서
책을 협찬받아 작성된 서평입니다.

? 책 소개

오늘 소개할 책은 ⌜LLM 서비스 설계와 최적화 (슈레야스 수브라마니암)⌟이다.

? 책 선택 이유

부스트캠프에서 OpenAI API를 활용한 기능을 개발하는 부분을 맡아서 진행한 적이 있었다. 프롬프트 최적화를 진행하느라 프롬프트를 작성하고 API를 호출한 후 결과를 보는 작업을 반복하고 최종 프롬프트로 원하는 작업을 진행하기 위해 많은 양의 결과를 한 번에 요청했다가 중간에 에러가 발생하여 처음부터 다시 하는 등의 상황이 발생하여 많은 시간을 들이고 API 비용으로 많은 돈을 낭비하게 된 경험이 있다. LLM을 활용할 수 밖에 없는 요즘, 비용 최적화와 성능 최적화를 위한 설계 방법을 익힐 필요가 있음을 절실하게 느끼게 되었고 그 부분에 대한 내용이 담긴 이 책을 선택하게 되었다.

?? 책의 특징 및 차별점

[직접 시행착오를 겪지 않고 체득할 수 있는 실전 전략]

LLM 서비스 설계와 최적화 관련 테크닉은 보통 직접 부딪혀보고 실패를 반복하면서 겨우 익히게 되는 경우가 많다. 특히 비용과 성능 사이에서 어떤 선택을 해야 할지, 어디서 병목이 생기는지를 파악하는 건 말처럼 쉽지 않다. 그런데 이 책은 그런 시행착오를 먼저 겪은 사람들이 정리한 경험과 전략을 하나로 모아 전달해 주는 느낌이라 시행착오 없이도 중요한 감각을 익힐 수 있었다. 나처럼 실제로 많은 시간과 많은 API 비용을 써가며 실수를 했던 사람에겐 특히 더 와닿았고 시행착오를 겪기 전에 이 책을 읽었으면 좋았겠다는 생각을 했다.

[비용 최적화 & 성능 극대화를 위한 단계별 실전 방법 안내서]

튜닝부터 추론, 모델 선택, 인프라 구성, 배포까지 LLM 기반 서비스 개발 과정 전체를 하나의 흐름으로 잘 정리해준다. 각 단계에서 고민해야 할 핵심 포인트와 판단 기준이 구체적으로 제시되어 있어서, 전체적인 구조를 잡는 데 큰 도움이 됐다. 예를 들어, 어떤 상황에서 프롬프트만으로 해결할 수 있는지, 언제 파인튜닝을 고려해야 하는지 같은 실무적 기준들이 명확히 제시되어 있어 실제 프로젝트에 곧바로 적용할 수 있었다. 단순히 이론을 설명하는 게 아니라 실무 상황을 상정하고 정리된 안내서라서 더 실감 나게 읽혔다.

? 추천 독자

1. LLM 기반 서비스를 설계하고 최적화하는 업무 담당자

2. LLM API 비용으로 문제를 겪고 있는 사람

3. LLM 성능 최대화를 위한 전략을 공부하고 싶은 사람

enm0***l2025-05-31

LLM서비스의 엔지니어틱한 부분이 총 망라된 서적

"한빛미디어 서평단 <나는리뷰어다> 활동을 위해서 책을 협찬 받아 작성된 서평입니다."

오늘은 한빛미디어에서 발간한 ' LLM 서비스 설계와 최적화 ' 책 서평을 작성해보겠습니다!!

리뷰하기 전에 저에 대해 간단히 소개하자면, 저는 LLM분야는 잘 모르는 어디서 주워들은 매우 협소한 지식만 있는 학생입니당,,,,,

특히 엔지니어틱?한 서비스 개발, 배포측면에서는 더더욱 까막눈이구욥,,,,

그래서! 초보자의 입장에서 해당 책을 리뷰해도록 하겠습니다

책 디자인은 뭔가 대학교 전공서적 느낌인데욥,,,, 겁나 무섭게 생겼습니다

# LLM(Large Language Model) 이란?

리뷰하기에 앞서 책 제목에 크게 쓰여있는 LLM에 대해 알아보겠습니다!

요즘 LLM이 인공지능 분야에서 되게되게 핫한 분야, 뜨거운 감자로 각광받고 있는데욥

요즘 모르는 사람들이 없다는 OpenAI의 챗GPT(ChatGPT), 구글의 제미나이(Gemini) 역시 LLM에 속합니다!

LLM은 방대한 데이터를 학습한 AI인데요

언어이해 및 생성, 요약, 번역 코드작성 등 다양한 작업에서 인간처럼 혹은 인간을 뛰어넘는 수행능력을 보여주고 있습니다.

이런 기술이 발전하면서, 영화 ‘터미네이터’처럼 인간 수준의 지능(AGI)이 실제로 나올 수 있다는 기대와 논의가 활발지고 있는데요

즉, LLM의 뛰어난 언어 능력과 문제 해결력 덕분에
“AI가 인간처럼 생각하고 행동하는 시대가 올까?”라는 화두가 생겨난 것입니다!!

# 책 구성

해당 책은 외국에서 발간된 책을 번역한 서적인데욥

Large Language Model-Based Solutions: How to Deliver Value with Cost-Effective Generative AI Applications

IT 분야 도서에서 자주 접하는 와일리(Wiley) 출판사에서 출간한 책입니다!

특히 해당 책의 원저자인 슈레야스 수브라마니암(Shreyas Subramanian)은 인도계 미국인 데이터 과학자로, AWS의 데이터 사이언티스트로 재직중이라고 합니다!

이 책의 부제는 '비용은 낮추고 성능은 극대화하는 AI 서비스 구축과 운영 가이드' 인데욥 말 그대로 대규모 언어 모델(LLM) 기반 AI 서비스를 설계하고 최적화하는 방법에 대한 가이드를 제공합니다

특히 원저자께서 실제로 현업에서 활발히 활동하는 분이시다보니 LLM 이론 뿐만 아니라 LLM 기반 서비스 개발, 운영에 필요한 실무적인 지식을 구체적으로 제시합니다!

CHAPTER 1 LLM 기초

_1.1 생성형 AI 애플리케이션과 LLM
_1.2 생성형 AI 애플리케이션의 상용화를 위한 길
_1.3 비용 최적화의 중요성
_1.4 요약

CHAPTER 2 비용 최적화를 위한 튜닝 기법

_2.1 파인튜닝 및 커스터마이징
_2.2 파라미터 효율적 파인튜닝(PEFT)
_2.3 PEFT의 비용 및 성능에 대한 영향
_2.4 요약

CHAPTER 3 비용 최적화를 위한 추론 테크닉

_3.1 추론 테크닉 소개
_3.2 프롬프트 엔지니어링
_3.3 벡터 스토어를 이용한 캐싱
_3.4 긴 문서를 관리하는 체인
_3.5 텍스트 요약
_3.6 효율적인 추론을 위한 배칭 프롬프트
_3.7 모델 최적화 방법
_3.8 파라미터 효율적 파인튜닝(PEFT)
_3.9 비용 및 성능 영향
_3.10 요약

CHAPTER 4 모델 선택과 대안

_4.1 모델 선택의 중요성
_4.2 효율적인 소형 모델
_4.3 성공적인 소형 모델 사례
_4.4 도메인 특화 모델
_4.5 범용 모델을 활용한 프롬프트의 성능
_4.6 요약

CHAPTER 5 인프라 및 배포 튜닝 전략

_5.1 튜닝 전략
_5.2 하드웨어 활용 및 배치 튜닝
_5.3 추론 가속화 도구
_5.4 모니터링과 옵저버빌리티
_5.5 요약

CHAPTER 6 성공적인 생성형 AI 도입의 열쇠

_6.1 성능과 비용의 균형
_6.2 생성형 AI 애플리케이션의 미래 트렌드
_6.3 요약

해당 책의 목차는 다음과 같은데욥

목차에서도 알 수 있듯이 LLM 이론 + 다양한 튜닝기법, 비용최적화 테크닉, 배포 등 실무적인 측면도 제시합니다

특히 각 카테고리별로 간단히 넘어가는 것이 아니라 매우 구체적인 이론 + 코드를 제시하고 있습니다!

해당 LLM 모델을 실습해볼 수 있는 허깅페이스 링크 + 해당 내용의 근거자료인 논문이 기재된 아카이브(arXiv) 링크도 주석으로 제공되어 있으니 해당 파트에 대해 더 심화적으로 알아볼 수 있습니다!

아래 사진은 책 내용중, PEFT(Parameter-Efficient Fine-Tuning)에 관련된 여러 방법론들이 제시된 부분인데요!

라이브러리를 볼 수 있는 허깅페이스, 각 방법론들이 제시된 논문 링크들을 제시하고 있습니다!

해당 부분에서는 모델의 가중치를 낮은 비트(4bit, 8bit)로 변환해 모델의 추론/학습 속도를 높이는 양자화(Quantization) 기법이 구현된 autowq 라이브러리를 사용하는 예시 코드가 나와 있네욥!!

# 그래서 누구에게 추천하는가?

해당책을 읽어 보니 크게 두 부류의 사람들에게 추천하면 좋겠도라구욥

1. LLM 서비스를 운영하며 비용을 절감하고 성능을 극대화해야 하는 LLM 전문가

2. 딥한 실력은 없지만 LLM에 대해 관심이 있는 독자

LLM 서비스와 관련해서 매우 구체적으로 특히 최신 트랜드, 연구방향 등을 총망라해서 볼 수 있는 책으로, 해당 분야의 전문가들이 보면 매우매우 좋겠다는 생각이 들었구요 혹은 저처럼 LLM에 대해서는 구체적으로는 모르지만 관심이 있는 독자들에게 추천합니다!

저는 개인적으로 LLM기술에 대해 이론적인 측면에 대해서만 주로 접해봤는데요

실제 LLM이 현업에서 서비스 될 때 고려해야하는 성능, 비용, 인프라 측면들을 알아볼 수 있어서 매우 유익했던 것 같아요!

(비용적인 측면에서 도메인 특화 모델 or 매우 큰 모델 어떤 모델을 선택하는 것이 좋을지,부분적으로 파인튜닝 진행할지 or 초기부터 사전학습으로 모델 새롭게 구축할지 등)

하지만 어느정도 AI 특히 LLM과 관련된 지식이 필요한데요

완전 뉴비가 처음 책을 펴서 읽기에는 처음보는 외계어일거에요,,,,

dhan***l2025-05-30

솔루션 관점에서 보는 LLM 서비스 최적화 전략

솔루션 관점에서 보는 LLM 서비스 최적화 전략

생성형 AI, 그 중에서 LLM 또는 SLM을 활용한 애플리케이션 개발을 주제로 한 책이 넘쳐나는 요즘이다. OpenAI/Gemini API를 활용한 인공지능 프로그래밍, 프롬프트 엔지니어링, 랭체인, RAG, AI 에이전트를 다루는 책은 많은데 우리의 최종 목표는 개발한 애플리케이션을 제품화하여 서비스하는 것이다. 그런데, 대다수 도서들의 개발 환경은 코랩이다. 이 책이 매력적인 이유는 "비용을 낮추고 성능은 극대화하는 AI서비스 구축과 운영가이드"라는 부제에서 찾아볼 수 있었다. 내 시선을 끌기에 충분했다.

[추천 독자]

LLM/SLM 기반 애플리케이션 입문자 및 개발자

LLMOps를 담당하는 SW 엔지니어

LLM기반 솔루션 개발자

LLM 서비스 담당자

[키워드]

#LLM #RAG #생성형AI #벡터데이터베이스 #파인튜닝 #추론 #프롬프트엔지니어링 #벡터스토어 #캐싱 #제미나이 #KV캐싱 #LLMOps #TensorRT #GPU가속도구 #CPU가속도구 #TensorRT #모니터링 #옵저버빌리티 #Mistral #양자화 #PEFT

[책의 구성]

이 책은 전체 6개 장으로 구성되어 있다.

CHAPTER 1 "LLM 기초"에서는 LLM의 역사, 생성형 AI와 LLM의 차이, 생성형 AI 애플리케이션의 3계층(인프라, 모델, 애플리케이션), LLM 기반 애플리케이션 시퀀스 다이어그램, 성능 측정시 고려해야 할 요소들을 설명한다.

<1장 LLM기초 > 언어 모델의 진화 나무, p26~p27>

CHAPTER 2 "비용 최적화를 위한 튜닝 기법"에서는 모델의 파인튜닝 방법 및 파인 튜닝 비용 과 성능의 상관 관계를 설명하고

<2장 비용 최적화를 위한 튜닝 기법, Falcon 40B 모델의 전체 및 양자화 버전과 전체 훈련 및 LoRA 기반 훈련을 위한 여러 GPU간 비교, p86~p87>

CHAPTER 3 "비용 최적화를 위한 추론 테크닉"에서는 프롬프트 엔지니어링, 벡터스토어, 캐싱전략, 배치 프롬프트, 모델 최적화 등 추론 관점에서 비용 최적화를 설명한다.

<3장 비용 최적화를 위한 추론 테크닉, 긴 문서를 위한 병렬 처리 시퀀스 다이어그램, p124~p125>

CHAPTER 4 "모델 선택과 대안"에서는 LLM 서비스에서 효율적인 소형 모델 활용법과 성공적인 사례를 설명하고

<4장 모델 선택과 대안, 다양한 모델의 훈련하는 데 필요한 컴퓨팅 용량, p180~p181>

CHAPTER 5 "인프라 및 배포 튜닝 전략"에서는 LLM 서비스를 위한 최적화된 하드웨어 활용법을 설명한다.

<5장 인프라 및 배포 튜닝 전략, LLMOps의 단계, p252~p253>

CHAPTER 6 "성공적인 생성형 AI 도입의 열쇠"에서는 비용 최적화를 위한 주의 사항과 생셩형 AI 개발을 위한 이상적인 팀 구조, MOE/멀티모달/에이전트와 같은 미래 트렌드를 살펴본다.

<6장 성공적인 생성형 AI 도입의 열쇠, 생성형 AI 초기 팀 구성, p266~p277>

kge2***l2025-05-30

LLM 서비스 노하우를 알고 싶다면

한빛미디어 서평단 <나는리뷰어다> 활동을 위해서 책을 협찬 받아 작성된 서평입니다.

LLM을 활용한 서비스를 개발하고 배포하는 과정에서 비용 문제는 피할 수 없는 고민이다.

비용을 낮추려면 원하는 만큼의 성능을 내기 어렵고, 최고 성능 모델을 사용하려면 최적화와 비용 문제 등 여러 난관에 부딪히게 되었다.

이런 고민을 하던 중 [LLM 서비스 설계와 최적화]라는 책을 만나게 되어 매우 반가웠다.

이 책은 LLM을 활용한 실용적인 서비스 구축부터 비용 효율성과 성능 최적화까지, 전체 과정을 체계적으로 다루는 실무 지침서이다. 단순한 이론 설명이 아니라 실제 서비스 개발에서 마주치는 구체적인 문제들과 그 해결 방안을 담고 있어서, 나와 같은 고민을 하는 분들에게 실질적인 도움이 될 것 같다.

모델 선택 가이드에서는 단순히 "이 모델이 좋다"는 식이 아니라, 실제로 서비스를 만들 때 고려해야 할 현실적인 요소들을 꼼꼼히 다루고 있어서 도움이 되었다. 각 모델의 장단점을 비용, 성능, 유지보수 관점에서 비교해주니 선택의 기준이 명확해졌다.

특히 프롬프트 엔지니어링 부분은 생각보다 깊이가 있었다. 사람들이 AI를 제대로 활용하지 못하는 이유가 바로 "질문하는 법을 몰라서"라고 생각하는데, 실제로는 질문 하나 제대로 만드는 것도 상당한 기술이 필요하다는 것을 깨달을 수 있다.

가장 도움이 되었던 부분은 배포와 최적화 관련 내용이다. 모델을 만드는 것도 중요하지만 실제로 서비스로 운영할 때의 비용과 성능 문제는 또 다른 차원의 고민이라는 것을 다시 한 번 실감했다. 저자가 실제 경험을 바탕으로 한 조언들이 곳곳에 녹아있어서 이론만으로는 알 수 없는 실무적인 통찰들을 얻을 수 있었다.

전체적으로 LLM 서비스 개발이라는, 자칫 복잡하고 어렵게만 느껴질 수 있는 주제를 차근차근 풀어내어 접근 가능하게 만들어준다는 점이 이 책의 가장 큰 장점이다.

독서 후기

서두에서 언급했던 비용과 성능 사이의 딜레마에 대한 답을 찾는 과정에서 실마리를 찾은 기분이라 개인적으로 많은 도움이 되었다. 다만 LLM 입문자나 초보자에게는 추천하기 어려울 것 같다. 기본적으로 LLM에 대해 아무것도 모르고 "서비스를 한번 만들어볼까?" 하고 뛰어들기에는 이 책이 너무 어렵게 느껴질 것이다.

또한 책 자체가 다소 딱딱하게 구성되어 있어서 처음부터 끝까지 쭉 읽기는 조금 힘들었다.

그래서 자신이 서비스 설계 중 한계를 느낄 때 필요한 부분을 발췌해서 읽으면 더욱 효과적일 것 같다. 일종의 레퍼런스 가이드로 활용하면 좋을 것이라 생각된다.

[추천 독자]

- LLM 기술에 대한 심층적인 이해와 실무 적용 능력을 기르고자 하는 분

- LLM 서비스 기획 및 개발자

koju***l2025-05-30

LLM 가이드

한빛미디어 서평단 <나는리뷰어다> 활동을 위해서 책을 협찬 받아 작성된 서평입니다.

LLM이 모든 것에 상당히 괜찮은 결과물을 내지만 그럴듯한 결과 뒤에 숨은 할루시네이션의 위험이 있습니다.

전 프롬프트 엔지니어링, LLM의 컨텍스트 관리, RAG 구현, 비용 등을 고려해서 실제 서비스 수준으로 끌어올리는 과정이 쉽지 않다고 느꼈는데 이 책을 보면서 점검하며 좀 되돌아볼 수 있어서 좋았습니다.

워낙 변화가 빨라서 여기에 나오는 내용과 모델이 예전이라고 느껴질 수 있지만 빠르게 바뀌는 모델 속에서도 프롬프트, 파인튜닝, 증류 등은 여전히 유효하니 이런 정보를 점검하고 계시다면 읽어보면 좋을 것 같습니다.

leehag1***l2025-05-28

LLM 서비스 설계와 최적화

"한빛미디어 서평단 <나는리뷰어다> 활동을 위해서 책을 협찬 받아 작성된 서평입니다."

생성형 AI 서비스, 누구나 한 번쯤은 만들어봤을 것이다

GPT API 연결하고, 사용하고자 하는 목적에 맞게 프롬프트 구성해서 결과 뽑고, UI까지 붙이면 데모까지는 쉽게 나온다

거기다 웹이나 앱 같은 UI 화면도 이런 ChatGPT를 사용하여 혼자서 구현하는 것이 가능하다
그러나 ‘서비스 수준’으로 끌어올리려는 순간 현실의 벽이 나타나게 된다

단가? 너무 비싸다. 트래픽 좀만 늘어나면 수백만 원 순삭.. ?
응답 품질? 왔다갔다해서 QA 붙여도 불안하다. 단순히 API만을 쓸 경우 목적에 맞는 응답 품질이 보장되지 못한다
튜닝? 파인튜닝이 뭔지는 알겠는데, 적용이 쉽지 않다

LLM 서비스 설계와 최적화는 바로 그 다음 단계에서 방향을 잡지 못하고 있는 팀을 위한 책이다

제목 그대로, LLM을 이용해 생성형 AI 어플리케이션으로 만들기 위해 어떤 부분들이 고려되어야 하는지를 다루고 있다

데모에서 프로덕션으로 넘어가기 위한 설계와 비용 최적화 전략을, 이론이 아니라 실무의 언어로 풀고 있기에 관련된 지식들이 필요하고 책의 난이도 자체가 있는 중고급자를 위한 책이다

따라서 개발적인 내용보단 설계, 전략에 대한 이론을 좀 더 중점적으로 다루고 있다

이 책은 단순히 LLM 기술을 소개하는 책이 아니다

LLM에 쓰이는 RAG, LangChain 등의 문법과 코드를 다루는 자료들은 많이 존재한다

이런 기술을 이미 갖추고 서비스를 만들고 있는 사람의 입장에서, “어디에 비용을 쓰고, 어디에서 줄여야 하는지” 기준을 제시해준다

LLM 애플리케이션을 “서비스 수준”으로 운영하고 싶은 팀
비용 문제로 고민이 깊어지는 기획자와 PO
RAG, 튜닝, 모델 선택에 있어 명확한 기준을 잡고 싶은 개발자

이런 사람들에게 실제 결정에 쓸 수 있는 프레임워크를 제공한다

el***l2025-05-27

단계적으로 짚어주는 전문가의 가이드

한빛미디어 서평단 <나는리뷰어다> 활동을 위해서 책을 협찬 받아 작성된 서평입니다.

아직은 따끈따끈한 책을 받았다. 한참 LLM, RAG, Agent에 관해서 공부했던 터라 이 책을 신청했다. 서두에 다양한 독자들에게 어떤 도움을 줄 수 있을지 정리해 놓은 것을 보고 나는 어떤 시각으로 이 책을 바라볼까 잠시 생각해 보았다. 얼마 전까지만 해도 AI실무자, 엔지니어 관점에서 봤을 건데 이제는 '교육자와 학생' 관점에 더 집중해야 할 것 같아서...결국은 '비용 최적화'에 수렴할 거라서 뭐 크게 다르지는 않겠지만...

1장 LLM 기초에서는 생성형AI와 LLM의 차이를 명확히 설명하고 있다. 혼용해서 사용하거나 헷갈려 하는 사람들이 그만큼 많다는 뜻이겠지. 그리고 생성형AI 챗봇 애플리케이션의 시퀀스 다이어그램에서 비용이 많이 드는 세 가지 구성 요소(모델 추론, 벡터데이터베이스, LLM)에 대해서 콕 찝어서 지면을 할애해 각각의 역할과 비용의 차이는 어디에서 발생하는지 설명한다. GPT-3.5 기준으로 벤치마크 테스트를 한 것은 살짝 아쉽기는 하다.

2장에서는 성능은 유지하면서도 비용을 최적화하는 기법이 대해서 다루고 있다. 딥마인드의 연구 결과(https://arxiv.org/abs/2203.15556)를 참고해 계산 예산을 추정해 본다. 아, 여기부터 머리가 복잡해지기 시작했다. 그냥 술술 읽어서 넘길 책이 아니라 내가 원하는 성능과 규모, 사용할 수 있는 비용을 설정하고 따라서 테스트하며 계산해을 해봐야 뭔가 남기겠는데... 일단 넘어갔다.

3장에서는 LLM에 중점을 두고 추론 비용을 절감하면서도 동일한 품질의 응답을 받을 수 있는 방법으로서 프롬프트 엔지니어링을 소개한다. 프롬프트 엔지니어링은 ChatGPT가 처음 나왔을 때부터 열심히 보고 테스트 해봤던지라 새롭진 않았는데, 캐싱에 대해서 잘 정리된 내용이 있었으면 하고 궁금했었다. 여기에서는 벡터스토어를 이용하는 방법에 대해서 설명한다. 뭔가 쫌 아쉽다......복잡도를 줄이는 방법으로 양자화도 간단한 코드와 함께 언급하고 있다.

son***l2025-05-27

범람하는 AI 서비스 사이에서 새로운 AI 팀이나 서비스 구축을 고민하는 분들을 위한 필독서

"한빛미디어 서평단 <나는리뷰어다> 활동을 위해서 책을 협찬 받아 작성된 서평입니다."

'LLM 서비스 설계와 최적화'는 AI 서비스 개발에 필수적인 가이드라인을 제공해주는 책으로, 대형 언어 모델(LLM) 활용법과 비용 효율적인 최적화 전략을 제시합니다. AI 팀 구축과 인프라 구성에 필요한 실용적인 조언이 담겨 있어, 관련 분야에 종사하는 이들에게 큰 도움이 됩니다. 다양한 최신 기법과 실전 팁이 잘 정리되어 있어 실무에서 직접 활용할 가치가 있는 도서입니다.

더 자세한 리뷰는 이 링크에서 확인해주세요

https://sonim1.com/ko/blog/review-large-language-model-based-solutions

zzo***l2025-05-21

최근 LLM 모델 활용에 대한 전반적인 이론과 실습을 다루는 책

한빛미디어 서평단 <나는리뷰어다> 활동을 위해서 책을 협찬 받아 작성된 서평입니다.

LLM 서비스 설계와 최적화

이 책은 생성형 AI와 LLM(대규모 언어 모델)의 활용에 있어 핵심 과제인 비용 최적화에 초점을 맞춘 종합적인 가이드다. 현재 AI 개발 환경에서 딥시크와 같은 소형 모델의 등장으로 '적은 투자로 높은 성능'이라는 최적화 패러다임이 주목받고 있는 시점에, 이 책은 실용적인 관점에서 LLM 서비스의 효율적 구축 방법을 제시한다.

주요 강점

체계적인 접근: 책의 구성은 기초 개념부터 고급 최적화 기법까지 단계적으로 설명하여 AI 기술 도입의 전체 흐름을 파악할 수 있게 한다. 1장에서 생성형 AI의 기초와 상용화 과정을 설명하고, 점진적으로 깊이 있는 기술적 내용으로 진행되는 구조는 독자의 이해도를 고려한 설계로 보인다.

다양한 최적화 기법 소개: 2~3장에서 다루는 파인튜닝, PEFT(Parameter-Efficient Fine-Tuning), 그리고 다양한 추론 테크닉은 LLM 활용 시 발생하는 비용 문제에 대한 다각적인 접근법을 보여준다. 특히 벡터 스토어를 이용한 캐싱, 효율적인 추론을 위한 배칭 프롬프트 등은 AI 서비스 운영에 참고할 만한 내용이다.

균형 잡힌 시각: 4장의 모델 선택과 대안, 6장의 성능과 비용의 균형에 관한 논의는 기술적 측면뿐만 아니라 비즈니스적 가치 평가에도 통찰을 제공한다. 이는 기술 구현과 비즈니스 요구 사항 사이의 균형점을 찾고자 하는 독자들에게 유용한 관점을 제시한다.

생성형 AI의 기초와 비용 최적화의 중요성

1장은 생성형 AI 애플리케이션과 LLM의 기본 개념부터 시작하여 상용화 과정에서 마주하는 도전 과제들을 설명한다. 특히 '비용 최적화의 중요성'을 강조함으로써 이후 내용의 필요성을 분명히 하고 있다. 이 부분은 AI 기술 도입을 고려하는 기업과 개발자들에게 왜 최적화가 중요한지에 대한 명확한 근거를 제공한다.

파인튜닝과 PEFT

2장은 파인튜닝 및 커스터마이징 기법과 함께, 파라미터 효율적 파인튜닝(PEFT)을 중점적으로 다룬다. PEFT는 전체 모델 파라미터의 일부만 조정함으로써 계산 비용을 절감하는 방법론으로, 책에서는 이 기법의 비용 및 성능에 대한 영향을 분석하고 있다. 이 장은 기술적 깊이와 실용적 접근을 동시에 제공하려는 시도가 엿보인다.

추론 최적화 기법의 다양성

3장은 책의 가장 실용적인 부분으로, 프롬프트 엔지니어링부터 텍스트 요약, 배칭 프롬프트, 모델 최적화 방법까지 다양한 추론 테크닉을 소개한다. 이 장은 특히 LLM을 실제 서비스에 적용할 때 발생하는 다양한 상황에 대응할 수 있는 기법들을 다루고 있어, 개발자들이 참고하기에 좋은 자료가 될 것으로 보인다.

소형 모델과 대안 모델의 가능성

4장에서는 GPT-4와 같은 대형 모델 대신 소형 모델(SLM) 및 도메인 특화 모델을 활용하는 전략을 제시한다. '효율적인 소형 모델'과 '성공적인 소형 모델 사례'를 통해 대안 모델의 실질적인 가능성을 보여주는 부분은 비용 제약이 있는 기업들에게 유용한 정보를 제공한다. 또한 '범용 모델을 활용한 프롬프트의 성능' 섹션은 기존 모델을 최대한 활용하는 방안을 탐색하는 현실적인 접근법을 보여준다.

인프라 및 배포 전략의 중요성

5장은 인프라 및 배포 튜닝 전략을 다루는데, 하드웨어 활용부터 모니터링과 옵저버빌리티까지 서비스 운영 측면에서의 최적화를 포괄적으로 설명한다. 이 장은 개발 단계를 넘어 지속적인 서비스 운영에 필요한 인프라 최적화의 중요성을 강조하며, 실제 서비스 배포 시 고려해야 할 요소들을 제시한다.

성능과 비용의 균형

6장은 '성능과 비용의 균형'이라는 주제로 이 책의 핵심 메시지를 다시 한번 강조한다. 생성형 AI 애플리케이션의 미래 트렌드를 전망하면서, 책 전체를 통해 소개된 다양한 최적화 기법들을 어떻게 실제 비즈니스 상황에 적용할 수 있는지에 대한 종합적인 시각을 제공한다.

이 책은 생성형 AI 서비스 구축에 있어 가장 중요한 과제인 '비용 최적화'에 초점을 맞춰, 이론적 배경과 실용적 접근을 함께 제시하고 있다. 전체 6장에 걸쳐 LLM의 기초부터 최적화 기법, 모델 선택, 인프라 전략까지 포괄적인 내용을 다루고 있어, AI 개발과 관련된 다양한 측면을 이해하는 데 도움이 된다.

특히 국내 스타트업과 기업 환경에서 제한된 자원으로 효과적인 AI 서비스를 구축하고자 하는 이들에게 유용한 참고 자료가 될 것으로 보인다. 기술의 깊이와 비즈니스적 통찰을 모두 담고 있어, AI 개발 팀 전체가 참고할 만한 가치가 있으며, 급변하는 AI 기술 환경에서 지속 가능한 서비스 구축을 위한 다양한 관점을 제공한다.

다만, 일부 내용에서는 더 구체적인 사례나 실험 결과, 그리고 각 기법의 한계점에 대한 더 깊은 논의가 있었다면 독자들에게 더 균형 잡힌 시각을 제공했을 것이다. 그럼에도 불구하고, 이 책은 LLM 기반 서비스의 비용 최적화라는 중요한 주제를 체계적으로 다루고 있어, AI 기술을 실제 비즈니스에 적용하고자 하는 이들에게 유익한 안내서가 될 것이다.

kea1***l2025-05-08

LLM 서비스 설계와 최적화

한빛미디어 서평단 <나는 리뷰어다> 활동을 위해서 책을 협찬 받아 작성된 서평입니다.

생성형 AI와 LLM은 복잡한 작업을 수행하기 때문에 상당한 컴퓨팅 자원이 필요하다. 방대한 컴퓨팅 자원 수요를 해결하기 위해 기술을 도입하는 비용은 조직에게 부담이 된다. 실제로 책에서 말하는 바에 따르면 최첨단 AI 모델 훈련비용이 2016년 이후 매년 2.4배씩 증가하고 있다고 한다. 현재 가장 비용이 많이 든 공개 모델은 우리가 익히 잘아는 GPT-4와 구글의 Gemini Ultra이다. 모델 서비스를 유지하는데도 상당한 비용이 든다. 오픈 AI는 모델 서비스를 유지하는데 하루에 70만 달러를 사용한다고 한다.

따라서, LLM 서비스를 도입하고자 하는 기업에게는 비용 최적화가 가장 중요한 과제가 된다. 이 책에서 가장 재미있게 읽었던 3장은 LLM에 중점을 두고 추론 비용을 최적화하는 다양한 기술을 소개한다. 그중에서 한가지가 바로 프롬프트 엔지니어링이다. 프롬프트에 대한 이해도는 작업의 성능과 비용에 큰 영향을 미친다고 한다.

프롬프트 엔지니어링은 LLM과 상호작용할 때 중심이 되는 기법으로, 모델이 원하는 출력을 생성할 수 있도록 프롬프트를 구성하는 것을 말한다.

프롬프트와 모델의 응답에서 사용하는 각 단어나 토큰은 비용을 발생시키는데, 오픈 AI의 GPT-4o는 입력 100만 토큰당 2.50달러이고, 출력은 동일 토큰에 10달러의 비용이 든다. 이를 추정하기 위해 라이브러리 tiktoken을 활용할 수 있는데, 책에서는 예시로 요청을 보내고 tiktoken을 통해 요청의 비용을 계산하는 과정이 소개되어 있다. GPT를 사용하기만 하고, 비용에 대해서는 고려하지 않았는데 응답 한번에 상당한 비용이 소모된다는 점을 배웠다.

프롬프트 엔지니어링을 위해, 복잡한 질문을 더 간단한 질문 여러 개로 분해하면 조정하기 편한 응답을 얻을 수 있다. 각 질문을 순서대로 하면서, LLM이 이전 답변을 기반으로 논리적인 순서로 정보를 탐색하도록 하는 것이다. 예를 들면, 단순히 당뇨병에 대해 설명을 요구하지 않고, 당뇨병에 대한 간단한 설명 - 종류 - 세분화된 증상 - 진단 방법 - 치료 방법 순으로 질문하게 되면 사용자가 원하는 핵심적인 답변을 얻을 수 있다.

또는 컨텍스트를 제공해서 LLM이 정확한 응답을 할 수 있도록 만드는 방법도 있다. LLM이 사용자의 요구사항을 잘 이해하도록 프롬프트에 추가정보를 제공하는 것이다. 이외에도 LLM의 성능과 비용을 최적화하는 다양한 기술들이 있으며, 책에서는 코드를 통해 예시를 직접 보여준다.

LLM 서비스 구축에 관심 있는 사람이라면 꼭 읽어보아야 할 책이다. 이 책의 주제인 비용 최적화를 위해 모델을 선택하는 과정과, 모델을 배포할 때 드는 비용과 성능에서 고려할 사항들이 다음 장에 소개된다. 설명으로 끝나지 않고, 각각의 선택지를 선택했을 때의 장단점과 예시들이 그림이나 표로 이해하기 쉽게 정리되어 있어서 각각의 모델과 배포 방법을 선택하는데 큰 도움이 될 것이다.

#LLM #최적화 #비용최적화 #AI서비스구축 #인프라 #배포튜닝 #한빛미디어 #LLM서비스설계와최적화