파이썬의 성능을 제대로 올려주는 코드 작성법
파이썬 코드가 제대로 동작하더라도 더 빠르게 실행되도록 해야 할 때가 있다. 이 책은 파이썬 3에 맞춰 내용을 보강한 개정판으로, 처리할 데이터 용량이 큰 프로그램의 병목현상을 찾고, 이를 해결해 성능을 향상하는 방법을 알려준다. 프로그램 설계 시 여러 선택 사항의 기반이 되는 자세한 설명 덕분에 파이썬 구현을 더 깊이 이해할 수 있다. 멀티 코어 아키텍처나 클러스터를 어떻게 활용할 수 있을까? 신뢰성을 잃지 않으면서 규모를 쉽게 확장하고 축소할 수 있는 시스템을 어떻게 구축할 수 있을까? 경험이 많은 파이썬 프로그래머라면 이 책을 통해 다양한 문제에 대한 구체적인 해결 방법을 배울 수 있고 소셜 미디어 분석, 프로덕션 수준의 머신러닝 분야에서 여러 기업이 겪은 무용담도 엿볼 수 있다.
대상 독자
파이썬을 충분히 사용해보았고 특정 부분이 왜 느린지 생각해본 적이 있으며, 이를 위한 해법으로 거론되는 사이썬, 넘파이, PyPy 같은 기술을 들어본 독자가 대상이다. 또한 다른 언어로 프로그래밍해본 경험이 있어서 성능을 개선하는 방법이 여러 가지임을 아는 독자를 대상으로 한다. 또한 데이터 이동 문제를 포함하여 손쉽게 성능을 높일 수 있는 JIT 컴파일러(예컨대 PyPy)와 비동기 I/O를 사용하는 방법 등 웹 개발자가 직면할 수 있는 문제도 다룬다.
이 책은 중고급 파이썬 프로그래머를 위한 책이다. 의욕이 넘치는 초보 파이썬 프로그래머도 잘 따라올 수 있겠지만, 이 책을 읽기 전에 파이썬 기초를 먼저 다지기를 추천한다.
주요 내용
추천사
우리는 효율적이고, 이해하기 쉽고, 성능 좋은 시스템을 만들고 싶어 한다. 이 책은 세 가지 모두를 달성하려는 사람을 위한 안내서로, 여러분이 프로그래밍 실무를 대하는 방식을 바꿔줄 것이다.
CHAPTER 1 고성능 파이썬 이해하기
1.1 기본 컴퓨터 시스템
1.2 기본 요소 조합하기
1.3 파이썬을 쓰는 이유
1.4 뛰어난 성과를 거두는 파이썬 프로그래머가 되는 방법
CHAPTER 2 프로파일링으로 병목 지점 찾기
2.1 효과적으로 프로파일하기
2.2 줄리아 집합
2.3 전체 줄리아 집합 계산하기
2.4 시간을 측정하는 간단한 방법: print와 데커레이터
2.5 유닉스 time 명령어를 이용한 간단한 시간 측정
2.6 cProfile 모듈 사용하기
2.7 SnakeViz로 cProfile 결과 시각화하기
2.8 line_profiler로 한 줄씩 측정하기
2.9 memory_profiler로 메모리 사용량 진단하기
2.10 PySpy로 기존 프로세스 살펴보기
2.11 바이트코드: 내부 작동
2.12 최적화 중에 단위 테스트하기
2.13 성공적인 코드 프로파일링 전략
2.14 마치며
CHAPTER 3 리스트와 튜플
3.1 더 효율적인 탐색
3.2 리스트와 튜플
3.3 마치며
CHAPTER 4 사전과 셋
4.1 사전과 셋의 동작 원리
4.2 사전과 네임스페이스
4.3 마치며
CHAPTER 5 이터레이터와 제너레이터
5.1 이터레이터로 무한급수 표현하기
5.2 제너레이터의 지연 계산
5.3 마치며
CHAPTER 6 행렬과 벡터 계산
6.1 문제 소개
6.2 파이썬의 리스트만으로 충분할까?
6.3 메모리 단편화
6.4 넘파이를 이용한 확산 방정식 해법
6.5 numexpr: 제자리 연산을 더 빠르고 간편하게 쓰기
6.6 경고: ‘최적화’ 검증(사이파이)
6.7 행렬 최적화에서 얻은 교훈
6.8 팬더스
6.9 마치며
CHAPTER 7 C 언어로 컴파일하기
7.1 가능한 속도 개선의 종류
7.2 JIT 대 AOT 컴파일러
7.3 타입 정보가 실행 속도에 영향을 주는 이유
7.4 C 컴파일러 사용하기
7.5 줄리아 집합 예제 다시 보기
7.6 사이썬
7.7 pyximport
7.8 사이썬과 넘파이
7.9 Numba
7.10 PyPy
7.11 속도 향상 결과 정리
7.12 각 기술의 사용 시점
7.13 GPU
7.14 외부 함수 인터페이스
7.15 마치며
CHAPTER 8 비동기 I/O
8.1 비동기 프로그래밍 소개
8.2 async/await의 동작 방식
8.3 CPU 공유: I/O 부하
8.4 마치며
CHAPTER 9 multiprocessing 모듈
9.1 multiprocessing 모듈 소개
9.2 몬테 카를로 방식을 사용해 원주율 추정하기
9.3 프로세스와 스레드를 사용해 원주율 추정하기
9.4 소수 찾기
9.5 프로세스 간 통신을 사용해 소수 검증하기
9.6 multiprocessing과 넘파이 데이터 공유하기
9.7 파일과 변수 접근 동기화하기
9.8 마치며
CHAPTER 10 클러스터와 작업 큐
10.1 클러스터링의 이점
10.2 클러스터링의 단점
10.3 일반적인 클러스터 설계
10.4 클러스터화한 해법을 시작하는 방법
10.5 클러스터 사용 시 고통을 피하는 방법
10.6 두 가지 클러스터링 솔루션
10.7 강건한 프로덕션 클러스터링을 위한 NSQ
10.8 살펴볼 만한 다른 클러스터링 도구들
10.9 도커
10.10 마치며
CHAPTER 11 RAMM 덜 사용하기
11.1 값비싼 원시 타입 객체
11.2 컬렉션이 사용하는 RAM 이해하기
11.3 바이트와 유니코드
11.4 RAM에 많은 텍스트를 효율적으로 저장하기
11.5 사이킷런의 FeatureHasher를 사용해 더 많은 텍스트 모델링하기
11.6 DictVectorizer와 FeatureHasher
11.7 사이파이의 희소 행렬
11.8 RAM을 덜 사용하기 위한 팁
11.9 확률적 자료구조
CHAPTER 12 현장에서 얻은 교훈
12.1 특성 엔진으로 피처 엔지니어링 파이프라인 흐름 만들기
12.2 고성과 데이터 사이언스 팀
12.3 Numba
12.4 최적화 vs. 생각
12.5 어댑티브 랩의 소셜 미디어 분석, 소마(2014)
12.6 RadimRehurek.com의 딥러닝 플라이 만들기(2014)
12.7 Lyst.com의 대규모 머신러닝(2014)
12.8 스메시에서의 대규모 소셜 미디어 분석(2014)
12.9 성공적인 웹과 데이터 처리 시스템을 위한 PyPy(2014)
12.10 Lanyrd.com의 작업 큐(2014)
파이썬 성능을 시원하게 올리는 사이다 코드 공개
누군가는 순차 프로세스를 빠르게 실행해야 하고, 다른 누군가는 멀티 코어 아키텍처, 클러스터, GPU를 제대로 활용하지 못해 애를 먹는다. 또 다른 누군가는 신뢰성을 잃지 않으면서도 주어진 예산 안에서 필요한 만큼의 프로세스를 사용할 수 있는 확장 가능한 시스템을 원한다. 어떤 사람은 코딩 실력이 부족함을 느끼기도 한다. 종종 다른 언어에서 차용한 기법이 예제에서 본 것만큼 자연스럽지 않기도 하다.
이 책은 이러한 파이썬의 성능 향상에 필요한 기법과 해결책을 다룬다. 성능상의 병목을 인지하여 더 빠르고 확장성이 뛰어난 해법을 구하는 실용적인 지침을 제공한다. 독자보다 먼저 문제에 직면했던 사람들이 고군분투했던 이야기를 통해 같은 문제로 힘 빼지 않도록 도와준다.
▶ 파이썬 3 대응!
▶ 사전 지식
- 파이썬 중급
▶ 먼저 보면 좋은 책
- 『혼자 공부하는 파이썬』
- 『처음 시작하는 파이썬(2판)』
- 『나의 첫 파이썬(2판)』
- 『파이썬 정복』