본문내용 바로가기

KYOBO 교보문고

금/토/일 주말특가
책 다시 숲
교보문고 북튜버 : 마법상점
청소년브랜드페스티벌
  • 교보아트스페이스
  • 제5회 교보손글쓰기대회 수상작 전시
파이썬 라이브러리를 활용한 (번역개정판)
* 중고장터 판매상품은 판매자가 직접 등록/판매하는 상품으로 판매자가 해당상품과 내용에 모든 책임을 집니다. 우측의 제품상태와 하단의 상품상세를 꼭 확인하신 후 구입해주시기 바랍니다.
480쪽 | | 182*236*22mm
ISBN-10 : 1162241640
ISBN-13 : 9791162241646
파이썬 라이브러리를 활용한 (번역개정판) 중고
저자 안드레아스 뮐러 | 역자 박해선 | 출판사 한빛미디어
정가
32,000원
판매가
26,870원 [16%↓, 5,130원 할인]
배송비
2,500원 (판매자 직접배송)
지금 주문하시면 2일 이내 출고 가능합니다.
토/일, 공휴일을 제외한 영업일 기준으로 배송이 진행됩니다.
2019년 3월 29일 출간
제품상태
상태 최상 외형 최상 내형 최상
이 상품 최저가
25,590원 다른가격더보기
새 상품
28,800원 [10%↓, 3,200원 할인] 새상품 바로가기
수량추가 수량빼기
안내 :

중고장터에 등록된 판매 상품과 제품의 상태는 개별 오픈마켓 판매자들이 등록, 판매하는 것으로 중개 시스템만을 제공하는
인터넷 교보문고에서는 해당 상품과 내용에 대해 일체 책임을 지지 않습니다.

교보문고 결제시스템을 이용하지 않은 직거래로 인한 피해 발생시, 교보문고는 일체의 책임을 지지 않습니다.

판매자 상품 소개

※ 해당 상품은 교보문고에서 제공하는 정보를 활용하여 안내하는 상품으로제품 상태를 반드시 확인하신 후 구입하여주시기 바랍니다.

판매자 배송 정책

  • 토/일, 공휴일을 제외한 영업일 기준으로 배송이 진행됩니다.

더보기

구매후기 목록
NO 구매후기 구매만족도 ID 등록일
27 중고상품이어서 사용한 흔적이 있는지 알았는데 그냥 완전 새책이네요? 서점은 전부 재고가 없었는데 배송도 이틀만에 도착해서 완전 좋습니다! 5점 만점에 5점 eved*** 2019.11.19
26 거의 새책급이네요. 5점 만점에 5점 dmswo0*** 2019.11.14
25 좋습니다 책상태도 좋아요 5점 만점에 5점 77ka*** 2019.11.12
24 감솨합니다^^ 고맙습니다~!! 5점 만점에 5점 cmw1*** 2019.11.09
23 `1234567890 5점 만점에 5점 p3*** 2019.11.08

이 책의 시리즈

책 소개

상품구성 목록
상품구성 목록

사이킷런 핵심 개발자에게 배우는 머신러닝 이론과 구현

현업에서 머신러닝을 연구하고 인공지능 서비스를 개발하기 위해 꼭 학위를 받을 필요는 없습니다. 사이킷런(scikit-learn)과 같은 훌륭한 머신러닝 라이브러리가 복잡하고 난해한 작업을 직관적인 인터페이스로 감싸주는 덕분이죠. 이 책에서는 사이킷런의 핵심 개발자가 복잡한 수학을 동원하지 않고 실용적으로 머신러닝을 구축하는 모든 단계를 설명합니다. 미적분, 선형대수, 확률 이론을 공부하지 않았어도 이 책을 통해 머신러닝을 활용할 수 있게 될 것입니다.

※ 본 번역개정판은 scikit-learn 업데이트에 따라 전반적으로 내용을 갱신한 원서 4쇄를 기반으로 합니다. 오탈자를 바로잡고, 시각적 편의를 위해 풀컬러로 인쇄했으며, 한국어판 부록 3개 절을 추가했습니다.

저자소개

저자 : 안드레아스 뮐러
독일 본(Bonn) 대학교에서 머신러닝으로 박사 학위를 받았습니다. 1년간 아마존의 컴퓨터 비전 응용 부서에서 머신러닝 연구자로 일한 뒤 뉴욕 대학교의 데이터 과학 센터에 합류했고, 현재는 컬럼비아 대학교에서 ‘Applied Machine Learning’ 과목을 가르치고 있습니다. 지난 4년 동안 학계와 산업계에서 널리 사용하는 머신러닝 툴킷인 사이킷런의 핵심 기여자와 관리자로 활동했습니다. 또 잘 알려진 여러 머신러닝 패키지를 직접 만들거나 개발에 참여했습니다. 뮐러의 소망은 머신러닝 애플리케이션 개발의 진입 장벽을 낮추고, 수준 높은 머신러닝 알고리즘을 손쉽게 사용할 수 있는 공개 툴을 만드는 것입니다.

저자 : 세라 가이도
오랫동안 스타트업에서 일해온 데이터 과학자이자 뛰어난 콘퍼런스 발표자입니다. 파이썬, 머신러닝, 대량의 데이터와 기술 세계를 좋아합니다. 미시간 대학교의 대학원에 입학했으며, 지금은 뉴욕에 거주하고 있습니다.

역자 : 박해선
구글 ML GDE(Machine Learning Google Developer Expert). 기계공학을 전공했지만 졸업 후엔 줄곧 코드를 읽고 쓰는 일을 합니다. 텐서플로 블로그(tensorflow.blog)를 운영하면서 소프트웨어와 과학의 경계를 흥미롭게 탐험하고 있습니다.
『핸즈온 머신러닝』, 『텐서플로 첫걸음』(이상 한빛미디어), 『케라스 창시자에게 배우는 딥러닝』(길벗)을 우리말로 옮겼습니다.

목차

CHAPTER 1 소개
1.1 왜 머신러닝인가?
__1.1.1 머신러닝으로 풀 수 있는 문제
__1.1.2 문제와 데이터 이해하기
1.2 왜 파이썬인가?
1.3 scikit-learn
__1.3.1 scikit-learn 설치
1.4 필수 라이브러리와 도구들
__1.4.1 주피터 노트북
__1.4.2 NumPy
__1.4.3 SciPy
__1.4.4 matplotlib
__1.4.5 pandas
__1.4.6 mglearn
1.5 파이썬 2 vs. 파이썬 3
1.6 이 책에서 사용하는 소프트웨어 버전
1.7 첫 번째 애플리케이션: 붓꽃의 품종 분류
__1.7.1 데이터 적재
__1.7.2 성과 측정: 훈련 데이터와 테스트 데이터
__1.7.3 가장 먼저 할 일: 데이터 살펴보기
__1.7.4 첫 번째 머신러닝 모델: k-최근접 이웃 알고리즘
__1.7.5 예측하기
__1.7.6 모델 평가하기
1.8 요약 및 정리

CHAPTER 2 지도 학습
2.1 분류와 회귀
2.2 일반화, 과대적합, 과소적합
__2.2.1 모델 복잡도와 데이터셋 크기의 관계
2.3 지도 학습 알고리즘
__2.3.1 예제에 사용할 데이터셋
__2.3.2 k-최근접 이웃
__2.3.3 선형 모델
__2.3.4 나이브 베이즈 분류기
__2.3.5 결정 트리
__2.3.6 결정 트리의 앙상블
__2.3.7 (한국어판 부록) 배깅, 엑스트라 트리, 에이다부스트
__2.3.8 커널 서포트 벡터 머신
__2.3.9 신경망(딥러닝)
2.4 분류 예측의 불확실성 추정
__2.4.1 결정 함수
__2.4.2 예측 확률
__2.4.3 다중 분류에서의 불확실성
2.5 요약 및 정리

CHAPTER 3 비지도 학습과 데이터 전처리
3.1 비지도 학습의 종류
3.2 비지도 학습의 도전 과제
3.3 데이터 전처리와 스케일 조정
__3.3.1 여러 가지 전처리 방법
__3.3.2 데이터 변환 적용하기
__3.3.3 (한국어판 부록) QuantileTransformer와 PowerTransformer
__3.3.4 훈련 데이터와 테스트 데이터의 스케일을 같은 방법으로 조정하기
__3.3.5 지도 학습에서 데이터 전처리 효과
3.4 차원 축소, 특성 추출, 매니폴드 학습
__3.4.1 주성분 분석(PCA)
__3.4.2 비음수 행렬 분해(NMF)
__3.4.3 t-SNE를 이용한 매니폴드 학습
3.5 군집
__3.5.1 k-평균 군집
__3.5.2 병합 군집
__3.5.3 DBSCAN
__3.5.4 군집 알고리즘의 비교와 평가
__3.5.5 군집 알고리즘 요약
3.6 요약 및 정리

CHAPTER 4 데이터 표현과 특성 공학
4.1 범주형 변수
__4.1.1 원-핫-인코딩(가변수)
__4.1.2 숫자로 표현된 범주형 특성
4.2 OneHotEncoder와 ColumnTransformer: scikit-learn으로 범주형 변수 다루기
4.3 make_column_transformer로 간편하게 ColumnTransformer 만들기
4.4 구간 분할, 이산화 그리고 선형 모델, 트리 모델
4.5 상호작용과 다항식
4.6 일변량 비선형 변환
4.7 특성 자동 선택
__4.7.1 일변량 통계
__4.7.2 모델 기반 특성 선택
__4.7.3 반복적 특성 선택
4.8 전문가 지식 활용
4.9 요약 및 정리

CHAPTER 5 모델 평가와 성능 향상
5.1 교차 검증
__5.1.1 scikit-learn의 교차 검증
__5.1.2 교차 검증의 장점
__5.1.3 계층별 k-겹 교차 검증과 그외 전략들
__5.1.4 (한국어판 부록) 반복 교차 검증
5.2 그리드 서치
__5.2.1 간단한 그리드 서치
__5.2.2 매개변수 과대적합과 검증 세트
__5.2.3 교차 검증을 사용한 그리드 서치
5.3 평가 지표와 측정
__5.3.1 최종 목표를 기억하라
__5.3.2 이진 분류의 평가 지표
__5.3.3 다중 분류의 평가 지표
__5.3.4 회귀의 평가 지표
__5.3.5 모델 선택에서 평가 지표 사용하기
5.4 요약 및 정리

CHAPTER 6 알고리즘 체인과 파이프라인
6.1 데이터 전처리와 매개변수 선택
6.2 파이프라인 구축하기
6.3 그리드 서치에 파이프라인 적용하기
6.4 파이프라인 인터페이스
__6.4.1 make_pipleline을 사용한 파이프라인 생성
__6.4.2 단계 속성에 접근하기
__6.4.3 그리드 서치 안의 파이프라인 속성에 접근하기
6.5 전처리와 모델의 매개변수를 위한 그리드 서치
6.6 모델 선택을 위한 그리드 서치
__6.6.1 중복 계산 피하기
6.7 요약 및 정리

CHAPTER 7 텍스트 데이터 다루기
7.1 문자열 데이터 타입
7.2 예제 애플리케이션: 영화 리뷰 감성 분석
7.3 텍스트 데이터를 BOW로 표현하기
__7.3.1 샘플 데이터에 BOW 적용하기
__7.3.2 영화 리뷰에 대한 BOW
7.4 불용어
7.5 tf?idf로 데이터 스케일 변경하기
7.6 모델 계수 조사
7.7 여러 단어로 만든 BOW(n-그램)
7.8 고급 토큰화, 어간 추출, 표제어 추출
__7.8.1 (한국어판 부록) KoNLPy를 사용한 영화 리뷰 분석
7.9 토픽 모델링과 문서 군집화
__7.9.1 LDA
7.10 요약 및 정리

CHAPTER 8 마무리
8.1 머신러닝 문제 접근 방법
__8.1.1 의사 결정 참여
8.2 프로토타입에서 제품까지
8.3 제품 시스템 테스트
8.4 나만의 추정기 만들기
8.5 더 배울 것들
__8.5.1 이론
__8.5.2 다른 머신러닝 프레임워크와 패키지
__8.5.3 랭킹, 추천 시스템과 그 외 다른 알고리즘
__8.5.4 확률 모델링, 추론, 확률적 프로그래밍
__8.5.5 신경망
__8.5.6 대규모 데이터셋으로 확장
__8.5.7 실력 기르기
8.6 마치며

책 속으로

출판사 서평

실제 문제에 대한 해법을 찾는 머신러닝 기술자를 위한 본격 머신러닝 입문서 사이킷런 최신 버전을 반영한 풀컬러 번역개정판 이 책은 머신러닝 알고리즘을 밑바닥부터 만드는 법을 다루지는 ‘않으며’, 대신 사이킷런과 다른 라이브러리에 이미 구현된...

[출판사서평 더 보기]

실제 문제에 대한 해법을 찾는 머신러닝 기술자를 위한 본격 머신러닝 입문서
사이킷런 최신 버전을 반영한 풀컬러 번역개정판

이 책은 머신러닝 알고리즘을 밑바닥부터 만드는 법을 다루지는 ‘않으며’, 대신 사이킷런과 다른 라이브러리에 이미 구현된 방대한 양의 모델을 사용하는 법에 집중합니다. 머신러닝과 인공지능에 대한 사전 지식이 필요 없는 입문서로, 파이썬과 사이킷런을 중심으로 머신러닝 애플리케이션을 성공적으로 만드는 모든 단계를 밟아갑니다. 여기서 소개하는 방법들은 상용 애플리케이션을 만드는 데이터 전문가는 물론 연구자와 과학자에게도 도움이 될 것입니다. 파이썬과 NumPy, matplotlib 라이브러리에 친숙하다면 이 책의 대부분을 이해할 수 있습니다.

★ 번역개정판의 특징
본 번역개정판은 원서 4쇄를 기반으로 하며, 초판 발행 이후 알려진 오탈자를 모두 바로잡았습니다. 또한 시각적 편의를 위해 풀컬러로 인쇄했고, scikit-learn 업데이트에 따라 전반적으로 내용을 업데이트했습니다. 나아가 국내 독자에게 더 도움이 되도록 2.3절에 배깅, 엑스트라 트리, 에이다부스트 알고리즘을 살펴보는 내용을 추가했고, 3.3절에는 QuantileTransformer와 PowerTransformer 변환기, 5.1절에는 반복 교차 검증 예제를 추가했습니다.

★ 주요 내용
●머신러닝의 기본 개념과 응용
●널리 사용되는 머신러닝 알고리즘의 장점과 단점
●머신러닝으로 처리한 데이터를 표현하는 방법
●모델 평가와 매개변수 튜닝을 위한 고급 방법
●체인 모델과 워크플로 캡슐화를 위한 파이프라인
●텍스트 데이터를 다루는 기술
●머신러닝과 데이터 과학 기술 향상을 위한 조언

[출판사서평 더 보기 닫기]

책 속 한 문장

회원리뷰

  •  
    이번에 리뷰하는 도서는 최근에 본 책 중에 가장 인쇄 상태나 가독성이 좋아 맘에 드는 책이다.

    책 표지에도 있듯이 "풀컬러" 개정번역판 이므로 책의 거의 모든 내용이(그림과 텍스트) 컬러로 되어 있어 아주 좋았다.


    아래 사진을 보면 왜 컬러 인쇄가 좋은지 바로 알 수가 있다.  

    컬러 인쇄가 아니라면 다양한 그래프나 챠트를 볼 때 분석의 어려움이 있기 때문이다.



    책 곳곳에 한국어판 부록이 있는 점도 독특한데 특히 7.8.1의 내용은 한글을 사용하여 감성 분석을 하는 부분이라서 

    한국어 독자들에게 많은 도움이 되리라 생각한다.


    이 책은 대부분의 내용이 사이킷런에 대한 내용과 알고리즘에 대한 내용이다.

    독자 수준은 초급이라고 되어 있지만 실무에서 추천 시스템은 예전에 개발해본 입장에서 봐도 쉬운 내용은 아니라고 생각된다.

    머신 러닝을 첨은 접해보는 독자라면 낯선 용어들과 온갖 수식으로 머리가 아플수도 있겠지만 그 모든걸 다 이해할 필요는 없다고 생각한다.

    또한 독자들이 바로 실무에서 사용할 수 있는 예제들이 많은 책은 아니므로(원래 이 책의 의도가 아닐 것이므로)

    머신 러닝에 대한 좀 더 쉬운 내용을 원하는 독자라면

    처음 배우는 머신러닝(http://www.hanbit.co.kr/media/books/book_view.html?p_code=B8660115730) 등의 다른 책도 읽어보긴 추천한다.
  • 저는 정부 재정, 사용자 행동 분석 등 다양 데이터를 보면서 사람을 이해하고 해설해 주는 일을 합니다. ...

    저는 정부 재정, 사용자 행동 분석 등 다양 데이터를 보면서 사람을 이해하고 해설해 주는 일을 합니다.


    데이터를 볼 때마다 느끼는 점은 각양각색으로 데이터를 생산하는 사람마다 같은 일이지만 틀이 다르고 정리가 되지 않는 것을 봅니다. 


    그럼 하나부터 열까지 다 본 후 데이터를 제가 만든 틀로 정형화되게 만드는 작업을 합니다. 


    작업이 되면 데이터들이 무엇을 뜻하는지 지역별, 부처별 등 변숫값들을 확인 후 데이터를 비교 하게 돼죠. 


    그럼 의미 있는 스토리를 만들어서 기사로 작성하거나 웹, 모바일 등으로 제작을 할 때도 있습니다. 


    한발 더 나아가 머신러닝으로 비어 있는 값들을 채우거나(중간값 등) 분류 하는 일에 자주 사용합니다. 


    머신러닝 쪽 라이브러리에 관련해 주로 사용하는 것은 scikit-learn 라이브러리를 자주 사용하는데요. 


    이 라이브러리의 핵심 개발자인 안드레아스 뮐러가 쓴 책을 2년전에 보면서 감을 잡게 됐습니다. 


    최근에 개정판이 나온 소식을 듣고 복습 차 다시 읽게 돼 후기를 남겨 보려고 합니다. 


    1. 머신러닝은 무엇인가?

    머신러닝은 데이터에서 지식을 추출하는 작업을 말하는데요. 통계학, 인공지능 등 컴퓨터 과학에 얽혀 있는 연구 분야이며 예측 분석이나 통계적 머신러닝으로 불립니다. 


    예를 들어 가장 많이 사용되는 곳은 ‘넷플릭스’ 입니다. 

    영화 추천을 해주는 일로써 사용자 층을 빠르게 넓혀 갔습니다. 


    또한 페이스북, 아마존 등 복잡한 웹사이트 들에서도 광고를 노출 할때에도 사용된다고 합니다.


    2. 풀 수 있는 문제는 무엇인가?

    대표적으로 머신러닝에서 자주 사용하는 방식은 바로 ‘지도 학습’입니다. 

    이 알고리즘은 사용자가 입력 값과 기대하는 값을 제공해서 학습을 하는 방식인데요.

    주로 스팸 분류 문제에서 사용됩니다. 

    스팸메일을 보게 되면 이메일을 입력 값을 놓고 기대값을 스팸 메일로 제공 합니다. 


    그럼 머신 러닝 알고리즘이 앞으로 올 이메일을 스팸인지 아닌지 예측을 해서 분류해 줍니다. 


    Ps 

    이번 개정판은 컬러로 시각화에 공을 많이 들은 것으로 보입니다. 

    책의 코드들은 간결하고 깔끔하게 짤 수 있도록 팁이 많이 제공돼 머신러닝을 처음 익히는 분들과 복습하는 분들에게 추천해 드립니다!


  • <ins class="adsbygoogle myAd1190" data-ad-cl...

    <ins class="adsbygoogle myAd1190" data-ad-client="ca-pub-9134477021095729" data-ad-slot="6559875097" data-adsbygoogle-status="done" style="width: 98%; height: 280px;"></ins>

    개요

    본 리뷰는 한빛미디어 출판사 "파이썬 라이브러리를 활용한 머신러닝(번역개정판)" 을 읽고 얻은 지식을 정리한 글입니다.

    머신러닝을 위한 파이썬의 도구들(Scikit-learn 등)


    바야흐로 딥러닝의 시대다. 알파고 를 언급하는 건 이젠 너무나 식상한 일이 되어버렸다. 대신 아카이브 에는 일주일에도 수십편의 논문이 쏟아져 나오고 있고, Google I/O 2018에서는 일종의 튜링테스트 기법으로 사람을 속이는 인공지능 상담원이 등장하였다. 구글에서는 멀티미디어 검색 기능은 물론 심지어 세상에 존재하지 않는 강아지의 사진을 만들어 내기도 한다. 그러기에 필자같은 프로그래머를 비롯하여 통계, 수학 분야는 물론이고 경영, 의학 등 다양한 도메인 분야의 전문가들로 부터 깊은 관심을 받고 있으며,이들은 자연스레 최신기술을 익히고자 다양한 방법으로 데이터 사이언스에 접근하고 있다.

    딥러닝, 머신러닝 등 Data Science 영역에서 가장 많이 사용하는 프로그래밍 언어 2가지를 꼽으라면 단연 Python과 R일 것이다. 프로그래머라면 보다 범용적으로 활용도가 높은 Python을 선호하는 편이고, 통계분야 전문가를 비롯한 비 프로그래머 계열은 R을 선호하는 편이다. 물론 필자처럼 양쪽에 깊은 관심을 가지고 활용하는 사람도 있다.

                "그렇다면 왜 Python일까? 그리고 머신러닝을 위해선 어떤 도구들이 필요한 것일까?"
             

    이를 위해 먼저 Python이 제공하는 머신러닝 도구들을 살펴 볼 필요가 있다.

    • Scikit-learn
      • 머신러닝에서 가장 많이 활용되는 분류, 회귀, 랭킹, 예측 등 다양한 알고리즘을 내장하고 있는 Python 라이브러리로 머신러닝 알고리즘을 별도로 구현할 필요가 없게 해준다.
      • 오픈소스로 사용 및 배포에 거의 제약이 없다. 더불어 소스코드를 통해 동작방식을 익히기에 적합하기에 자칫 Keras, Tensorflow 등으로 구현에만 너무 치중되어 모델링과 알고리즘에 갈증을 느낀다면 돌아와 머신러닝의 내면을 바라보기에 매우 유용한 라이브러리이다.
    • Pandas
      • 데이터 처리와 분석을 위한 라이브러리로 R의 data.frame을 본떠서 설계
      • SQL과 같은 질의 기능을 수행할 수 있으며, 마치 RDBMS의 테이블과 같이 각 열의 데이터 타입이 달라도 무관하다.
    • Scipy
      • 고성능 과학 계산용 라이브러리로 선형대수, 함수최적화, 신호처리, 특수 함수 및 통계 분포 기능이 구현되어있다.
      • scipy.parse(희소행렬)을 활용하여 연산속도를 높이는 데 큰 효과를 볼 수 있다.
    • Numpy
      • 기본 수학관련 알고리즘은 물론 선형대수, 푸리에변환, 난수생성기 등을 지원한다.
      • 다차원 배열 ndarray을 기본 데이터 타입으로 간주하며 원소로 동일한 데이터 타입만을 가질 수 있다.
    • 기타
      • 시각화를 위한 Matplotlib, 학습과정을 용이하게 해주는 대화식 실행환경인 주피터 노트북 Ipython, 결정 트리 시각화에 필요한 graphviz 등 다양한 라이브러리로 머신러닝을 지원하고 있다.

    이 책은 위와 같은 도구를 소개로 시작한다. 출발하기에 앞서 기본적인 체계를 잡아주기에 가독성과 이해를 도와준다. 더불어 저자 가 위의 도구 중 가장먼저 언급한 Scikit-learn의 핵심 개발자 안드레아스 뮐러, 세라 가이도이기에 그 어떤 책 보다도 본서가 Scikit-learn의 철학 및 내부 구조를 학습하는데 적격이라고 생각하며, 보다 수준높은 데이터 사이언티스트가 되기 위해선 머신러닝 알고리즘의 내부를 내것으로 만들어 다양한 데이터로부터 모델링의 능력을 키우는 것이 가장 중요하다고 생각하기에 이 책을 강력히 추천한다.

    이 책이 중요한 이유 : “통계학자 vs 컴퓨터공학자” 누가 더 적임자일까?


    머신러닝 분야에 종사하고 싶다면 다양한 길이 있을 것이다. 하지만 진정한 데이터 사이언티스트가 되고 싶다면 개인적으로는 위에서 간략히 언급한 바와 같이 모델링 이 핵심이라고 생각한다. 데이터가 어떤것이 주어지더라도 분석을 통해 인사이트를 뽑아내는 인재라면 EDA를 비롯 전처리 경험이 풍부해야 하며, 이를 기반으로 유의미한 모델링을 설계하는데 필요한 능력이 충분할 것이기 때문이다.

    IT의 태생이 그러했듯 딥러닝이 등장하면서 과학으로 불리는 Science의 영역이 Engineering의 영역으로 상당히 많이 옮겨진 듯 하다. 대신 다루는 데이터 영역이 이미지, 동영상, 음성, 텍스트라는 소재에 국한되는 경향이 있으며, 데이터 대신 GAN 같은 의미있는 기법이 등장하긴 하였지만 그래도 딥러닝이 Tabular 성격의 데이터에 유독 취약한 것은 현재까지는 부인할 수 없다고 생각한다.

    이에 프로그래머라면 더더욱 머신러닝 더 나아가 통계, 수학, 수리통계학, 정량분석의 분야를 소홀히 해선 안된다는 것을 깨닫곤 한다. 다음의 질문을 생각해보자.

                "로또번호를 머신러닝으로 예측할 수 있는가?
             

    과거의 당첨번호로 학습을 시켜 당첨번호를 예측한다? 원리는 몰라도 직관적으로 말도 안되는 일이라고 생각하는 사람이 많을 것이다. 한편으로는 딥러닝이 얼마나 위대한데.. 혹시 딥러닝이라면 가능하지 않을까? 이 질문이 유의미한지 알고 싶다면 그저 Keras, Tensorflow를 잘 다룰 줄 안다고 해결될 문제는 아닐 것이다. 에포크 횟수, 파리미터 튜닝을 열심히 한다고 답이 구해질까? 데이터는 과거 당첨번호를 이용해야 하나? 아니면 어떤 사건이나 영향을 주는 데이터를 수집하면 될까? 말도 안되는 질문들이지만 초보자라면 한번 깊게 생각할 필요가 있다. 우리가 허상에 빠지기 쉬울 때 바른 방향을 제시해주는 것이 통계학과 같은 사이언스 지식이라 생각을 하며 아주 쉬운 확률의 독립사건 개념부터 좀 더 나아가 자기상관성 에 이르기까지 기본 개념이 탄탄하면 애초에 말도 안되는 주제로 시간과 노동력을 낭비하지는 않을것이다.

    프로그래머라면 Python이라는 범용프로그램 언어에 취해 R과 같은 데이터 분석 전용언어를 비하하거나 Python의 코딩 능력이 데이터 분석 능력을 좌우한다는 일종의 선입견(?)도 버릴 필요가 있다고 생각한다. 필자 또한 비슷한 과정을 거쳤는데 R은 Python과는 달리 행렬 표현이 2차원에 국한되어 종속적이지 않으며, 대부분의 함수에서 포뮬러 를 지원하기에 불필요한 코딩을 방지하게 하여 보다 분석에 집중하게 해주는 엄청난 장점이 있다. 물론 Python처럼 범용언어가 아니기에 타 기능과의 매끄러운 연결은 어렵다.

    각설하고 Python으로 데이터 분석을 원하는 사람이 모델링의 능력을 키우기 위해선 먼저 Scikit-learn의 내부 구조를 들여다 보는 것이 좋은 수순이라고 생각하며, 이책은 그런 관점에서 매우 훌륭한 스승이 될 것이라고 본다. 더불어 mglearn 라이브러리로 핵심에 벗어나는 코딩량을 줄여 알고리즘의 핵심을 바라보게 해주는 장점을 가지고 있으며, 한가지 더, 시각화된 이미지가 아래 사진과 같이 컬러로 되어 가독성이 좋고 집중도 잘된다. 그리고 역자가 참 맛깔나게 번역을 잘했다.

    그림1그림2

    구현 소스는 Github 리파지토리에 공개되어 있다.

    누가 읽어야 하는가?


    • 개발자
      개발자의 최대 장점인 코딩 구현능력과 구조화된 사고방식을 활용하여 사이언스 원리 중심의 서적보다 머신러닝의 핵심에 더 쉽게 다가갈 수 있다.

    • 데이터전문가, 연구자, 과학자
      통계, 수학, 모델링 지식에 해박하나 좀 더 성능좋은 도구를 자유자재로 다뤄 연구 수행에 있어 효율성을 높이고 싶은 분들도 이 책이 많은 도움이 될 것이다.

    • 그 외 ‘데이터사이언티스트 = 프로그래머’라는 생각을 가지신 분
      이유는 위 절에서 자세히 설명하여 생략한다.

    책의 구성 및 요약


    이 책은 크게 세 부분으로 구성된다.

    • 1. 머신러닝의 핵심 알고리즘(지도, 비지도 학습)(1 ~ 3장)
      • 사실상 책의 핵심내용으로 친절한 개념 설명과 컬러 시각화를 통해 직관적인 이해를 돕는다.
      • 분류, 회귀에 주요 고려사항인 일반화, 결정함수, 예측확률, 불확실성, 차원축소 등 통계 핵심기법이 담겨있다.
      • 거의 모든 핵심 알고리즘을 다룬다.(KNN, 선형모델, 나이브베이즈, 결정트리, SVM, 신경망, K-means, 그외 군집알고리즘 등
    • 2. 특성공학, 모델평가, 파이프라인 등 모델링 핵심지식(4 ~ 6장)
      • 데이터의 성격을 분석하여 다양하고 유용한 전처리 기법을 배울 수 있다.
      • 교차검증을 통한 성능 향상은 물론 다양한 평가지표에 대하여 학습한다.
      • 전처리에 이어 파이프라인을 활용하는 방법을 익힐 수 있다.
    • 3. 텍스트마이닝 및 기타(7 ~ 8장)
      • BOW변환, 불용어 등 전처리, tf-idf 생성, 고급 토큰화, stemming 등 텍스트마이닝 필수 지식을 배운다.
      • 그 외 실무에 유용한 지식 및 앞으로 나아가야 할 방향을 제시한다.

    요약하며…


    이 책은 프로그래머로서 자칫 데이터 분석을 코딩만으로 배울뻔한 우(愚)에서 벗어나게 해주었기에 높은 점수를 주고 싶으며, 이 책을 읽으며 남이 만든것을 생각없이 따라가 만드는 데 급급했던 습관에서 모델링의 본질에 대해 깊이 생각하며 창조적인 시각의 중요성을 생각해보는 계기가 되었다. 보통 이럴땐 깊은 생각에 잠겨 책을 읽는 속도가 느려지게 마련인데 신기하게도 가독성이 너무 좋아 생각보다 읽는 시간이 오래 걸리지는 않았다. 데이터 사이언티스트의 영역에 발을 담그고 싶다는 꿈을 가지신 분이라면 누구나 꼭 한번 정독하시길 권한다. 끝으로 이 책을 읽을 기회를 주신 한빛미디어에 깊은 감사를 드린다.

    <한빛미디어 출판사>

    개발자라면 믿고보는 “한빛미디어 출판사”라는 수식어가 따라다닐 만큼 IT분야는 물론 다른 분야에서도 양질의 도서를 끊임없이 출판하는 회사입니다. 개발자로서 “나는 프로그래머다”라는 유익한 팟캐스트를 즐겨 듣곤 했는데 한빛미디어에서 후원을 하였기에 수년간 방송이 이어져올 수 있었다 생각하며, 그외에도 리뷰어 활동, 학습지원 등 다양한 분야에서 사회에 공헌하는 개발자와 공생하는 업체입니다. IT 분야에 관심이 많은 분이라면 한빛미디어의 책으로 시작하시면 후회없는 출발을 하실 수 있습니다.(저 역시 최근에 출간된 ‘데이터를 부탁해’까지 100권은 넘게 산 것 같네요…^^;)

    한빛미디어 바로가기

    <ins class="adsbygoogle" style="display: block; width: 100%; height: 60px;" data-ad-client="ca-pub-9134477021095729" data-ad-slot="2380354290" data-ad-format="auto" data-adsbygoogle-status="done"><ins id="aswift_0_anchor" style="display:block;border:none;height:60px;margin:0;padding:0;position:relative;visibility:visible;width:714px;background-color:transparent;"><iframe width="714" height="60" frameborder="0" marginwidth="0" marginheight="0" vspace="0" hspace="0" allowtransparency="true" scrolling="no" allowfullscreen="true" onload="var i=this.id,s=window.google_iframe_oncopy,H=s&&s.handlers,h=H&&H[i],w=this.contentWindow,d;try{d=w.document}catch(e){}if(h&&d&&(!d.body||!d.body.firstChild)){if(h.call){setTimeout(h,0)}else if(h.match){try{h=s.upd(h,i)}catch(e){}w.location.replace(h)}}" id="aswift_0" name="aswift_0" style="left:0;position:absolute;top:0;border:0px;width:714px;height:60px;"></iframe></ins></ins>

  • 이 책과 함께 구매한 책들

    이 책이 속한 분야 베스트

    교환/반품안내

    ※ 상품 설명에 반품/교환 관련한 안내가 있는 경우 그 내용을 우선으로 합니다. (업체 사정에 따라 달라질 수 있습니다.)

    교환/반품안내
    반품/교환방법

    [판매자 페이지>취소/반품관리>반품요청] 접수
    또는 [1:1상담>반품/교환/환불], 고객센터 (1544-1900)

    ※ 중고도서의 경우 재고가 한정되어 있으므로 교환이 불가할 수 있으며, 해당 상품의 경우 상품에 대한 책임은 판매자에게 있으며 교환/반품 접수 전에 반드시 판매자와 사전 협의를 하여주시기 바랍니다.

    반품/교환가능 기간

    변심반품의 경우 수령 후 7일 이내, 상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내

    ※ 중고도서의 경우 판매자와 사전의 협의하여주신 후 교환/반품 접수가 가능합니다.

    반품/교환비용 변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
    반품/교환 불가 사유

    소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우(단지 확인을 위한 포장 훼손은 제외)

    소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우 예) 화장품, 식품, 가전제품 등

    복제가 가능한 상품 등의 포장을 훼손한 경우 예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집

    소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)

    디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우

    시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우

    전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에 해당되는 경우

    1) 해외주문도서 : 이용자의 요청에 의한 개인주문상품이므로 단순 변심 및 착오로 인한 취소/교환/반품 시 해외주문 반품/취소 수수료 고객 부담 (해외주문 반품/취소 수수료는 판매정가의 20%를 적용

    2) 중고도서 : 반품/교환접수없이 반송하거나 우편으로 접수되어 상품 확인이 어려운 경우

    소비자 피해보상
    환불지연에 따른 배상

    - 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은 소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨

    - 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의 소비자 보호에 관한 법률에 따라 처리함

    판매자
    책책북북
    판매등급
    특급셀러
    판매자구분
    일반
    구매만족도
    5점 만점에 5점
    평균 출고일 안내
    2일 이내
    품절 통보율 안내
    24%

    바로가기

    최근 본 상품