본문내용 바로가기
인터넷교보문고22주년

KYOBO 교보문고

40th 40th  생일파티
금/토/일 주말특가
40주년 생일파티 한정판 굿즈
[이북]삼성북드림
나만의기프트카드
  • 손글씨스타
  • 북모닝 책강 라이브
  • 손글씨풍경
  • 교보인문학석강
  • 교보아트스페이스
  • 교보손글쓰기대회
데이터 전처리 대전
* 중고장터 판매상품은 판매자가 직접 등록/판매하는 상품으로 판매자가 해당상품과 내용에 모든 책임을 집니다. 우측의 제품상태와 하단의 상품상세를 꼭 확인하신 후 구입해주시기 바랍니다.
368쪽 | | 175*225*18mm
ISBN-10 : 1162242248
ISBN-13 : 9791162242247
데이터 전처리 대전 중고
저자 모토하시 도모미쓰 | 역자 윤준 | 출판사 한빛미디어
정가
30,000원 신간
판매가
25,190원 [16%↓, 4,810원 할인]
배송비
2,500원 (판매자 직접배송)
지금 주문하시면 2일 이내 출고 가능합니다.
토/일, 공휴일을 제외한 영업일 기준으로 배송이 진행됩니다.
2019년 11월 1일 출간
제품상태
상태 최상 외형 최상 내형 최상
이 상품 최저가
25,190원 다른가격더보기
새 상품
27,000원 [10%↓, 3,000원 할인] 새상품 바로가기
수량추가 수량빼기
안내 :

중고장터에 등록된 판매 상품과 제품의 상태는 개별 오픈마켓 판매자들이 등록, 판매하는 것으로 중개 시스템만을 제공하는
인터넷 교보문고에서는 해당 상품과 내용에 대해 일체 책임을 지지 않습니다.

교보문고 결제시스템을 이용하지 않은 직거래로 인한 피해 발생시, 교보문고는 일체의 책임을 지지 않습니다.

판매자 상품 소개

※ 해당 상품은 교보문고에서 제공하는 정보를 활용하여 안내하는 상품으로제품 상태를 반드시 확인하신 후 구입하여주시기 바랍니다.

판매자 배송 정책

  • 토/일, 공휴일을 제외한 영업일 기준으로 배송이 진행됩니다.

더보기

구매후기 목록
NO 구매후기 구매만족도 ID 등록일
87 좋은 책 보내 주셔서 감사합니다. 5점 만점에 5점 che*** 2020.09.23
86 rmfjseofj rhosg ckstmqslek 5점 만점에 5점 jnl*** 2020.09.18
85 깨끗한책 잘 받았습니다. 5점 만점에 5점 ican7*** 2020.09.17
84 배송 속도, 포장 만족합니다. 5점 만점에 5점 csc7*** 2020.09.08
83 하루만에 도착했어요! 감사합니다:) 5점 만점에 5점 tldkqh*** 2020.09.07

이 책의 시리즈

책 소개

상품구성 목록
상품구성 목록

■ 실무 데이터 분석과 전처리 구현에 필요한
■ 구체적인 기술을 제시하는 활용 가이드 데이터 분석의 품질에 큰 영향을 미치는 데이터 전처리는 매우 중요한 작업이다. 전처리 공정을 전체적으로 이해하려면 프로그래밍 언어에 관한 이해뿐만 아니라 통계학이나 머신러닝에 관한 기반 지식이 필요하지만 이를 포괄적으로 설명하는 책은 없었다.
이 책은 저자의 생생한 데이터 분석 실무 경험을 바탕으로 실용적인 전처리 기술을 설명한다. 프로그래밍 언어를 이용해 간단한 개발을 할 수 있는 사람이라면 무리 없이 이해할 수 있도록 쉽게 설명한다. 초급 데이터 과학자뿐만 아니라 데이터 분석 업무를 익히고 싶은 시스템 엔지니어에게도 강력히 추천한다.

저자소개

저자 : 모토하시 도모미쓰
시스템 개발업체 연구원과 웹 계열 회사의 데이터 과학자를 거쳐 현재는 디지털 의료 스타트업의 CTO로 역임 중이다. 양자 어닐링 컴퓨터의 검증에 개인 사업자로 참여하고 있다. 제조업, 소매업, 금융업, 운수업, 레저 산업, 웹 등 다양한 업종의 데이터 분석을 경험했다. 취미로 마리오 AI를 개발한다.

역자 : 윤준
숭실대학교 미디어학부를 졸업하고 동 대학원 모바일랩에서 미디어 공학을 전공했다. 2007년부터 사용자를 생각하는 UI/UX에 관심을 가졌다. 현재는 프런트엔드 엔지니어로서 웹과 스마트폰 네이티브 개발자로 활동한다. 한빛미디어에서 『초보자를 위한 유니티 입문』(2019)과 『만들면서 배우는 언리얼 게임 프로그래밍』(2015), 『HTML5 핵심 API』(2011)를 번역했다.

목차

[1부 전처리 입문]

1장 전처리 개요
__1.1 데이터
__1.2 전처리의 역할
__1.3 전처리의 흐름
__1.4 세 가지 프로그래밍 언어
__1.5 패키지/라이브러리
__1.6 데이터셋
__1.7 데이터 읽기

[2부 데이터 구조 전처리]

2장 추출
__2.1 데이터 열을 지정한 추출
__2.2 조건에 따른 데이터 행 추출
__2.3 데이터 값을 고려하지 않는 샘플링
__2.4 집약 ID에 기반한 샘플링

3장 집약
__3.1 데이터와 종류의 개수 산출
__3.2 합곗값 계산
__3.3 최댓값, 최솟값, 대푯값 산출
__3.4 분포 계산
__3.5 최빈값 계산
__3.6 순위 계산

4장 결합
__4.1 마스터 테이블에서 정보 얻기
__4.2 조건에 따라 결합할 마스터 테이블 변경하기
__4.3 과거 데이터에서 정보 얻기
__4.4 상호 결합

5장 분할
__5.1 모델 검증을 위한 데이터 레코드 분할
__5.2 모델 검증을 위한 시간 데이터 분할

6장 생성
__6.1 언더샘플링으로 데이터 불균형 조정하기
__6.2 오버샘플링으로 데이터 불균형 조정하기

7장 전개
__7.1 가로 데이터로 변환
__7.2 희소 행렬로의 변환

[3부 데이터 내용 전처리]

8장 수치형
__8.1 수치형 데이터로 변환
__8.2 대수화를 이용한 비선형 변화
__8.3 범주화를 이용한 비선형 변화
__8.4 정규화
__8.5 예욋값 제거
__8.6 주성분 분석을 이용한 차원 압축
__8.7 수치의 보완

9장 범주형
__9.1 범주형으로 변환
__9.2 더미 변수화
__9.3 범줏값의 집약
__9.4 범줏값의 조합
__9.5 범주형의 수치화
__9.6 범주형의 보완

10장 일시형
__10.1 일시형과 날짜형으로 변환
__10.2 연, 월, 일, 시각, 분, 초, 요일로 변환
__10.3 일시의 차이로 변환
__10.4 일시형의 증감
__10.5 계절로 변환
__10.6 시간대로 변환
__10.7 평일과 휴일로 변환

11장 문자형
__11.1 형태소 분석을 이용한 분해
__11.2 단어의 집합 데이터로 변환
__11.3 TF-IDF로 단어의 중요도 조정

12장 위치 정보형
__12.1 한국 측지계를 세계 측지계로 변환
__12.2 두 지점 간 거리와 방향 계산

[4부 실천 전처리]

13장 연습 문제
__13.1 집계 분석 전처리
__13.2 추천 전처리
__13.3 예측 모델링 전처리

부록 A 예제 환경 구성하기
__A.1 SQL 환경 준비하기
__A.2 R 환경 준비하기
__A.3 파이썬 환경 준비하기

책 속으로

출판사 서평

데이터 분석에서 가장 먼저 실행하는 전처리 기술! SQL과 R, 파이썬 예제로 효과적이고 실용적인 구현 방법 익히기 이 책은 데이터 분석에서도 가장 먼저 실행되는 전처리를 전문적으로 다룬다. SQL과 R, 파이썬이라는 각 언어를 활용해 문제를 풀...

[출판사서평 더 보기]

데이터 분석에서 가장 먼저 실행하는 전처리 기술!
SQL과 R, 파이썬 예제로 효과적이고 실용적인 구현 방법 익히기
이 책은 데이터 분석에서도 가장 먼저 실행되는 전처리를 전문적으로 다룬다. SQL과 R, 파이썬이라는 각 언어를 활용해 문제를 풀어나가면서 각 언어의 특징과 장단점을 함께 알려준다. 하지만 여러 언어를 다룬다고 해서 모든 것을 얻을 수 있는 책은 아니다. 이 책은 특정 언어의 스킬을 가르쳐주기보다는 전처리란 무엇인가를 설명하는 데 더 초점을 맞춘다. 특히 다양한 예제를 여러 언어를 활용해 풀어보면서 어떤 식으로 문제에 접근해야 하는지 알려준다. 즉 세 가지 언어의 특징을 통해 각 전처리의 특성을 더욱 잘 이해할 수 있게 구성했다.
이 책의 내용은 프로그래밍을 하는 사람이면 누구나 쉽게 따라 할 수 있다. 프로그래밍을 잘 알지 못해도 예제들을 실행해보면서 전처리의 프로세스를 이해할 수 있을 것이다. 저자의 현장 경험을 바탕으로 구성한 예제들을 읽다 보면 그러한 경험과 노하우가 문제에 녹아들어 있음을 알 수 있다. 앞으로 전처리를 다뤄야 할 독자분이라면 언어의 선택부터 전처리를 다루는 팁까지 얻을 수 있는 좋은 자료가 될 것이다.

주요 내용
● 데이터 분석에서 전처리가 차지하는 역할과 중요성
● 추출, 집약, 결합, 분할, 생성, 전개 등 전처리 과정
● 파이썬, SQL, R을 이용한 구체적인 전처리 구현 방법
● 수치, 범주, 날짜 등 다양한 형식의 데이터 처리하기
● 실제 현장에서의 전처리 프로세스

[출판사서평 더 보기 닫기]

책 속 한 문장

회원리뷰

  • - 사진을 세로로 수정하고 진행해도 가로로 등록되는 점 양...

    - 사진을 세로로 수정하고 진행해도 가로로 등록되는 점 양해 부탁드립니다 -

     

     

     

    지루하고 고독한

    오랜 연단 위에

    마침내

    꽃은 핀다.

     

    데이터 전처리 대전 中

    1.jpg

     

    2.jpg

     

    3.jpg

    개봉샷!

    그야말로 머신러닝과 데이터 과학의 시대입니다. 그동안 풀기 어려웠던 문제들이 데이터 과학을 기반으로

    상상을 웃도는 좋은 결과를 내고 있으며, 앞으로도 더 많은 문제가 해결될 것입니다.

    이제는 단순히 흥미로운 분야가 아니라 정말 반드시 알아야 하고 적극적으로 도입해야 하는 기술 중

    하나가 되었습니다.

    데이터 전처리 대전 中

    어떠한 직업이든 꽃이 피는 순간이 있습니다. 축구 선수라면 골을 넣는 순간일 것이고,

    요리사라면 플람베를 하는 순간일 것입니다. 또 컨설턴트라면 프레젠테이션하는 순간,

    데이터 과학자라면 아주 훌륭한 발견을 하거나 매우 정밀한 모델을 만들어내는 순간이겠지요.

    데이터 전처리 대전 中

    머리에 쏙쏙 들어오는 품격있는 글과 함께 책을 시작하게 되어 기쁘다.

    요즘 시대에는 빅데이터, 데이터 과학자, 인공지능 등의 용어가 주목받고 있다.

    전부 데이터 분석에 관련된 용어들인데, 그만큼 관심이 많아지고 있다는 것은

    새로운 시장의 시작을 의미하기도 한다.

    그리고 요즘 내가 가장 관심있어 하는 분야이기도 하다.

    벌써부터 설렌다! 자~~

    시작해볼까!?

    DAY 1, 2

    데이터 전처리 입문

    데이터를 다뤄보자.


    데이터 전처리란?

     

    4.jpg

     

    5.jpg

     

     

    데이터란 무엇일까요?

    = IT 분야에서는 디지털 데이터를 의미하며 0과 1로 이루어진 2진수로 표현합니다.

    데이터 전처리 대전 中

    파트 1은 데이터 전처리 개요를 다룬다.

    음, 내가 생각하기에 가장 중요한 파트다. 그리고 데이터 분석을 입문하는 분들이 가장 정독해야 될 파트이기도 한 것 같다.

    간단한 자료형부터 시작하여 전처리의 역할, 머신러닝, 지도학습과 비지도학습, 전처리의 흐름 등 기술적인 용어도 많이 나오고

    생소한 단어도 많이 나온다. 그리고 이 서적에서는 데이터 전처리를 위한 언어로 SQL, R, 파이썬을 채택하여 사용한다.

    그동안 DB, 프로그래밍 언어 기술 사용이 원활하지 않는 분들께는 공부가 좀 필요할 수 있다는 뜻이다.

     

     

     

     

     

    DAY 3, 4, 5

    데이터 구조, 내용 전처리

    데이터 추출부터 전개까지


    수치형 데이터부터 위치정보형 데이터까지

     

     

    6.jpg

     

    7.jpg

     

     

    데이터 구조를 다루는 전처리는 초기 단계에서 실행하는 경우가 많고, 대량의 데이터를 다룹니다.

    이 단계에서 오류가 발생하면 데이터 분석도 잘못된 방향으로 흘러가므로 주의해야 합니다.

    데이터 전처리 대전 中

    파트2부터 본격적으로 데이터를 다룬다.

    데이터 열을 이용한 추출, 조건에 따른 데이터 행을 추출하는 방법, 데이터 값을 고려하지 않는 샘플링, 집약 ID에 기반한 샘플링,

    우리가 흔히 프로그래밍에서 구하던 최댓값, 최솟값, 대푯값, 분포계산 등도 나온다.

    한가지 분명한 것은 DB나 프로그래밍 언어를 모르고 자신감 하나만으로 도전하였을 때는 크게 낭패볼 수 있다.

    책도 쉽게 설명한다고 보긴 어렵다고 생각하기 때문에 사전 지식을 익히고 리눅스 환경에도 어느정도 익숙한 분이 보면 좋을 것 같다.

    집약, 결합 등 프로그래밍에서도 자주 구하던 데이터를 이렇게 다시 분석해보니 새롭지만, 확실히 다른 점이 많다.

    특히 진행하면 할수록 DB, R언어의 중요성도 상당히 높아 많은 공부가 필요할 것 같다.

    분할, 생성, 전개까지 마치면 2파트도 얼추 마무리 된다. 실습의 포문을 여는 파트인만큼 정독, 또 정독이 필요하다.

    파트 3부터는 머신러닝에 대한 내용도 나오는데, 수치형부터 범주형, 일시형, 문자형의 대한 내용이 주를 이루고 있다.

    파트 2가 연습 시작이라면, 파트 3은 실전이다. 그리고 독자가 지루할만한 내용이 잔뜩 들어있어 조금 재미없을 수도 있다.

    예를 들어 대수화를 이용한 비선형 변화, 정규화, 주성분 분석을 이용한 차원 압축 등 생전 처음들어보는 문장도 많을 것이다.

    그러나 겁먹지 말라! 생각보다 어렵지 않다. 그리고 공식화 되어있는 데이터를 다루는 것이 목적이기 때문에 개요를 잘 정독하고 실습에

    충실하여 진행한다면 부담될 정도는 전혀 아니다.

                    

     

     

     

     

     

    DAY 6, 7

    데이터 실천 전처리

    연습문제로 복습! 실천!


    데이터 환경 구성

     

    8.jpg

     

    9.jpg

     

     

  • 데이터 전처리 대전 | on**ayimet | 2019.12.15 | 5점 만점에 5점 | 추천:0
    [들어가며] 불과 몇 년 전만 해도 IT의 화두는 빅데이터였다. 하지만 몇 년 되지도 않아서 대세는 머신러닝, AI가 되어 ...

    [들어가며]

    불과 몇 년 전만 해도 IT의 화두는 빅데이터였다. 하지만 몇 년 되지도 않아서 대세는 머신러닝, AI가 되어 버렸다. 

    많은 산업계에서 ML과 AI는 필수적인 기술이 되어버렸다. ML과 AI는 만능인듯 보이지만, 실제로는 많은 선작업이 필요하다. 

    그 중에 가장 많은 시간을 할애하는 것 중의 하나가 바로 전처리이다.


    이 책은 그 전처리에 대해서 다룬다. Python, R, SQL을 모두 사용하여 이를 설명하고 있다. (일반적으로 많이 사용하는 RDBMS인 오라클이나 MySQL, MSSQL, PostgreSQL이 아닌 RedShift를 사용한 것이 좀 의아하다.)



    [요약]

    Part 1

    전처리의 개념에 대해 설명한다. 전처리의 역할, 흐름, 사용언어 및 라이브러리, 데이터셋에 대해 설명한다.


    Part 2

    데이터 구조 전처리에 대한 파트이다. 데이터를 추출하는 방법, 샘플링, 집약, 결합, 분할, 생성, 전개 등 많은 형태로 추출하는 법을 설명한다.


    Part 3

    파트2에서 추출한 데이터의 내용을 전처리하는 것에 대해 설명한다. 수치형 데이터, 범주형 데이터, 일시형 데이터, 문자형 데이터, 위치 정보형 데이터를 전처리하는 방법에 대해 설명한다.


    Part 4

    실전 전처리를 위한 연습 문제이다. 집계 분석, 추천 전처리, 예측 모델링 전처리



    [후기]

    내용을 보면 Awesome과 Not Awesome이 있어, 어느 것을 선택해야 하는지 명확하게 설명해 주어 좋다.

    실무적인 내용이 포함되어 있어, 현업에 종사하는 사람에게 큰 도움이 된다.

    다만, 위에서도 언급했듯이 SQL용으로 RedShift를 사용한다. ㅡ.ㅡ;



    [추천대상]

    1. ML이나 AI 관련 업종에서 전처리 업무를 담당하는 사람에게 추천한다.

    2. Python, R, SQL 등을 어느 정도 알고 있어야 한다.

  • 최근에 상황이 가능해서 오프라인 교육을 몇 가지 수강했다. R을 이용한 데이터 분석, 파이썬을 이용한 데이터...
    최근에 상황이 가능해서 오프라인 교육을 몇 가지 수강했다.

    R을 이용한 데이터 분석, 파이썬을 이용한 데이터 분석, 텐서플로우를 이용한 딥 러닝, ...

    예전에 실무에서도 많이 느꼈고 새삼스레 이런 교육들을 듣다 보니(실습이나 예제를 하려면 필수)

    데이터 전처리 작업이 대부분의 경우에 필요하고 의외로 이 부분이 엄청난 시간과 리소스를 필요로 한다.

    교육 도중에도 어느 수강생이 '데이터 전처리'  에 대해서 레퍼런스를 알려달라 했더니, 

    강사가 구글 검색해서 자신에게 맞는 착을 보라고 했던 기억도 난다.



    개인적으로 아주 시기 적절하게  이 책이 나와 보게 되었는데 일단 먼저 후한 점수를 주고 싶다.

    그 이유는 이 책의 쿡북 형태(특정 문제나 주제를 어떻게 해결할지 서술)를 띠고 있으며,

    데이터 처리에 요즘 가장 많이 사용하는 R, SQL, 파이썬 3가지 언어로 설명을 하고 있기 때문이다.


    책의 분량은 360 페이지 정도로 부담 없는 사이즈 이지만 내용은 약간 고급 내용도 다루고 있다.

    목차를 보면 처음에는 단순하게 최빈값, 순위 계산, 데이터 조인 등을 다루다가 

    뒤로 갈수록 데이터 분석 모델이나 머신 러닝 관련 내용들이 나온다. 


    아마 원저자는(일본 사람이다) 단순한 데이터 전처리가 아니라 머신 러닝을 위한 데이터 전처리를 책에 담고 싶었나보다. 

    책에 나오는 예제를 실습하기 위해서는 아마존 레드쉬프트, R, 파이썬을 설치해야 한다. 

    부록에서 설명은 되어 있지만 R, 파이썬 설치는 너무 쉬워서 문제가 없을텐데 

    MySQL이나 PostgreSQL 등의 접하기 쉬운 DB가 아닌  생뚱 맞게 DB를 아마존 레드쉬프트를 사용하는 것은 옥의 티?

    R, SQL, 파이썬 3가지 언어로 설명하고 있고, 책의 뒤편으로 갈수록 고급 내용이나 머신 러닝 등의 내용이 나온다고 했는데 

    아래 사진을 보면 SQL 설명이 없는 내용들이 꽤 나온다. 


    이건 저자가 일부러 설명을 안하는게 아니라 대부분의 머신 러닝 알고리즘은

    SQL 로 구현이 불가능하거나 아주 어렵기 때문에 실무에서도 대부분 다른 언어로 대체하기 때문이다.

    결론!  데이터 전처리만 하더라도 다양한 방법/언어/라이브러리가 있으므로

    엄청난 분량이 나올 수 있지만 이 책은 3가지 언어로 핵심만 설명하고 있다. 

    이 책에 나오는 내용들은 전반적인 큰 숲을 둘러보는 용도로 사용하고, 

    실무 프로젝트에서의 디테일한 부분은 각각의 언어나 라이브러리를 이용하여 각개격파 하는 방식으로 접근하길 추천한다.

    Malgun Gothic"; background-color: #ffffff;" />

교환/반품안내

※ 상품 설명에 반품/교환 관련한 안내가 있는 경우 그 내용을 우선으로 합니다. (업체 사정에 따라 달라질 수 있습니다.)

교환/반품안내
반품/교환방법

[판매자 페이지>취소/반품관리>반품요청] 접수
또는 [1:1상담>반품/교환/환불], 고객센터 (1544-1900)

※ 중고도서의 경우 재고가 한정되어 있으므로 교환이 불가할 수 있으며, 해당 상품의 경우 상품에 대한 책임은 판매자에게 있으며 교환/반품 접수 전에 반드시 판매자와 사전 협의를 하여주시기 바랍니다.

반품/교환가능 기간

변심반품의 경우 수령 후 7일 이내, 상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내

※ 중고도서의 경우 판매자와 사전의 협의하여주신 후 교환/반품 접수가 가능합니다.

반품/교환비용 변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
반품/교환 불가 사유

소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우(단지 확인을 위한 포장 훼손은 제외)

소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우 예) 화장품, 식품, 가전제품 등

복제가 가능한 상품 등의 포장을 훼손한 경우 예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집

소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)

디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우

시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우

전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에 해당되는 경우

1) 해외주문도서 : 이용자의 요청에 의한 개인주문상품이므로 단순 변심 및 착오로 인한 취소/교환/반품 시 해외주문 반품/취소 수수료 고객 부담 (해외주문 반품/취소 수수료는 판매정가의 20%를 적용

2) 중고도서 : 반품/교환접수없이 반송하거나 우편으로 접수되어 상품 확인이 어려운 경우

소비자 피해보상
환불지연에 따른 배상

- 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은 소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨

- 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의 소비자 보호에 관한 법률에 따라 처리함

판매자
책책북북
판매등급
특급셀러
판매자구분
사업자
구매만족도
5점 만점에 5점
평균 출고일 안내
3일 이내
품절 통보율 안내
35%

이 책의 e| 오디오

바로가기

최근 본 상품