본문내용 바로가기
인터넷교보문고22주년

KYOBO 교보문고

40th 40th  생일파티
40주년 생일파티 한정판 굿즈
[이북]매일 500원 북돋움캐시
나만의기프트카드
  • 손글씨스타
  • 교보 손글씨 2019 폰트
  • 북모닝 책강
  • 손글씨풍경
  • 교보아트스페이스
  • 교보손글쓰기대회
파이썬 라이브러리를 활용한 데이터 분석
* 중고장터 판매상품은 판매자가 직접 등록/판매하는 상품으로 판매자가 해당상품과 내용에 모든 책임을 집니다. 우측의 제품상태와 하단의 상품상세를 꼭 확인하신 후 구입해주시기 바랍니다.
| B5
ISBN-10 : 8968480478
ISBN-13 : 9788968480478
파이썬 라이브러리를 활용한 데이터 분석 중고
저자 웨스 맥키니 | 역자 김영근 | 출판사 한빛미디어
정가
33,000원
판매가
15,900원 [52%↓, 17,100원 할인]
배송비
2,500원 (판매자 직접배송)
지금 주문하시면 2일 이내 출고 가능합니다.
토/일, 공휴일을 제외한 영업일 기준으로 배송이 진행됩니다.
2013년 10월 1일 출간
제품상태
상태 최상 외형 최상 내형 최상
이 상품 최저가
17,000원 다른가격더보기
새 상품
29,700원 [10%↓, 3,300원 할인] 새상품 바로가기
안내 :

중고장터에 등록된 판매 상품과 제품의 상태는 개별 오픈마켓 판매자들이 등록, 판매하는 것으로 중개 시스템만을 제공하는
인터넷 교보문고에서는 해당 상품과 내용에 대해 일체 책임을 지지 않습니다.

교보문고 결제시스템을 이용하지 않은 직거래로 인한 피해 발생시, 교보문고는 일체의 책임을 지지 않습니다.

중고책 추천 (판매자 다른 상품)

더보기

판매자 상품 소개

※ 해당 상품은 교보문고에서 제공하는 정보를 활용하여 안내하는 상품으로제품 상태를 반드시 확인하신 후 구입하여주시기 바랍니다.

판매자 배송 정책

  • 토/일, 공휴일을 제외한 영업일 기준으로 배송이 진행됩니다.

더보기

구매후기 목록
NO 구매후기 구매만족도 ID 등록일
4 잘받았습니다 감사합니다 5점 만점에 5점 anna981*** 2019.08.29
3 배송 빨라요 좋습니다~ 5점 만점에 5점 dkgk*** 2019.07.10
2 정말 깨끗하고 좋습니다. 5점 만점에 5점 sunghee*** 2018.11.12
1 책 잘 받았습니다~~~ 5점 만점에 5점 whiteyo*** 2017.04.01

이 책의 시리즈

책 소개

상품구성 목록
상품구성 목록

『파이썬 라이브러리를 활용한 데이터 분석』은 NumPy, pandas, matplotlib, IPython 등의 다양한 파이썬 라이브러리를 사용해서 효과적으로 데이터를 분석할 수 있게 알려준 책이다. 연대별 이름 통계 자료, 미 대선 데이터베이스 자료를 기반으로 한 실제 사례 연구를 따라하다 보면 어느덧 데이터에 알맞게 접근하고 효과적으로 분석할 수 있게 된다.

저자소개

저자 : 웨스 맥키니
저자 웨스 맥키니(Wes Mckinney)는 뉴욕에서 활동하고 있는 데이터 해커이자 운동가다. 2007년 MIT에서 수학과 학부 과정을 마치고 코네티컷 주 그린위치에 있는 AQR 캐피탈 매니지먼트에서 정량 금융quantitative finance 일을 했다. 복잡하고 느린 데이터 분석 도구에 한계를 느끼고 2008년 파이썬을 처음 접한 후 pandas 프로젝트를 시작했다. 현재 학술용 파이썬 커뮤니티의 활발한 멤버로 활동 중이며 데이터 분석, 금융, 통계 기반 컴퓨팅 애플리케이션에 파이썬 사용을 홍보하는 데 심혈을 기울이고 있다.

역자 : 김영근
역자 김영근은 애플 II에서 베이직으로 처음 프로그래밍을 시작했고, 장래 희망은 항상 프로그래머라고 말하고 다니다 정신 차리고 보니 어느덧 개발 경력이 10년을 훌쩍 넘긴 중년(?) 개발자가 되었다. 2014년부터 PyCon 한국을 만들고 있는 사람 중 한 명이며, 리눅스 커뮤니티에서 오랫동안 활동했다. 임베디드 환경에서부터 미들웨어, 스마트폰 애플리케이션에 이르기까지 다양한 분야의 개발 경험이 있으며, 현재는 스마트스터디에서 가장 비밀스러운 조직인 D9에 소속되어 있다.

목차

__옮긴이의 말
__지은이의 말
__코드 예제 활용
__표지 설명

CHAPTER 1 시작하기 전에
__1.1 이 책은?
__1.2 왜 데이터 분석을 위한 파이썬인가?
____1.2.1 접착제처럼 사용하는 파이썬
____1.2.2 한 가지 언어만 사용
____1.2.3 파이썬을 사용하면 안 되는 경우
__1.3 필수 파이썬 라이브러리
____1.3.1 NumPy
____1.3.2 pandas
____1.3.3 matplotlib
____1.3.4 IPython
____1.3.5 SciPy
__1.4 설치와 설정
____1.4.1 윈도우
____1.4.2 애플 OS X
____1.4.3 리눅스
____1.4.4 파이썬 2.x와 파이썬 3.x
____1.4.5 통합 개발 환경
__1.5 커뮤니티와 컨퍼런스
__1.6 이 책을 살펴보는 방법
____1.6.1 예제 코드
____1.6.2 예제에 사용된 데이터
____1.6.3 import 컨벤션
____1.6.4 용어
__1.7 감사의 말

CHAPTER 2 사례 소개
__2.1 bit.ly의 1.usa.gov 데이터
____2.1.1 순수 파이썬으로 표준시간대 세어보기
____2.1.2 pandas로 표준시간대 세어보기
__2.2 MovieLens의 영화 평점 데이터
____2.2.1 평점 차이 구하기
__2.3 신생아 이름
____2.3.1 이름 유행 분석
__2.4 맺음말

CHAPTER 3 IPython 소개
__3.1 IPython 기본
____3.1.1 탭 자동 완성
____3.1.2 자기관찰
____3.1.3 %run 명령어
____3.1.4 클립보드에 있는 코드 실행하기
____3.1.5 키보드 단축키
____3.1.6 예외와 트레이스백
____3.1.7 매직 명령어
____3.1.8 Qt 기반의 GUI 콘솔
____3.1.9 Pylab 모드와 Matplolib 통합
__3.2 명령어 히스토리 사용하기
____3.2.1 명령어 검색과 재사용
____3.2.2 입?출력 변수
____3.2.3 입?출력 기록하기
__3.3 운영체제와 함께 사용하기
____3.3.1 셸 명령어와 별칭
____3.3.2 디렉터리 북마크 시스템
__3.4 소프트웨어 개발 도구
____3.4.1 인터랙티브 디버거
____3.4.2 코드 시간 측정: %time과 %timeit
____3.4.3 기본적인 프로파일링: %prun과 %run -p
____3.4.4 함수의 각 줄마다 프로파일링하기
__3.5 IPython HTML 노트북
__3.6 IPython을 사용한 제품 개발을 위한 팁
____3.6.1 모듈 의존성 리로딩하기
____3.6.2 코드 설계 팁
__3.7 IPython 고급 기능
____3.7.1 IPython 친화적인 클래스 만들기
____3.7.2 프로파일과 설정
__3.8 감사의 글

CHAPTER 4 NumPy 기본: 배열과 벡터 계산
__4.1 NumPy ndarray: 다차원 배열 객체
____4.1.1 ndarray 생성
____4.1.2 ndarray의 자료형
____4.1.3 배열과 스칼라 간의 연산
____4.1.4 색인과 슬라이싱 기초
____4.1.5 불리언 색인
____4.1.6 팬시 색인
____4.1.7 배열 전치와 축 바꾸기
__4.2 유니버설 함수
__4.3 배열을 사용한 데이터 처리
____4.3.1 배열연산으로 조건절 표현하기
____4.3.2 수학 메서드와 통계 메서드
____4.3.3 불리언 배열을 위한 메서드
____4.3.4 정렬
____4.3.5 집합 함수
__4.4 배열의 파일 입?출력
____4.4.1 배열을 바이너리 형식으로 디스크에 저장하기
____4.4.2 텍스트 파일 불러오기와 저장하기
__4.5 선형대수
__4.6 난수 생성
__4.7 계단 오르내리기 예제
____4.7.1 한 번에 계단 오르내리기 시뮬레이션하기

CHAPTER 5 pandas 시작하기
__5.1 pandas 자료 구조 소개
____5.1.1 Series
____5.1.2 DataFrame
____5.1.3 색인 객체
__5.2 핵심 기능
____5.2.1 재색인
____5.2.2 하나의 로우 또는 칼럼 삭제하기
____5.2.3 색인하기, 선택하기, 거르기
____5.2.4 산술연산과 데이터 정렬
____5.2.5 함수 적용과 매핑
____5.2.6 정렬과 순위
____5.2.7 중복 색인
__5.3 기술통계 계산과 요약
____5.3.1 상관관계와 공분산
____5.3.2 유일 값, 값 세기, 멤버십
__5.4 누락된 데이터 처리하기
____5.4.1 누락된 데이터 골라내기
____5.4.2 누락된 값 채우기
__5.5 계층적 색인
____5.5.1 계층 순서 바꾸고 정렬하기
____5.5.2 단계별 요약통계
____5.5.3 DataFrame의 칼럼 사용하기
__5.6 pandas와 관련된 기타 주제
____5.6.1 정수 색인
____5.6.2 Panel 데이터

CHAPTER 6 데이터 로딩, 저장, 파일 형식
__6.1 텍스트 파일 이용하는 방법
____6.1.1 텍스트 파일 조금씩 읽어오기
____6.1.2 데이터를 텍스트 형식으로 기록하기
____6.1.3 수동으로 구분 형식 처리하기
____6.1.4 JSON 데이터
____6.1.5 XML과 HTML: 웹 내용 긁어오기
__6.2 이진 데이터 형식
____6.2.1 HDF5 형식 사용하기
____6.2.2 마이크로소프트 엑셀 파일에서 데이터 읽어오기
__6.3 HTML, 웹 API와 함께 사용하기
__6.4 데이터베이스와 함께 사용하기
____6.4.1 MongoDB에 데이터 저장하고 불러오기

CHAPTER 7 데이터 준비하기: 다듬기, 변형, 병합
__7.1 데이터 합치기
____7.1.1 데이터베이스 스타일로 DataFrame 합치기
____7.1.2 색인 머지하기
____7.1.3 축 따라 이어붙이기
____7.1.4 겹치는 데이터 합치기
__7.2 재형성과 피벗
____7.2.1 계층적 색인으로 재형성하기
____7.2.2 피버팅으로 데이터 나열 방식 바꾸기
__7.3 데이터 변형
____7.3.1 중복 제거하기
____7.3.2 함수나 매핑 이용해 데이터 변형하기
____7.3.3 값 치환하기
____7.3.4 축 색인 이름 바꾸기
____7.3.5 개별화와 양자화
____7.3.6 특이값 찾아내고 제외하기
____7.3.7 치환과 임의 샘플링
____7.3.8 표시자/더미 변수
__7.4 문자열 다루기
____7.4.1 문자열 객체 메서드
____7.4.2 정규표현식
____7.4.3 pandas의 벡터화된 문자열 함수
__7.5 예제: 미국 농무부 음식 데이터베이스

CHAPTER 8 도식화와 시각화
__8.1 matplotlib API 간략하게 살펴보기
____8.1.1 Figure와 서브플롯
____8.1.2 색상, 마커, 선 스타일
____8.1.3 눈금, 라벨, 범례
____8.1.4 주석과 그림 추가
____8.1.5 그래프를 파일로 저장
____8.1.6 matplotlib 설정
__8.2 pandas에서 그래프 그리기
____8.2.1 선 그래프
____8.2.2 막대 그래프
____8.2.3 히스토그램과 밀도 그래프
____8.2.4 산포도
__8.3 지도 그리기: 아이티 지진 데이터 시각화하기
__8.4 파이썬 시각화 도구 생태계
____8.4.1 Chaco
____8.4.2 mayavi
____8.4.3 기타 패키지
____8.4.4 시각화 도구의 미래

CHAPTER 9 데이터 수집과 그룹 연산
__9.1 GroupBy 메카닉
____9.1.1 그룹 간 순회하기
____9.1.2 칼럼 또는 칼럼의 일부만 선택하기
____9.1.3 사전과 Series에서 묶기
____9.1.4 함수로 묶기
____9.1.5 색인 단계로 묶기
__9.2 데이터 수집
____9.2.1 칼럼에 여러 가지 함수 적용하기
____9.2.2 색인되지 않은 형태로 집계된 데이터 반환하기
__9.3 그룹별 연산과 변형
____9.3.1 apply: 분리-적용-병합
____9.3.2 변위치 분석과 버킷 분석
____9.3.3 예제: 그룹에 국한된 값으로 누락된 값 채우기
____9.3.4 예제: 랜덤 표본과 순열
____9.3.5 예제: 그룹 가중 평균과 상관관계
____9.3.6 예제: 그룹 상의 선형 회귀
__9.4 피벗 테이블과 교차일람표
____9.4.1 교차일람표
__9.5 예제: 2012년 연방 선거관리위원회 데이터베이스
____9.5.1 직장 및 피고용별 기부 통계
____9.5.2 기부금액
____9.5.3 주별 기부 통계

CHAPTER 10 시계열
__10.1 날짜, 시간 자료형, 도구
____10.1.1 문자열을 datetime으로 변환하기
__10.2 시계열 기초
____10.2.1 인덱싱, 선택, 부분 선택
____10.2.2 중복된 색인을 갖는 시계열
__10.3 날짜 범위, 빈도, 이동
____10.3.1 날짜 범위 생성하기
____10.3.2 빈도와 날짜 오프셋
____10.3.3 데이터 시프트
__10.4 시간대 다루기
____10.4.1 지역화와 변환
____10.4.2 시간대 고려해 Timestamp 객체 다루기
____10.4.3 다른 시간대 간의 연산
__10.5 기간과 기간 연산
____10.5.1 Period의 빈도 변환
____10.5.2 분기 빈도
____10.5.3 타임스탬프와 기간 서로 변환하기
____10.5.4 배열을 이용해 PeriodIndex 생성하기
__10.6 리샘플링과 빈도 변환
____10.6.1 다운샘플링
____10.6.2 업샘플링과 보간
____10.6.3 기간 리샘플링
__10.7 시계열 그래프
__10.8 이동창 기능
____10.8.1 지수 가중 함수
____10.8.2 이진 이동창 함수
____10.8.3 사용자 정의 이동창 함수
__10.9 성능과 메모리 사용량에 대한 노트

CHAPTER 11 금융, 경제 데이터 애플리케이션
__11.1 데이터 준비
____11.1.1 시계열과 크로스 섹션 정렬
____11.1.2 다른 빈도를 가지는 시계열 연산
____11.1.3 일별 시간과 현재 최신 데이터 선택하기
____11.1.4 데이터와 함께 나누기
____11.1.5 수익 지수와 누적 수익
__11.2 그룹 변환과 분석
____11.2.1 그룹 요인 밝히기
____11.2.2 십분위와 사분위 분석
__11.3 추가 예제 애플리케이션
____11.3.1 신호 경계 분석
____11.3.2 선물 계약 롤링
____11.3.3 롤링 상관관계와 선형 회귀

CHAPTER 12 고급 NumPy
__12.1 ndarray 객체 내부 알아보기
__12.1.1 NumPy dtype 구조
__12.2 고급 배열 조작 기법
____12.2.1 배열 재형성하기
____12.2.2 C와 포트란 순서
____12.2.3 배열 이어붙이고 나누기
____12.2.4 원소 반복시키기: repeat과 tile
____12.2.5 팬시 색인: take와 put
__12.3 브로드캐스팅
____12.3.1 다른 축에 대해 브로드캐스팅하기
____12.3.2 브로드캐스팅 이용해 배열에 값 대입하기
__12.4 고급 ufunc 사용법
____12.4.1 ufunc 인스턴스 메서드
____12.4.2 사용자 ufunc
__12.5 구조화된 배열과 레코드 배열
____12.5.1 중첩된 dtype과 다차원 필드
____12.5.2 구조화된 배열을 사용해야 하는 이유
____12.5.3 구조화된 배열 다루기: numpy.lib.recfunctions
__12.6 정렬에 관하여
____12.6.1 간접 정렬: argsort와 lexsort
____12.6.2 다른 정렬 알고리즘
____12.6.3 numpy.searchsorted: 정렬된 배열에서 원소 찾기
__12.7 NumPy matrix 클래스
__12.8 고급 배열 입?출력
____12.8.1 메모리 맵 파일
____12.8.2 HDF5 및 기타 배열 저장 옵션
__12.9 성능 팁
____12.9.1 인접 메모리의 중요성
__12.9.2 기타 성능 옵션: Cython, f2py, C

부록 파이썬 언어의 기본
__A.1 파이썬 인터프리터
__A.2 파이썬 기초
____A.2.1 시멘틱
____A.2.2 스칼라형
____A.2.3 흐름 제어
__A.3 자료 구조와 순차 자료형
____A.3.1 튜플
____A.3.2 리스트
____A.3.3 내장 순차 자료형 함수
____A.3.4 사전
____A.3.5 세트
____A.3.6 리스트 내포, 사전 내포, 세트 내포
__A.4 함수
____A.4.1 네임스페이스, 스코프, 지역 함수
____A.4.2 여러 값 반환하기
____A.4.3 함수도 객체다
____A.4.4 익명 함수
____A.4.5 클로저: 함수를 반환하는 함수
____A.4.6 *args와 **kwargs를 사용해서 호출 문법 확장하기
____A.4.7 커링: 일부 인자만 취하기
____A.4.8 제너레이터
__A.5 파일과 운영체제

__Index

책 속으로

출판사 서평

이 책이 제시하는 핵심 내용 파이썬 라이브러리를 활용해서 각종 사례를 예로 들어 빅데이터를 분석하는 가장 완벽한 교재 이 책의 특징과 장점 * 파이썬 3와 pandas 0.17대의 최신 버전에서 테스트 * pandas, NumPy, matp...

[출판사서평 더 보기]

이 책이 제시하는 핵심 내용
파이썬 라이브러리를 활용해서 각종 사례를 예로 들어 빅데이터를 분석하는 가장 완벽한 교재

이 책의 특징과 장점
* 파이썬 3와 pandas 0.17대의 최신 버전에서 테스트
* pandas, NumPy, matplotlib, IPython 등 다양한 파이썬 라이브러리 소개 및 활용
* 연대별 이름 통계 자료, 미 대선 데이터베이스 자료 등의 사례 연구

어떤 독자를 위한 책인가?
* 빅데이터 관련 개발자
* 데이터를 분석해서 비즈니스에 활용하고자 하는 사람
* 데이터 과학자
* R 이외의 데이터 분석 언어를 배우고자 하는 사람

도서 특징(책 표지 글)
파이썬을 이용한 데이터 조작, 처리, 정비에 관한 완벽한 교재가 필요한가? 아나콘다 설치와 파이썬 3, pandas 0.17 버전 테스트를 마친 수정보완판을 만나보자

이 책은 NumPy, pandas, matplotlib, IPython 등의 다양한 파이썬 라이브러리를 사용해서 효과적으로 데이터를 분석할 수 있게 알려준다. 연대별 이름 통계 자료, 미 대선 데이터베이스 자료를 기반으로 한 실사례 연구를 따라하다보면 어느덧 여러분도 데이터에 알맞게 접근하고 효과적으로 분석하는 전문가가 될 것이다. pandas는 특히 파이썬을 처음 접하는 애널리스트와 처음으로 데이터를 분석하는 파이썬 개발자가 손쉽게 활용할 수 있는 도구로 유명하다.

[출판사서평 더 보기 닫기]

책 속 한 문장

회원리뷰

  • 데이터 분석, 데이터 시각화에 관한 트렌디한 이야기를 들으면서, 관심이 하루하루 늘어가고 있던 와중! 학교를 다니면서 ...

    데이터 분석, 데이터 시각화에 관한 트렌디한 이야기를 들으면서, 관심이 하루하루 늘어가고 있던 와중!

    학교를 다니면서 Matlab이나 ModelSim 같은 수학적이고, 종속적인 툴들을 접하다보니, 자유로우면서도 어느정도 공학적 요소를 살릴 수 있는 프로그래밍을 하고 싶다는 생각이 들었다. 광범위하게 쓸 수 있으면서 C언어처럼 자유로우면서 강력한 라이브러리들이 있다는 Python에 대한 관심이 높아져서 이 책을 읽어보았다.

     

    Python를 부담 때문에 접하지 않은 ^^;; 한가지 핑계로써 기존에 가지고 있던 생각은 C JAVA보다 느리다라는 것이었는데, 들어가는 저자의 말에 이런 문구가 있었다.

    개발자의 시간 비용은 CPU의 시간 비용보다 비싸므로 대개는 이런 등가교환에 만족해한다.’

     

    양쪽은 비교할 수 없는 level이지만, 어플리케이션의 성능이 문제가 되지 않는 한 개발자가 Python을 이용하면 이해와 개발 과정에 있어서 시간을 많이 단축시킬 수 있으므로 쓸만하다는 것이다. 새로운 말은 아니지만 Python이 근처 산업 내에서도 많이 쓰이는 걸 부정할 순 없는 설명인 것 같다. 책에서도 과학계산 어플리케이션이나 프로토타입, 과학자와 기술자의 프로그래밍으로의 접근성을 높이기 위해서 Python을 추천한다.

     

    2장은 여러 종류의 데이터를 처리하고 분석하고 시각화하는 간단한 사례를 소개했다.

    외부 자료 활용, 데이터 준비, 데이터 변형, 모델링과 계산, 데이터 표현 이라는 대표적인 작업이 있다면, 보통은 각각에 맞는 툴들을 익혀야 한다. 외부 자료를 파싱하는 언어, 데이터 준비와 변형을 위한 DB 언어, 시뮬레이션을 위한 모델링과 계산 툴, 그리고 데이터 시각화 툴까지. 책에서는 이들 목적이 맞물릴 때 생기는 지식 장벽에 대해 Python 하나만으로 해결할 수 있다는 매력적인 장점을 제공한다. [그림]

     

    3, 4장엔 차례로, IPython이라는 개발 환경, NumPy라는 기본 라이브러리에 대해 소개를 했다. 책에서는 EDP를 가지고 예제를 진행하는데 현재 EDP Canopy라는 제품으로 바뀌어 있는 상황이고 호환에 있어서는 아직까진 문제가 없다

     

    5장에서는 저자가 직접 개발한 pandas라는 고수준 자료 구조와 데이터 분석 도구를 제공하는 라이브러리를 가볍게 살펴본다. 간단한 예시만 있지만 색인(Index)를 객체로 잡고 표 모양의 자료구조에서 카테고리화하는데 유동성을 제공하는 것이 한가지 장점으로 등장한다.

     

    6~7장에서는 데이터를 받고 준비(다듬기, 변형, 병합)하는 과정을 예제로 들었다. 다른 부서에 서 처리한 방대한 엑셀 형태의 자료를 잘 가꾸고 noise들을 깔끔하게 처리해서, Database import시키는 과정은 굉장히 괴롭다. 일반적으로도 한가지 포맷에서 다른 포맷으로 자료를 전환시키는 일은 상황에 맞는 좋은 툴을 개발해놓지 않은 이상, 힘들다. 이 책에서는 상황에 딱 맞는 방법론을 빠르게 구현할 수 있는 가능성을 엿볼 수 있었다. 아마 엑셀 -> Database 이 중간의 데이터 호환 처리 과정에서 좋게 쓰일 수 있을 것 같다.

     

    나머지 장에서는 시각화와 금융, 경제, 그밖의 모델링에 있어서 유용한 점을 살펴볼 수 있었다.

     

    모델링 소프트웨어들은 꽤 있지만, 특정 상황에만 종속되어 있지 않다는 것이, 이론이 좋지만 표현과 시각화에 서투르다 생각하는 공대생에게 익혀두면 괜찮은 툴이라는 생각이 든다!  

  •   파이썬을 제가 알게된지 2년이 되었습니다. 그동안 몇 번의 책 리뷰도 해 보았고 찝적거려 본 적도 꽤 되었지만, ...


      파이썬을 제가 알게된지 2년이 되었습니다. 그동안 몇 번의 책 리뷰도 해 보았고 찝적거려 본 적도 꽤 되었지만, 이것으로 뭘 해야겠다는 생각이 든 적이 별로 없었습니다. 그도 그럴것이 주무기로 사용하던 델파이가 너무도 익숙했던 탓입니다. 최근 들어 개발직에서 잠시 물러나 있는 동안 편안한 마음으로 만져보고 있는 것들에서 또 다른 재미를 발견하는 것으로 보아서는 그 이유가 정확한 것 같습니다. 

      이 책은 처음 받은 순간에는 굉장히 부담스러웠습니다. 느낌부터가 남달랐다고 할까요. 왠지 선뜻 페이지를 펼치지 못하고 시간을 보내고 있었죠. 그러다나 어느날 밤 무료한 일상에 잠시 멍때리다가 무심코 라이브러리를 설치하고 따라하기 시작했습니다. 아... 이거 의외로 장난이 아니구나 하는 생각을 그 순간 하기 시작했죠. 특정 목적을 위해서 다양하고 뚜렷한 라이브러리를 모아서 만들어진 이 책은 생각외의 강력함에 놀람을 감출 수 없었습니다. 몇줄 되지 않는 코드로 데이터를 추출해서 결과를 만들어내는 예제를 따라하면 따라할 수록 신기하고 대단하다는 생각이 들수 밖에 없었죠. 더군다나 데이터 과다의 시대에 이미 빅데이터는 우리의 일상을 침투하고 있는 이 시점에서 파이썬으로도 만족스런 결과를 볼 수 있다는 생각이 들었습니다. 다음 개인 프로젝트에는 파이썬을 이용한 통계를 산출하여 사용자 패턴을 분석하여 프로그램 개선에 써볼까 하는 생각을 했습니다. 사실 빅데이터와 클라우드 부분은 제가 기술적인 스택을 제대로 이해 못하고 적응하지 못하는 경우가 많았는데, 이건 쉽게 적응할 수 있을것 같다는 생각이 들었습니다. 그만큼 생각보다는 사용법이 쉽고 결과 도출에 만족스러웠기 때문입니다. 

      특징에 대해서 다시 한번 정리해 보자면 Pandas, Numpy, iPython 등 라이브러리의 사용과 적절한 용례를 알려준다는 점입니다. 백과사전 같은 느낌으로 필요할 때 필요한 항목을 확인해서 보기에 너무 적절한 책이라고 생각합니다. 게다가 통계 / 분석의 기초적인 감을 잡고 있는 분이라면 활용하기에 더욱 수월하실 것 같습니다. 

      데이터 분석언어로의 파이썬의 매력에 한번 빠져 보시죠! 



    http://lemonism.net/236


  • 사실 내가 Python을 처음 접한건 지난 7월이었다. 그때 내가 들은 수업중에 Coding the matrix란 수업...

    사실 내가 Python을 처음 접한건 지난 7월이었다. 그때 내가 들은 수업중에 Coding the matrix란 수업이 있었는데 이 수업의 과제가 보통 Python을 활용한 과제들이 나와서 그때 열심히 공부했던 적이 있다. 그때 써보면서 느낀거지만 Python은 정말 사람이 생각하는대로 구현하기 쉬운 언어라고 생각한다. 어떤 알고리즘도 그냥 Pseudo code로 정의되어 있는 그대로 옮겨 적으면 실행된다. 그걸 일부러 C로 옮기면 갖가지 라이브러리를 불러내고 메모리 접근 관계도 계산해야 되고, 참 복잡해진다. 학교에 있는 어떤 사람은 Python으로 컴파일러도 만들었다고 하니 참.. 신기할 따름이다.
     그런데 그 수업 과제중 하나가 Machine Learning과 관련된 과제였는데 주제가 흥미로웠다. 내용인 즉, 병원에서 환자들의 체세포 샘플을 담은 csv 파일 형식이 있는데 그중 돌연변이 세포의 패턴을 익히고 1000가지 샘플 중 그 세포의 빈도수를 측정하는 것이었다. 이야... 개인적으로는 기계와 생물이 만나는 주제 자체는 매우 흥미롭다고 생각한다. 물론 그런 걸 수행하기 위해서는 당연히 주어진 데이터에 대한 분석이 필요하고 그걸 바로 바라보는 사람이 필요한 것이다.
     시대가 발전해갈수록 Data Analysis의 중요성은 점점 커져간다. 서로가 주고받는 데이터량이 커지면 커질 수록 컴퓨터의 힘을 빌려야 하고, 또 그걸 손쉽게 다루는 사람은 큰 돈을 벌기 마련이다. 학교에서도 이런 빅 데이터에 대해 이슈화가 되가고 어떻게 하면 효율적으로 표현할 수 있는지에 대한 연구가 많이 진행되는 거 같다. 이번에 다루는 Python for Data Analysis도 그런 맥락에서는 Data Analyst에게 필요한 책이 되지 않을까 싶다. 
     이 책은 ipython이라는 툴을 이용하고 내장되어 있는 numpy와 pandas, matplotlib 같은 라이브러리를 활용하여 일반적으로 처리하기 힘든 데이터를 손쉽게 처리하고자 하는데 목적을 두고 있다. 참고로 이책의 저자인 wes mckinney 는 pandas 라이브러리 개발자인데 개발자 입장에서 pandas 의 사용법을 예제와 함께 제시하고 있다. 물론 배열 계산이 많이 들어가기 때문에 일반적으로는 NumPy나 SciPy를 사용하는데 이 책에서는 주로 Numpy를 활용해서 전개하고 있다.
     사실 나도 이런 데이터 분석이라는 영역을 이책을 통해서 처음 알게 되었다. 물론 이전 과제를 통해서 기본적인 Python 문법을 힘들게(?) 익히긴 했지만 그래도 뭔가 할 수 있겠지 했다. 그런데 이런 나같은 사람이 딱 보면 처음엔 글의 내용에 압도당할 수 있다. 처음 예제부터 JSON Data로부터 실시간으로 정보를 받아와서 출력하고, 코드로 도배된 부분이 많아서 초보자 처음만 보면 진짜 어려움을 느낄 수가 있다. 하지만 이책은 정말 기본부터 시작한다. 아무래도 이런 데이터 분석의 기초는 행렬에 저장되어 있는 데이터에 접근하고 연산하는 것부터 시작하는데 거기서부터 딱 시작한다. 조금만 지나치면 과연 이걸로 될까 하는 의심이 들정도로 신기한 결과물들이 나온다. 참고로 이책의 기본 전제는 한줄씩 한줄씩 해보는데 있다. 그래서 책에 나와있는 예제를 그대로 따라서 하면 똑같은 결과를 얻어낼 수 있다. 아래 그림은 8장 마지막에 보면 아이티 지진때 발생했던 피해 규모를 지도상에 도식화하는 예제인데 그냥 차근차근 따라해보니까 다음과 같은 결과를 얻을 수 있었다.


    (잠깐 설명을 하자면 아이티 지진 발생시 물자의 수요에 따른 분포를 4가지로 나눠서 표현한 것이다. 참고로 여기에 readshapefile() 함수를 쓰면 이 그림상에 아이티 지도가 따라 그려져서 조금 보기좋게 나올텐데.. 내가 했을땐 잘 안됬다..)

     아무튼 이런식으로 csv 파일 상에 저장되어 있는 데이터를 쭉 불러와서 위와 같이 도식화하면 그만큼 분석하고 이해하는데 쉬워질 것이다. 더구나 이런걸 python으로 구현한다면 그 효율성은 배가 될것이라고 생각한다. 이밖에도 금융이나 경제 분야에 응용할 수 있는 기법과 처리방식들이 많이 제시되어 있어서 아마 이를 필요로 하는 사람들에게는 좋은 참고서가 될 것 같다. 
      항상 책을 읽어보면서 뭔가 새로운걸 접하다보면 참 이런걸 다른데 적용해볼 수도 있겠구나 하는 생각을 가져본다. 나같은 경우는 이제 운영체제의 Performance를 뭔가 도식화해서 표현해야 되는데 물론 위와 같이 대규모 데리터를 활용하는 건 아니지만 조금 응용하면 뭔가 사람들이 이해하기 쉬운 결과물을 뽑아낼수 있을거라고 본다. 물론 기존에 접하던게 아니기 때문에 당연히 어려울 수도 있고, 내가 하는 분야로 implement시키기는 힘들지도 모르겠다. 하지만 뭔가 하나하나씩 해보면 새로운 아이디어도 나오는거고 그게 내가 지금 석사과정을 하면서 뭔가를 만들어낼 길 중 하나가 될거라고 여긴다. 

    - Pandas가 궁금한 사람은 한번 공식 홈페이지에 가보는 것도 좋을 거 같다. (http://pandas.pydata.org/pandas-docs/stable/)
  • 재미있게 읽었습니다. | le**love | 2013.10.28 | 5점 만점에 4점 | 추천:0
    중요한 알고리즘이나, 방법론을 설명하는 책은 아니다  2장부터 끝까지 예제를 계속해서 보여줌으로써, 눈이 아닌 손으로...

    중요한 알고리즘이나, 방법론을 설명하는 책은 아니다  2장부터 끝까지 예제를 계속해서 보여줌으로써, 눈이 아닌 손으로 익히게 해준다.  이 예제들을 본것으로 충분했다. 내가 필요한것을 하기 위해 기존의 Kepler에서 TestCase를 먼저 작성하거나, PyCharm을 켜놓고 고민하는게 아닌, IPython에 import numpy, pandas를 해야함을 깨우쳤다. 지금 하고 있는 일에 날개를 달아주는 느낌이다. 

    제일 중요한 내용만 리뷰로 남겼고 블로그에 전체 내용이 있어요 ㅎ

    http://bistros.tistory.com/entry/python-data-analysis


  • 오래 두고 볼 책 | ti**121 | 2013.10.27 | 5점 만점에 4점 | 추천:0
    파이썬은 혼자서도 독학하기 좋은 언어라 해서 선택한 책입니다.맥 os 와 윈도우는 사용을 많이 해본 상태라 리눅스도 알겸 리눅...
    파이썬은 혼자서도 독학하기 좋은 언어라 해서 선택한 책입니다.
    맥 os 와 윈도우는 사용을 많이 해본 상태라 리눅스도 알겸 리눅스 우분투에 파이썬을 설치 했습니다.
    리눅스를 잘 모르는 상태라 리눅스 설정부터 좀 오래 걸렸구요, 파이썬 설치는 윈도우보다는 쉽더군요..
    맥과 비슷해서…
    파이썬 라이브러리를 활용한 빅데이터이다 보니 좀 어렵더군요.. 처음이라 잘 모르는 부분도 많구요..
    한번만 보고 이해하기에는 좀 어려운 것 같구요, 파이썬의 기초를 갖춘 사람이 보아야 할 듯 합니다.
    저는 한번보고 이해가 안가서 여러번 다시 볼려구요….
    파이썬을 잘 모르는 상태라 파이썬 기초도 함께공부해야 할 듯 합니다.
    하지만 이 책 한권이면 빅데이터 분석을 공부하는데 효과적일 것 같습니다.
    저는 아직 미흡한 상태라 아직 좀 더 보아야 할 것 같구요…오래두고 계속 보면 좋을 듯 합니다.
    githup 도 함께 알아야 할 책입니다..

교환/반품안내

※ 상품 설명에 반품/교환 관련한 안내가 있는 경우 그 내용을 우선으로 합니다. (업체 사정에 따라 달라질 수 있습니다.)

교환/반품안내
반품/교환방법

[판매자 페이지>취소/반품관리>반품요청] 접수
또는 [1:1상담>반품/교환/환불], 고객센터 (1544-1900)

※ 중고도서의 경우 재고가 한정되어 있으므로 교환이 불가할 수 있으며, 해당 상품의 경우 상품에 대한 책임은 판매자에게 있으며 교환/반품 접수 전에 반드시 판매자와 사전 협의를 하여주시기 바랍니다.

반품/교환가능 기간

변심반품의 경우 수령 후 7일 이내, 상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내

※ 중고도서의 경우 판매자와 사전의 협의하여주신 후 교환/반품 접수가 가능합니다.

반품/교환비용 변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
반품/교환 불가 사유

소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우(단지 확인을 위한 포장 훼손은 제외)

소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우 예) 화장품, 식품, 가전제품 등

복제가 가능한 상품 등의 포장을 훼손한 경우 예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집

소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)

디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우

시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우

전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에 해당되는 경우

1) 해외주문도서 : 이용자의 요청에 의한 개인주문상품이므로 단순 변심 및 착오로 인한 취소/교환/반품 시 해외주문 반품/취소 수수료 고객 부담 (해외주문 반품/취소 수수료는 판매정가의 20%를 적용

2) 중고도서 : 반품/교환접수없이 반송하거나 우편으로 접수되어 상품 확인이 어려운 경우

소비자 피해보상
환불지연에 따른 배상

- 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은 소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨

- 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의 소비자 보호에 관한 법률에 따라 처리함

판매자
기내식은바밤바
판매등급
새싹셀러
판매자구분
일반
구매만족도
5점 만점에 5점
평균 출고일 안내
2일 이내
품절 통보율 안내
0%

바로가기

최근 본 상품