본문내용 바로가기
인터넷교보문고22주년

KYOBO 교보문고

40th 40th  생일파티
40주년 생일파티 한정판 굿즈
[이북]매일 500원 북돋움캐시
  • 손글씨스타
  • 교보 손글씨 2019 폰트
  • 북모닝 책강
  • 손글씨풍경
  • 교보아트스페이스
  • 교보손글쓰기대회
파이썬으로 웹 크롤러 만들기
* 중고장터 판매상품은 판매자가 직접 등록/판매하는 상품으로 판매자가 해당상품과 내용에 모든 책임을 집니다. 우측의 제품상태와 하단의 상품상세를 꼭 확인하신 후 구입해주시기 바랍니다.
284쪽 | 규격外
ISBN-10 : 8968484694
ISBN-13 : 9788968484698
파이썬으로 웹 크롤러 만들기 중고
저자 라이언 미첼 | 역자 한선용 | 출판사 한빛미디어
정가
24,000원
판매가
17,900원 [25%↓, 6,100원 할인]
배송비
2,500원 (판매자 직접배송)
지금 주문하시면 3일 이내 출고 가능합니다.
더보기
2016년 12월 1일 출간
제품상태
상태 최상 외형 최상 내형 최상
이 상품 최저가
21,400원 다른가격더보기
새 상품
21,600원 [10%↓, 2,400원 할인] 새상품 바로가기
안내 :

중고장터에 등록된 판매 상품과 제품의 상태는 개별 오픈마켓 판매자들이 등록, 판매하는 것으로 중개 시스템만을 제공하는
인터넷 교보문고에서는 해당 상품과 내용에 대해 일체 책임을 지지 않습니다.

교보문고 결제시스템을 이용하지 않은 직거래로 인한 피해 발생시, 교보문고는 일체의 책임을 지지 않습니다.

판매자 상품 소개

※ 해당 상품은 교보문고에서 제공하는 정보를 활용하여 안내하는 상품으로제품 상태를 반드시 확인하신 후 구입하여주시기 바랍니다.

판매자 배송 정책

  • 1. 토/일, 공휴일을 제외한 영업일 기준으로 배송이 진행됩니다. 2. 단순변심으로 인한 구매취소 및 환불에 대한 배송비는 구매자 부담입니다. 3. 제주 산간지역에는 추가배송비용이 부과됩니다. 4.우체국에서 발송해야하는 군부대및 사서함지역은 이용불가합니다. 이용시 우체국 실요금이 추가 발생될 수 있습니다.

더보기

구매후기 목록
NO 구매후기 구매만족도 ID 등록일
33 새책이나 다름없습니다. 5점 만점에 5점 jae*** 2020.09.17
32 빠른 배송에 최상급 책을 잘 받았습니다. 5점 만점에 5점 tradec*** 2020.09.01
31 빠른 배송 감사합니다 5점 만점에 5점 ji*** 2020.08.22
30 ^^**************** 5점 만점에 4점 zoo*** 2020.08.16
29 책 상태 좋습니다..... 5점 만점에 4점 sig*** 2020.07.13

이 책의 시리즈

책 소개

상품구성 목록
상품구성 목록

웹 어디서든 내가 원하는 데이터를 쏙쏙쏙 웹에 존재한다면 그것이 어떤 형태이든 데이터로 추출할 수 있다. 필요한 무기는 이 책과 파이썬뿐. BeautifulSoup, 셀레니움, 테서랙트 등 강력한 파이썬 라이브러리 사용법과 함께 API, 인증, 이미지 및 텍스트 인식, 로그인 처리 등 웹 크롤링의 기초부터 고급 기법까지 종합적으로 다루는 유일한 책. 실제 업무와 생활에 적용할 수 있는 예제를 통해 일상의 데이터 분석가가 될 수 있다.

저자소개

저자 : 라이언 미첼
저자 라이언 미첼 Ryan Mitchell은 웹 크롤링, 보안, 데이터 과학에 관심이 많은 개발자. 현재 글로벌 펀드사 헤지서브(HedgeServ)에서 시니어 개발자로 근무하고 있습니다. 프랭클린 W. 올린 공과대학교를 졸업했고 하버드 대학교에서 소프트웨어 엔지니어링 석사 과정을 밟았습니다. 어바인(Abine)에서 웹 크롤러와 봇을 만들었고, 링크드라이브(LinkeDrive)에서는 API 및 데이터 분석 도구를 만들었습니다. 금융업 및 유통업 분야에서 웹 크롤링 프로젝트 컨설팅을 하고 있고, 교육과 강연 활동도 활발하게 펼치고 있습니다. 본서 외 저서로 『Instant Web Scraping with Java』(Packt, 2013)가 있습니다.

역자 : 한선용
역자 한선용은 웹 표준과 자바스크립트에 관심이 많은 번역가. 2008년부터 웹 관련 일을 했으며, ‘WCAG 2.0을 위한 일반적 테크닉’ 등의 문서를 번역해 웹에 올렸습니다. 번역서로 『한 권으로 끝내는 Node & Express』(2015), 『자바스크립트를 말하다』(2014), 『데이터 시각화를 위한 데이터 인사이트』(2014), 『모던 웹을 요리하는 초간편 HTML5 Cookbook』(2012), 『Head First jQuery』(2012), 『jQuery Mobile』(2012), 『자바스크립트 성능 최적화』(2011, 이상 한빛미디어), 『자바스크립트 프로그래밍』(2013), 『처음 배우는 jQuery』(2012), 『에릭 마이어의 CSS 노하우』(2011, 이상 인사이트) 등이 있습니다.

목차

CHAPTER 1 첫 번째 웹 스크레이퍼
1.1.연결
1.2.BeautifulSoup 소개

CHAPTER 2 고급 HTML 분석
2.1.닭 잡는 데 소 잡는 칼을 쓸 필요는 없습니다
2.2.다시 BeautifulSoup
2.3.정규 표현식
2.4.정규 표현식과 BeautifulSoup
2.5.속성에 접근하기
2.6.람다 표현식
2.7.BeautifulSoup를 넘어

CHAPTER 3 크롤링 시작하기
3.1.단일 도메인 내의 이동
3.2.전체 사이트 크롤링
3.3.인터넷 크롤링
3.4.스크래파이를 사용한 크롤링

CHAPTER 4 API 사용
4.1.API는 어떻게 동작하는가
4.2.공통 표기법
4.3.응답
4.4.에코 네스트
4.5.트위터
4.6.구글 API
4.7.JSON 파싱
4.8.모든 것을 하나로
4.9.마치며

CHAPTER 5 데이터 저장
5.1.미디어 파일
5.2.데이터를 CSV로 저장
5.3.MySQL
5.4.이메일

CHAPTER 6 문서 읽기
6.1.문서 인코딩
6.2.텍스트
6.3.CSV
6.4.PDF
6.5.마이크로소프트 워드와 .docx

CHAPTER 7 지저분한 데이터 정리하기
7.1.코드로 정리하기
7.2.사후 정리

CHAPTER 8 자연어 읽고 쓰기
8.1.데이터 요약
8.2.마르코프 모델
8.3.자연어 툴킷
8.4.추가 자료

CHAPTER 9 폼과 로그인 뚫기
9.1.파이썬 requests 라이브러리
9.2.기본적인 폼 전송
9.3.라디오 버튼, 체크박스, 기타 필드
9.4.파일과 이미지 전송
9.5.로그인과 쿠키 처리
9.6.기타 폼 문제

CHAPTER 10 자바스크립트 스크레이핑
10.1.자바스크립트에 관한 간단한 소개
10.2.Ajax와 동적 HTML
10.3.리다이렉트 처리

CHAPTER 11 이미지 처리와 텍스트 인식
11.1.라이브러리 개관
11.2.형식이 일정한 텍스트 처리
11.3.CAPTCHA 읽기와 테서랙트 훈련
11.4.CAPTCHA 가져오기와 답 보내기

CHAPTER 12 스크레이핑 함정 피하기
12.1.스크레이핑의 윤리에 관해
12.2.사람처럼 보이기
12.3.널리 쓰이는 폼 보안 기능
12.4.사람처럼 보이기 위한 체크리스트

CHAPTER 13 스크레이퍼로 웹사이트 테스트하기
13.1.테스트 입문
13.2.파이썬 unittest
13.3.셀레니움을 사용한 테스트
13.4.unittest vs 셀레니움

CHAPTER 14 원격 스크레이핑
14.1.원격 서버를 쓰는 이유
14.2.토르
14.3.원격 호스팅
14.4.추가 자료
14.5.미래를 향해

APPENDIX A 파이썬 훑어보기
A.1.설치와 ‘Hello, World!’

APPENDIX B 인터넷 훑어보기

APPENDIX C 웹 스크레이핑의 합법성과 윤리
C.1.상표? 저작권? 특허?
C.2.동산 침해
C.3.컴퓨터 사기와 악용에 관한 법률
C.4.robots.txt와 이용 약관
C.5.세 가지 웹 스크레이퍼 사례

책 속으로

출판사 서평

복잡 다양한 웹에서 우아하게 데이터를 수집하는 방법 A to Z 우리는 생활 속의 많은 부분이 인터넷에서 이루어지는 시대에 살고 있습니다. 그 어느 때보다 많은 데이터로 넘쳐나는 웹 세상에서 필요한 데이터를 가져와 분석하는 일의 중요성도 커졌습...

[출판사서평 더 보기]

복잡 다양한 웹에서 우아하게 데이터를 수집하는 방법 A to Z

우리는 생활 속의 많은 부분이 인터넷에서 이루어지는 시대에 살고 있습니다. 그 어느 때보다 많은 데이터로 넘쳐나는 웹 세상에서 필요한 데이터를 가져와 분석하는 일의 중요성도 커졌습니다. 인터넷을 활보하며 데이터를 수집하는 프로그램을 웹 크롤러 혹은 웹 스크레이퍼라고 합니다. 웹 크롤러는 데이터 수집을 자동화하므로 비즈니스 의사 결정에 큰 도움이 되고, 웹사이트 스캐너로 활용할 수도 있어 보안 분야에서도 사용됩니다.
웹 크롤링은 인증 같은 웹 기술에 대한 이해는 물론, 데이터 정제, DB 저장 등 여러 기술에 대한 지식이 필요한 분야에 속합니다. 따라서 프로그래밍 스킬을 향상하는 데에 아주 좋은 주제이며, 과거에는 프로그래밍 전문가만이 웹 크롤러를 만들 수 있었습니다. 하지만 파이썬이라는 배우기 쉬운 언어와 쉽게 쓸 수 있는 각종 라이브러리들이 등장하며 이러한 장벽은 무너졌습니다. 기업 사례뿐만 아니라 음원 차트 추출하기, 서울의 기온 데이터 추출하기, 게시판 문서 다운로더 등 주위를 둘러보면 의외로 많은 생활 속 사례를 찾을 수 있습니다.
『파이썬으로 웹 크롤러 만들기』는 웹 크롤링이라는 주제 하나에 집중하는 책입니다. 업무상 웹 크롤러를 만들다 푹 빠진 나머지 회사를 나와서도 계속 웹 크롤러를 만들고 있는 개발자가 썼습니다. 파이썬과 라이브러리를 이용하여 아주 간단한 웹 크롤러를 만드는 것으로 시작해서, HTML, API 등 웹 기술의 기초부터 데이터 정제 및 저장, 자연어 처리, 이미지 및 텍스트 인식 등 고급 기법까지 종합적으로 살펴봅니다.
책의 1부는 파이썬과 함께 BeautifulSoup, 스크래파이 같은 라이브러리를 이용하여 아주 간단하게 웹 크롤러를 만들어보며 시작합니다. 나아가 API를 이용한 수집, 데이터를 MySQL로 저장하는 방법, CSV, PDF, 워드 파일을 분석하는 방법까지 필요에 따라 다양한 라이브러리를 활용하여 웹 크롤러를 구현하는 방법에 집중합니다. 위키백과를 크롤링하며 ‘케빈 베이컨의 여섯 다리’(과연 전 세계 사람은 여섯 다리만 거치면 연결될까요?) 문제를 풀어보는 예제도 있습니다.
2부는 웹 크롤링을 둘러싼 더욱 흥미로운 주제와 기법을 다룹니다. 웹에서 가져온 지저분한 데이터를 정돈하고 정제하는 방법(오픈리파인), 자연어 처리(NLTK), 폼과 로그인 뚫기(requests), 자바스크립트로 만든 동적 페이지 수집하기(셀레니움), 이미지 처리(필로) 및 텍스트 인식(테서랙트), 웹사이트 테스트(unittest), 원격 크롤링(토르) 등 고급 기법과 라이브러리 사용법을 살펴봅니다. 특히 텍스트 인식은 CAPTCHA, 즉 자동 가입 방지 문자를 우회하는 데 유용하며, 크롤링을 막는 방해물을 뚫기 위한 ‘사람처럼 보이기’ 기법은 아예 한 장을 할애해서 자세히 소개합니다.
저자는 웹 크롤링에 푹 빠져 있지만 웹 크롤러를 악용하는 것까지 찬성하는 것은 아닙니다. 부록에서는 웹 크롤링과 관련된 법적, 윤리적 쟁점과 실제 소송 사례 세 가지를 살펴보며 균형 잡힌 시각을 접할 수 있습니다.
오늘날 데이터가 넘쳐나는 웹에서 웹 크롤러로 할 수 있는 일은 무궁무진합니다. 필요한 것은 약간의 파이썬 프로그래밍 능력 하나뿐입니다. 나머지는 이 책에서 배울 수 있습니다. 웹 크롤링을 적용하여 업무를 자동화하고 생활 속에서 유용한 통찰을 찾는 데 이 책이 큰 도움이 되리라 믿습니다. 복잡 다양한 웹 세상에서 우아하게 데이터를 수집하고 싶은, ‘일상의 데이터 분석가’를 꿈꾸는 이들에게 이 책을 권합니다.

[출판사서평 더 보기 닫기]

책 속 한 문장

회원리뷰

  • 파이썬으로 웹 크롤러 만들기 책

    최근에 미니 프로젝트로 생각해 둔 것이 있었는데, 매일 뉴스 기사에서 단어를 수집할 필요가 있었다. 그리고 파이썬으로 프로젝트를 해보고 싶은 생각도 있었는데 마침 필요한 것들이 전부 있는 책이 손에 들어왔다. HTML파싱에 필요한 라이브러리부터 문서 포맷 파싱, 자연어처리, 이미지 인식, 유닛 테스트까지 다루지 않는 부분이 없는 엄청난 책이었다. 전문서를 읽으면서 가끔 묘한 느낌이 들 때가 있는데 이 책이 그랬다. 책의 두께로만 봐서는 도저히 각 챕터를 전부 다룰 수 없을 것 같은데 정말 그렇게 하고 있었다. 초보자의 관점에서 본 이야기이고, 어떤 챕터는 한 권의 책으로 심층적으로 다뤄도 모자랄 것이다. 하지만 어떤 노하우나 기술의 ‘힌트’를 적절히 배치해놓은 것을 보고 감탄하지 않을 수 없었다. 그런 점에서 이 책은 웹 프로그래밍을 막 시작한 분들에게 굉장히 매력적인 책일 것이다.

    데이터베이스 테크닉과 모범 사례

    5장에서는 관계형 데이터베이스에서 자료를 저장하는 스키마 설계에 대해 고민하게 하는 한편, 성능적인 면에서 쿼리 응답을 빠르게 하기 위한 인덱싱기술도 설명하고 있다.

    책이 다양한 주제에 대해서 다루고 있다보니 원하는 챕터만 찾아봐야겠다고 다짐했다. 그래서 처음에 6장은 넘어가려고 했다. 그런데 웬걸 텍스트 인코딩에 대해 설명을 하고 있어서 읽다보니 한 챕터 전체를 다 읽게 되었다. 텍스트 인코딩에 대한 개괄적 설명, csv, pdf, docx 포맷에서 데이터를 추출하는 방법이 차례로 나온다. 책을 읽는 순서는 관계가 없지만 초보자는 유용한 내용이 많으니 웬만하면 모두 읽는 것이 좋을 것 같다.

    텍스트 인코딩과 인터넷

    데스크탑으로 맥을 쓰면서 멀웨어나 바이러스와는 많이 멀어졌다고 생각했는데 간과한 부분이 있었다. 위키의 유닉스 계열 서버의 점유율을 보면 가장 낮은 것도 60퍼센트를 넘는다. 크롤링을 잘못하면 저자의 말대로 악성코드를 내 컴퓨터로 초대하는 것이나 다름없다. 방어적 프로그래밍을 일깨워주는 참 좋은 책이다… 그리고 이런 ‘주의’표시가 있는 내용이 챕터 마다 있어서 책을 읽고 많이 배울 수 있었다.

    악의적 스크립트 주의하기

    웹 사이트를 돌아다니면서 법적 이슈가 생길 거라고 예상하는 사람이 없으니, 크롤링을 하는 것도 법적인 이슈가 없을 것이라고 예상했다. 그런 점에서 저자가 윤리적인 이슈 및 법적 이슈가 생길 수 있음을 경고해주고, 실제 사례도 소개해주고 있어서 흥미롭게 읽을 수 있었다.

    스크레이핑의 윤리

    curl 커맨드를 이용해서 HTTP 리퀘스트를 보낼 때 실패하는 사이트들이 있었는데 그 때는 어떤 정보를 통해서 확인하는지 몰랐었다. 이런 노하우를 배우다보니 내가 아직도 웹에 대해서 모르는게 굉장히 많다는 생각이 들었다…

    헤더를 유용하게 사용하는 방법

    코딩 컨벤션에 대해 잠깐 언급하고 리뷰를 마치고자 한다. 이전에는 파이썬을 간단히 로직 테스트 용도로만 사용했었다. 그래서 크게 긴 코드를 작성할 일이 없었다. 파이썬 코딩 컨벤션도 딱히 따르는 것이 없었는데 저자의 코드를 따라서 실습하다보니 홑따옴표와 쌍따옴표를 혼용해서 쓰고 있었다. 책에 파이썬 코딩 컨벤션에 대한 언급은 없기 때문에 스택오버플로우에서 관련된 내용을 찾아봤다. 기본적으로 이 논의는 가치가 없는 것(…)으로 보이지만, 참고할 만한 내용은 있었다. 펄 언어에서 보간(Interpolation)가능한 문자열과 보간하지 않는 문자열을 구분하는 문법이 있고, 그 전통이 펄 프로그래머들로부터 파이썬까지 따라왔다는 것, 혹은 (사람이 이해하는)자연어는 쌍따옴표로, 기계가 이해하는 언어는 홑따옴표로 쓴다는 규칙이 있었다. 어떤 사람은 영어의 문장부호 규칙에서 그것이 따라왔다고 보는 사람도 있었다. 쓰는 사람 마음이지만 오픈소스 프로젝트에 참여하는 것을 고려한다면 참고할 수 있을 것이다.

    책을 읽으면서 파이썬 코드의 가독성이 정말 좋다는 것, 그리고 필요하다고 생각하는 라이브러리가 대부분 있다는 것을 느꼈다. 최근에 인기가 많은 Node.js도 라이브러리가 많이 구현돼있지만 데이터 과학쪽은 아직 파이썬의 환경이 더 잘 되있고, 초보자가 접근하기도 더 수월하다고 생각한다. 책이 얇고 다양한 주제에 대해 다루고 있기 때문에 심층적인 내용을 다룰 수 없는 것은 어쩔 수 없다. 하지만 흥미를 일으키기에 충분한 분량의 내용이 각 챕터별로 들어있다고 생각한다. 리뷰를 읽으실 초보자분들이 이 책을 통해 즐거운 코딩경험을 하시길 기대한다.

  •   전 세계가 네트워크를 통해 하나로 연결된 시대이다. 우리 삶도 스마트폰을 통해 온라인과 오프라인을 분명히 나눌 ...

     

    전 세계가 네트워크를 통해 하나로 연결된 시대이다. 우리 삶도 스마트폰을 통해 온라인과 오프라인을 분명히 나눌 수 없을 정도로 깊이 엮여 있다. 그래서 사람들의 생활과 관심사가 그대로 드러나는 웹은 가공되지 않은 수많은 정보의 보고이다.

     

    그런데 이 웹에서 특정 목적에 적합한 정보를 대규모로 수집하는 것은 사람의 손으로는 하기 힘든 일이다. 그래서 웹에서 정보를 수집해주는 기능을 전문적으로 하는 프로그램이 존재한다. 이 프로그램은 흔히 봇이라는 이름으로도 불리는데, 이 봇을 만들어 데이터를 모아서 DB에 저장하는 일이 바로 웹 스크레이핑이다. 더 정확히는, 웹 스크레이핑은 특정 프로그램이 웹 서버에 쿼리를 보내서 HTML, XML, 이미지 등 고유 형태의 응답을 받아서 이를 파싱하고 저장해서 정보를 추출하는 작업을 의미한다.

     

    웹이 정보의 보고인 만큼, 그 정보를 수집하는 것도 다양한 분야의 기술이 필요하다. 그래서 웹 스크레이핑은 데이터베이스, 웹 서버, HTTP, HTML, XML, 인터넷 보안, 이미지 처리, 데이터 과학 등 다양한 주제를 설명해야 한다. 이 책의 장점은 필요한 주제마다 필요한 기술들을 아주 기초부터 핵심만 소개해주는 설명에 있다. 파이썬 초보자도 기초 문법만 떼고 온다면 진행이 그리 어렵지 않을만큼 짧고 간결하게 구성되어 부담도 크지 않다. 그래서 경력이 쌓인 개발자뿐만 아니라, 파이썬 프로그래밍 입문서를 막 마친 대학생들도 즐겁게 시도해볼 수 있는 책이다. 무엇보다도 IT도서답지 않은 얇은 두께를 자랑하며 책장도 휙휙 잘 넘어간다. 게다가 문체가 상당히 따뜻한 느낌이다. 이런 부드러운 문장이 원저자의 공인지 아니면 역자의 공인지 알 수는 없지만, 책을 쉽게 느껴지게 하는 데 일조한다.

     

    빅데이터, 기계학습, 딥러닝, 인공 신경망 등이 대세 키워드인 요즈음, 웹 스크레이핑은 개발자들 뿐만 아니라, 일반인들도 매우 흥미로워하는 분야이다. 마침 파이썬은 초보자가 입문하기 쉬운 언어이므로, 이 책으로 입문하는 웹 스크레이핑은 자신의 비즈니스를 더 효과적으로 만들고 생산성을 향상하고 싶은 사람은 누구나 참여해볼 만한 주제이다.

     

    사실 이 리뷰를 작성하고 있을 때 건너편에 앉아있던 개발자가 책 제목을 흘끗 보고는 '이게 책 한 권을 낼만큼의 주제가 돼요?' 라고 물었다. 이 책을 덮은 지금, 자신 있게 '그렇다. 꼭 한 번 읽어보실 만 하다.'라고 답할 수 있을 것 같다.

     

  • 이 도서는 파이썬을 기초 수준으로 알고 있는 사람에게 웹 크롤러(Web Crawler)를 만드는 방법을 단계별로 친절하게 알려...

    이 도서는 파이썬을 기초 수준으로 알고 있는 사람에게 웹 크롤러(Web Crawler)를 만드는 방법을 단계별로 친절하게 알려준다.

    1. 왜 읽어야 하나요?

    수년 전부터 오픈 웹, 오픈 API 등의 용어가 범람하고 있다. 우리가 알고 있는 각종 포털 및 SNS 사이트부터 공공기관까지 대부분의 웹 서비스 업체는 자신들이 생산하는 데이터를 활용할 수 있는 방법을 제공한다.

    참고: 대한민국 정부는 공공기관의 데이터를 민간에게 공개하는 것을 골자로 하는 정부 3.0 이라는 정책하에 공공데이터포털(www.data.go.kr)을 운영하고 있음

    그러나 대부분의 경우 오픈 API는 사용이 제한적이거나 우리가 원하는 기능을 제공하지 않는 경우가 많아 해당 사이트에서 제공하는 데이터를 말랑말랑하게 다루기에는 많은 어려움이 있다. 책에서는 이러한 이유를 아래와 같이 소개하고 있다.

    • - 사이트에서 API를 제공하지 않거나 제공할 능력이 없음
    • - 사이트에서 제공하는 API사용에 제한이 있거나 제공하는 데이터 타입이 원하는 형식이 아닐 수 있음

    만약 정보의 바다라고 하는 인터넷에서 본인 혹은 기업이 원하는 데이터를 자동으로 수집하고 가공하여 가치를 창조하는 일을 하고 싶다면 이 책은 큰 도움이 될 것이다.

    2. 이 책의 장ˆ단점은 무엇인가요?

    우선 이 책은 매우 친절합니다. 최근에 발간된 일부 컴퓨터 서적의 경우 책에서 나오는 각종 실습을 따라하는 데 필요한 환경설정을 다루지 않는 경우가 있었습니다. 그러나 이 책은 파이썬부터 BeautifulSoup 이라는 웹 문서 Parser 설치까지 안내를 합니다. 그리고 부록의 마지막 장에서는 웹 스크래이핑(=웹 크롤러)의 합법성과 윤리를 통해 혹시라도 발생할 수 있는 각종 법적 분쟁에 휘말리지 않도록 안내를 합니다. 그러나 무엇보다도  이 책의 가장 큰 장점은 단계별로 내용을 풀어가는 친절한 설명입니다. 또한, 심화내용을 배우기 원하는 독자를 위해 필요한 경우 레퍼런스를 제공합니다.

    단점은 없습니다. 신경쓰이는 번역이나 오타도 발견하지 못했습니다. 최근에 읽었던 전문서적 중 가장 훌륭한 책이었습니다.

    3. 총평

    이 책은 검색 엔진을 이루는 구성요소 중 핵심 중 하나인 웹 크롤러(Web Crawler)를 만드는 방법을 매우 친절하게 소개합니다. 만약 웹에서 생산되는 다양한 데이터를 수집 및 가공하여 가치를 창조하는 어떤 서비스를 만들고 싶다면 이 책은 훌륭한 시작점이 될 수 있습니다. 웹 크롤러에 관심이 있는 분이라면 후회없는 선택이 될 수 있습니다.

  • 파이썬으로 웹 크롤러 만들기  - 초간단 나만의 웹 크롤러로   원하는 데이터를 ...

    파이썬으로 웹 크롤러 만들기

     - 초간단 나만의 웹 크롤러로 

     원하는 데이터를 가져오는 방법


    웹 크롤러를 만든다는 제목의 이 책은 말 그대로 

    파이썬으로 웹 크롤러를 제작하는 방법을 알려주고 있습니다.

    웹 크롤러가 뭔지도 모르는 사람이지만, 프로그래밍에 관심있는 

    사람이나, 웹 크롤러가 뭔지는 들어봤지만, 실제로 만들어 본적은

    없는 사람들에게 크롤러에 대한 구조나 정보등을 알 수 있는 

    입문서로서 좋은 역할을 할 수 있는 책이라는 것이 

    제가 읽은 느낌입니다. 


    처음 받아봤을때의 느낌은 상당히 책이 얇다는 점이었습니다.

    300쪽도 되지 않는 분량에 크기도 그다지 큰 편이 아니어서인지

    분량의 부담은 크지 않겠다는 생각이 들었습니다. 

    다만, 혹시 내용이 너무 어렵지 않을까라는 생각이 들었는데요

    이전에 봤던 기술서적들의 대부분은 분량이 적으면

    그 내용이 어렵거나, 너무 간략하게 서술되어 있는 경우를 

    많이 봐왔기 때문에, 약간의 걱정도 없지 않았습니다. 


    그러나 이 책은 적은 분량으로서의 장점을 최대한 살리고 있다는 

    생각이 듭니다. 

    초보자 혹은 크롤링의 입문자 입장에서 볼 때, 

    필요한 사항들을 알 수 있는

    내용들이 적절하게 나와있어서, 

    너무 어렵거나 복잡한 군더더기 없다는 느낌을 받았습니다.


    물론 대개의 입문서나 개론서가 그러하듯 

    이 책만으로 크롤링의 모든 것, 혹은 상업적인 수준의 어떤 것을

    기대하는 것은 좀 이른감이 있습니다. 이에 대한 내용은 책에도 

    나와있는데요. 크롤링 작업이나 프로그램의 구조나 동작 등에 

    대한 큰 흐름과 그에 대한 고려 사항들을 확인해 보고 

    짧고 명확한 파이썬 코드들을 통해 실습해 볼 수 있다는 

    점에서 맘에 들었습니다. 


    개인적으로 부록에 나와있던 

    법률적인 사항와 윤리적인 사항에 

    대한 내용들도 좋았습니다. 관심은 있지만, 

    포털 사이트의 묻고 답하기가 아니라면, 

    어딘가에 물어보기도 애미했던 것들이었는데요


    크롤링이라는 작업의 입문서로서 저자의 배려를 느낄 수 

    있었던 부분이라는 생각이 듭니다. 


    웹 크롤링에 대한 궁금증을 가진 분들이나

    파이썬의 실용적인 사용법이 궁금한 분들에게 

    도움이 되리라 생각합니다. 


  • 원서에서는 스크래이핑(scraping)이라는 표현을 쓰고 있지만, 번역자 분께서는 아무래도 한국에서 더 널리 쓰이고 있는 크롤...

    원서에서는 스크래이핑(scraping)이라는 표현을 쓰고 있지만, 번역자 분께서는 아무래도 한국에서 더 널리 쓰이고 있는 크롤러(crawler)라는 단어를 채택하신 것 같다. 결국 핵심은 웹 페이지를 탐색하여 가져와서 자동으로 데이터를 추출해 내는 행위를 뜻한다. 사실 예전에 웹 크롤러를 작성해본 적이 있기 때문에 이 책의 내용이 별로 대단한건 없을거라고 생각했는데 큰 오산이었다. 내가 사용했던 방법은 정말로 초보자 수준이었고, 함수들을 제대로 몰라서 노가다를 뛴 측면이 많았다. 이 책에서는 다양한 API와 정규표현식을 사용하여 보다 Elegance한 방법을 제시하고 있다.

     

    저자는 단순히 프로그램 개발만 잘하는 것이 아니라 데이터베이스 관리, 자연어 처리, 성능 튜닝, 보안 등등 다양한 관점을 겸비한 전문가로 보인다. 특히 온라인의 폼(Form)과 로그인 인증을 우회하거나 CAPTCHA를 뚫는 것은 정보보안적 관점에서도 중요한 위협(또는 방어)가 될 수 있기 때문에 저자는 이러한 취약점에 대해서도 상세히 설명하고 있다. 이는 자연스럽게 법적인 문제를 야기할수도 있는데, 사실 크롤링 행위 자체에 대해서는 불법이 아니라고 하지만 이것이 과하여 상대방의 웹사이트를 다운시킬 정도가 된다면 이것은 윤리적으로 모호한 상황이 아니다, 그것은 명백히 잘못된 일이므로 항상 주의를 기울여야 한다. 더불어서, 상대의 컴퓨터 뿐만 아니라 나의 컴퓨터도 지키기 위해서는 성능 이슈를 잘 관리하여야 한다고 지적한다. 이를 위해서는 적절한 쓰레드 처리로 부하를 분산하는 등의 방법이 요구된다(270page참조). unittest, 셀레니움 등을 사용하여 테스팅을 해보는 것도 좋다.

     

    결론적으로 이 책을 요약하자면, 인터넷이라는 거대한 밀림 속에서, 내가 원하는 자료를 찾기 위해 온갖 이미지를 다운로드하고 그 중 글자를 추출하고 가공하여 데이터베이스에 저장하는 등 일련의 과정을 거쳐서 다양한 문제들을 해결할 수있다는 것을 말한다. 물론 숙련을 위해서는 많은 연습과 시간이 필요할 것이다. 그렇지만 이 책 덕분에 참 다양한 인사이트를 얻었다. 내가 관심있는 주제를 하나 선정하여 크롤러 프로젝트를 한번 수행해봐야 겠다.

교환/반품안내

※ 상품 설명에 반품/교환 관련한 안내가 있는 경우 그 내용을 우선으로 합니다. (업체 사정에 따라 달라질 수 있습니다.)

교환/반품안내
반품/교환방법

[판매자 페이지>취소/반품관리>반품요청] 접수
또는 [1:1상담>반품/교환/환불], 고객센터 (1544-1900)

※ 중고도서의 경우 재고가 한정되어 있으므로 교환이 불가할 수 있으며, 해당 상품의 경우 상품에 대한 책임은 판매자에게 있으며 교환/반품 접수 전에 반드시 판매자와 사전 협의를 하여주시기 바랍니다.

반품/교환가능 기간

변심반품의 경우 수령 후 7일 이내, 상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내

※ 중고도서의 경우 판매자와 사전의 협의하여주신 후 교환/반품 접수가 가능합니다.

반품/교환비용 변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
반품/교환 불가 사유

소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우(단지 확인을 위한 포장 훼손은 제외)

소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우 예) 화장품, 식품, 가전제품 등

복제가 가능한 상품 등의 포장을 훼손한 경우 예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집

소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)

디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우

시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우

전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에 해당되는 경우

1) 해외주문도서 : 이용자의 요청에 의한 개인주문상품이므로 단순 변심 및 착오로 인한 취소/교환/반품 시 해외주문 반품/취소 수수료 고객 부담 (해외주문 반품/취소 수수료는 판매정가의 20%를 적용

2) 중고도서 : 반품/교환접수없이 반송하거나 우편으로 접수되어 상품 확인이 어려운 경우

소비자 피해보상
환불지연에 따른 배상

- 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은 소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨

- 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의 소비자 보호에 관한 법률에 따라 처리함

판매자
세렌디피티1
판매등급
특급셀러
판매자구분
일반
구매만족도
5점 만점에 5점
평균 출고일 안내
3일 이내
품절 통보율 안내
41%

바로가기

최근 본 상품