본문내용 바로가기
인터넷교보문고22주년

KYOBO 교보문고

40th 40th  생일파티
40주년 생일파티 한정판 굿즈
[이북]매일 500원 북돋움캐시
나만의기프트카드
  • 손글씨스타
  • 교보 손글씨 2019 폰트
  • 북모닝 책강
  • 손글씨풍경
  • 교보아트스페이스
  • 교보손글쓰기대회
빅데이터 인문학: 진격의 서막
* 중고장터 판매상품은 판매자가 직접 등록/판매하는 상품으로 판매자가 해당상품과 내용에 모든 책임을 집니다. 우측의 제품상태와 하단의 상품상세를 꼭 확인하신 후 구입해주시기 바랍니다.
384쪽 | 규격外
ISBN-10 : 8958288159
ISBN-13 : 9788958288152
빅데이터 인문학: 진격의 서막 중고
저자 에레즈 에이든,장바티스트 미셸 | 역자 김재중 | 출판사 사계절
정가
22,000원
판매가
10,000원 [55%↓, 12,000원 할인]
배송비
2,600원 (판매자 직접배송)
25,000원 이상 결제 시 무료배송
지금 주문하시면 3일 이내 출고 가능합니다.
토/일, 공휴일을 제외한 영업일 기준으로 배송이 진행됩니다.
2015년 1월 23일 출간
제품상태
상태 최상 외형 상급 내형 최상
이 상품 최저가
9,900원 다른가격더보기
새 상품
19,800원 [10%↓, 2,200원 할인] 새상품 바로가기
수량추가 수량빼기
안내 :

중고장터에 등록된 판매 상품과 제품의 상태는 개별 오픈마켓 판매자들이 등록, 판매하는 것으로 중개 시스템만을 제공하는
인터넷 교보문고에서는 해당 상품과 내용에 대해 일체 책임을 지지 않습니다.

교보문고 결제시스템을 이용하지 않은 직거래로 인한 피해 발생시, 교보문고는 일체의 책임을 지지 않습니다.

중고책 추천 (판매자 다른 상품)

더보기

판매자 상품 소개

※ 해당 상품은 교보문고에서 제공하는 정보를 활용하여 안내하는 상품으로제품 상태를 반드시 확인하신 후 구입하여주시기 바랍니다.

판매자 배송 정책

  • 토/일, 공휴일을 제외한 영업일 기준으로 배송이 진행됩니다.

더보기

구매후기 목록
NO 구매후기 구매만족도 ID 등록일
6 빠른 배소이였습니다 5점 만점에 5점 dak*** 2020.05.03
5 신속한 배송, 비교적 양호한 상태 만족합니다 5점 만점에 5점 KSY9*** 2020.04.26
4 좋은책과 마음씨 좋은 판매자 분을 만나게 되어 감사합니다. 5점 만점에 5점 lovese*** 2015.07.09
3 가격에 비해 책상태 좋습니다. 잘 받았어요! 5점 만점에 5점 isaasia*** 2015.06.22
2 빠른 배송, 좋은 품질. 좋습니다. 5점 만점에 5점 parat*** 2015.06.18

이 책의 시리즈

책 소개

상품구성 목록
상품구성 목록

빅데이터, 전 세계 인문학계를 발칵 뒤집어놓다! 현대인들의 일거수일투족은 디지털 기록으로 남는다. 사람뿐만 아니라 도서관이나 박물관에서 잠자고 있던 옛 문헌들, 그림과 지도, 심지어 유물과 유적까지 속속들이 디지털 세계로 진입하고 있다. 이 어마어마한 양의 디지털 기록, 즉 빅데이터라는 새로운 환경이 바로 인문학이 맞닥뜨리게 될 기록의 현장이다. 바야흐로 인간을 이해하기 위해서는 책을 넘어 데이터를 읽어야 하는 시대가 온 것이다.

이 책의 저자인 에레즈 에이든과 장바티스트 미셸은 클릭 한 번으로 800만 권의 책을 검색하는 ‘구글 엔그램 뷰어’라는 도구를 개발하고, 이 도구로 인문학이 인간을 바라보는 방식의 혁명적 전환을 제안한다. ‘구글 엔그램 뷰어’는 검색창에 단어를 입력하고 버튼 하나를 클릭하면, 순식간에 800만 권의 책을 검색해 해당 단어가 지난 500년간 사용된 빈도의 추이를 그래프로 보여주는 프로그램이다.

30대 초반의 두 과학자는 첨단과학기술이 제공하는 도구를 사용한다면, 인문학이 인간에 관해 그동안 알지 못했던 새로운 사실들을 밝혀낼 수 있으리라 전망한다. ‘구글 엔그램 뷰어’에 의하면, 19세기 초 1000단어 당 1회 정도 언급되던 ‘신God’은 19세기 말에 이르러 언급되는 횟수가 절반 이하로 줄었으며, 1973년을 기점으로 ‘데이터Data’에게 우위를 내주었다. 이와 같은 데이터를 통해 우리는 인간의 역사와 문화에 대한 다양한 추론과 상상을 해볼 수 있다.

저자소개

저자 : 에레즈 에이든
저자 에레즈 에이든Erez Aiden은 2010년 하버드와 MIT의 의학·공학 통합 프로그램인 HSTHealth Science and Technology에서 박사학위를 받았다. 그의 학위논문은 새로운 기술의 발명과 수학, 물리학 이론을 통합한 공로를 인정받아 ‘허츠Hertz 논문상’과 ‘미국 물리학회가 주는 최우수 박사학위 논문상’을 수상했다. 2011년에는 동료들과 함께 HI-C라는 신기술로 인간 게놈의 3차원적 구조를 규명해낸 논문이 『사이언스』의 표지를 장식했고, ‘젊은 과학자에게 수여하는 미국 대통령상’을 받았다.
수학, 분자생물학, 언어학, 웨어러블 컴퓨팅, 고분자물리학 등 여러 영역을 넘나들어 ‘과학계의 르네상스인’으로 불리는 그는 2009년 『MIT 테크놀로지 리뷰』에서 “전 세계 35세 이하 혁신가 TOP 35”로 선정되었고, 2010년에는 최고의 학생 발명가에게 주는 레멜슨-MIT 학생상을 수상했다. 수년간 하버드 명예 교우회의 특별 연구원과 구글의 방문 연구원을 지낸 뒤 현재 베일러 의과대학교의 조교수로 재직 중이다.

저자 : 장바티스트 미셸
저자 장바티스트 미셸Jean-Baptiste Michel은 2011년 『포브스』에서 선정하는 ‘30세 이하의 주목할 만한 30인’으로 뽑혔고, 2012년 전 세계 다양한 분야의 혁신가와 개척자들의 네트워크인 ‘테드 펠로우TED Fellow’로 선정되었다. 2012년 2월 TED에서 강연한 ‘역사의 수학The Mathematics of History’은 수학이 역사의 숨은 패턴을 드러내는 데 매우 유용한 도구가 될 수 있음을 보여주며 100만에 가까운 조회 수를 기록하고 있다.
2005년 프랑스 파리의 에콜 폴리테크니크를 졸업했고, 이후 하버드대학교에서 응용수학으로 석사학위를, 시스템생물학으로 박사학위를 받았다. 세계적 석학 마틴 노왁 하버드대 교수가 이끄는 ‘진화생물학의 기초적인 질문Foundational Questions in Evolutionary Biology’ 프로젝트의 참여 연구원이자 구글의 방문 연구원을 지냈다. 인간의 삶과 밀접한 관련이 있는 현상들을 수량화하는 데 관심이 있는 그는 데이터 과학을 기반으로 한 회사인 ‘Quantified Labs’를 설립해 과학자이자 기업가로 활동하고 있다.

역자 : 김재중
역자 김재중은 고려대학교 영어영문학과를 졸업하고, 국제정치 석사학위를 받았다. 2001년부터 경향신문 기자로 활동하고 있다. 지은 책으로 『세계 금융위기 이후』(공저), 옮긴 책으로 『당신의 계급 사다리는 안전합니까?』(공역)가 있다.

목차

chapter 1 빅데이터가 일으킬 인문학 혁명 _ 8 <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
역사적 변화를 측정하는 현미경이 있다면 | 디지털 지문 | 빅데이터 | 연구자들의 신대륙, 디지털 데이터 | 구글의 야심, 단 하나의 도서관 | 롱데이터 | 더 많은 데이터, 더 많은 문제들 | 컬처로믹스
Episode 1 그림 한 점은 단어 몇 개의 가치와 맞먹을까? _ 36

chapter 2 데이터 오디세이: 언어는 어떻게 진화하는가 _ 38 <<<<<<<<<<<<<<<<<<<<<<<
장기적 관점 | 문자언어, 빅데이터의 가장 오래된 조상 | 1937: 데이터 오디세이 | 멱법칙 | 언어 진화의 화석, 불규칙동사 | 2005: 또 다른 데이터 오디세이 | 불규칙동사의 반감기 | 존 하버드의 반들반들한 구두 | 색인은 죽지 않았다 | 장미를 분해해 꽃잎 세기
Episode 2 불규칙동사의 배신 _ 68

chapter 3 데이터로 사전 만들기 _ 70 <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
29세 억만장자의 심리학 | 페이지의 페이지들 | 빅데이터와 저작권 문제 | 그림자 데이터 만들기 | 저작권 문제의 돌파구, 엔그램 | 단어란 무엇인가 | 사전편찬, 인간의 오래된 그러나 불완전한 기술 | DIY 사전 | 사전이 발견하지 못한 단어들 | 빅데이터로 보는 언어의 성장과 죽음
Episode 3 baby와 sitter가 만나기까지 _ 102

chapter 4 사람은 어떻게 유명해지는가 _ 104 <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
데이터 청소하기 | 스티븐 핑커의 명성을 사다 | 명성은 어떻게 찾아오는가 | 라이트 형제의 바람터널 | 거의 유명하면 충분히 유명하다 | 명성을 질병처럼 다루기 | 명예의 전당 | 더 빨리, 더 많이 유명해지는 만큼 더 빨리 잊힌다 | 어떻게 유명해질 것인가: 직업 선택을 위한 가이드 | 지난 200년 동안 가장 유명한 사람
Episode 4 버즈 올드린을 아십니까? _ 150

chapter 5 침묵의 소리: 빅데이터가 말하는 억압과 검열의 역사 _ 152 <<<<<<<<<<<<<<<
샤갈의 명성 | 퇴폐 미술전 | 나치의 분서 정책 | 사라진 이름들 | 검열을 자동으로 추적할 수 있을까 | 억압과 검열을 넘어 백만 개의 통로로 스며들다 | 후기
Episode 5 권리는 또 다른 권리를 낳고 - 사상의 번식과 진화 _ 182

chapter 6 기억과 망각의 속도 _ 184 <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
기억 실험 | 집단기억과 집단망각에 관한 연구 | 망각곡선 | 오래된 것들의 퇴장, 새로운 것들의 입장 | 큰 아이디어는 천천히 움직인다 | 누가 언제 발명했는가 | 발명품이 널리 확산되기까지 | 사회는 점점 더 빨리 배우고 있다 | 문화를 수량화할 수 있을까 | 데이터가 그리는 아름다운 곡선 | 엔그램 중독자들
Episode 6 화성인들은 화성에서 오지 않았다 _ 216

chapter 7 유토피아, 디스토피아, 데이터토피아 _ 220 <<<<<<<<<<<<<<<<<<<<<<<<<<<<<
과거의 디지털-책, 신문, 미출간 원고, 물건들 | 현재의 디지털 | 미래의 디지털 | 디지털 기록의 양면성 | 데이터는 권력이다 | 과학과 인문학, 지평을 공유하다 | 데이터는 사회과학의 오랜 꿈을 실현할 수 있을까

부록 | 빅데이터로 보는 문화사 : 1800~2000
감사의 말 _278
도표에 대하여 _286
주 _288
특별좌담_인문학을 위한 빅데이터 사용 설명서 _341
찾아보기 _370

책 속으로

장차 우리를 압도하고 우리를 사로잡을 이상한 매혹을 수백만 명이 공유하게 될 혁명이 어디선가 일어나고 있었다. 그 핵심에는 인류가 벌인 활동에 관한 역사적 기록의 창조 및 보존과 연관된 빅데이터 혁명이 있었다. 이 혁명의 결과물은 우리가 우리 자신을 ...

[책 속으로 더 보기]

장차 우리를 압도하고 우리를 사로잡을 이상한 매혹을 수백만 명이 공유하게 될 혁명이 어디선가 일어나고 있었다. 그 핵심에는 인류가 벌인 활동에 관한 역사적 기록의 창조 및 보존과 연관된 빅데이터 혁명이 있었다. 이 혁명의 결과물은 우리가 우리 자신을 바라보는 방법을 바꿀 것이다. 또 우리 사회의 본질을 더 효율적으로 탐색할 수 있는 관찰도구를 창조하게 해줄 것이다. 빅데이터는 인문학을 바꾸고, 사회과학을 변형시키고, 상업 세계와 상아탑 사이의 관계를 재조정할 것이다. _ 17쪽

요약하자면 이 책은 로봇이 말하는 역사, 디지털 렌즈로 들여다봤을 때 보이는 인류의 과거에 관한 책이다. 오늘날 엔그램 뷰어가 이상하고 예외적으로 보일지라도 이 디지털 렌즈는 수세기 전 광학렌즈가 그랬던 것처럼 번창하고 있다. 이 새로운 관찰도구는 급성장하는 디지털 발자국에 힘입어 역사학과 지리학, 전염병학, 사회학, 언어학, 인류학, 나아가 생물학과 물리학에 이르기까지 가려져 있던 측면들을 매일 새로이 드러내 보이고 있다. 세상은 변하고 있다. 우리가 세상을 보는 방식도 변하고 있다. 우리가 그러한 변화를 보는 방식들 역시, 음, 변하고 있다. _ 34~35쪽

우리의 통계적 검열-탐지 기술은 전통적인 방법을 이용하는 전통적인 역사학자의 그것과 질적으로 비슷한 결과를 가져다준다. 그러나 전통적인 방법들과는 다르게, 우리의 분석은 컴퓨터를 이용해 거의 즉각적으로 수행될 수 있다. (중략)
점점 더 많은 정보가 생산되면서 모든 것, 심지어 모든 것 가운데 중요한 조각조차 읽는 것이 불가능해지고 있다. 우리에겐 대안이 필요하다. 빅데이터는 강력하다.
흥미롭게도 위키피디아는 최근 편견을 탐지하는 방법의 일환으로 빅데이터의 장점을 취하기 시작했다. 위키피디아의 여성 적대적 편견에 대해서 오랫동안 논의가 있었는데, 이는 분명 위키피디아의 편집자 대부분이 남성이라는 점에서 비롯되었다. 이 논의는 주로 입증되지 않은 증거들에 의존했다. 이제 이 논의에 통계적 방법론과 엔그램 데이터를 도입하려는 새로운 시도가 진행되고 있다. 이 일의 목표는 문제가 있는 추세와 글을 명확하게 구분해서 그 결점에 대처할 수 있도록 하는 것이다.
미래에는 이런 방법들이 선의를 가진 자원 봉사자들로 움직이는 웹사이트에만 국한되지는 않을 것이다. 정부가 정직해지도록 이끌고, 국민과 사상을 자유롭게 하는 데에도 사용될 것이다. _ 177~178쪽

사람들은 이미 끝나버린 연도에 대한 관심을 얼마나 빨리 잃어버리는가? 이 질문에 대한 단순한 접근법은 집단기억의 반감기, 즉 어떤 연도의 빈도가 그것이 도달했던 최고치에 비해 절반으로 떨어지는 데 얼마나 오래 걸리는지를 보는 것이다. 이 값은 연도마다 다르다. 1872년의 빈도는 1896년에 절반으로 줄어들었다. 그 반면에 1973년은 겨우 10년 뒤인 1983년에 절반으로 떨어졌다.
1973년이 보여준 좀 더 빠른 감소는 일반적인 현상의 징후였다. 세월이 흐를수록 집단망각의 반감기는 점점 더 짧아졌다. 이런 관측은 과거에 대한 우리 사회의 태도가 변하고 있음을 시사한다. 우리는 점점 더 빨리 과거의 사건에 흥미를 잃고 있다.
무엇이 이런 변화를 일으켰는가? 우리는 모른다. 우리가 가진 것은 새로운 관찰도구의 디지털 렌즈를 통해 집단기억을 들여다보고 알아낸 발가벗은 상관관계들뿐이다. 그 밑에 흐르는 메커니즘을 밝혀내려면 시간이 더 걸릴 것이다. 이것은 최전선에 선 과학이다. 우리에겐 지도도 없고 추측과 막다른 골목들만 수두룩하지만, 이보다 나은 곳은 없다. _ 196~197쪽

역사 기록을 디지털화하는 문제는 인문학에서도 거대과학 스타일의 작업을 할 수 있는 전례 없는 기회를 제시한다. 우리가 과학에서 수십억 달러짜리 프로젝트를 정당화할 수 있다면, 우리 역사의 가장 중요하고 부서지기 쉬운 파편들을 우리 자신과 우리 아이들이 널리 자유롭게 사용할 수 있도록 기록하고, 보존하고, 공유하는 것을 목표로 하는 수십억 달러짜리 프로젝트의 잠재적 영향력도 고려해야 한다. 과학자, 인문학자, 기술자가 함께 팀을 이뤄 일하면 놀라운 힘을 가진 공유 자료들을 만들어낼 수 있다. 이런 노력들은 쉽게 내일의 구글과 페이스북을 위한 씨앗을 뿌릴 것이다. 사실 이 두 회사는 우리 사회의 여러 양상을 디지털화하려는 노력과 함께 출발했다. 곧 ‘거대 인문학’이 일어날 것이다. _ 231쪽

[책 속으로 더 보기 닫기]

출판사 서평

데이터의 우아한 곡선, 인문학을 가로지르다 2007년의 어느 날 하버드의 두 젊은 과학자가 구글이 구축한 디지털 바벨의 도서관으로 걸어 들어갔다 그들은 클릭 한 번으로 800만 권의 책을 검색하는 ‘구글 엔그램 뷰어’를 개발했다 검색창에 단...

[출판사서평 더 보기]

데이터의 우아한 곡선, 인문학을 가로지르다

2007년의 어느 날 하버드의 두 젊은 과학자가
구글이 구축한 디지털 바벨의 도서관으로 걸어 들어갔다
그들은 클릭 한 번으로 800만 권의 책을 검색하는 ‘구글 엔그램 뷰어’를 개발했다
검색창에 단어 하나를 입력하고, 엔터!
데이터가 그리는 아름다운 곡선이 전 세계 인문학계를 발칵 뒤집어놓았다

깜짝 놀랄 만큼 뛰어나고, 사랑스러울 정도로 겸손하며, 무한한 창의력을 지닌 두 젊은 과학자가 아이디어의 세계에서 지난 수십 년간 가장 흥미진진한 발전 가운데 하나를 위풍당당하게 내놓았다. _ 스티븐 핑커(하버드대학교 교수, 『타임』 선정 ‘가장 영향력 있는 100인’)

굉장히 잘된 스토리텔링이다. 무협지 같은 서사가 있다. 이 책이 시금석이 되어 인문학과 기술이 만난다면, 좀 더 높은 수준의 협업이 가능해질 것이다. _ 송길영((주)다음소프트 부사장)

빅데이터가 일으킬 인문학 혁명
오늘날 우리의 일거수일투족은 디지털 기록으로 남는다. 교통카드와 신용카드 사용 내역, 페이스북에서 누른 ‘좋아요’, 구글 검색, 이메일과 문자 메시지, 그리고 이 모든 것을 찍고 있는 CCTV. 이 기록들만으로도 우리의 하루를 재구성할 수 있을 만큼, 현대인은 수없이 많은 디지털 지문과 발자국을 남기며 살고 있다. 뿐만 아니라 도서관이나 박물관에서 잠자고 있던 옛 문헌들, 그림과 지도, 심지어 유물과 유적까지 과거인의 삶도 속속들이 디지털 세계로 진입하고 있다. 짧은 시간에 기하급수적으로 불어나는, 형태도 제각각이고 가치나 질도 제각각인 이 엄청난 양의 디지털 기록, 즉 빅데이터가 바로 인문학이 새롭게 맞닥뜨린 기록의 현장이다. 인간을 이해하기 위해서는 이제 책을 넘어서 데이터를 읽어야 하는 시대가 온 것이다. 디지털 시대의 인문학은 곧 데이터를 읽는 눈이다.
『빅데이터 인문학: 진격의 서막』은 지금까지 인간이 축적해온 기록 유산과는 규모 면에서 비교가 불가능한 어마어마한 양의 디지털 기록, 즉 빅데이터라는 새로운 환경에서 인문학이 맞이하게 될 혁명적인 변화를 보여주는 책이다. 30대 초반의 과학자인 두 저자는 첨단 과학기술이 제공하는 도구를 사용한다면, 인문학이 인간에 관해 지금껏 알지 못했던 새로운 사실들을 밝혀낼 수 있으리라 전망한다. 빅데이터는 그동안 물리적, 기술적 한계 때문에 접근할 수 없었던 많은 영역을 열어젖히며 인문학을 확장해나갈 것이다.

구글의 기원, 세상의 모든 책을 한 곳에!
이미 많은 연구자들이 빅데이터의 가능성에 눈뜨고 상아탑에서 빠져나와 페이스북, 구글, 아마존과 공동 작업을 시작했다. 이 책의 저자 에레즈 에이든과 장바티스트 미셸은 세상의 모든 책을 디지털화하겠다고 선언한 ‘구글 북스 라이브러리 프로젝트Google Books Library Project’의 빅데이터로 새로운 실험을 벌였다. 구글은 2004년부터 지금까지 3000만 권 이상의 책을 디지털화했다. 이는 구텐베르크 이후 출간된 책 네 권 가운데 한 권 꼴이다(2010년 추산 전 세계에는 1억 3천만 권의 책이 있다).
사이버 공간에 세상의 모든 책을 모아 자유롭게 검색하고, 책과 책 사이를 넘나들 수 있게 하자는 것은 구글의 모태가 된 아이디어였다. 1996년 스탠퍼드의 두 대학원생 래리 페이지와 세르게이 브린은 ‘스탠퍼드 디지털 도서관 테크놀로지 프로젝트’를 통해 책들의 세계를 통합하는 미래의 도서관을 구상하고 있었다. 그러나 디지털화된 책이 적었던 당시로서는 실현되기 어려운 일이었고, 결국 그들은 한 텍스트에서 다른 텍스트로 이동하게 해주는 아이디어와 테크놀로지를 작은 검색 엔진으로 전환했다. 이것이 바로 오늘날의 ‘구글’이다.
세상의 모든 책이 모여 있는 거대한 도서관은 구글의 두 설립자만 꾸었던 꿈이 아니다. 고대 이집트의 알렉산드리아 도서관에서부터 보르헤스가 상상한 ‘바벨의 도서관’, 인류의 모든 문화적 생산물을 디지털화하여 공유하는 자발적 활동인 ‘구텐베르크 프로젝트’, 유럽의 48개 공공도서관을 통합 검색할 수 있는 ‘유러피언 라이브러리’, 그리고 더 넓게는 ‘위키피디아’까지 세상의 모든 책, 모든 지식을 한 곳에 모으는 것은 인류의 오랜 꿈이었다. ‘전 세계의 정보를 조직화해 누구나 접근할 수 있는 유용한 것으로 만들겠다’는 구글의 사명에도 이런 생각이 반영되어 있다. 래리 페이지는 2004년 자신의 ‘첫사랑’인 도서관으로 돌아갔고, 그 후로 10년 동안 구글은 이 ‘보편 도서관universal library’의 꿈을 디지털 세계에 실현하기 위해 부지런히 책을 스캔해왔다.
이 책의 저자들은 외부에 쉽게 공개하지 않는 구글 북스의 데이터를 최초로 다룬 인물들로, 이들의 연구는 구글이 구축한 디지털 도서관이 단지 한 기업의 이익만을 위한 것이 아니라 인류의 지적 세계가 진일보하는 데 기여할 수 있다는 것을 보여주었다.

클릭 한 번으로 800만 권의 책을 읽는다면
2010년 12월 16일, 이 책의 두 저자와 스티븐 핑커, 마틴 노왁 등의 하버드 연구진, 구글, 아메리칸 헤리티지 사전, 브리태니커 백과사전의 전문가들이 모여 작성한 「수백만 권의 디지털화된 책들을 이용한 문화의 정량적 분석Quantitative analysis of culture using millions of digitized books」이라는 논문이 『사이언스』의 표지를 장식했다. 그와 동시에 두 저자가 개발한 구글 엔그램 뷰어 웹사이트books.google.com/ngrams가 공개되었다. 이 웹사이트는 24시간 동안 300만 명 이상이 방문하며 전 세계적인 화제가 되었다. 검색창에 단어를 입력하고 클릭 한 번이면, 순식간에 800만 권의 책을 검색해 그려내는 매끄러운 곡선의 그래프. 이는 책 읽기와 인문학 연구, 나아가 세상을 읽는 방식의 변화를 암시하는 매우 의미심장한 그림이었다. 이후 이들의 작업은 그 중요성을 인정받아 과학 전문 저널 『네이처』를 비롯해 『뉴욕 타임스』, 『보스턴 글로브』 등의 주요 매체에 커버 기사로 실리기도 했다.
‘구글 엔그램 뷰어Google Ngram Viewer’는 구글이 디지털화한 책들 가운데 800만 권(『사이언스』 발표 당시엔 500만 권이었으나 2012년 800만 권으로 업데이트됨)을 추려, 그 속의 8000억 개의 단어가 1520~2012년까지 사용된 빈도의 추이를 그래프로 보여주는 프로그램이다. 이 800만 권의 책은 전 세계 모든 책의 6퍼센트에 해당하는 양으로 영어, 프랑스어, 독일어, 스페인어, 중국어, 러시아어, 이탈리아어, 히브리어 등 8개 언어를 포함하고 있다. 저자들은 구글 엔그램 뷰어를 이용해 디지털화된 대량의 텍스트를 정량적으로 분석하는 연구 방법을 ‘컬처로믹스Culturomics’라고 명명했다. 이 용어는 유전체학geonomics에서 따온 것으로 생물학에서 DNA 염기 서열의 대규모 집합이 어떤 패턴을 드러내는 것처럼, 방대한 양의 어휘 데이터도 인간의 문화를 분석하는 데 도움을 줄 수 있다는 생각을 담고 있다.
어휘의 빈도를 통해 역사와 문화를 들여다보겠다는 아이디어는 의미의 해석을 추구해온 인문학에 데이터 과학이라는 방법론을 제안하는 것이다. 클릭 한 번으로 수백만 권의 책을 읽는 기술은 한 사람이 기껏해야 수십, 수백 권의 책을 읽으며 연구하던 방식으로는 발견할 수 없던 사실들을 새롭게 찾아낼 수 있을 것이다.
TED 강연: 500만 권의 책에서 배울 수 있는 것들
www.ted.com/talks/what_we_learned_from_5_million_books

빅데이터로 보는 문화사: 1800~2000
이 책의 부록 ‘빅데이터로 보는 문화사: 1800~2000(253~277쪽)’에 실려 있는 21개 분야, 48개의 그래프는 지난 200년간의 문화사를 문장 하나 없이, 매우 압축적이지만 풍부한 함의를 지닌, 완벽하게 새로운 방식으로 보여주고 있다. 가로축과 세로축 사이를 가르는 두 개의 곡선만으로도 우리는 인간의 역사와 문화에 대해 다양한 추론과 상상을 해볼 수 있다.
19세기 말 니체는 “신은 죽었다”라고 말했다. 정말 그럴까? 구글 엔그램 뷰어를 통해 확인해보자.

(①번 그래프 참조)

19세기 초 1000단어 당 1회 정도 언급되던 ‘신God’은 19세기 말에 이르러 언급되는 횟수가 절반 이하로 줄었다. 그래도 여전히 적은 횟수는 아니다. 그러나 1973년을 기점으로, 등장한 지 얼마 되지도 않은 ‘데이터data’에게 우위를 내주었으니 한 시대를 지배했던 신으로서는 치욕스러운 일이 아닐 수 없다. 니체의 말을 위의 그래프에 맞게 조금 수정해본다면 “신은 죽지 않았다. 다만 우리에게 데이터보다 덜 중요할 뿐이다.”
‘사회주의socialism’와의 경쟁 끝에 세계를 제패한 ‘자본주의capitalism’, 구글의 800만 권의 책에서도 이를 확인할 수 있을까?

(②번 그래프 참조)

초반에는 사회주의가 우위를 점했다. 1848년 마르크스와 엥겔스의 『공산당 선언』 출판 이후 점차 상승하기 시작한 사회주의는 1917년 러시아 혁명 직후 소폭 하락했다가 다시 상승세를 이어갔으나 1929년 대공황 무렵 자본주의에 추월당했다. 사람들이 책에서 자본주의에 대해 더 많이 쓰기 시작한 것이다. 그러다가 냉전이 시작되면서 다시 사회주의가 많이 언급되었으나, 1970년대 후반 자본주의가 다시 우세를 띄기 시작했고 1989년 베를린 장벽 붕괴 이후로는 그 간극이 더 벌어져 현재까지 자본주의의 현격한 우세가 지속되고 있다.
이 밖에도 언제부터 사람들은 ‘사랑을 나누는make love’ 대신 ‘섹스를 하기have sex’ 시작했는지(③번 그래프 참조), ‘금gold’보다 ‘석유oil’가 중요해졌는지, ‘프랑스France’보다 ‘중국China’에 대해 많이 말하기 시작했는지 등 지난 200년간 인류의 문화가 어떤 시기에 어떤 크기의 변화를 맞게 되었는지를 명쾌하게 확인해볼 수 있다. 더 매력적인 사실은 누구나 구글 엔그램 뷰어 사이트에 접속해 단어 한두 개만 입력하면, 이 거대한 변화를 손쉽게 확인해볼 수 있다는 것이다.
구글 엔그램 뷰어(구글 크롬에서 실행) books.google.com/ngrams

인문학, 더 커지고 더 빨라진다
‘구글 엔그램 뷰어’가 공개되던 날, 스티븐 핑커는 『뉴욕 타임스』와의 인터뷰에서 이렇게 말했다. “인문학의 한 구석에서는 여전히 정량적 분석에 저항을 보이지만 엔그램 뷰어 및 그와 유사한 도구들이 보편적인 것이 되리라 확신한다.” 스탠퍼드대학교 영문과 교수이자 비교문학 연구자인 프랑코 모레티는 세계문학을 개별 텍스트에 지나치게 의존하기보다는 세계지도 위에서 대량의 텍스트를 놓고 시각화와 양적 분석을 통해 바라봐야 한다며 ‘꼼꼼히 읽기close reading’에서 ‘원거리 읽기distant reading’로의 전환을 주장했다. 이처럼 인문학의 최전선에서는 이와 같은 새로운 방식의 책 읽기와 연구가 한창 진행 중이다.
이 책의 저자들은 앞으로 인문학이 거대과학 스타일의 작업을 할 수 있는 전례 없는 기회를 맞을 것이라고 전망한다. 인류가 오랜 시간 축적해온 역사 기록이 빠른 속도로 디지털화되고 있고, 그 거대한 데이터를 신속하게 분석할 수 있는 기술 또한 눈부시게 발전하고 있다. 인문학과 과학이 만나 우리가 과거에 접근하는 방식, 과거를 관찰하고 이해하는 방식을 바꾸고 있다. 이 책의 원제처럼 ‘누구도 밟지 않은uncharted’ 미지의 영역이 열리고 있는 것이다. “곧 거대 인문학이 일어날 것이다.”

한국어판 특별 좌담 - 빅데이터 전문가와 인문학 연구자의 행복한 만남
그렇다면 우리나라에서는 빅데이터가 어떻게 이해되고, 활용되고 있을까? 빅데이터가 인문학 연구에 가져올 혁명적인 변화와 가능성에 대해 국내 인문학 연구자들은 어느 정도 공감하고 있을까? 사계절출판사에서는 한국 인문학의 빅데이터 활용 현황과 향후 전망을 담기 위해 한국어판 특별 좌담을 마련했다.
이 좌담에는 국내 최고의 빅데이터 전문가인 ㈜다음소프트의 송길영 부사장, 국내 인문학계에서 새로운 문제의식과 다양한 시도로 주목받아온 성균관대학교 국어국문학과의 천정환 교수, 근현대 신문과 잡지의 디지털 데이터의 양적 분석을 통해 개념사 연구의 새 장을 연 한림대학교 한림과학원의 허수 교수가 참여했다. 이 자리에서는 국내 산업계와 공공부문에서 빅데이터가 활용되는 양상, 인문학계의 데이터 구축 현황과 활용 정도, 데이터에 기반한 정량적 분석에 대한 국내 인문학계의 반응, 빅데이터가 인문학계와 사회 전반에 열어줄 가능성과 한계 등 다양한 주제에 관한 깊이 있는 대화가 오갔다. 데이터를 읽는 데 필요한 인문학적 통찰이 강조되는 시대지만, 실제로 빅데이터 전문가와 인문학 연구자가 만나 데이터를 가공하고 해석하는 작업에 대해 구체적인 대화를 나눈 예는 없었다. 이 좌담은 ‘빅데이터=마케팅 툴’이라는 인식에서 벗어나, 역사와 문화를 읽는 데도 빅데이터가 유용한 수단이 될 수 있음을 보여주는 인상적인 계기가 될 것이다.
좌담 이외에도 한국어판에서만 찾아볼 수 있는 특별한 요소가 하나 더 있다. 바로 최근 빅데이터와 짝을 이뤄 급부상한 인포그래픽이다. 인포그래픽은 숫자로 표현하기에도 벅찰 만큼 어마어마한 양의 데이터를 시각적으로 간명하게 전달해야 할 필요성 때문에 주목받게 되었다. 이 책에서도 정보의 직관적 이해를 돕고, 아울러 시각적 즐거움을 주기 위해 각 장의 별면에 인포그래픽을 배치했다. 간결하면서도 유머러스한 6개의 인포그래픽은 인문학과 과학기술이 만나는 지점에서 다소 낯선 메시지를 전하는 이 책을 독자들이 친근하게 받아들일 수 있게 도울 것이라 기대된다.

추천사

깜짝 놀랄 만큼 뛰어나고, 사랑스러울 정도로 겸손하며, 무한한 창의력을 지닌 두 젊은 과학자가 아이디어의 세계에서 지난 수십 년간 가장 흥미진진한 발전 가운데 하나를 위풍당당하게 내놓았다. _ 스티븐 핑커(하버드대학교 교수, 『타임』 선정 ‘가장 영향력 있는 100인’)

인문학에 대한 과학기술의 영향력은 이미 티핑 포인트를 넘어섰다. 과학기술이 제공하는 도구와 방법론을 무시하기란 더 이상 불가능해질 것이다. _ 『네이처』

구글 엔그램 뷰어는 지금껏 정량적 분석을 기피해온 인문학 연구자들에게 다양하고 맛있는 뷔페와도 같은 풍부한 아이디어를 제공한다. 이 단어 창고는 이전에는 불가능했던 방식으로 문화적 영향을 통계적으로 분석할 수 있게 해준다. _ 『뉴욕 타임스』

에이든과 미셸은 인문학이 그 자신에 대해 생각하는 방법을 완전히 뒤바꿔놓은 빅데이터의 개척자들이다. 이 책은 황홀하고, 재미있고, 신속하고, 유익한 읽을거리다. 모든 페이지가 놀라운 통찰과 유머로 가득하다. _ 케네스 쿠키어(『빅데이터가 만드는 세상』 저자, 『이코노미스트』 편집자)

굉장히 잘된 스토리텔링이다. 무협지 같은 서사가 있다. 이 책이 제시하는 아이디어가 인간의 심리나 행동, 사회현상을 설명하는 일을 좀 더 ‘과학’에 가까워지게 하는 데 굉장히 좋은 툴이 아닐까 생각한다. 이 책이 시금석이 되어 인문학과 기술이 만난다면, 좀 더 높은 수준의 협업이 가능해질 것이다. _ 송길영((주)다음소프트 부사장)

데이터를 선택하고 가공할 수 있는 능력과 함께 가공된 데이터를 비판적으로 바라볼 수 있는 인문학적 통찰이 필요한 시대다. 이 책은 빅데이터를 활용한 인문학, 그 새로운 세계로 진입하는 문턱에 무엇이 있는지를 보여주고 있다. _ 천정환(성균관대학교 국어국문학과 교수)

빅데이터는 이제 거부할 수 없는 환경이 되었다. 예전의 정성적인 방법만으로는 불충분하다. 이 책을 읽으며 한국 인문학에서도 빅데이터를 활용해 거시적인 연구를 할 수 있겠다는 생각이 들었다. _ 허수(한림대학교 한림과학원 교수)

구글 북스 라이브러리 프로젝트는 이제 인문학의 전 영역을 과학으로 만들어나갈 것이다. 1967년의 브라운 말뭉치를 계기로 언어학이 수치로 검증 가능한 형태의 과학이 된 것처럼. 800만 권의 책이라니! 말 그대로 미증유의 데이터를 만질 수 있었던 저자들이 책을 읽는 내내 부러웠다._ 정철(다음카카오 지식서비스기획팀장)

b>주요 내용

책보다 데이터! 로봇 역사학자의 등장
마케팅이나 공공정책과 관련하여 이야기되는 대부분의 빅데이터는 최근의 기록들이다. 데이터의 생성이 인터넷 혁신에 의해 촉진되었기 때문이다. 한편 구글 북스의 데이터, 즉 디지털화한 책들의 상당수는 최신이 아니다. 16세기부터 21세기까지 5세기에 걸쳐 출간된 다양한 주제의 책들을 고루 포함하고 있다. 말하자면, 인류의 문명이 오랜 시간 변화해온 과정을 담고 있는 빅데이터이자 롱데이터long data인 것이다.
문자 언어로만 이루어진 장기간의 데이터로 해볼 수 있는 가장 기초적인 작업은 바로 말의 변화에 담긴 역사적 의미를 추적하는 일이다. 미국인들은 언제부터 ‘The United States are’가 아니라 ‘The United States is’라고 말하기 시작했을까? 역사학자들이라면 아마도 전설적인 역사학자 제임스 맥퍼슨의 『자유의 함성』을 인용하며, 남북전쟁을 계기로 ‘The United States’를 복수가 아니라 단수로 말하기 시작했다고 답할 것이다. 실제로 많은 미국인들이 그렇게 알고 있다. 그러나 ‘구글 엔그램 뷰어’는 조금 다른 답을 내놓는다.

(④번 그래프 참조)

위 그래프를 보면, 복수에서 단수로의 전환은 어느 한순간이 아니라 150년이 넘는 기간 동안 점진적으로 일어났다. 전쟁이 이런 흐름에 가속을 붙이긴 했지만, ‘The United States is’가 우세해진 것은 남북전쟁이 끝나고도 15년이 지난 후였다. 이처럼 아무리 저명한 역사학자라도 물리적 한계 때문에 해낼 수 없던 일을 이 ‘로봇 역사학자’, 즉 800만 권의 책을 순식간에 읽는 ‘구글 엔그램 뷰어’는 손쉽게 해낼 수 있다. 갈릴레오의 망원경이 근대 세계의 탄생을 가져왔듯이, 새로운 도구는 세상을 보는 방식을 바꾼다. 빅데이터와 그것을 분석하는 여러 도구들은 우리가 인간을 이해하는 방식, 즉 인문학 연구 방법에 혁명적인 변화를 가져올 것이다.

언어는 어떻게 진화하는가: 불규칙동사의 배신
한 프랑스 젊은이가 모국에서 영어를 배우며, 일부 동사는 과거 시제를 만들 때 뒤에 ‘-ed’를 붙이는 게 아니라 철자가 바뀐다는 사실을 알게 되었다. ‘burn-burnt-burnt’ 그는 이런 단어, 즉 불규칙동사의 목록을 꿋꿋이 외웠다. 영어에 통달했다는 자신감에 가득 차 미국 땅을 밟은 그는 신문의 헤드라인을 보고 깜짝 놀랐다. ‘기진맥진한 펠프스Burned-Out Phelps’라니! 그 외에도 그가 불규칙동사라고 배웠던 많은 동사들이 뒤에 ‘-ed’를 붙이는 규칙동사가 되어 있었다.
왜 어떤 불규칙동사는 살아남고, 어떤 불규칙동사는 많은 영어 학습자들을 배신하고 규칙화의 길을 가게 되었을까? 언어학자들의 가설은 불규칙동사들이 빈도가 높기 때문에, 다시 말해서 자주 쓰이기 때문에 살아남았다는 것이다. 만약 이것이 사실이라면 언어, 넓게는 인류의 문화 역시 자연선택에 의해 진화한다는 명백한 증거가 될 것이다. 저자들은 구글 엔그램 뷰어를 통해 고대부터 현재까지 영어 동사의 사용 빈도와 규칙화의 상관관계를 조사했다. 그 결과 영어에서 빈도가 가장 높은 12개의 동사는 규칙화의 길을 가지 않았다는 사실이 드러났다. 사용 빈도가 생존을 결정하는 가장 중요한 요소였던 것이다. 이를 통해 저자들은 단어의 사용 빈도를 세는 일로 긴 시간에 걸친 문화적 변화를 추적할 수 있다는 확신을 얻었다.

데이터로 사전 만들기
불규칙동사를 세는 일은 상대적으로 쉽다. 빈도가 매우 높기 때문이다. 그러나 대부분의 단어는 극도로 희귀하다. 일례로 새스콰치Sasquatch라는 단어는 거의 1000만 단어에 한 번 정도 등장한다. 이런 단어들을 추적하려면 마음대로 쓸 수 있는 수백만 권의 책, 즉 빅데이터가 필요하다. 이런 데이터를 가진 곳은 단 하나, 바로 구글이었다. 저자들은 데이터를 쉽사리 내주지 않는 구글을 설득하기 위해 책에 등장하는 모든 단어와 구절을 추출해 나열하는 엔그램n-gram 방식의 데이터세트를 만들어 ‘빈도’만을 보기로 했다. 데이터를 법적으로 민감하게 만드는 것은 맥락이다. 이런 방식으로 맥락을 배제한다면, 이 데이터는 누구의 권리도 침해하지 않고 누구나 이용 가능한 강력한 자료가 될 수 있다. 이렇게 해서 그들은 구글의 데이터를 손에 넣었다. 역사상 가장 큰 단어들의 집합에 접근하게 된 것이다.
그렇다면 단어란 무엇인가? 저자들의 계산에 따르면, 현대 영어의 텍스트에서 대략 10억 단어당 1회 정도 출현한다면 단어로 인정할 만하다. 저자들은 이 기준에 의거해 1990~2000년 사이에 출간된 책들에서 100만 개가 넘는 단어를 추출해냈다. 이는 영어 사전 가운데 가장 큰 『옥스퍼드 영어 사전』이 수록한 단어의 두 배가 넘는다. 사전들은 이 많은 단어를 싣지 않고 그동안 무엇을 하고 있었단 말인가?
사전들이 실수를 한 이유는 바로 빈도 때문이다. 사전들은 빈도가 높은 단어들은 거의 완벽하게 찾아내지만 희귀한 것들이 나오면 어려움을 겪는다. 문제는 거의 모든 단어가 정말로 드물게 쓰인다는 것이다. 그러므로 사전들이 드문 단어를 놓친다면 거의 대부분의 단어를 놓치는 셈이다. 저자들의 분석 결과 영어로 된 책에서 사용된 단어의 대다수, 즉 영어의 52퍼센트가 사전이 발견하지 못한 ‘어휘의 암흑물질’인 것으로 드러났다. 영어는 아직도 상당 부분이 전인미답의 대륙이다. 이처럼 사전편찬학의 한계가 갈수록 명백해지면서 전통적인 사전들도 하나둘씩 빅데이터의 세계로 뛰어들고 있다.

사람은 어떻게 유명해지는가
명성이란 무엇인가? 바로 사람들이 얼마나 자주 그 이름을 언급하느냐이다. 이는 또한 상당 부분 사람들이 책에서 얼마나 자주 그 이름을 언급하느냐이기도 하다. 그러므로 명성은 특정 단어의 장기간에 걸친 사용 빈도의 추이를 보여주는 ‘구글 엔그램 뷰어’로 측정하기에 매우 적합한 대상이다. 저자들은 1800년부터 1950년까지 매년 해당 연도에 태어난 사람 가운데 가장 유명한 50인을 추출해 목록을 만들었다. 한 집단의 구성원 50명 가운데 절반이 데뷔 무대에 오르는 시점, 즉 사전에 등재될 만큼 언급되는 나이를 살펴보자. 1800년 집단의 경우는 43세였다. 그러나 1950년 집단은 절반이 이미 29세에 사전 수준의 언급 빈도에 도달했다. 명성을 얻는 시점이 점차 앞당겨지고 있는 것이다. 당신이 아직 20대라면 몇 년의 여유가 있지만, 30대 이상이라면 이미 뒤처져 있다는 것을 명심하라.
30대 이상의, 아직 유명해지지 못한 이들에게 희소식이 있다. 직업을 잘 선택한다면, 당신에게도 아직 기회가 있다. 저자들은 1800년에서 1920년 사이에 태어난 유명인사들을 배우, 작가, 정치인, 과학자, 예술가, 수학자 등 여섯 가지 직업으로 나누어 살펴보았다.

(⑤번 그래프 참조)

당신이 젊었을 때 유명해지고 싶다면 배우가 돼라. 배우는 20대 말이나 30대 초에 유명해져 사는 내내 명성을 즐긴다. 만약 당신이 그 희열을 잠시 미룰 수 있다면 작가, 아주 오랫동안 미룰 수 있다면 정치인이 되는 편이 낫다. 정치인은 5, 60대까지도 별로 유명하지 않다가 선거에 당선되면서 한순간에 배우나 작가의 명성을 추월한다. 반면에 과학자나 예술가, 수학자는 명성을 얻기까지 너무 오래 걸리는 데다가, 그렇게 해서 얻은 명성이 배우나 정치인의 절반에도 미치지 못하니 웬만하면 안 하는 편이 낫다.
그렇다면, 지난 200년 동안 가장 큰 명성을 누린 인물은 누구일까? 놀랍게도 우리의 엔그램 데이터가 내놓은 열 명의 명단, 그 가장 윗자리에 있는 인물은 아돌프 히틀러였다. 뿐만 아니라 이 명단에는 스탈린, 무솔리니까지 대량 학살자가 세 명이나 포함되어 있다. 이렇게 살인과 명성은 긴밀하게 연관되어 있다. 극도로 사악한 행동이 명성을 만들어내는 가장 효율적인 방법이라는 것은 우리 시대의 깊은 어둠 가운데 하나다. 이것이 뜻하는 바가 무엇인지는 우리 모두가 깊이 생각해보아야 할 것이다.

침묵의 소리: 빅데이터가 말하는 억압과 검열의 역사
엔그램 데이터는 억압과 검열이라는 악행의 세계를 들여다보는 데도 유용한 도구가 된다. 이 어두운 현실을 들여다보기에 가장 적합한 인물은 화가 마르크 샤갈이다. 히틀러와 나치 정권은 1920년대 독일에서 한창 피어나던 현대 미술의 여러 사조들을 ‘퇴폐 미술’이라 칭하며 수천 점의 작품을 압수해 폐기하거나 〈퇴폐 미술전〉이라는 전시회를 열어 전 사회적인 조롱거리로 만들었다. 유대인이자 초현실주의 표현주의자였던 샤갈은 그 공격의 정중앙에 놓였다. 그의 작품들은 독일에서 사라졌고, 그의 이름 역시 독일 문화에서 빠르게 지워졌다. 1936년에서 1943년 사이 독일어로 된 책들에서 마르크 샤갈이라는 이름은 딱 한 번 등장할 뿐이다.
나치의 탄압이 극단적인 사례이긴 하지만 유일한 사례는 아니다. 이와 유사한 일은 천안문 광장에서 현대사의 큰 사건을 두 차례나 겪은 중국에서도 일어났다.

(⑥번 그래프 참조)

1976년 저우언라이 총리의 사망으로 자극을 받은 10만 군중이 천안문 광장에 모였다. ‘4인방’은 이 대중적 애도를 무력으로 탄압했지만, 이 사건은 중국의 엔그램 기록에 거대한 지문을 남겼다. 1989년 후야오방 총서기의 사망을 애도하는 100만 명의 사람들이 또다시 광장을 점령했다. 중국 정부는 30만 명의 군대를 동원해 폭력적인 진압을 펼쳤고, 수천 명에 달하는 사망자를 냈다. 사건이 이렇게 끝났다면 1989년 이후 ‘천안문 광장’의 중국어 엔그램 데이터는 급격히 치솟았을 것이다. 그러나 중국 정부는 신속하고 엄격한 검열과 정보 억압을 펼쳤다. 수많은 신문사와 출판사가 문을 닫았고, 오늘날까지도 중국 정부의 입장과 일치하지 않는 내용은 인쇄 매체에 실리지 못한다. 인터넷에서 ‘천안문 광장’을 검색했을 때 나오는 정보 역시 정부의 세심한 검열을 거친 것들이다.
이처럼 ‘구글 엔그램 뷰어’의 검열-탐지 기술은 우리가 알고 있는 역사적 사실과 질적으로 비슷한 결과를 가져다준다. 역사학자들보다 훨씬 빠른 속도로 말이다. 그러므로 빅데이터는 거대한 정보 속에 스며든 억압과 검열의 흔적, 편견의 효과 등을 파악하는 데 강력한 대안이 될 수 있다. 실제로 위키피디아에서는 각 항목을 서술하고 편집하는 데 개입될 수 있는 편견과 문제들을 파악하기 위해 통계적 방법론과 엔그램 데이터를 도입하려 시도하고 있다.

사회는 점점 더 빨리 배우고 있다
책은 정보를 전달하는 중요한 방법이지만, 쓰고 출판하는 데 오랜 시간이 걸리기 때문에 뉴스 속보를 전하기에는 너무 느리다. 그보다는 수년, 수십 년, 수세기에 걸쳐 진행되는 일을 추적하기에 적합하다. 이를테면 발명 같은 것 말이다. 발명은 한 사회가 만들어낸 새로운 지식이 기술적, 경제적, 사회문화적 장애를 극복하고 사회 전반에 확산되기까지의 기나긴 과정을 포함한다. 그러므로 발명품들의 엔그램 데이터를 통해 우리는 한 사회가 특정 지식을 배우고 익히는 집단학습의 과정과 속도를 살펴볼 수 있다.

(⑦번 그래프 참조)

1835년에 발명된 리볼버는 1918년에 영향력이 최고치에 달해 100만 단어당 6회의 빈도를 보였다. 최고치의 4분의 1 지점에 도달한 시점은 1859년으로, 24년이 걸렸다. 셀로판도 비슷하게 25년 정도가 걸렸고, 청바지는 103년이 걸렸다. 한편, 1978년에 발명된 소니의 워크맨은 영향력이 최고치의 4분의 1 지점에 도달하기까지 10년밖에 안 걸렸고, 애플의 아이팟도 비슷했다. 저자들은 새로운 기술이 하루가 다르게 우리의 일상을 바꿔놓는 오늘날, 집단학습의 속도에 어떤 변화가 있는지를 알아보기 위해 147가지 기술을 발명된 날짜순으로 정렬해 19세기 초기, 19세기 중엽, 세기 전환기 등 세 시기로 묶었다. 19세기 초기의 기술들은 영향력이 최고치의 4분의 1에 도달하기까지 65년이 걸렸다. 세기 전환기의 발명품들은 겨우 26년이 걸렸다. 집단학습 곡선은 10년마다 2.5년씩 줄어들며 갈수록 짧아지고 있다. 사회는 점점 더 빨리 배우고 있다.

책속으로 추가

이 학술대회의 주제인 ‘데이터, 생의학, 디지털 인문학’은 엄청난 낙관주의를 보여주었다. 역사학자와 철학자, 예술가와 의사, 생물학자가 데이터를 가지고 함께 궁리하고 연구하면 혼자서 했을 때보다 그들 각자의 대의大義를 향해 한 발 더 앞으로 나아갈 수 있다는 생각이 깔려 있기 때문이다. ‘공유된 지평Shared Horizons’이라는 학술대회 명칭은 매우 적절했다. 우리가 하는 작업의 모든 접점에는 우리의 지적 미래에서 가장 흥분되는 일이 기다린다. (중략)
한 가지는 확실하다. 과학과 인문학이 다시 한 번 같은 목표를 향해 가고 있다는 것이다. 갈릴레오가 17세기에 우리 세계에 대한 이해를 바꿔놓았듯이, 21세기에 이 두 개의 렌즈는 서로 등을 맞댄 채 갈릴레오가 했던 것과 똑같은 일을 해낼 것이다. _ 247~248

[출판사서평 더 보기 닫기]

책 속 한 문장

회원리뷰

  • 빅데이터 인문학: 진격의 서막_에레즈 에이든, 장바티스트 미셸   오늘날의 기록을 과거의 기록과 비교했을 때...

    빅데이터 인문학: 진격의 서막_에레즈 에이든, 장바티스트 미셸

     

    오늘날의 기록을 과거의 기록과 비교했을 때의 가장 큰 차이점은 무엇일까. 아무래도 지금의 기록 대부분이 디지털 형태로 변환되어있다는 것을 꼽을 수 있을 것이다. 이는 기록을 모아 통계를 내거나 자유자재로 원하는 자료를 찾아보는 일도 얼마든지 가능하다는 의미이기도 하다.

     

    그렇다면 인터넷이 있기 전의 기록은 어떠한가. 과거 기록의 절대다수는 도서관에 산처럼 쌓여있는 으로 볼 수 있는데 일단 절대적인 양이 지금과 비교해 부족한 것은 두말할 필요도 없다. 인터넷이 없으니 사람들의 생각이 담긴 검색기록은 당연히 존재하지 않으며 자료를 모아 분석하거나 수치화하는 데에는 엄청난 시간과 비용이 소모될 것이다. 수천만 권의 책을 언제 다, 그리고 누가 찾아볼 것인가.

     

    구글이다.

     

    이번에도 구글이 엄청난 일을 저질렀다. ‘구글 북스 라이브러리 프로젝트2004년부터 3000만 권이 넘는 책들을 모두 스캔해 디지털화했다. 그야말로 빅데이터다. 하버드대학의 두 젊은 과학자들(저자)은 이 데이터를 이용, 800만 권의 책에서 지난 500년 동안 특정 단어가 사용된 빈도의 추이를 간단한 그래프로 표시해주는 프로그램을 만들어냈다. ‘구글 엔그램 뷰어(Google Ngram Viewer)’라는 이름을 가지고 있으며 이 책은 엔그램 뷰어를 통해 추론한 사회문화적 고찰들을 담고 있다.

     

    규칙동사와 불규칙동사의 역사적 관계, 나치 정권의 억압과 검열, 명성은 어떻게 얻는지 등 다양한 분야를 넘나들며 흥미로운 논의들을 풀어나간다. 책의 뒷부분엔 엔그램 뷰어를 사용한 여러 키워드와 송길영 다음소프트 부사장을 비롯한 한국의 빅데이터 전문가들이 들려주는 특별좌담도 실려있어 보다 꽉 찬 독서를 가능하게 해준다.

     

    물론 책이라는 기록 매체는 저자(보통은 지식인)를 통해 한 번 걸러졌다는 한계가 있다. 키워드만으로 당시 상황을 온전하게 대표하기는 어려울 것이다. 과거 사례를 다루지는 않지만 같은 구글의 프로그램을 사용한 세스 스티븐스 다비도위츠의 모두 거짓말을 한다와 비교하면서 읽어보는 것을 추천한다. 이 책에서 사용한 구글 트렌드는 대중의 검색기록을 바탕으로 한 자료를 보여주기 때문에 또 다른 재미를 줄 것이다.

     

    PS. 책 제목이 다소 부담스럽다. 진격의 서막이라니... 원제 ‘Uncharted : Big Data As a Lens on Human Culture’가 책을 더 잘 설명하는 듯하다.

  • 아쉽다 | lu**r231 | 2016.05.14 | 5점 만점에 2점 | 추천:0
    빅데이터, 인문학, 서막.. 다 좋다. 하지만 번역이 매끄럽지 못하다. 내가 똑똑치 못하여 바로 이해하지 못하는 부분이 ...

    빅데이터, 인문학, 서막.. 다 좋다.
    하지만 번역이 매끄럽지 못하다. 내가 똑똑치 못하여 바로 이해하지 못하는 부분이 많겠지만, 그래도 이건 몇번이나 책을 내려놓게한다. 번역이 문제인지, 원서가 문제인지 모르겠다, 
  • 독서를 한 구력을 믿고 어지간하면 촉만 내세워 책을 읽는 편이다. 어떤 책인지 자세하게 알아볼 생각없이 느낌이 오면...

    독서를 한 구력을 믿고 어지간하면 촉만 내세워 책을 읽는 편이다. 어떤 책인지 자세하게 알아볼 생각없이 느낌이 오면 읽는다. <빅데이터 인문학:진격의 서막>은 그다지 촉이 오진 않았지만 계속 눈에 밟혔다. 가장 큰 이유는 책에서 커다란 데이터를 뽑아 세상을 바라본다는 느낌에 워낙 책을 읽는 편인 나에게는 도서관에 갈때마다 끊임없이 유혹했다. 결국에는 에이 모르겠다는 심정으로 읽고나 보자며 선택했다.


    아쉽게도 우리가 갖는 첫 느낌은 맞을 때가 많다. 느낌으로 어떤 판단을 내리면 안 된다. 그나마 느낌만으로 선택한 판단이 맞을 때가 있는데 그런 경우 대다수가 그 분야에서 오래도록 경험을 쌓을 경우다. 오랜 경험으로 쌓인 누적된 경험이 남들보다 발달된 감각으로 내린 판단이 좋은 경우가 많다. 그래도 유혹에 흔들리는 사람이다. 그렇게 선택한 책인데 딱히 재미는 없었다. 더구나 책에서 무엇을 이야기하려고 하는지 잘 이해가 되지 않았다.


    어떤 사람은 1시간만에 책 한 권을 뚝딱 읽는다. 그래도 그 책 내용을 어지간하게 파악하고 있다. 나도 충분히 그럴 수 있다. 어차피 책 한 권에 담긴 내용은 중심뼈대만 알면된다. 책 내용이 전부 중요한 경우도 없고 사족처럼 이어지는 부분도 있다. 그렇기에 1시간만에 읽을 수 있다. 다만, 책을 읽는 이유가 꼭 그것은 아니다. 책에 나온 다양한 내용 중에는 책에서 주장하는 것과는 다소 상관없는 부분도 있다. 간혹 이런 부분이 더 도움이 될 때가 있다. 그렇게 책을 휘리릭 넘기지 않고 읽는다.


    엉뚱한 이야기로 빠졌는데 이 책을 그렇게 읽을 수도 있었다. 다 읽고나니 그래도 상관은 없었을 듯 했다. 진득하게 책을 온전히 정독으로 읽지 않았지만 내가 책을 읽는 스타일이 될 수 있는 한 정독인 이유다. 그저 이 책 중심내용만 안다고 책을 읽었다고 할 수는 없다. 생각지 못한 부분이 생각지 못한 아이디어와 영감을 주는 경우가 있다. 바로 그 지점이 실제 책을 읽으며 기쁜 순간이다. 책 내용은 까짓것 한 장으로 끝낼 수 있다.


    영어를 배울 때 불규칙 동사를 배운다. 영어를 배울 때 어려운 점 하나였다. 보통 -ed로 끝내는 경우가 많은데 불규칙 동사는 어떻게 된 일인지 책에서 처음에 알려준다. -ed는 영어에서 상대적으로 늦게 생긴 단어들이다. 불규칙 동사는 오래전부터 사용되던 단어들이었다. 중요한 것은 자주 사용하는 단어라는거다. 그러다보니 자연스럽게 그 단어들은 도태되지 않고 살아남아 어렵게 외워야만 하는 동사 단어가 되었다.

    '지프의 법칙'이 있다. 자주 쓰는 단어는 살아남고 그렇지 않은 단어는 점점 사라진다. 우리가 일상생활에서 짜장면이라 부르고 있는데 표준어가 '자장면'이라 불일치가 생겼다. 어느 누구도 실생활에서 자장면이라 신경쓰며 발음하지 않았다. 시간이 지나면 대중 대다수가 쓰는 단어를 무시할 수 없게 되어 이제는 '짜장면'도 표준어가 되었다. 이처럼 다수가 사용하는 단어는 더 많이 사용하면서 대중에게 선택받는다.


    이건 멱함수하고도 관계있다. 일정 임계치부터 사람들은 폭발적으로 사용하며 다른 단어마저 대치하며 시간이 지나 살아남은 단어를 우리가 지금도 쓰게 된다. 재미있게도 과거에는 불규칙 동사로 쓰던 단어가 이제는 -ed로 쓴다. 열심히 불규칙 동사를 배운 외국인이 미국에 와서 깜짝 놀란다. 이제 불규칙동사도 그냥 -ed로 붙이는 현상이 신문뉴스에서도 쓰고 있으니 말이다. 이를테면 burnt가 아닌 burned로 쓰고 learnt가 아니라 learned로 쓰고 있다.


    현재 구글북스라고 하여 출판된 책을 전부 디지털화는 작업을 구글이 하고 있다. 2020년까지 이미 출판된 책들을 전부 하겠다는 청사진을 갖고 옮기는 중이다. 이 책에 있는 단어들을 갖고 데이터 작업으로 특정 단어의 생성과 소멸뿐만 아니라 유명인에 대한 조사까지 하고 있는 중이다. 이른 시기에 유명해지고 싶으면 연예인이나 스포츠 선수가 유리하고 오래도록 유명해지고 싶으면 작가가 좋다. 연예인은 빠른 시간에 유명해져서 평생가지만 작가는 늦은 40대가 넘어야 하고 사후에 유명해지는 경우도 대다수였다.


    이들이 그런 이유는 단 하나의 작품으로 유명해지기보다는 계속해서 데이터가 쌓이는 것처럼 작품을 발표하고 하나둘씩 쌓이면서 대중의 인지도가 올라가고 사후에 재평가까지 받으면 더 큰 인지도를 얻을 수 있다. 이런 작업을 현재 구글은 하고 있다. 이렇다해도 오래도록 사람들에게 남을 순 없다. 시간이 지나며 망각과 함께 인지도는 사라지고 기억속에 희미하게 남게 된다. 이 책에서 말한 데이터는 한계가 있다. 철저하게 책에서만 얻은 데이터다. 


    책에서 언급되지 않지만 훨씬 더 인지도와 유명인사들이 있다. 그런 면을 제외해도 책에서 그런 데이터를 뽑는다는 점이 신선했다. 그 부분을 제외하면 자신들이 이 작업을 하는 여정을 책으로 펴냈다는 것 이외에는 별로 큰 감흥은 없었다. 그리고 읽기가 다소 힘들었고. 책 제목을 다소 모호하게 지어서 책 내용과는 다소 괴리감이 있다. 이 책에서 얻은 것은 지프의 법칙이다. 난 구글처럼 자본도 인력도 없어 이렇게 독서리뷰를 써서 개인적인 데이터를 만들고 있다.


    그나저나 이 책은 인문으로 분류할 듯 하지만 인문으로 하는 것이 맞을까라는 의문이 든다. 마지막으로 이 책 분야를 보려고 인터넷서점을 보니 재미있게 읽었다는 분들이 제법 있다. 내가 이상한거다.^^



    까칠한 핑크팬더의 한 마디 : 800만 권에 속은 듯.

    친절한 핑크팬더의 한 마디 : 많이 회자되면 성공한 거다.


    함께 읽을 책

    http://blog.naver.com/ljb1202/220629966673

    빅데이터 인간을 해석하다 - 해석당하다


    http://blog.naver.com/ljb1202/220421207875

    이미지 인문학 - 현실, 진실, 사실


    http://blog.naver.com/ljb1202/220118580306

    생각의 시대 - 로고스





  • 빅데이와 인문학 | be**tyc | 2016.04.18 | 5점 만점에 3점 | 추천:0
     빅데이터와 인문학이라는 제목이 거추장 스럽다. 책을 팔기위한 기술이라고 봐야 할까? 물론, 엔그램 뷰어에 ...
     빅데이터와 인문학이라는 제목이 거추장 스럽다. 책을 팔기위한 기술이라고 봐야 할까? 물론, 엔그램 뷰어에 대해 알게되고 재미있는 검색이 가능하다는 것에 만족한다. 그러나 기대하는 빅데이터와 인문학의 관계는 상관관계 수준으로도 드러나지 않는다. 갈릴레오의 두 개의 렌즈를 과학과 인문학의 결합으로 비유하고 있는데, 인문학자들이 아니어서 그런지, 빅데이터와 인문학의 관계가 크지 않다. 물론, 800만권(현재는 더 많은 자료들로 구성되어 있을 것이다.)을 통해 내가 알고 싶어하는 검색들에 대한 빈도수를 찾을 수 있다는 것은 매력적이긴 하다. 그러나 아직 다양한 언어로 구성되고 있지 않다는 것을 볼 때(아마도 1억 3천만권이 넘는 장서가 다 스캔된 것은 아닐 것이다.)아직 갈길이 멀지는 않다고 하더라고 기다려야 한다.

     흥미있는 내용이나, 결론적으로 제목 만큼의 관심을 끌 내용들은 별로 없다. 그것이 조금 아쉽다. 굳이 검색과 관련된 소개였다면, 제목이 너무 거추장스럽다. 인문학적인 지식을 굳이 단어로 풀어 나갈 수 있다는 발상은 흥미로울 수 있으나, 추측에 불과할 수밖에 없다. 각주 달기에 사용할 수 있을지는 모른다. 그저 흥미와 약간의 상관관계를 보여줄 수 있는 근거에 족하다. 핵심이 되기에는 좀 거리가 멀다. 물론, 인과관계가 아니라 상관관계를 통한 결론을 뽑아낸다는 차원에서 만족한다면, 이것은 인문학이 아니라 마케팅 차원에서 활용되면 족할 것이다.

     신, 영혼, 자유 등과 같은 주제를 다루기에는 엔그램 뷰어의 검색 가지고서는 힘들 것이다. 적어도 그렇다. 물론, 이러한 단어들이 얼마나 어떤 시기에 쓰였는지를 가지고 우리는 나름대로 재미있는 세상 이해를 할 수 있을지는 모른다. 그저 재미와 흥미를 위해서 그렇다.

     

  •   매주 일요일 저녁, 챙겨보는 예능 프로그램이 하나 있다. JTBC <김제동의 톡투유 - 걱정 말아요 그대&...

     

    매주 일요일 저녁, 챙겨보는 예능 프로그램이 하나 있다. JTBC <김제동의 톡투유 - 걱정 말아요 그대>가 그것이다. 대한민국 시민들이 서로의 고민과 걱정거리를 나누는 재미와 의미를 겸비한 프로그램이다. 이 프로그램의 패널인 송길영님은 데이터로 마음을 읽는다는 빅데이터 전문가이다. 그는 트위터, 페이스북, 블로그 등 다양한 소셜미디어에 수많은 이들이 남긴 글, 사진, 동영상 등을 분석해 최근 트렌드를 읽고 그 결과로 추론할 수 있는 인간의 욕망을 설명한다. 빅데이터라는 다소 생소한 단어를 이 프로그램을 통해 처음 접하고 조금씩 알아가고 있던 차에 <빅데이터 인문학 : 진격의 서막>이라는 책을 접하게 되었다. 평소 관심 있게 지켜보던 소재라 망설임 없이 이 책을 선택해서 읽기 시작했다.

     

    세계 국립도서관의 책들을 모두 디지털화 시키는 ‘구글 북스 라이브러리 프로젝트’라는 구글의 야심찬 계획은 몇 년만에 3000만 권의 책을 스캔했다. 그리고 구글의 빅데이터를 눈여겨 보던 두 과학자는 3000만권의 책 중에서 800만권의 책에서 시대의 흐름을 분석해냈다. 이 책의 저자인 두 과학자는 이를 바탕으로 몇백년에 걸쳐 이어지는 인간의 역사와 문화의 흐름을 빅데이터를 통해 알아보았다.

     


    빅데이터란 무엇인가?
    국어사전에서는 빅 데이터(Big Date)를 ‘기존 데이터에 비해 너무 방대해 이전 방법이나 도구로 수집, 저장, 검색, 분석, 시각화 등이 어려운 정형 또는 비정형 데이터 세트를 의미한다’고 정의한다. 빅데이터 환경은 과거에 비해 데이터의 양이 폭증했다는 점과 함께 데이터의 종류도 다양해져 사람들의 행동은 물론 위치정보와 SNS를 통해 생각과 의견까지 분석하고 예측할 수 있다.

     


    빅데이터가 일으킬 인문학 혁명 : 엔그램뷰어
    장차 우리를 압도하고 우리를 사로잡을 이상한 매혹을 수백만 명이 공유하게 될 혁명이 어디선가 일어나고 있었다. 그 핵심에는 인류가 벌인 활동에 관한 역사적 기록의 창조 및 보존과 연관된 빅데이터 혁명이 있었다. 이 혁명의 결과물은 우리가 우리 자신을 바라보는 방법을 바꿀 것이다. 또 우리 사회의 본질을 더 효율적으로 탐색할 수 있는 관찰 도구를 창조하게 해줄 것이다. 빅데이터는 인문학을 바꾸고, 사회과학을 변형시키고, 상업 세계와 상아탑 사이의 관계를 재조정할 것이다.

     

    두 과학자가 개발한 ‘구글 엔그램 뷰어’는 검색창에 단어를 입력하면, 800만 권의 책을 검색해 해당 단어가 지난 500년간 사용된 빈도의 추이를 그래프로 보여준다. 책에서 그들은 이 프로그램을 이용한 데이터 분석으로 흥미로운 사실을 알려준다.

     

    우리는 대부분의 불규칙동사가 매우 드물게 쓰인다고 생각한다. 그러나 거의 모든 불규칙동사는 빈도가 매우 높다. 동사 가운데서 불규칙동사는 겨우 3퍼센트에 불과하지만 빈도가 높은 열 개의 동사는 모두 불규칙동사다. be/was, have/had, do/did, say/said, go/went, get/got, make/made, know/knew, see/saw, think/thought. 이것들은 빈도가 너무 높아서, 당신이 어떤 동사를 사용한다면 그것이 불규칙 동사일 가능성은 50퍼센트나 된다.

     

    학창시절 영어를 배우는 많은 사람들에게는 성가시기만 했던 불규칙동사가 이렇게 흔하게 사용되는 줄은 미처 알지 못했다. 엔그램을 통해 불규칙동사는 시간이 지나면서 새로 생겨난 규칙이 아니라 이전부터 많은 불규칙동사들이 존재해왔고, 뒤늦게 ‘-ed’라는 규칙이 생겨났다고 한다.

     

    엔그램을 이용해 영문법의 변화를 알 수 있고, 사람은 어떻게 유명해지는지, 사전은 어떻게 만들어지고, 나치가 가한 억압이 어떤 효과를 냈는지를 보여준다.

     

    부록으로 빅데이터로 보는 문화사를 그래프로 소개되어 있다. 그래프는 두 가지 단어의 흐름을 보여준다. 급격하게 요동치기도 하고, 때로는 잔잔하거나 꾸준한 흐름을 보이기도 한다. 이런 빅데이터 그래프를 보니 오늘날 사람들은 과거에 비해 부정적인 생각을 많이 하고, 폭력적인 성향을 보이기도 했다.

     


    나는 흥미로운 빅데이터의 그래프를 보고, 직접 엔그램뷰어라는 프로그램을 사용해봤다.

     

    noname01.jpg

     

    — fast   — slow

     


     

    noname02.jpg


    — analogue   — digital

     

     

     

    noname03.jpg


    — sing   — dance

     


    검색한 빅데이터의 첫 번째 그래프의 fast/slow는 19세기에는 fast의 강세를 보이다 20세기에 들어서며 slow가 역전하게 된다. 그러다 20세기 후반부터 다시 fast의 강세가 두각을 나타내며 사람들은 점점 빠른 생활습관을 보인다. 이것은 20세기 후반부터 아날로그에서 디지털로 변화하면서 생긴 특징과 상관관계가 있다고 볼 수 있다. 비슷한 개념의 단어를 검색해봄으로써 사람들의 생각이 어떻게 변화하는지를 그래프를 통해 쉽게 파악할 수 있었다. sing/dance라는 단어도 검색해봤는데, 19세기에는 노래를 좋아하던 사람들이 20세기에서는 춤에 더 많은 관심을 보이는 걸로 설명된다. 이처럼 엔그램뷰어를 이용해 몇 개의 단어를 입력하고, 빅데이터를 확인할 수 있어 매우 유용하고 흥미로운 프로그램이라는 생각이 들었다.

     


    유토피아, 디스토피아, 데이터토피아
    어느 누구도 이것을 정확히 뭐라고 불러야 할지 모른다. 그리고 이것이 어디로 가고 있는지 아는 사람도 없다. 그러나 한 가지는 확실하다. 과학과 인문학이 다시 한 번 같은 목표를 향해 가고 있다는 것이다. 갈릴레오가 17세기에 우리 세계에 대한 이해를 바꿔놓았듯이, 21세기에 이 두 개의 렌즈는 서로 등을 맞댄 채 갈릴레오가 했던 것과 똑같은 일을 해낼 것이다.

     

    데이터는 용의자를 찾게 도움을 주기도 하지만, 무고한 사람을 해칠 수도 있는 디지털의 양면성을 가지고 있다. 보스턴 마라톤 대회에서 있었던 폭탄 사고로 많은 희생자가 발생했는데, 수많은 군중 속에서 용의자를 찾기란 하늘의 별 따기였다. 하지만 범죄 현장에 수많은 군중이 있었다는 점은 용의자를 찾는데 결정적인 증거를 제공했다. 바로 관중들은 사진을 찍는다는 점이었다. 이처럼 작은 공간에서 많은 카메라가 있고, 짧은 시간에 많은 사진을 찍는다면 누군가의 사진에서 용의자를 찍었으리라 생각한 것이다. 이 생각대로 많은 정보가 들어왔고, 용의자들을 체포할 수 있었다. 이처럼 빅데이터는 당신이 어디고 어디에 있든 당신을 찾아낼 수 있다. 반대로 파티에 갔던 한 소녀는 네 소년에게 강간을 당하고 사진이 찍혔다. 이 사진들은 웹으로 퍼졌고, 친구들은 그녀를 괴롭히며 삶을 악몽으로 만들었다. 결국 학교를 옮기고, 이사를 가고, 병원 치료를 했지만 수치심을 떨치지 못했던 그녀는 스스로 목을 맸다.

     

    인생기록이 가능해지면서 공적 인생기록이 아주 위험한 개념이라는 사실이 명백하다. 마케터들은 ‘타깃Target’을 이용해 성가신 광고물을 우리에게 쏟아 붓고 있다.. 뿐만 아니라 기업의 침해보다도 더 위험한 정부가 시민을 추적이 가능하다. 우리의 삶에 드리워진 디지털의 그늘은 다양한 도덕적 갈등의 원이 될 것이다. 빅데이터의 활용됨이 넓어짐에 따라 머지않아 예측적 과학predictive science이 가능해질 수 있다.

     

    빅데이터 수집을 하면서 발생되는 프라이버시 이슈는 끊임없이 제기되고 있는데, 이는 윤리 교육이 선행되어 윤리적 공감대를 형성하여 제도를 만들고, 법률을 만들어야 한다.

     

    책의 말미에 특별좌담 : 인문학을 위한 빅데이터 사용 설명서가 있는데, 책을 읽으며 다소 어려웠던 내용을 이해하는데 큰 도움이 되었다. 인간의 문화를 수량화 한다는 발상 자체가 신선하기도 했고, 그래프를 통해 보여주기 때문에 쉽게 볼 수 있고, 수량화 된 데이터로 분석된 내용에 대한 신뢰감이 높았다. 인문학적 사고와 글쓰기에 통계 자료가 추가되어 흥미로웠다.

     

    최근 빅데이터를 활용한 새로운 패러다임의 제시는 많은 사람들의 관심을 받고 있다. 빅데이터의 개념이 통제할 수 없고, 무한하다는 의미를 담고 있기에 데이터의 활용 또한 무한하다고 할 수 있다. 한국 인문학은 현실의 빅데이터를 비판적으로 해독할 수 있는 힘과 더 많은 자료를 구축해야 하는 과제를 안고 있다.

     

    모수가 많아지고, 데이터가 축적되다보면 객관화가 가능해진다. 이는 주관의 객관화인데, 한 사람의 오피니언은 주관적이지만 사회 전체의 사례를 모으면 어떤 합의점에 도달하게 된다. 이를 통해 인간의 심리나 행동, 사회현상을 설명하는 일이 과학에 가까워진다고 볼 수 있다. 물론 이런 연구 방식으로 도출된 결과가 항상 옳으냐는 문제가 제기될 수도 있다. 수량적 증거를 중시하는 사고방식으로 인한 한계는 분명히 나타난다. 이를 해결하기 위해 우리는 수많은 고민과 새로운 기법을 고민해야 할 것이다.

     

    현재 우리가 가진 욕망이 어느 순간 갑자기 나타난 것이 아니라 오래전부터 누적되어온 욕망이라고 할 수 있다. 그것이 문화이고 관습이 되는 것이다.

     



    이 리뷰는 리뷰 마블 이벤트 응모작 입니다

교환/반품안내

※ 상품 설명에 반품/교환 관련한 안내가 있는 경우 그 내용을 우선으로 합니다. (업체 사정에 따라 달라질 수 있습니다.)

교환/반품안내
반품/교환방법

[판매자 페이지>취소/반품관리>반품요청] 접수
또는 [1:1상담>반품/교환/환불], 고객센터 (1544-1900)

※ 중고도서의 경우 재고가 한정되어 있으므로 교환이 불가할 수 있으며, 해당 상품의 경우 상품에 대한 책임은 판매자에게 있으며 교환/반품 접수 전에 반드시 판매자와 사전 협의를 하여주시기 바랍니다.

반품/교환가능 기간

변심반품의 경우 수령 후 7일 이내, 상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내

※ 중고도서의 경우 판매자와 사전의 협의하여주신 후 교환/반품 접수가 가능합니다.

반품/교환비용 변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
반품/교환 불가 사유

소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우(단지 확인을 위한 포장 훼손은 제외)

소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우 예) 화장품, 식품, 가전제품 등

복제가 가능한 상품 등의 포장을 훼손한 경우 예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집

소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)

디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우

시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우

전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에 해당되는 경우

1) 해외주문도서 : 이용자의 요청에 의한 개인주문상품이므로 단순 변심 및 착오로 인한 취소/교환/반품 시 해외주문 반품/취소 수수료 고객 부담 (해외주문 반품/취소 수수료는 판매정가의 20%를 적용

2) 중고도서 : 반품/교환접수없이 반송하거나 우편으로 접수되어 상품 확인이 어려운 경우

소비자 피해보상
환불지연에 따른 배상

- 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은 소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨

- 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의 소비자 보호에 관한 법률에 따라 처리함

판매자
별라임
판매등급
새싹셀러
판매자구분
일반
구매만족도
5점 만점에 5점
평균 출고일 안내
1일 이내
품절 통보율 안내
7%

이 책의 e| 오디오

바로가기

최근 본 상품