625. 빅데이터 인문학 : 진격의 서막, 에레즈 에이든, 장 바티스트미셀, 사계절, 2019
구글의 야심, 단 하나의 도서관
만들어진 책을 모두 망라하는 것을 목표로 삼은 디지털 도서관.
1996년 스탠퍼드에서 컴퓨터 과학을 연구하던 대학원생 두 명은, 이제는 없어졌지만 '스탠퍼드 디지털 도서관 테크놀로지 프로젝트'라고 알려진 일을 하고 있었다. 목표는 월드와이드웹으로 책들의 세계를 통합하는 미래의 도서관을 구상하는 것이었다. 그들은 사용자가 도서관의 장서들을 검색하고 사이버공간에서 책과 책 사이를 넘나들 수 있게 해주는 도구를 만들고 잇었다. 그래서 대지털 형식의 책들이 상대적으로 너무 적었던 당시로서는 현실에서 실현되기 어려운 일이었다. 그래서 이 두사람은 월드와이드 웹의 빅데이터 행렬에 동참해, 한 텍스트에서 다른 텍스트로 이동하게 해주는 아이디어와 테크놀로지를 작은 검색엔진으로 전환했다. 그들은 이것을 '구글'이라고 불렀다.
2004년부터 구글이 스스로에게 부여한 사명 '세계의 정보들을 조직하는' 사명은 순조롭게 진행되었고, 설립자인 래리 페이지(Larry Page)는 자신이 예전에 사랑했던 도서관으로 돌아갈 여유가 생겼다. 실망스럽게도 디지털 형식이 가능한 책은 여전히 매우 적었다. 그 사이 페이지는 억만장자가 되었고, 구글이 책을 스캔하고 디지털화하는 사업에 뛰어들어야겠다고 결정했다.
이 프로젝트('구글북스')가 공식적으로 선언되고 9년이 흐른 뒤, 구글은 3,000만권 이상의 책을 디지털화 했다. 출간된 책 네 권 가운데 한 권 꼴이다. 하버드(1,700만권), 스탠퍼드(900만권), 옥스포드 보들리언(1,100만권)을 비롯한 어떤 대학도서관 장서 보다 많은 양이다. 러시아 국립도서관(1,500만권), 중국 국립도서관(2,600만권), 독일 국립도서관(2,500만권) 보다도 많다. 이 책을 스는 2013년 현재, 이보다 많은 책을 보유한 도서관은 미의회도서관(3,300만권)이 유일하다.
구글북스는 단순한 '빅데이터'가 아니다.
이처럼 디지털화 한 책은 롱데이터를 포함하고 있기 때문에 대부분의 빅데이터와 달리 현대 인류의 그림을 그리는데에만 국한하지 않는다. 책은 상당히 오랜 기간 - 한 인간의 삶의 길이보다 길고, 심지어 모든 국가의 생애보다 긴 기간 - 에 걸쳐 우리 문명에 어떻게 변화했는지를 담는 초상화를 제공한다.
구글북스와 디지털 렌즈로 인류역사를 연구하는 관찰도구를 만들 수 있다.
1996년 개념예술가인 캐런 라이머(Karen Reimer)는 「전설적, 어휘적, 다변적 사랑(Legendary, Lexical, Loquacious Love)」라는 책을 출간했다. 연애소설 한 편을 골라 전체 텍스트를 알파벳 순으로 재배열했다. 어떤 단어가 소설에서 여러번 등장하면 그녀의 책에서도 여러번 등장한다.
이 책은 어떤 구문이나 문장도 없다. 그저 알파벳 순으로 단어들이 나열된 345쪽짜리 긴 목록일 뿐이다. 이 책은 소설처럼 보이지 않고, 그렇게 읽을 수도 없다.(......) 이것은 뭔가 좀 이상한 책이다. 당신은 라이머가 연애소설을 알파벳 순으로 나열하여 원작의 의미를 지워버리고, 그 소설을 재미나게했던 모든 것을 없애버렸다고 생각할 것이다. 어느 정도는 사실이다. 그러나 라이머가 알파벳순으로 변형하는 과정에서 단어들의 빈도, 곧 소설을 구성하는 어휘적 원자(atom)와 같은, 보이지 않던 세계가 드러났다. 빈도와 이것이 들여주는 이야기가 그녀의 작품을 그토록 매력적으로 읽히게 만든 것이다.
하버드 대학교의 메인 캠퍼스 하버드 야드에는 존 하버드(John Harvard, 1636년 청교도 목사)의 생애를 기리기 위해 세워진 커다란 동상이 있다. 이 청동상은 전체적으로 어두운 색채를 띠는데 유독 왼쪽 신발만 예외적으로 반들거린다. 무슨 이유에서인지 이 신발에 손을 올리고 사진을 찍은 것이 하버드를 방문하는 사람이라면 누구나 해야하는 목록에 올라있다.
래리 페이지는 벽돌과 시멘트로 만들어진 실제 도서관이 사이버공간에 존재하는 디지털 도서관으로 진화되기는 얼마나 어려운 일일까? 아무도 몰랐다. 그래서 페이지와 머리사 메이어(Marissa Mayer)는 실험을 해보기로 했다. 메트로놈을 이용해 일정한 속도를 유지하면서 300쪽짜리 책 한 권을 넘기는 실험이었다. 이런 속도라면 페이지의 모교인 미시건 대학교 도서관 700만 장서를 넘기는데 약 500년이 걸린다. 세상 모든 책을 책장을 넘기려면, 수천년, 수억년이 걸릴 불가능한 일처럼 보였다.
2002년, 미시건 대학교 총장 메리 수 콜먼(Mary Sue Coleman)은 미시간 대학교 책들을 디지털화 하는데 천년이 걸릴거라고 말했는데, 페이지는 구글의 각종 서비스를 무료로 제공하고 동시에 이 과업을 6년만에 완수하겠다고 제안했다.
*미시건 대학교의 책들을 디지털화 하는데 걸린다고 한 500년은 단순한 곱셈이다. 수백년이 걸린다고 한 콜먼의 추산도 책장넘기는 일 말고도 다른 일이 포함되었을 것이고, 단 한사람이 넘긴다고 가정하지는 않았을 것이다. 한 권에 40분씩 1억3,000만권을 넘긴다고 가정하면 총 9,900년이 걸린다.(......)
페이지와 메이어가 책장을 넘기기 시작한 10년만에, 그리고 그가 공개적으로 프로젝트를 선언한 지 9년만에 구글은 3,000만권이 넘는 책들을 디지털화 했다.(미국에서 출간된 책 약 1억3천만권) 이처럼 방대한 텍스트는 오로지 컴퓨터로만 분석이 가능하다. 만약 인간이 읽으려 한다면, 밥을 먹거나 잠을 자기 위해 중단하는 일 없이 합리적인 속도인 분당 200단어씩 읽는다고 해도 총 1만2천년이 걸릴 것이다.
최초의 우주인 닐 암스트롱(Leil Armstrong), 그른 38만4,400km를 여행하여 다른 세계의 표면을 걸은 최초의 인간이 되었다. 당신은 분명 그의 이름을 들어보았을 것이다. 또 한명의 영웅 버즈 올드린(Buzz Aldrin)에 대해선 훨씬 적에 들어봤을 것이다. 그 역시 1969년 7월 21일에 그 일을 해냈다. 그러나 그는 최초가 아니었다. 올드린은 그의 발걸음을 암스트롱보다 19분하고도 100분의 1초 늦게 디뎠다. 그 결과 올드린은 암스트롱 보다 1/5밖에 유명해지지 않았다.
교훈 : 당신이 전설적인 어떤 일을 한다면 20분짜리 커피타임을 갖기 전에 그것을 먼저 하라.
데이터는 권력이다.
디지털 인문학자.
오거스트 꽁트 '사회물리학 social physics'
2020. 1. 12. 일요일 아침.
'책읽기' 카테고리의 다른 글
많이 쓴다는 것은~ (0) | 2021.02.08 |
---|---|
안전 인문학수업 (0) | 2021.01.29 |
624. 잠수종과 나비, 장 도미니크 보비, 동문선, 2019 (0) | 2020.12.02 |
623. 호모데우스(미래의 역사) 유발 노아 하라리, 김영사, 2019. (0) | 2020.11.24 |
622. 행복(幸福), 법륜스님의 행복, (주)나무의 마음, 2019 (0) | 2020.11.24 |