Google Experimental Search
Google Labs에서 몇 달 전에 'Google Experimental Search'라는 이름의 베타 서비스를 들이밀었다. "실험적 검색"이라는 타이틀에 걸맞게, 이번 서비스는 검색 결과를 보여주는 새로운 방식들이 테스트되고 있다. 이번 서비스에서는 4가지 결과 view가 실험되고 있다. 그 중에서도 꽤 관심을 끌고 있는 끄는 view가 있는데, 고것이 바로 검색 결과를 시간 기준으로 보여주는 timeline view와 지도로 보여주는 map view이다.새로운 방식을 이용한 검색 결과 탐험
timeline view와 map view의 공통점은 기존의 list 스타일의 검색 결과 view를 탈피하기 위한 새로운 시도라는 점이다. 어느 나라, 어느 서비스를 막론하고 현재 검색 결과는 기본적으로 list view를 기본으로 하고 있다. (Clusty.com과 같이 클러스터링을 내세운 서비스도 있기는 하지만, 이들도 키워드에 대한 클러스터링을 제외하고선 list view에서 벗어나지는 못했다.) 키워드를 입력하고 '검색' 결과를 누르면 검색 결과들이 1위부터 순서대로 보여진다. "통합 검색" 같은 패러다임도 검색 결과들을 성질에 따라 모아서 보여주는 새로운 패러다임이긴 하지만 '가장 키워드와 관련있다고 판단되는 컨텐츠부터 순서대로'를 벗어나지는 않는다.이러한 컨텐츠 list view를 탈피하고자 새로운 메타데이터를 활용해 검색 결과를 보여주려고 하는 서비스가 timeline view와 map view이다. 이름에서 알 수 있듯이 timeline view는 시간을, map view는 위치를 중심으로 검색 결과를 보여주고 있다.
Timeline View
엄밀히 따지자면 timeline view 역시 list view를 기본으로 하고는 있지만, list를 생성하는 기준이 기존과 다르다. Timeline view의 검색 결과의 기준은 '시간'이다.
이 시간 정보는 그럼 어떻게 얻어지는가. 위의 'web 2.0' 검색 결과를 timeline view로 보는 그림을 보면 어느 정도 예상할 수 있겠지만, 이 시간 정보는 'web 2.0' 관련 컨텐츠를 분석해서 얻어낸다. 그러니까, (실제로는 어떤 방식으로 처리하는지 알 수 없지만) 다음과 같은 프로세스를 거치지 않을까 추정된다.
1. 'web 2.0' 키워드로 웹 페이지 검색을 한다.
2. 검색된 웹 페이지에서 시간 정보를 추출한다.
3. 추출된 시간 정보를 바탕으로 timeline view를 생성한다.
그러니까 예를 들자면, "web 2.0에 대해서 처음에 O'Reilly가 2004년에 한 학회에서 언급했다."는 내용이 있는 컨텐츠라면, "2004년"이 인덱싱되어 timeline의 2004년에 위치하게 되는 것이다.
Map View
Map view 역시 timeline view와 크게 다르지 않다.
Map view 역시 기본적으로 키워드 검색을 수행한 후, 컨텐츠에 '위치 정보'가 있다면 그것을 추출하고, 그 정보를 기반으로 지도에 표시해주는 형태다. 즉, "web 2.0 학회가 샌프란시스코에서 열릴 예정인데..."라는 컨텐츠가 있다면 "샌프란시스코"가 인덱싱되어 지도에 보여지게 되는 것이다.
한계
Timeline view나 map view 모두, "실험적"인 검색 서비스라는 점에서 봤을 때는 흥미롭긴 하지만, 실제로 서비스가 된다면 "과연?"이라는 느낌이 든다.메타데이터 추출
임의의 웹 컨텐츠에서 메타데이터를 추출하는 것은 기본적으로 '매우' 어렵다. 이전부터 검색 관련 논문들에서 이런식의 view를 실험하고는 있었는데, 그들은 하나같이 '정확한 메타데이터를 추출하는 것이 어렵다'고 한다. 이는 기본적으로 시각과 위치 정보를 표기하는 명확한 기준이 없기 때문이다. 예를 들어 미국의 경우 mm/dd/yyyy 형태를 쓰지만 우리나라는 yyyy/mm/dd 형태를 쓴다. 또한 1/7/2007 이라고 하는 것과, Jan/7/2007이라고 하는 것에서도 차이가 있다. (이런 차이를 극복하기 위한 방법이 지난 WWW2006 학회에서 소개되긴 했었는데, 그 기술이 적용되었는지는 알 수 없는 일이지만.)
무엇이 올바른 메타데이터인가?
만약 모든 케이스를 구글측에서 학습해 웹 페이지에 있는 시간 정보와 위치 정보를 얻었다고 가정해보자. 그렇다면 추출된 메타데이터들 중 어떤 것이 해당 컨텐츠와 키워드를 가장 잘 연결해주는 메타데이터인가?
지금 'web 2.0' 키워드를 timeline view에서 찾아보면 위키피디아의 web 2.0 페이지가 "1995년"에 보여진다. 하지만 이 페이지에서 "1995년"은 "Amazon.com이 1995년에 서비스를 시작할 때 선보였던 기능들이 지금 web 2.0이라고 불리는 기능들과 다르지 않다."는 내용에 포함되어 있을 뿐이다. 오히려 이 페이지에서 'web 2.0'과 관련 있는 시간 정보는 "2003년"(web 2.0은 O'Reilly Media에서 처음 2003년에 사용되었다.)이나 "2004년"(첫 web 2.0 학회는 2004년에 열렸다.)일 것이다. 즉, 이 페이지 하나에만 수많은 시간 정보가 있는데, 아직까지 '어떤 시간 정보가 키워드와 가장 관련이 있는가'에 대한 문제가 해결되지 않은 것 같다.
또한 개인적으로 약 2년 쯤 전에 미국 뉴스 기사들로부터 위치 정보를 추출하는 프로젝트를 해봤을 때, 같은 이름을 가진 도시들, 다른 고유명사와 같은 이름의 도시들 등의 문제로 상당히 골치를 썩었었는데, 과연 map view에서는 이들을 제대로 걸러내고 있을지도 의문이다.
정말 원하는 정보는 있는 걸까?
그리고 무엇보다 가장 큰 의문점은 "timeline view나 map view로 보여지는 결과들 중에서, 내가 정말 원하는 정보가 있을까?"라는 점이다. (역시나 실제로 어떤 프로세스를 거치는지는 알 수 없지만) 2차 필터를 거치는 과정에서 스팸성 데이터 등은 충분히 걸러져, 키워드에 대한 정확도(precision)는 높아지겠지만, 과연 웹 어딘가에 있을, 내가 원하는 정보가 이 timeline view나 map view에 나타나는지(recall)에 대해서는 끊임없이 의심하고 불안해야 한다.
예를 들어 "web 2.0"으로 검색했을 때, 운 나쁘게도 내가 원하는 정보가 있는 컨텐츠에 시각 정보나 위치 정보가 없다면 이 컨텐츠는 timeline view나 map view에 나타나지 않을 것이고, 나는 내가 원하는 정보가 아직 없는 걸까, 의심해봐야 한다. 한마디로 사람 죽는다.
홀로 쓰이기는 어려울 듯
처음 timeline view 인터페이스를 봤을 때에는 "오! 이렇게 나온다면 키워드에 대한 정보를 시간순으로 볼 수 있으니 연구하기에 좋겠는걸! 재미난 데이터도 많이 있겠어!"라고 생각했었다. 하지만 실험을 해봤더니 시각 정보의 추출 등에서 아직 많은 허점이 보여 실망할 수 밖에 없었다.timeline view 같은 경우엔 차라리 컨텐츠에 있는 시각 정보를 추출해서 사용하지 말고, '처음 그 페이지가 수집(crawling)되었을 때'를 사용했다면 차라리 훨씬 더 의미 있는 view가 되지 않았을까 싶은 생각이 든다. 현재로서는 하나의 웹 페이지가 "1995년"에 나타나도, 그 웹페이지에서 "1995년"을 언급했다는 걸 나타낼 뿐이지, 그 이외의 정보를 직관적으로 얻기는 힘들기 때문이다.
또한 앞서 언급한 recall에 대한 문제도 있어, 메타데이터의 정확성 문제가 해결된다 하더라도 각각 홀로 쓰이기는 힘들 듯 하다. UI에 대한, 혹은 메타데이터 추출을 위한 더 많은 고민을 거쳐 이들이 하나의 서비스로 융합되었을 때 오는 시너지 효과를 노려야 하지 않을까.






댓글