작도닷넷 블로그
작도닷넷 블로그

컴퓨터

내용기반 검색의 어두운 현재

10/11/10 14:02(년/월/일 시:분)

단상1.

2004년, 엠파스는 자연어 검색을 선택했다. 한편 네이버는 키워드 검색을 선택했다.
자연어 검색은 꿈의 기술이었다. 우리가 일상생활에서 흔히 말하는 대로 두리뭉실하게 물어보면, 엠파스는 그걸 잘 알아들어서 답해준다. 반면 네이버는 멍청하게도, 정확히 그 '단어'가 아니면 검색이 전혀 안된다.

하지만 자연어 검색은 의외로 검색이 잘 되지 않았다. 반면 키워드 검색은 키워드만 잘만 입력하면 원하는 결과가 뚝딱 나왔다.

이런 2004년의 전략적인 결정이 두 회사의 운명을 바꿨다. 엠파스의 결정이 뭔가 더 미래지향적이었고, 네이버의 결정이 현실에 안주하는 다소 고리타분한 결정이었지만, 결과는 아시다시피.

구글도 어느쪽이냐 하면 철저히 키워드 검색이다. 자연어 검색을 했던 Ask Jeeves도 있었더랬다. 옛날 얘기다.

단상2.

음악 검색에 Midomi가 있고 Shazam이 있다. Midomi는 노래를 사람이 불러서 찾는 거고, Shazam은 노래를 들려줘서 찾는 거다. 근데 Midomi는 자꾸 엉뚱한 노래가 나오는데, Shazam은 정말 정확히 잘 찾는다.

요즘 나온 네이버 음악 검색도 Shazam과 비슷한 기술이다. Audio Fingerprinting이라고 해서, 음악의 가장 핵심적인 주파수를 해쉬로 만들어 찾는 거다. 노래의 모든 부분을 잘라놓았기 때문에 어디를 들려줘도 잘 찾는다.

반면 Midomi는 노래의 멜로디를 midi로 뽑아내고, 사람의 음성에서 멜로디를 뽑아내서 비교하는 것이다. 성악가처럼 잘 부르는 사람들은 잘 찾는데, 일반인처럼 노래를 못 부르는 사람들은 마구 안 찾아진다.

단상3.

시맨틱 웹이라는 게 있다. WWW의 창시자가 다음 세대 웹이라고 만든 것으로, 웹이라고 하니 뭔가 웹 2.0 비슷한 것 같지만 실은 말만 웹이지 사람이 쓰는 건 아니다.

데이터를 그물 형태로 주렁주렁 엮어 놓으면, 추론 엔진이 그 거미줄 같은 데이터의 꼬리에 꼬리를 물고 다니면서 새로운 추론을 찾아다닌다. 그러면 단순히 키워드 검색하는 것보다 좀 더 복잡하고 그럴듯한 검색이 가능할 것이다.

문제는 그 데이터들을 주렁주렁 엮는 작업인데... 이게 자동으로 안되서 사람 손으로 일일이 엮어줘야 한다. 대체로 와인, 치즈, 의학, 생물학 등 일부 돈많은 부자 분야들만 이게 엮어졌고, 미국에서는 정부에서 SOC 하듯이 만들어서 공개하기도 한다.

하지만 뭐랄까... 그냥 검색해도 될 것을 굳이 비싸게 시맨틱웹으로 검색할 필요가 있느냐 해서, 일부 돈 많고 매우 좋은 검색을 필요로 하는 분야를 제외하면 가격대 성능비가 안 나와서 별로 안 쓰는 편이다.

단상4.

구글은 시맨틱웹을 안 한다. 웹 기업인데도 그렇다.

단상5.

구글 번역은 무려 대한민국을 일본으로 번역했다. 그 외에도
나는 퇴근하고 싶다 -> I want to work
나는 맨유를 좋아한다 -> I love Cheasea
SK -> 망했다

구글 번역은 의미를 이해하지 않는 것 같다. 단어 대 단어 대응도 아닌 것 같다. 검색 결과를 가지고 통계적으로 추측하는 것 같다.

그래도 문장 구조는 그럴듯한 것으로 보아, 틀은 만들어놓고 거기에 적절한 단어를 채워넣는 것 같다.

단상6.

context-based search는 오래 걸리고 추상화가 필요하다.
반면 keyword search는 금방 되고 추상화가 필요없다. 해쉬다.

query by humming은 오래 걸리고 추상화가 필요하다.
audio fingerprinting은 금방 되고 추상회가 필요없다. 해쉬다.

시맨틱 웹은 오래 걸리고 추상화가 필요하다.
웹은 금방 되고 추상화가 필요없다.

해쉬는 매우 빠르다. 평균 O(1)이다.

단상7.

데이터가 매우 빠르게 늘어나고 있다. 심지어는 하드디스크나 플래시메모리의 증가 속도를 넘을 정도로 빠르게 증가하고 있다. 이런 정보 폭발은 앞으로 20~30년은 지속될 것으로 보인다. (Communications of the ACM)

http://portal.acm.org/citation.cfm?id=1409360
Communications of the ACM - Surviving the data deluge
Volume 51 Issue 12, December 2008

그때까지 우리는 계속 하드디스크가 부족하고 플래시메모리가 부족할 것이다. 그리고, 정보는 정말로 정말로 빠르게 많아질 것이다.

그러므로 검색 속도가 느리면 찾을 수가 없을 것이다. 간단하더라도 번개같이 찾는 해쉬 알고리듬이 적용되는 분야가 유망할 것이다.

반면 그걸 하나하나 일일이 보고 있고, 이해하려고 하고, 찬찬히 깊게 생각해서 결과를 알려주는 검색은 쩝. 이놈의 정보폭발이 끝나는 20~30년 후에나 필요하지 않을까.

단상8.

Google Goggles도 Shazam처럼 fingerprinting을 하는 것 같다. 이것도 해쉬가 된다.

단상9.

네이트 시맨틱 검색은 엄밀한 의미로는 시맨틱웹이 아니라 그냥 시맨틱이다. 조금 더 엄밀하게 말하자면 시맨틱이라기보다는 카테고리 검색이다.

마치 웹2.0 처럼 시맨틱이라는 말을 마케팅으로 사용하는 것 같다. 뭐 그런게 마케팅이니까.

그러고보니 요즘에는 유비쿼터스라는 말을 안 쓰고 그냥 모바일이라고 하더라. 유비쿼터스라는 말의 인기도 한 철이었나보다.

그보다 정말 인기가 없었던 말로 텔레매틱스가 있지. 처음 KTF Kways 폰에 텔레매틱스라고 대문짝만하게 적어놔서 깜짝 놀랬지. 그래도 Tmap은 그럭저럭은 하는데.

http://www.xacdo.net/tt/rserver.php?mode=tb&sl=2125

  • dawnsea 10/11/11 05:28  덧글 수정/삭제
    요즘은 지속가능성(서스테이너빌러티) 하고 콜라보레이숑이 ...

    으... 뭐 암때나 가져다 붙이는 단어요~;;
    • xacdo 10/11/14 15:55  수정/삭제
      지속 가능한 성장... 이 말은 벤처기업, 신흥공업국가들을 경계하는 말인 것 같구요. 콜라보는 패션에서 시작해서 이제는 아무데나 갖다 붙이는 것 같아요.
  • ㅇㅇ 10/11/12 17:10  덧글 수정/삭제
    네이버는 삼성의 속국
    • xacdo 10/11/14 15:56  수정/삭제
      시작은 그랬으나 지금은 그다지 아니에요. 적어도 돈으로 보면 그렇습니다.
이름
비밀번호
홈페이지 (없어도 됩니다)

비밀글로 등록
작도닷넷은 당신을 사랑합니다.

[이전 목록]   [1] ... [56][57][58][59][60][61][62][63][64] ... [235]   [다음 목록]

최근 글

이웃로그 관리자 옛날 작도닷넷 태터툴즈 ©현경우(xacdo) since 2001