POST : 검색&인터넷서비스

검색어 유형분류 (A taxonomy of web search)

아래 내용은 A taxonomy of web search (http://www.sigir.org/forum/F2002/broder.pdf) 라는 논문내용을 토대로  IT구라의 의견을 정리한것이다.

정보검색에서 검색어의 유형은 3가지로 나뉜다고 한다
1. information need (궁금증에 대해 정보를 찾는것이다) : "연말정산계산법", "산세베리아의종류"
2. navigational (내가 가고자 하는 홈페이지의 주소를 알려달라는 것이다) : "국민은행", "티스토리"
3. transactional (온라인으로 어떤 액션을 취하고자 찾는것이다) : "알집다운로드", "브라운면도기"

정보검색을 하는 이유는 대부분 궁금증을 해결하기 위한 정보탐색 욕구로 생각되지만, 검색서비스에 들어오는 쿼리중에서 정말로 정보를 찾는 비율은 50%가 채 안된다고 한다.

3가지 유형에 대해서 좀더 자세히 살펴보자.

navigational
이 유형은 이미 마음속에 정해놓은 사이트의 주소를 찾는것이다. 사람들은 국민은행 이라고 검색할때 이미 마음속에는 국민은행의 홈페이지가 있음을 경험적으로 알고 있고, 그 주소를 보여달라는 것이다. 이렇기에 이 유형의 검색결과는 여러개가 아닌 단 하나일 가능성이 높다.

사람들의 행동유형은 단순하다.
바로 그 사이트 한건을 클릭하고 그 홈페이지로 바로 이동해버린다. 미련없이~

이런 유형의 검색결과는 바로 그 사이트를 최상단에 보여주는것만이 정답이다. 그외의 많은 검색결과는 거의 소비되지 않는다. 한국의 포털에서는 "바로가기" 라는 최상단 한줄로 이 니즈를 해소하고 있는것이다.
검색결과는 전체적으로는 F자 형태로 사람들의 선택을 받지만, 이 유형은 그야말로 최상단에 클릭이 몰릴수밖에 없다.

이 유형의 검색어에 대해 가장 잘 동작하는 검색서비스는 바로 "구글" 이다. 구글의 강력한 크롤링과 Pagerank 랭킹 기술은 이 니즈에 최적화되어 있다. 바로 며칠전에 만들어진 사이트, 웹상에 꼭꼭 숨어있는 사이트라도 검색DB로 가져오고있고, 특정 단어에 대해 어떤 사이트를 실제로 원하는건지를 알아내는 능력이 탁월하기 때문이다.

웹검색에서 이 니즈가 차지하는 분량은 절대 무시할수 없으며, 이 니즈를 잘 해소해주지 못하면 그 서비스는 바로 외면을 받을수밖에 없다. 이미 정답이 정해져있는데 그걸 보여주지 않는 서비스를 지속적으로 사용하겠는가?

Informational
이 유형은 사람들의 경험, 어떤 객체에 대한 정리된 사실등을 얻고자 하는것이다. User는 이미 어떤 답을 알고 찾는것이 아니기때문에 만족할때까지 여러건의 검색결과를 소비하게 된다. 또한 User가 입력하는 키워드역시 거의 동일한 정보니즈 임에도 불구하고 표현이 참 다양해진다. 이 역시 정답이 없기 때문이다.

예를 들어보자.
찾고자 하는 정보가 "돈을 많이 버는 방법" 이라고 할때 사람들은 아래처럼 다양하게 키워드를 만든다
 "돈버는방법", "돈많이버는직업", "돈복많아지는법", "돈버는법", "돈모으기", "돈빨리모으는법"......

거의 같은 정보를 찾으면서 표현이 이처럼 다양해지니, 좋은 검색결과를 구성하기가 참 어려워진다. "돈버는방법"이라는 키워드에는 잘 매치되는 문서가 있지만, "돈모으기"라고 검색하는 사람한테는 보여줄수가 없는것이다.

이 유형에 잘 대처하기 위해서는 어떤조건이 갖춰져야 하는가?

일단 문서가 많아야 한다. 비슷한 정보를 담고 있을지라도 여러가지 표현의 검색어에 매치되기 위해서는 당연히 문서도 여러건이 있어야 한다. 즉 어느정도 내용의 중복이 필수 불가결한 것이다. 카페, 지식, 블로그 컨텐츠가 많은 쪽이 유리할수 밖에 없다.

키워드 처리가 뛰어나야 한다. 사람들은 대부분 키워드를 붙여서 쓰기 때문에 어떤 단어가 핵심단어이고, 어떤 단어가 불필요한 단어인지 잘 구분할수 있어야 한다. 이게 잘되면 같은 양의 DB를 갖고 있더라도 더 많은 결과를 보여줄수 있다.

사람들이 가급적 깨끗한 검색어를 입력할수 있도록 해야 한다. 검색어만 깨끗하다면 훨씬 좋은 결과를 보여줄수 있기 때문이다. 그래서 국내 포털들은 검색어 서제스트라는 서비스를 시행하는것이다.

이 유형에서 한가지 큰 변수가 있다. 바로 이슈성이다.
바로 조금전에 일어난 사건에 대해서 사람들은 많이 궁금해한다. 검색서비스에 대해 이런 니즈가 커지는데 큰 역할을 한것이 바로 "실시간 이슈검색어" 라는 서비스이다. 국내 포털은 이 니즈를 잘 해소하고 있다. 이런 이슈 니즈에 가장 적합한것이 뉴스와 UCC컬렉션들인데 (블로그,지식,카페..) 국내 포털은 이 DB를 자체적으로 갖추고 있기 때문이다. 그렇기때문에 거의 실시간에 가깝게 검색DB화 할수 있는것이다.

구글이 국내에서 홀대받는 가장 큰 이유도 바로 이것이다. 구글은 자체 뉴스,UCC DB가 없기때문에 크롤링을 해와야하고 검색결과로 나오기까지 너무 긴 시간이 걸릴수밖에 없다. 그러니 이슈성 검색어를 구글에서 검색하면 생뚱맞은 결과가 나올수 밖에 없다.

Transactional
 이 유형은 웹에서 어떤 액션을 취하기 위한 니즈가 담겨있는것이다. 예를 들면 온라인쇼핑, 파일,이미지, 음악 다운로드, 우편번호찾기, 경기결과 확인하기, 현재 주가확인, 로또번호확인 등등...

이런 유형의 결과는 한가지로 좋고 나쁨을 기준을 정하기 어렵다. 온라인 쇼핑을 위해서는 가장 가격대가 낮은 제품을 찾아줘야 하고, 파일은 최신버전을 찾아줘야 하고, 이미지는 품질이 좋은걸 찾아줘야 하기 때문이다. 즉 Case by Case이다.

이런 니즈를 해소하기 위해서는 주제별로 별도의 DB를 잘 구축해야하고, 각 주제에 맞도록 결과를 튜닝해야한다. 종류가 많기 때문에 가장 많은 노력이 들어가고, 검색서비스의 차별화 포인트가 되기도 한다.
또한가지 중요한것은 이 유형의 쿼리들은 수익화하기가 좋다. 대부분 비즈키워드일 가능성이 높기 때문이다. 즉 잠재적으로 구매 니즈가 다분한 검색어들이라는 것이다...

이런 유형에서 국내의 검색포털들이 가장 잘 대응하고 있다. 웹검색만을 가지고는 만족을 줄수 없는 영역이다. 구글도 이런 니즈를 해소하기 위해 유니버셜검색 이라는 기술을 적용하고 있지만, 국내포털의 정성에 비해서는 턱없이 낮은 수준이다. 왜냐면 이런 니즈도 사실 해당 액션을 취할수 있는 사이트를 제시하는것으로 끝낼수도 있으나, 국내포털은 그냥 답을 바로 제시해주는 노력들을 하고 있기 때문이다.

이 영역에서 사람의 개입이 가장 많이 필요하다. 적절한 DB를 찾아서 연동하고, 적절한 검색어 유형에 대해 잘 정리해서 보여줘야 하기 때문이다. 구글은?... 이런식의 노력을 싫어하니.. 뭐 어쩔수 없다.

이 논문에서는 3가지 유형의 비중을 아래와 같이 추정한다.
Navigational 20%, Informational 48%, Transactional 30%
이 조사는 2001년 알타비스타 검색사이트의 로그를 기반으로 했기때문에, 요즘의 한국 검색포털의 유형과는 어느정도 차이가 날것이다.

단계로 구분한다면
Navigational -> Informational (스테디) -> Informational (이슈성) -> Transactional 로 발전하고 있다고 본다. 구글은 Navigational, Informational (스테디) 영역에서 경쟁력이 뛰어나지만, Informational(이슈성), Transactional 영역에서는 네이버, 다음 같은 국내포털의 능력을 따라가지 못하고 있다.
위에서 언급했듯이 자체UCCDB의 부재, 사람의 개입 부정 2가지 이유때문이다.

이것이 한국에서 한국형 검색서비스가 장악하고 있는 이유라고 본다.

"IT구라"

top

카테고리