|
前 言 =============================================
以我的使用经验,用户在使用搜索引擎方面,最不满的5个问题是:
1. 信息太少或找不到 2. 检索结果相关性差 3. 死链接 4. 速度慢 5. 用户支持不够
以下从一个普通用户的角度,简单总结了产生这些问题的可能原因,以及针对这些问题的一些已知解决方法,都是有的搜索引擎做过的。
============================================= 1.信息太少或找不到
=============================================
用户使用搜索引擎找到的信息太少或找不到的原因,主要是 1.1错别字 1.2不合理的关键字 1.3没有最新信息
1.4信息采集不够
◆◆1.1错别字:
(用户对所找主题不熟悉、同音字、网络通假字泛滥等各种原因导致的错误关键词很多,但用户很难自己发现自己输了错别字,只会怪搜索引擎找不到信息。多个搜索引擎有针对错别字的解决方案。)
--Yahoo Yahoo的做法也是给出用户正常搜索关键词,但提示可能更正确的关键词。如搜索“britny
spear”,yahoo会提示Other Spellings: Try searching for britney spear
instead。但yahoo的辨别率较低,而且中文雅虎不支持。 --Directhit和NBCi
Directhit的做法是,给用户正常搜索结果,但在“相关搜索”中给出一个可能更正确的关键词。
使用overture之前的NBCi也是这种做法。 --google
Google在给用户正常搜索结果的同时,把可能更正确的关键词显示在搜索结果页顶端,用“你要找的会不会是:”来表示。如用户搜索“chrismas”,会得到“chrismas”的搜索结果和“你要找的会不会是:chrismas”
--excite excite的Zoom In曾有检查拼写错误的功能。正确单词会出现在Zoom In中,后边跟(sp)表示。
--MSN msn采取主动更正错误的方式,用户搜索“britny spear”,会得到改正后的“britney spear”的搜索结果。
--Ask Jeeves Ask Jeeves也是在背后主动改正用户的拼写错误。比如用户搜索"speling" ,Ask会自动搜索
"spelling"。 --openfind和3721 openfind曾提供模糊检索,支持同音、容错,但现在已撤下。
3721的南方音和同音搜索部分解决了用户拼音不好导致的错别字。
◆◆1.2 不合理的关键字: (用户缺乏搜索常识,不懂使用合理的关键词组合,也是找不到信息的原因之一。)
--黄反屏蔽: 有些用户不知道部分搜索引擎会屏蔽黄色和反动词,以为搜索引擎找不到信息。 --自然语言搜索:
(一些搜索引擎向用户提供不同程度的模糊检索或自然语言检索功能,有助于解决用户不懂使用合理关键词组合的问题。)
-Openfind:曾经支持简单的模糊检索。 -askjeeves:凭庞大的问题库来支持自然提问搜索。
-iphrase:基于语义库的自然语言检索。 -webtop和kenjin:可以用整段文章或整篇网页检索,现在均已关闭。
--推广搜索常识 (推广搜索常识,可以提高用户水平,减少这种错误,并培养忠实用户)
-好的搜索帮助文档:某些搜索引擎的搜索帮助写得很好。 -提示搜索技巧:
263、fm365曾在搜索频道首页经常提示搜索技巧; google有时利用搜索结果页提示搜索小常识。
-搜索有奖比赛:新浪、赛迪的两种搜索有奖比赛 -电视宣传: 年初新浪在北京台的电视宣传
近期百度在教育台的电视宣传 -出搜索书籍: Altavista出过一本“The Altavista Search
Revolution”,当时曾有不小的影响。 “我是野虎”搜索引擎出过一本书。 -媒体文章:略
-搜索论坛:新浪搜索论坛效果显著。 --Fast(alltheweb)
Fast的“pre-analysis”功能可以给用户输入的关键词自动加双引号进行词组检索
支持自动辨别长关键词串中的重要单词、删除"noise" words再检索,该功能是默认的,但可在高级设置中关掉。 --Altavista,
(Altavita认为:当用户输入2-4个词时,他们通常在找包含所有单词的文件,但是,当5个以上的关键词,包含多个概念时,用户经常是处于'find
stuff like what I describe
here',即“找一些我描述的这样的文件”的状态,这种情况下,他们并非要求搜索到的文件必须包含所有他输入的单词。)
-对于2-4个单词的关键词,altavsta会从一个大约500,000的短语词典中寻找,如果符合其中的某条短语,就把你的关键词自动当作短语来搜索,但也会返回含有所有单字的网页。
-对于5个或更多单词的关键词,altavista会先寻找符合条件的短语,也会寻找包含部分单词的网页。
◆◆1.3 没有最新信息:
(搜索引擎抓取和索引大数量级网页需要时间,因此存在信息滞后性。但用户不懂这原理,大量的用户用搜索引擎寻找新闻尤其是突发事件,一些搜索引擎采用综合搜索或对部分网页快速更新的方法初步解决了这个问题。)
--Fast(alltheweb) -在传统搜索结果前加最多2条即时新闻,并提供“more news articles”的链接。
-提供独立的新闻搜索,对3000多个新闻网络建立快速索引,最快可检索到1分钟前的新闻。 --inktomi
-对它约1亿的高权值网页库提高索引更新频率(每9天),付费登录网页支持最快每天更新。 --新浪
-综合搜索中含有新浪自己的新闻搜索,并有“更多”链接,指向独立的新闻检索。 --雅虎
-改版后的雅虎在传统搜索结果后加上最多3条自己的新闻标题搜索,并有“更多”链接。 --google
-在传统搜索结果前加最多4条新闻,搜自著名新闻网络(英文)。 -对320万权值高或更新频率高的网页每天更新一遍索引。
-提供一个新闻资源链接网页,提供一个新闻入口网页列出分主题的当天重要新闻。
◆◆1.4 信息采集不够 (这是一个长期存在,需要长期努力的问题)
--支持更多网页类型: frame,redirect,java,动态网页,利用linkanalysis部分索引,各种文字和符号组合的辨别索引
--支持更多文件格式: wkx,mw,xls,flash,pdf,ppt,ps,doc,rtf ,doc,图象,视频,音频……
--提高网页库质量: 去重,减少死链接,优化网页选择策略 --及时更新: 同1.3 --增大网页库数量级:
============================================= 2.检索结果相关性差
=============================================
◆◆2.1 动态分类
(使用同一个关键词搜索,不同用户需求的信息是不同的,比如“石器时代”,他找的是历史相关信息?游戏相关信息?如果是游戏相关信息,他找的又是同名网络?官方网络?战网?游戏介绍?买游戏产品?游戏新闻?攻略?但搜索引擎通常只把一类信息排在前,导致其它信息搜索者认为相关性差。随着网页数量的迅速增长,这问题会更严重,搜索结果动态分类有助于这个“用户信息需求多元化”的问题。)
--northernlight 人工预设目录结合自动归类 --queryserver、vivisimo
主要利用结果摘要提取关键词归类 --teoma 利用超链分析对结果网页归类 --fast
利用dmoz分类目录结合自动归类 --znow 利用详细的预设目录归类 --Guidebeam
对搜索结果网页分析归类 ――oingo 利用语义库分类
◆◆2.2 综合搜索 (用户搜索一次,同时看到跟该关键词相关的多种信息,也有助于改善上边提到的用户信息需求多元化的问题)
--sina:一次提供目录、网络、网页、新闻、商品等多种搜索结果。
--britannica:一次搜索,同时显示产品、书籍、网络、百科全书、杂志、录音带等的搜索结果。
--google:提供字典、分类目录、新闻、股票、电话、地图搜索等,根据关键字显示不同内容。
◆◆2.3 重复信息
--不同网址的相同内容引起的重复 百度:内容类聚 --网络互相抄袭引起的内容重复 Google:相似内容类聚
◆◆2.4 摘要显示影响感觉上的相关性
--动态摘要: Google:动态摘要使搜索结果看上去更相关。 (注:2002年3月,百度已升级为动态摘要)
--结合分类目录摘要: -google对搜索结果中被dmoz收录的网页,加上了dmoz人工编辑的网络摘要,与动态摘要并存。
-openfind利用蓝帆的分类目录给出部分网页搜索结果的摘要。 --网页截图
girafa、searchshots除文字摘要外还提供一张网页截图,用户得到视觉化摘要,更易辨别选择搜索结果。
◆◆2.5 中文切词 (中文切词不准使搜索结果相关性差,是一个长期的、渐进的问题)
--百度的人名中文切词专利
◆◆2.6人工指定部分搜索结果 (人总比电脑更理解人的需求)
--有些搜索引擎对热门关键词的搜索结果作过人工干预,所以这些词的检索结果相关性比其它自动生成的要好。
◆◆2.7 网络直达
|