打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
百度对网页搜索的检索质量评价
这个问题真心能写一本书,在百度有上百人从事和评估相关的工作

latent Z 说的七个维度,只是评估网页搜索效果的指标之一:Q-U相关性的评价标准中的一部分(直接从文档里抄下来的小标题啊!专业一点好不好……)

所谓检索满意度是个很虚的东西,但是可以从用户行为中看到端倪。通过分析用户点击顺序、停留时间,点击数量等,能够大概分析出一个用户是否满意,花了多长时间满意,被哪一个结果所满足。或者通过AB Test,Interleaving等方法,可以对比A、B搜索结果的好坏,得到一个相对值。举个简化了的栗子:
某用户搜了【知乎】,然后直接点击了首位的知乎网站,之后没有点别的。基本可以判断为满足了,而且满足程度非常高;
某用户搜了【苍老师最新作品下载】,点了一个结果,过一会又来点另一个,过一会又来点……翻页点了十几个最后走了,他的满足程度可能就很低(都是无效资源啊,下载不了,只能一个一个换)
这类方法的前提是你能够得到大量的用户行为统计,基于这些实际数据进行分析。但现实中并不是总有用户数据,比如新策略还没上线,或者你是竞争对手的人等等。
实际上还有五花八门的人工评估从各个角度判断搜索结果质量。人工评估就是将现实中用户的偏好抽象为几个考察点,比如上面说的七个维度,然后模拟这个过程。我说一点众所周知的思路吧:

对搜索结果中的前N条URL分别进行Query-URL相关性评估,并根据排名赋予权重,计算出一个值,名曰DCG,通过这个绝对数值反映单次搜索前N结果的质量
将同一query下的百度搜索结果和竞品结果进行横向对比,判断好坏及程度,得出谁家搜索质量更好的结论,名曰Side-by-side。 在评估中如果隐去两侧所有品牌标识,并左右环境顺序随机互换,即为盲测,盲测的结论一般都会非常客观反应搜索引擎质量差距。

以上是仅关注搜索结果及其排序的评估方法举例。除此之外,摘要、飘红、sug等感知项目,也都会影响到结论,每种都有自己的评估方法。

最后如何评估,选取关注哪些指标,关键在于你评估的目的是什么了。“检索满意度” 也是个很大的话题啊!


--------------------Update 2013-7-25--------------------
鉴于有人还是觉得这事太抽象,我就举个具体的栗子

第一步:明确评估的背景、目的、你所掌握的资源
在这里我们假设一个第三方研究者,想比较百度和谷歌搜索到底哪个好。这个问题在知乎经常有人讨论,但大家大多只是说自己的使用感受,而没有人能拿出信服的调研数据,现在我们就是要解决这个问题。由于作为第三方研究者很难获取到两个搜索引擎完整的用户行为,即使有了不可控变量也太多,无法得到严谨的结论。但是抓取双方的搜索结果是很容易的

第二步:确定评估方法
评估的基本方法是显而易见的:选定N个query,把每一个query在两边同时搜一下就可以对二者进行横向比较了,最后算一个平均指标。
重点在于指标如何选取,在这里我们可以用上面提到的两种角度,即:
1 对前N结果(一般都是3,有时还有5或10)逐个判断相关性,然后根据位置赋予权重,分别计算两侧搜索结果质量值(DCG)
2 对两侧结果进行综合比较,给出一个相对值(左边好?右边好?好的程度?)

第三步:制定评估标准
这一步很重要,既然要评估,那就一定要先确定下来什么叫“好”,什么叫“差”,标准必须尽量反映用户的真实感受而且始终保持一致。在这个方面,百度也好谷歌也好,都有厚厚的一坨规定,且基本思想大致相同。如果可以搞到一份,那么这个步骤就省力了。

第四步:数据准备
1 抽query:在本次评估的背景下,从数量上来说,使用1000个query作为样本是性价比比较高的选择。太少的话波动大,太多会标到吐血(熟练标注员每人每天可以标100Q左右)。Query必须随机抽取于近期用户自然产生的query,而不是自己凭空编出来的1000个词,这样能够确保Query类型(长短冷热中外...)的分布接近实际比例,进而才有可靠的结论
2 抓网页:query确定下来,就要开始抓百度和谷歌的搜索结果了。为了保证结果公平可靠,应该进行盲测,即隐去两边品牌特征,再狠一点的,应该在评估过程中随机调换左右顺序。这里比较麻烦的是阿拉丁啊,知识图谱啊这类特型展现,熟悉搜索引擎的人一眼就看出是谁家的,这个暂时就没办法了,评估时尽量保持客观中立吧。

第五步:评估
最主要的部分来了,这里要对抓取的结果进行人工评估。你可以自己一个人连评10天;或者找几个人一起做,但是要先对他们进行统一培训,以免标准不一;也可以找一群人,每个人都做一遍,然后取他们平均数也好多数投票也好,当然也得培训了,还得防着滥竽充数的。成本和靠谱程度依次递增。

第六步:统计
这一步没啥好说的,按照之前想好的方式统计一下结果,做个总结就OK了。百度和谷歌谁更好,哪里好,好多少,一清二楚。

然后下一次再和别人讨论百度好还是谷歌好的时候,你“嗖”的一下掏出这份报告,小伙伴们都会惊呆的。那些只知道往外扔一两个badcase来说明问题的人真是弱爆了……百度对网页搜索的检索质量评价
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
百度的搜索排名原则
如何提高搜索能力和效率? | 奔跑中的奶酪
王蒙《深林叠嶂图》御题诗查找
[wbia 2.2] 对检索结果进行评估
如何评价不同搜索引擎的结果好坏?标准有哪些?
冰山一角: 八大搜索引擎
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服