搜索引擎(Search Engine)是指因特网上专门提供查询服务的一类网站,这些网站通过网络搜索软件(又称为网络搜索机器人)或网站登录等方式,收集因特网上大量网站的页面,经过加工处理后建库,从而能够对用户提出的各种查询做出响应,提供用户所需的信息。它是一个对互联网资源进行搜索整理和分类,并储存在网络数据库中供用户查询的系统,包括信息搜索、信息分类、用户查询三部分。
1.搜索引擎的工作原理
简单的说,搜索引擎是通过从互联网上提取的各个网站的信息来建立数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。根据搜索引擎提取数据的方法,可将搜索引擎系统可以分为三大类:
(1)目录式搜索引擎
目录式搜索引擎是一种网站级搜索引擎。目录式搜索引擎由分类专家将网络信息按照主题分成若干个大类,每个大类再分为若干个小类,依次细分。一般的搜索引擎分类体系有五六层,有的甚至十几层。先由程序自动搜集信息,然后由编辑员查看信息,人工形成信息摘要,提供目录浏览服务和直接检索服务。由于目录式搜索引擎的信息分类和信息搜集有人的参与,因此其搜索的准确度是相当高的。缺点是需要人工介入、维护量大、信息量少、信息更新不够及时。Yahoo属于这类搜索引擎。
(2)机器人搜索引擎
这种搜索方式是搜索引擎主动派出称为蜘蛛(Spider)的机器人程序定期搜索,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预。缺点是返回信息过多、有很多无关信息、用户必须从结果中进行筛选。Goole、百度属于这类搜索引擎。
(3)元搜索引擎
这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个预先选定的独立搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。优点是返回结果的信息量更大、更全。缺点是用户需要做更多的筛选。
2.搜索引擎的性能指标
1973年美国的Lancaster和Fayen曾列出6项衡量信息检索系统效果的评价指标,即覆盖范围、查全率、查准率、响应时间、用户负担和检索结果输出格式。中文搜索引擎的评价标准主要有:收录范围、查询结果反馈信息的质量、检索款式目的信息量、查错率、更新与报道速度、查询功能、检索界面的友好性、精品推荐、友情链接、响应速度。
搜索引擎的目标就是在非常短的时间内搜索的信息全面并且准确。传统信息检索系统的性能参数召回率和精度同样也可以衡量一个搜索引擎的性能。召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是搜索引擎的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量的是搜索引擎的查准率。对于一个检索系统来讲,召回率和精度不可能两全其美。召回率高时,精度低;精度高时,召回率低。因为没有一个搜索引擎系统能够搜集到所有的NDC网页所以召回率很难计算。