网站推广

搜索引擎的体系结构

来源:上海网站设计 点击:次 日期:2015-03-05

    搜索引擎主要体系结构主要包括以下四个部分:用户接口、检索器、索引器、搜集器。

    搜集器:就是负责收集互联网中日新月异的网页信息,保证网页信息的有效性和重要性。可以利用网络爬虫、网络蜘蛛(WebCrawler/Web Spider)程序根据一定的规则自动获取互联网上的网页信息和脚本的程序。它能够通过  HTTP  等协议提取符合条件的网页,并且会定期的查看这些抓取到的网页,看是否为无效的网页,如果是就要删除;如果这些网页已经更新或者关注度很高,就要重新评估并提取这些网页。网络爬虫程序抓取的网页格式主要有:HTML、图片、多媒体等格式,需要将文本信息提取出来。

    索引器:索引器就是为了完成预处理过程。对已经抓取到的网页进行整理,并从中找到索引项,并且用来表示文档以及生成文档库的索引表,并存储在索引数据库中。索引库的质量在搜索引擎系统中具有重要作用,易于实现和维护、占用空间小、搜索速度快是衡量搜索引擎系统好坏的重要标志。一般有倒排文档、矢量空间模型、概率模型等。

     检索器:检索器的主要作用,首先要对用户查询在数据库中进行匹配,并且根据相应的排序策略对返回的结果进行排序,为用户返回搜索结果。

     用户接口:就是为用户提供查询输入和查看返回结果的界面。一般用户可以在搜索引擎主界面中的搜索查询框中输入自己所想要查询的信息:几个短语、句子或者是问话、标点符号;在输出界面中,搜索引擎将检索到结果按照一定的排序手段将得到的网页进行线性排列,供用户选择,其中包含加了颜色的关键字、文档的标题、摘要和超链接等信息。

     以上【 搜索引擎的体系结构 】的内容由协策网络公司(http://www.580plan.com/)为您提供,本文网址: ,转载请注明出处,更多有关上海网站建设,网站优化、微信网站制作(微官网)、手机app开发、商业摄影、企业宣传片制作、400电话、电商代运营等互联网应用服务都可以联系我们。热线:51085186或致电18018609689王经理。

     协策网络公司每天都会不定时更新有关网站建设以及网络营销推广的文章,希望对您有用。


广告1

网站首页
关于协策
协策活动

联系协策

拨打电话 在线QQ 在线咨询 联系地址