技术知识:详细描述几种常用的搜索引擎技术{图}
搜索引擎(搜索引擎)是一种随着Web信息的急剧增加而逐渐发展起来的技术,从1995开始。
根据网络信息无障碍发表在1999年7月出版的科学杂志1999年7月号的网页数量超过8亿,有效数据超过9tb,仍每4个月翻一番。例如,谷歌目前有10亿个网站,30亿页,3亿9000万张图片,谷歌支持66种语言接口,16个文件格式,在这样一个庞大的数据量,所以面对异构信息,用户需要搜索的内部信息,不会大海捞针。
搜索引擎是解决这一问题的技术,搜索引擎通过一定的策略收集和发现互联网上的信息,理解、提取、组织和处理信息,为用户提供检索服务,从而起到信息导航的作用。
目前,搜索引擎技术可以分为目录搜索引擎,根据信息索引搜索引擎和混合搜索引擎;可分为浏览搜索引擎的关键词搜索引擎,搜索引擎,智能搜索引擎根据查询;和多语种的搜索引擎和跨语言搜索引擎只会一种语言的搜索引擎注意,等。
目录搜索引擎
目录搜索引擎是最早的基于WWW的搜索引擎。以雅虎为代表,我们的搜狐也属于目录搜索引擎。
目录搜索引擎网络信息是根据专家的学科分类分为几类,每类分为若干小类,其次是细分,形成一个可浏览的层次主题索引的搜索引擎,搜索引擎的分类系统有五层或六层,一层是甚至超过十。
目录搜索引擎主要是筛选出对知识的分类编目,目录搜索引擎的信息分类和信息收集,有了人的参与,所以搜索的精度很高,但由于人工信息采集速度慢,在实际监测网不及时的信息,召回不是很好,是一种网络信息搜索引擎。
机器人搜索引擎
机器人搜索引擎通常有三个主要模块:信息采集、信息处理、信息查询,信息采集通常是指爬虫或网络蜘蛛,它通过URL列表自动分析和获取网页。随着信息收集的增加,也就是说,如果页面上有新的链接,新的URL将被添加到URL列表中以供收集。
机器人搜索引擎采用多线程并行搜索技术,主要完成了文档的访问代理,路径选择引擎和访问控制引擎,网页搜索模块基于机器人的搜索引擎主要由四大功能部件,即URL服务器,爬虫,记忆,URL解析器,和三大数据资源,包括资源库、锚库和链接库。此外,我们还需要索引的辅助功能。
具体来说,URL服务器发送的URL爬虫抓取,根据URL的网页抓取和存储,存储在一个数据仓库存储压缩的网页,然后通过分析索引的每个网页的所有链接和相关的重要信息存储在数据库文件的URL的锚。解析器读取锚库文件和解析URL,然后把它变成它反过来。然后在锚文本转化为索引的索引和发送到索引库。具体流程如图1所示。
元搜索引擎
元搜索引擎,又称set搜索引擎,是指在统一的用户查询界面和信息反馈形式下共享多个搜索引擎信息资源的系统,元搜索引擎是搜索引擎的一种搜索引擎。
元搜索和一般搜索引擎最大的区别在于它不可能有自己的资源库和机器人。它作为一个中介,接受用户的查询请求,将请求到搜索引擎查询语法。发送查询请求所有的搜索引擎和获得反馈后,我们首先整理相关度排序,然后返回查询结果排序后的用户。元搜索引擎的查全率高,搜索范围越来越大,而且精度也不低。
元搜索引擎包括Web服务器、数据库、检索结果处理、web处理界面和结果生成等几个部分,用户可以通过Web接口访问Web服务器元搜索引擎和元搜索引擎,访问其他外部搜索引擎,其系统结构如图2所示。
用户访问搜索引擎通过WWW服务和提交检索到Web服务器,Web服务器接收到查询时,首先访问数据库,检查是否同最近的搜索,如果有保存的结果,完成查询直接返回;如果不相同的检索,检索和分析对应找到搜索引擎检索的格式,然后发送到网络接口模块。
Web处理接口查询多个搜索引擎在以平行的方式同时集中在一起的结果。根据每个搜索引擎的重要性和结果的相关性,结果进行排序,并将最终结果返回给用户。同时,保存结果你自己的数据库,参考下。
跨语言搜索引擎
跨语言综合搜索引擎在一般搜索引擎的基础上增加了两种功能:不同语言查询之间的转换和不同搜索引擎的搜索结果的集成。一种是基于单一搜索引擎,另一种基于多搜索引擎。
目前,研究最多的是跨语言的文本检索、跨语言检索、跨语言检索主要包括信息检索和知识在这两个领域的机器翻译,但它不是一个技术的简单融合。跨语言检索系统的检索功能,可以利用现有的检索系统来实现,或它还可以重建新的检索系统或搜索功能模块。
跨语言搜索引擎的工作过程如下:用户提交检索词,形成一个源语言搜索系统,语音识别搜索,识别语言的词法分析和结构分析的问题,然后对搜索型翻译成各种语言最后的分析,这一系列的提交该系统的搜索可以检索。
检索结果是一个多语言的页面,如果多个搜索引擎被使用并转换成不同的语言,就必须注意各种搜索引擎的不同搜索引擎,比如新浪搜索中文信息就比较好。然后将查询词转换成新浪网的搜索表单。雅虎对英文信息的搜索结果比较好,所以我们把问题词提交给雅虎。
对于多语言搜索,有几种情况:检索词是不同的语言,检索结果是不同的。这种情况是不翻译,它是难以区分的搜索引擎。例如,在谷歌输入知识发现,所有语言的选择,只要知识发现和知识可以检索,不管页面是中文,或英文或日文,搜索引擎是不是字识别和检索语言,它不是一个真正的跨语言搜索引擎。其次是检索词是同一种语言,而不同语言的检索结果。
U3000 U3000 U3000 U3000
U3000 U3000 U3000 U3000
U3000 U3000 U3000 U3000 U3000
U3000 U3000 U3000 U3000
U3000 U3000 U3000 U3000
U3000 U3000 U3000 U3000