simple and happiness.

搭建小型搜索引擎---原理及工具

搜索引擎基本框架

搭建搜索引擎主要分为三个步骤:Web信息的搜集;信息的索引与检索;Web服务提供接口。


1.信息搜集 

信息搜集的原理是将互联网看成一个大的图,则信息搜集可以看成是图的遍历,目的是为了获取高质量的网页,其搜集的策略就有广度优先搜索和深度优先搜索及网站采集和全局URL采集等。推荐的开源信息搜集工具是Weblech,Weblech的基本流程图为:


2.索引与搜索

在建立索引上,大规模数据的索引常常使用倒排索引,具体的介绍百度百科介绍的挺好:倒排索引,建立倒排索引的流程如下(在分词的同时还需要有英文的词根还原,去除停用词等处理):



检索是用户提交一个查询(Query),搜索引擎查找与该查询相关结果的过程。检索的模型包括布尔模型,向量空间模型等。在检索过程中有一些判断网页等级/重要性的方法比如Google的PageRank,IBM的HITS算法等。

推荐的开源索引及检索工具为全文检索工具包Lucence。关于Lucence的具体介绍见上一篇文章Lucence全文搜索框架


3.Web接口

用户查询请求的处理程序利用脚本语言ASP,PHP,JSP等编写即可。

接口的主要功能为:1)获取用户查询式:把用户通过Form输入的查询语句封装发送给检索服务器。2)显示结果:从检索服务器获取结果,缓存幵分页呈现给用户。

推荐的开源Web服务器工具为Tomcat


About:搜索引擎

1.搜索引擎之父:乔纳森·弗兰彻(发明网络爬虫)

2.关于搜索引擎我们需要的?

  • 建立搜索意识

  • 掌握基本搜索技巧

  • 利用搜索引擎解决问题及的思路

3.谷歌搜索范围最大而百度在国内普遍使用

注意:

  • 领用搜索引擎进行检索时搜索的不是网络而是建好的数据库

  • 搜索引擎不能解决我们所有的问题。

        eg:火车票:12306  买东西:淘宝

4.使用搜索引擎的层次:

  • 1、只会用搜索框输入关键词

  • 2、能利用关键词组合,会一些基本逻辑关系,甚至会利用高级搜索来限定

  • 3、可以实现高校检索,直达结果。(黑客级别)

5.尝试用的搜索引擎:百度,谷歌,必应,360,搜狗

6.搜索的过程:

首先,会把所有的网页建立一个数据库

其次,在搜索框中键入关键字,之后按照某种排序规则排序。

最后,

7.高级检索工具:

  •     谷歌:



百度:



8.关键词And, Or,Not,来实现检索目的

   加空格   相当于And

   -            将结果中的内容减去

 “”        作为一个整体进行搜索

9.如何进行图片检索:谷歌和百度直接点图片

谷歌:



10.按图片搜索的用途:

1).让我们找到这个图片的原始信息

2).可以找到大尺寸的图片

11.搜索命令

  • 怎么在标题中进行检索?

        关键词+英文冒号+关键字:

        eg:intitle:罗绍锋

  • 如何限定文件类型:

        在搜索的关键字后加 filetype:pdf/ppt/doc/docx/txt

  • 在搜索的关键字加 site:ustc.edu.cn   中国科学技术大学


 关键词+site:网址:可以省去在某个网站查找一篇文章时要进行注册的麻烦

12.有些网站不提供检索,可以借助site检索

  • site:edu.cn 表示在中国所有大学网站上进行搜索

  • site:cn 表示在中国的所有网站上进行搜索。

  • site:com 表示在所有公司这类网站上进行搜索

13.其它搜索命令:

inurl


14.命令搜索有极大的自由度:不同的搜索命令就像是不同的武器。

15.影响搜索成功的因素:

  • 搜索技能

  • 背景知识

  • 解决问题的思路 

16.

不断搜索,迭代的过程,

解决问题的思路:换位思考

学习,练习,揣摩。

在图片搜索中:site:ustc.edu.cn  可以搜索出所有在中国科学技术大学的图片

17.快速的自己在的电脑上查找文件:

everything软件

.ppt将所有ppt文件查找出来。 智能搜索文件名和文件路径

评论
© visiontry | Powered by LOFTER