搜索引擎基本框架
搭建搜索引擎主要分为三个步骤:Web信息的搜集;信息的索引与检索;Web服务提供接口。
1.信息搜集
信息搜集的原理是将互联网看成一个大的图,则信息搜集可以看成是图的遍历,目的是为了获取高质量的网页,其搜集的策略就有广度优先搜索和深度优先搜索及网站采集和全局URL采集等。推荐的开源信息搜集工具是Weblech,Weblech的基本流程图为:
2.索引与搜索
在建立索引上,大规模数据的索引常常使用倒排索引,具体的介绍百度百科介绍的挺好:倒排索引,建立倒排索引的流程如下(在分词的同时还需要有英文的词根还原,去除停用词等处理):
检索是用户提交一个查询(Query),搜索引擎查找与该查询相关结果的过程。检索的模型包括布尔模型,向量空间模型等。在检索过程中有一些判断网页等级/重要性的方法比如Google的PageRank,IBM的HITS算法等。
推荐的开源索引及检索工具为全文检索工具包Lucence。关于Lucence的具体介绍见上一篇文章Lucence全文搜索框架。
3.Web接口
用户查询请求的处理程序利用脚本语言ASP,PHP,JSP等编写即可。
接口的主要功能为:1)获取用户查询式:把用户通过Form输入的查询语句封装发送给检索服务器。2)显示结果:从检索服务器获取结果,缓存幵分页呈现给用户。
推荐的开源Web服务器工具为Tomcat。
About:搜索引擎
1.搜索引擎之父:乔纳森·弗兰彻(发明网络爬虫)
2.关于搜索引擎我们需要的?
建立搜索意识
掌握基本搜索技巧
利用搜索引擎解决问题及的思路
3.谷歌搜索范围最大而百度在国内普遍使用
注意:
领用搜索引擎进行检索时搜索的不是网络而是建好的数据库
搜索引擎不能解决我们所有的问题。
eg:火车票:12306 买东西:淘宝
4.使用搜索引擎的层次:
1、只会用搜索框输入关键词
2、能利用关键词组合,会一些基本逻辑关系,甚至会利用高级搜索来限定
3、可以实现高校检索,直达结果。(黑客级别)
5.尝试用的搜索引擎:百度,谷歌,必应,360,搜狗
6.搜索的过程:
首先,会把所有的网页建立一个数据库
其次,在搜索框中键入关键字,之后按照某种排序规则排序。
最后,
7.高级检索工具:
谷歌:
百度:
8.关键词And, Or,Not,来实现检索目的
加空格 相当于And
- 将结果中的内容减去
“” 作为一个整体进行搜索
9.如何进行图片检索:谷歌和百度直接点图片
谷歌:
10.按图片搜索的用途:
1).让我们找到这个图片的原始信息
2).可以找到大尺寸的图片
11.搜索命令
怎么在标题中进行检索?
关键词+英文冒号+关键字:
eg:intitle:罗绍锋
如何限定文件类型:
在搜索的关键字后加 filetype:pdf/ppt/doc/docx/txt
在搜索的关键字加 site:ustc.edu.cn 中国科学技术大学
关键词+site:网址:可以省去在某个网站查找一篇文章时要进行注册的麻烦
12.有些网站不提供检索,可以借助site检索
site:edu.cn 表示在中国所有大学网站上进行搜索
site:cn 表示在中国的所有网站上进行搜索。
site:com 表示在所有公司这类网站上进行搜索
13.其它搜索命令:
inurl
14.命令搜索有极大的自由度:不同的搜索命令就像是不同的武器。
15.影响搜索成功的因素:
搜索技能
背景知识
解决问题的思路
16.
不断搜索,迭代的过程,
解决问题的思路:换位思考
学习,练习,揣摩。
在图片搜索中:site:ustc.edu.cn 可以搜索出所有在中国科学技术大学的图片
17.快速的自己在的电脑上查找文件:
everything软件
.ppt将所有ppt文件查找出来。 智能搜索文件名和文件路径