1.6 本章小结
本章详细介绍了商业搜索引擎技术。其实,大多数搜索引擎之间没有绝对的界限,往往是交叉运用的。
1995年,Larry Page和Sergey Brin达成了共识——从大量数据中检索信息是计算系统面临的最大的挑战之一。1996年,他们创建了一个叫作BackRub的搜索引擎,就是之后Google。1998年,Page和Brin创立了Google公司的第一个数据中心。2000年,Google成为全球最大的搜索引擎。2005年,Google公司的股票市值超过1000亿美元,“让世界更美好”是其目标之一。
1999 年,曾经在苹果公司用 C++语言开发过全文检索软件的 Doug Cutting 用 Java语言重新编写了一个名为Lucene的全文检索软件包,可以使用Lucene实现一个简单的Web 搜索引擎。Solr 是网站(https://www.cnet.com)的内部系统演化出来的一个基于Lucene 的开源项目。2004 年,CNET 启动 Solr 项目的前身——Solar。2005 年,CNET产品目录搜索开始使用Solar。2006年1月,CNET把这个搜索项目代码赠予Apache,并命名为Solr。2010年,Solr和Lucene合并。关于Solr的文档介绍在http://wiki.apache.org/solr。在Solr 8.0以上的版本中,Solr节点可以侦听并提供HTTP/2请求。
HttpClient项目始于2001年,最开始是Jakarta Commons的子项目,基于由Jakarta Slide项目开发的代码。2004年它被从Commons子项目中选出来,成为一个独立的Jakarta项目。2005年,HttpComponents项目创建于Jakarta,任务是发展继任的HttpClient 3.x,并非维护现有的代码库,直到新的项目准备接管。2007 年,Commons 项目,也就是HttpClient的摇篮,成为一个独立的顶级项目,同年,HttpComponents项目也离开Jakarta,成为一个独立的顶级项目,和Commons项目一起担负维护HttpClient的责任。
Gradle是一个基于JVM的构建工具。在Gradle中,可以使用Groovy语言编写构建脚本。Gradle的构建脚本build.gradle和setting.gradle都是可执行的。Gradle是为可能会变得很大的多项目构建而设计的。Gradle通过智能地确定构建树的哪些部分是最新的来支持增量构建,以便任何依赖于这些部分的任务不需要重新执行。
Tomcat是第一个实现Java EE Servlet规范的Java Web服务器,已于1999年由Sun Microsystem公司赠予Apache Software Foundation,从那时起逐渐被称为Jakarta Tomcat及Apache Tomcat。
模板引擎使用户可以在应用程序中使用静态模板文件。在运行时,模板引擎用实际值替换模板文件中的变量,并将模板转换为发送到客户端的HTML文件。使用这种方法可以更轻松地设计HTML页面。
尽管NetBeans IDE(集成开发环境)是专门为Java开发人员设计的,但除了Java、JavaScript和JavaFX,它还支持C/C++、PHP、Groovy和HTML5。
JSON是一种与语言无关的数据格式,源于JavaScript,许多编程语言包括生成和解析JSON格式数据的代码。
curl是一个HTTP命令行工具,可以通过curl发送命令和Solr节点交互。