1W 字|40 圖|硬核 ES 實戰

前言

我們來講下 Spring Boot 中如何整合 ES,以及如何在 Spring Cloud 微服務項目中使用 ES 來實現全文檢索,來達到搜索題庫的功能。

而且題庫的數據量是非常大的,題目的答案也是非常長的,通過 ES 正好可以解決 mysql 模糊搜索的低效性。

通過本實戰您可以學到如下知識點:

本篇主要內容如下:

主要內容

本文案例都是基於 PassJava 實戰項目來演示的。

Github 地址:https://github.com/Jackson0714/PassJava-Platform

爲了讓大家更清晰地理解 PassJava 項目中 ES 是如何使用的,我畫了三個流程圖:

首先定義 question 索引,然後在 ES 中創建索引。

前端保存數據時,保存的 API 請求先經過網關,然後轉發到 passjava-question 微服務,然後遠程調用 passjava-search 微服務,將數據保存進 ES 中。

一、Elasticsearch 組件庫介紹

在講解之前,我在這裏再次提下全文檢索是什麼:

全文檢索: 指以全部文本信息作爲檢索對象的一種信息檢索技術。而我們使用的數據庫,如 Mysql,MongoDB 對文本信息檢索能力特別是中文檢索並沒有 ES 強大。所以我們來看下 ES 在項目中是如何來代替 SQL 來工作的。

我使用的 Elasticsearch 服務是 7.4.2 的版本,然後採用官方提供的 Elastiscsearch-Rest-Client 庫來操作 ES,而且官方庫的 API 上手簡單。

該組件庫的官方文檔地址:

https://www.elastic.co/guide/en/elasticsearch/client/java-rest/current/java-rest-high.html

另外這個組件庫是支持多種語言的:

支持多語言

注意:Elasticsearch Clients 就是指如何用 API 操作 ES 服務的組件庫。

可能有同學會提問,Elasticsearch 的組件庫中寫着 JavaScript API,是不是可以直接在前端訪問 ES 服務?可以是可以,但是會暴露 ES 服務的端口和 IP 地址,會非常不安全。所以我們還是用後端服務來訪問 ES 服務。

我們這個項目是 Java 項目,自然就是用上面的兩種:Java Rest Client 或者 Java API。我們先看下 Java API,但是會發現已經廢棄了。如下圖所示:

Java API 已經廢棄了

所以我們只能用 Java REST Client 了。而它又分成兩種:高級和低級的。高級包含更多的功能,如果把高級比作 MyBatis 的話,那麼低級就相當於 JDBC。所以我們用高級的 Client。

高級和低級 Client

二、整合檢索服務

我們把檢索服務單獨作爲一個服務。就稱作 passjava-search 模塊吧。

1.1 添加搜索服務模塊

首先我們在 PassJava-Platform 模塊創建一個 搜索服務模塊 passjava-search。然後勾選 spring web 服務。如下圖所示。

第一步:選擇 Spring Initializr,然後點擊 Next。

選擇 Spring Initializr

第二步:填寫模塊信息,然後點擊 Next。

passjava-search 服務模塊

第三步:選擇 Web->Spring Web 依賴,然後點擊 Next。

1.2 配置 Maven 依賴

進入到 ES 官方網站,可以看到有低級和高級的 Rest Client,我們選擇高階的(High Level Rest Client)。然後進入到高階 Rest Client 的 Maven 倉庫。官網地址如下所示:

https://www.elastic.co/guide/en/elasticsearch/client/java-rest/7.9/index.html

Rest Client 官方文檔

<dependency>
    <groupId>org.elasticsearch.client</groupId>
    <artifactId>elasticsearch-rest-high-level-client</artifactId>
    <version>7.4.2</version>
</dependency>
<properties>
	<elasticsearch.version>7.4.2</elasticsearch.version>
</properties>

刷新 Maven Project 後,可以看到引入的 elasticsearch 都是 7.4.2 版本了,如下圖所示:

設置版本爲 7.4.2

 <dependency>
     <groupId>com.jackson0714.passjava</groupId>
     <artifactId>passjava-common</artifactId>
     <version>0.0.1-SNAPSHOT</version>
</dependency>

添加完依賴後,我們就可以將搜索服務註冊到 Nacos 註冊中心了。Nacos 註冊中心的用法在前面幾篇文章中也詳細講解過,這裏需要注意的是要先啓動 Nacos 註冊中心,才能正常註冊 passjava-search 服務。

1.3 註冊搜索服務到註冊中心

修改配置文件:src/main/resources/application.properties。配置應用程序名、註冊中心地址、註冊中心的命名中間。

spring.application.name=passjava-search
spring.cloud.nacos.config.server-addr=127.0.0.1:8848
spring.cloud.nacos.config.namespace=passjava-search

啓動類添加服務發現註解:@EnableDiscoveryClient。這樣 passjava-search 服務就可以被註冊中心發現了。

因 Common 模塊依賴數據源,但 search 模塊不依賴數據源,所以 search 模塊需要移除數據源依賴:

exclude = DataSourceAutoConfiguration.class

以上的兩個註解如下所示:

@EnableDiscoveryClient
@SpringBootApplication(exclude = DataSourceAutoConfiguration.class)
public class PassjavaSearchApplication {
    public static void main(String[] args) {
        SpringApplication.run(PassjavaSearchApplication.class, args);
    }
}

接下來我們添加一個 ES 服務的專屬配置類,主要目的是自動加載一個 ES Client 來供後續 ES API 使用,不用每次都 new 一個 ES Client。

1.4 添加 ES 配置類

配置類:PassJavaElasticsearchConfig.java

核心方法就是 RestClient.builder 方法,設置好 ES 服務的 IP 地址、端口號、傳輸協議就可以了。最後自動加載了 RestHighLevelClient。

package com.jackson0714.passjava.search.config;

import org.apache.http.HttpHost;
import org.elasticsearch.client.RestClient;
import org.elasticsearch.client.RestHighLevelClient;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;

/**
 * @Author: 公衆號 | 悟空聊架構
 * @Date: 2020/10/8 17:02
 * @Site: www.passjava.cn
 * @Github: https://github.com/Jackson0714/PassJava-Platform
 */
@Configuration
public class PassJavaElasticsearchConfig {

    @Bean
    // 給容器註冊一個 RestHighLevelClient,用來操作 ES
    // 參考官方文檔:https://www.elastic.co/guide/en/elasticsearch/client/java-rest/7.9/java-rest-high-getting-started-initialization.html
    public RestHighLevelClient restHighLevelClient() {
        return new RestHighLevelClient(
                RestClient.builder(
                        new HttpHost("192.168.56.10", 9200, "http")));
    }
}

接下來我們測試下 ES Client 是否自動加載成功。

1.5 測試 ES Client 自動加載

在測試類 PassjavaSearchApplicationTests 中編寫測試方法,打印出自動加載的 ES Client。期望結果是一個 RestHighLevelClient 對象。

package com.jackson0714.passjava.search;

import org.elasticsearch.client.RestHighLevelClient;
import org.junit.jupiter.api.Test;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.beans.factory.annotation.Qualifier;
import org.springframework.boot.test.context.SpringBootTest;

@SpringBootTest
class PassjavaSearchApplicationTests {

    @Qualifier("restHighLevelClient")
    @Autowired
    private RestHighLevelClient client;

    @Test
    public void contextLoads() {
        System.out.println(client);
    }
}

運行結果如下所示,打印出了 RestHighLevelClient。說明自定義的 ES Client 自動裝載成功。

ES 測試結果

1.6 測試 ES 簡單插入數據

測試方法 testIndexData,省略 User 類。users 索引在我的 ES 中是沒有記錄的,所以期望結果是 ES 中新增了一條 users 數據。

/**
 * 測試存儲數據到 ES。
 * */
@Test
public void testIndexData() throws IOException {
    IndexRequest request = new IndexRequest("users");
    request.id("1"); // 文檔的 id
    
    //構造 User 對象
    User user = new User();
    user.setUserName("PassJava");
    user.setAge("18");
    user.setGender("Man");
    
    //User 對象轉爲 JSON 數據
    String jsonString = JSON.toJSONString(user);
    
    // JSON 數據放入 request 中
    request.source(jsonString, XContentType.JSON);

    // 執行插入操作
    IndexResponse response = client.index(request, RequestOptions.DEFAULT);

    System.out.println(response);
}

執行 test 方法,我們可以看到控制檯輸出以下結果,說明數據插入到 ES 成功。另外需要注意的是結果中的 result 字段爲 updated,是因爲我本地爲了截圖,多執行了幾次插入操作,但因爲 id = 1,所以做的都是 updated 操作,而不是 created 操作。

控制檯輸出結果

我們再來到 ES 中看下 users 索引中數據。查詢 users 索引:

GET users/_search

結果如下所示:

查詢 users 索引結果

可以從圖中看到有一條記錄被查詢出來,查詢出來的數據的 _id = 1,和插入的文檔 id 一致。另外幾個字段的值也是一致的。說明插入的數據沒有問題。

"age" : "18",
"gender" : "Man",
"userName" : "PassJava"

1.7 測試 ES 查詢複雜語句

示例:搜索 bank 索引,address 字段中包含 big 的所有人的年齡分佈 (前 10 條) 以及平均年齡,以及平均薪資。

1.7.1 構造檢索條件

我們可以參照官方文檔給出的示例來創建一個 SearchRequest 對象,指定要查詢的索引爲 bank,然後創建一個 SearchSourceBuilder 來組裝查詢條件。總共有三種條件需要組裝:

代碼如下所示,需要源碼請到我的 Github/PassJava 上下載。

查詢複雜語句示例

將打印出來的檢索參數複製出來,然後放到 JSON 格式化工具中格式化一下,再粘貼到 ES 控制檯執行,發現執行結果是正確的。

打印出檢索參數

用在線工具格式化 JSON 字符串,結果如下所示:

然後我們去掉其中的一些默認參數,最後簡化後的檢索參數放到 Kibana 中執行。

Kibana Dev Tools 控制檯中執行檢索語句如下圖所示,檢索結果如下圖所示:

控制檯中執行檢索語句

找到總記錄數:29 條。

第一條命中記錄的詳情如下:

平均 balance:13136。

平均年齡:26。

地址中包含 Road 的:263 Aviation Road。

和 IDEA 中執行的測試結果一致,說明覆雜檢索的功能已經成功實現。

17.2 獲取命中記錄的詳情

而獲取命中記錄的詳情數據,則需要通過兩次 getHists() 方法拿到,如下所示:

// 3.1)獲取查到的數據。
SearchHits hits = response.getHits();
// 3.2)獲取真正命中的結果
SearchHit[] searchHits = hits.getHits();

我們可以通過遍歷 searchHits 的方式打印出所有命中結果的詳情。

// 3.3)、遍歷命中結果
for (SearchHit hit: searchHits) {
    String hitStr = hit.getSourceAsString();
    BankMember bankMember = JSON.parseObject(hitStr, BankMember.class);
}

拿到每條記錄的 hitStr 是個 JSON 數據,如下所示:

{
 "account_number": 431,
 "balance": 13136,
 "firstname""Laurie",
 "lastname""Shaw",
 "age": 26,
 "gender""F",
 "address""263 Aviation Road",
 "employer""Zillanet",
 "email""laurieshaw@zillanet.com",
 "city""Harmon",
 "state""WV"
}

而 BankMember 是根據返回的結果詳情定義的的 JavaBean。可以通過工具自動生成。在線生成 JavaBean 的網站如下:

https://www.bejson.com/json2javapojo/new/

把這個 JavaBean 加到 PassjavaSearchApplicationTests 類中:

@ToString
@Data
static class BankMember {
    private int account_number;
    private int balance;
    private String firstname;
    private String lastname;
    private int age;
    private String gender;
    private String address;
    private String employer;
    private String email;
    private String city;
    private String state;
}

然後將 bankMember 打印出來:

System.out.println(bankMember);

bankMember

得到的結果確實是我們封裝的 BankMember 對象,而且裏面的屬性值也都拿到了。

1.7.3 獲取年齡分佈聚合信息

ES 返回的 response 中,年齡分佈的數據是按照 ES 的格式返回的,如果想按照我們自己的格式來返回,就需要將 response 進行處理。

如下圖所示,這個是查詢到的年齡分佈結果,我們需要將其中某些字段取出來,比如 buckets,它代表了分佈在 21 歲的有 4 個。

ES 返回的年齡分佈信息

下面是代碼實現:

Aggregations aggregations = response.getAggregations();
Terms ageAgg1 = aggregations.get("ageAgg");
for (Terms.Bucket bucket : ageAgg1.getBuckets()) {
    String keyAsString = bucket.getKeyAsString();
    System.out.println("用戶年齡: " + keyAsString + " 人數:" + bucket.getDocCount());
}

最後打印的結果如下,21 歲的有 4 人,26 歲的有 4 人,等等。

打印結果:用戶年齡分佈

1.7.4 獲取平均薪資聚合信息

現在來看看平均薪資如何按照所需的格式返回,ES 返回的結果如下圖所示,我們需要獲取 balanceAvg 字段的 value 值。

ES 返回的平均薪資信息

代碼實現:

Avg balanceAvg1 = aggregations.get("balanceAvg");
System.out.println("平均薪資:" + balanceAvg1.getValue());

打印結果如下,平均薪資 28578 元。

打印結果:平均薪資

三、實戰:同步 ES 數據

3.1 定義檢索模型

PassJava 這個項目可以用來配置題庫,如果我們想通過關鍵字來搜索題庫,該怎麼做呢?

類似於百度搜索,輸入幾個關鍵字就可以搜到關聯的結果,我們這個功能也是類似,通過 Elasticsearch 做檢索引擎,後臺管理界面和小程序作爲搜索入口,只需要在小程序上輸入關鍵字,就可以檢索相關的題目和答案。

首先我們需要把題目和答案保存到 ES 中,在存之前,第一步是定義索引的模型,如下所示,模型中有 titleanswer 字段,表示題目和答案。

"id"{
    "type""long"
},
"title"{
    "type""text",
    "analyzer""ik_smart"
},
"answer"{
    "type""text",
    "analyzer""ik_smart"
},
"typeName"{
    "type""keyword"
}

3.2 在 ES 中創建索引

上面我們已經定義了索引結構,接着就是在 ES 中創建索引。

在 Kibana 控制檯中執行以下語句:

PUT question
{
 "mappings" : {
     "properties"{
     "id"{
      "type""long"
     },
     "title"{
      "type""text",
      "analyzer""ik_smart"
     },
     "answer"{
      "type""text",
      "analyzer""ik_smart"
     },
     "typeName"{
      "type""keyword"
     }
  }
  }
}

執行結果如下所示:

創建 question 索引

我們可以通過以下命令來查看 question 索引是否在 ES 中:

GET _cat/indices

執行結果如下圖所示:

查看 ES 中所有的索引

3.3 定義 ES model

上面我們定義 ES 的索引,接着就是定義索引對應的模型,將數據存到這個模型中,然後再存到 ES 中。

ES 模型如下,共四個字段:id、title、answer、typeName。和 ES 索引是相互對應的。

@Data
public class QuestionEsModel {
    private Long id;
    private String title;
    private String answer;
    private String typeName;
}

3.4 觸發保存的時機

當我們在後臺創建題目或保存題目時,先將數據保存到 mysql 數據庫,然後再保存到 ES 中。

如下圖所示,在管理後臺創建題目時,觸發保存數據到 ES 。

第一步,保存數據到 mysql 中,項目中已經包含此功能,就不再講解了,直接進入第二步:保存數據到 ES 中。

而保存數據到 ES 中,需要將數據組裝成 ES 索引對應的數據,所以我用了一個 ES model,先將數據保存到 ES model 中。

3.5 用 model 來組裝數據

這裏的關鍵代碼時 copyProperties,可以將 question 對象的數據取出,然後賦值到 ES model 中。不過 ES model 中還有些字段是 question 中沒有的,所以需要單獨拎出來賦值,比如 typeName 字段,question 對象中沒有這個字段,它對應的字段是 question.type,所以我們把 type 取出來賦值到 ES model 的 typeName 字段上。如下圖所示:

用 model 來組裝數據

3.6 保存數據到 ES

我在 passjava-search 微服務中寫了一個保存題目的 api 用來保存數據到 ES 中。

保存數據到 ES

然後在 passjava-question 微服務中調用 search 微服務的保存 ES 的方法就可以了。

// 調用 passjava-search 服務,將數據發送到 ES 中保存。
searchFeignService.saveQuestion(esModel);

3.7 檢驗 ES 中是否創建成功

我們可以通過 kibana 的控制檯來查看 question 索引中的文檔。通過以下命令來查看:

GET question/_search

執行結果如下圖所示,有一條記錄:

另外大家有沒有疑問:可以重複更新題目嗎?

答案是可以的,保存到 ES 的數據是冪等的,因爲保存的時候帶了一個類似數據庫主鍵的 id。

四、實戰:查詢 ES 數據

我們已經將數據同步到了 ES 中,現在就是前端怎麼去查詢 ES 數據中,這裏我們還是使用 Postman 來模擬前端查詢請求。

4.1 定義請求參數

請求參數我定義了三個:

這裏我將這三個參數定義爲一個類:

@Data
public class SearchParam {
    private String keyword; // 全文匹配的關鍵字
    private String id; // 題目 id
    private Integer pageNum; // 查詢第幾頁數據
}

4.2 定義返回參數

返回的 response 我也定義了四個字段:

定義的類如下所示:

@Data
public class SearchQuestionResponse {
    private List<QuestionEsModel> questionList; // 題目列表
    private Integer pageNum; // 查詢第幾頁數據
    private Long total; // 總條數
    private Integer totalPages; // 總頁數
}

4.3 組裝 ES 查詢參數

調用 ES 的查詢 API 時,需要構建查詢參數。

組裝查詢參數的核心代碼如下所示:

組裝查詢參數

4.4 格式化 ES 返回結果

ES 返回的數據是 ES 定義的格式,真正的數據被嵌套在 ES 的 response 中,所以需要格式化返回的數據。

核心代碼如下圖所示:

格式化 ES 返回結果

4.5 測試 ES 查詢

4.5.1 實驗一:測試 title 匹配

我們現在想要驗證 title 字段是否能匹配到,傳的請求參數 keyword = 111,匹配到了 title = 111 的數據,且只有一條。頁碼 pageNum 我傳的 1,表示返回第一頁數據。如下圖所示:

測試匹配 title

4.5.2 實驗二:測試 answer 匹配

我們現在想要驗證 answer 字段是否能匹配到,傳的請求參數 keyword = 測試答案,匹配到了 title =  測試答案的數據,且只有一條,說明查詢成功。如下圖所示:

測試匹配 answer

4.5.2 實驗三:測試 id 匹配

我們現在想要匹配題目 id 的話,需要傳請求參數 id,而且 id 是精確匹配。另外 id 和 keyword 是取並集,所以不能傳 keyword 字段。

請求參數 id = 5,返回結果也是 id =5 的數據,說明查詢成功。如下圖所示:

測試 id 匹配

五、總結

本文通過我的開源項目 passjava 來講解 ES 的整合,ES 的 API 使用以及測試。非常詳細地講解了每一步該如何做,相信通過閱讀本篇後,再加上自己的實踐,一定能掌握前後端該如何使用 ES 來達到高效搜索的目的。

當然,ES API 還有很多功能未在本文實踐,有興趣的同學可以到 ES 官網進行查閱和學習。

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/UFUItQlYsQrpvkHth1ujFw