Big Search Engine (BSE)是基于 Elasticsearch(ES) 構建的高可用、可伸縮的非結構化數據全文搜索服務,用戶可準確和高效地查詢所需的文件數據。用戶既可按文件名、文件大小、作者、關鍵字、標簽等這些常規屬性的進行檢索,也可通過文件內容中出現的關鍵字作為檢索條件來查找定位文件,有效解決非結構化數據檢索面臨的挑戰,
面對海量文件,不僅可通過文件名、上傳者、大小等屬性查找,還可以依靠文件內容關鍵字來查找(全文檢索)。
檢索結果不夠準確,想要的文件沒有出現在結果中,但又不記得文件存儲的位置,以及文件名。
BSE在原ES的基礎上,增加了IK analyzer分詞插件和垂直行業詞庫,既有連用科技在非結構化數據方面的計算、存儲、安全等領域的技術優勢,又保持了 Elasticsearch 本身的兼容與開放,能夠為客戶提供穩定、彈性可擴展的搜索服務,幫助客戶聚焦業務本身。
分布式的實時分析搜索引擎;分布式的實時文件存儲,并將每一個字段都編入索引,使其可以被搜索。
01可以擴展到上百臺服務器,處理PB級別的非結構化數據。
02垂直行業專業詞庫,搜索更精準;支持同近義詞搜索,搜索跟全面。
03BSE為不同行業提供專有的分詞庫,使用專有詞庫對內容進行分詞,建立的索引更合理更科學,搜索結果也會更精準。
IK 采用的是“正向迭代最細粒度切分算法分詞模型,它具有如下的優點:
支持對中文,還支持對數字、字母、日文、韓文的分詞處理;
占用的內存空間較小,處理效率非常高;
可以根據垂直領域的不同,定制個性化擴展詞庫,提升分詞的效率與精準度。


用戶在使用搜索引擎過程中,由于表述不清晰或者查詢詞與索引庫描述不一致,為了能展示更多更優質的結果展示給用戶。這時就需要對用戶查詢進行分析,尋找與之相近的概念,以關鍵字為中心擴展包括相關詞匹配、同義詞匹配。
BSE可定制化同義詞、近義詞庫配置,例如:
“鮮花”,可將文檔中包含“玫瑰\百合\康乃馨\向日葵\郁金香\馬蹄蓮”等相近詞的文檔搜索出來;
“上衣”,可將包含“外套\襯衫\T恤\夾克\馬夾”等詞的文檔搜索出來。