摘 要:針對目前全文搜索引擎的檢索效率低,引擎提供的檢索幫助不夠完善的實際情況,結合并借鑒諸多檢索網站的優(yōu)點,提出了將檢索幫助置于顯見位置、普及和改進高級檢索、在全文檢索中引入分類體系、對搜索引擎的信息來源網站進行主題分類、增加同義詞的檢索幫助以及引導用戶參與設計檢索幫助等方面的改進建議。
作者簡介:冷玥(1990-),北京大學信息管理系學生。研究方向:信息管理與信息系統。 隨著以百度、google為代表的全文搜索引擎在人們生活中扮演愈加重要的角色,人們也提出了在使用全文搜索引擎進行檢索過程中遇到的一些實際問題。其中,檢索效率低,需要全文搜索引擎提供更加有效的檢索幫助是一個突出的問題。
全文搜索引擎是真正意義上的搜索引擎,全文搜索引擎的數據庫是通過一個叫“網絡機器人(英文為spider)”的軟件,將網絡上的各種鏈接自動獲取大量的網頁信息,并按一定的規(guī)則分析整理而形成的。全文搜索引擎的“網絡機器人”是一種網絡上的軟件,遍布web空間,能夠掃描到一定ip地址范圍內的網站,并沿著網絡上的鏈接從一個網頁到另一個網頁,從一個網站再到另一個網站去收集網頁資料。全文搜索引擎的“網絡機器人”為保證收集到的信息資源最新、最全,還會再回訪已抓取過的網頁。“網絡機器人”收集的網頁,還要由其他程序進行分析,根據一定的相關度算法進行大量的計算建立起網頁索引,這樣才能添加到索引數據庫中。平時看到的全文搜索引擎,實際上只是一個搜索引擎系統的檢索界面,當用戶輸入關鍵詞進行搜索時,搜索引擎會從龐大的數據庫中找到符合該關鍵詞的所有相關網頁的索引,并按一定的排列規(guī)則返給用戶。
綜上所述,全文搜索引擎的原理主要分為三個部分:首先是從internet上抓取網頁。利用“網絡機器人”系統程序從internet上自動收集網頁,自動訪問internet,并沿著任何網頁中所有的統一資源定位符爬到其他網頁,再經過多次過程重復,并把爬過的全部網頁收集起來;其次是建立索引數據庫。利用分析索引系統程序對收集起來的網頁內容進行分析,并提取有關的網頁信息,通過復雜大量的計算,算出每一個網頁針對頁面內容中及超鏈中每一個關鍵詞的相關度,再由這些相關的信息建立起網頁索引數據庫;最后是在索引數據庫中搜索排序。當用戶輸入關鍵詞搜索后,利用搜索系統程序從網頁索引數據庫中找出符合所輸入關鍵詞的全部相關網頁。因為全部的相關網頁對所輸入關鍵詞的相關度已經計算出來,并對結果進行了優(yōu)化,然后再由頁面生成系統將搜索結果的鏈接地址和頁面內容、摘要等有關內容呈現給用戶\[1-3\]。
目前,全文搜索引擎得到了快速發(fā)展和廣泛應用,其功能也越來越強大,但仍然存在著檢索效率不高的問題,雖然一些搜索引擎和一些具有檢索功能的網站設置了檢索幫助,但通過分析研究發(fā)現,全文搜索引擎檢索幫助也有很多薄弱環(huán)節(jié),主要體現在受控較弱,很難從一個完整的分類體系的角度為用戶提供有價值的檢索幫助,也可以理解為很難將用戶的檢索范疇限制在想要檢索的信息存在的范圍內,用戶需要在返回的海量信息中尋找自己真正需要的信息。整個網絡就是一個超級大型的信息資源數據庫,而且無法用一個完整的分類體系對信息資源進行分類、分區(qū),用戶依然需要經過對信息資源內容進行篩選,如果用戶面臨的信息資源來自較大的范圍,就不得不花大量的時間在浩如煙海的大型信息資源數據庫中進行信息的篩選。因此可以將思路鎖定于尋找一種可以縮小檢索范圍的檢索幫助之中,從對全文搜索引擎檢索幫助的分析研究中發(fā)現,對其檢索幫助進行改進和完善是必要的和可行的\[4,5\]。
經分析研究,針對全文搜索引擎檢索幫助存在的薄弱環(huán)節(jié),結合并借鑒諸多檢索網站的優(yōu)點,建議從以下幾個方面對全文搜索引擎檢索幫助進行改進。
在分析研究過程中發(fā)現,幾家常用的全文搜索引擎的幫助選項都位于頁面的下方而且沒有用顯眼的標志進行標記,用戶一旦遇到了問題,很難發(fā)現可以
助于搜索引擎本身,而幫助中的內容,比如說選擇檢索詞的原則,模糊檢索的可能性等等,他是和用戶的檢索工作息息相關、不可分割的。因此改進檢索幫助應該包括讓用戶可以很容易地獲得需要的幫助。目前,很多用戶在使用的過程中都不知道搜索引擎存在專門的檢索幫助鏈接,只能憑借經驗進行搜索,這是一個不應該出現的現象,也應該是檢索幫助的改進方向。
對于全文檢索來說,合理的限制越多,返回的信息量越少,需要進行篩選的時間花費的越少,檢索效率提高的也就越多。但同時發(fā)現,用戶很難全面地想出足夠多的限制詞來修飾自己想要檢索的信息資源,高級檢索的存在則是從信息資源的形式角度提出限制的可行方法。舉個例子來說,如果有用戶想檢索軍事坦克的內容,若是單純輸入坦克,返回的內容可能還包括玩具坦克的介紹,那么利用高級搜索,他就可以選擇過濾掉玩具坦克有關內容的檢索結果,減輕自己篩選的負擔。同時,也可以對檢索幫助的功能進行完善。比如說從更多的角度提供對檢索內容進行限制的條件。目前的檢索限制條件還是比較少的,尤其是無法啟發(fā)用戶從檢索詞表達的具體內容上對檢索詞進行改進。
從信息資源進行分類的角度來看,建議使用預先編制的控制詞表來提供全文搜索引擎的檢索幫助。這是由于控制詞表一般根據資源的整體和使用需要來進行設置,是根據檢索系統全局使用的需要建立的輔助方式,盡管在形式上與傳統的敘詞表相類似,傳統的敘詞表沒有控制詞表那樣苛刻。在檢索時,檢索系統先將用戶的檢索提問和控制詞表匹配,通過控制詞表中的同義詞控制來進行檢索。該方法的優(yōu)點是能夠在一定程度上提供概念檢索,并利用相關檢索詞的優(yōu)化來選擇幫助,其缺點是該系統目前還沒有真正實現自動化。但同時可以看到,現在的分類網站采用的分類體系與傳統的分類法是不同的,更加適合于處理網絡信息資源。以前百度所作的檢索幫助改進嘗試,更多的是想用傳統的辦法解決現在的問題,因此建議應該基于現在流行的網絡分類法來整理全文搜索引擎搜集到的大量信息資源,也可以借鑒垂直搜索引擎的做法,先將用戶常用的信息資源集中的領域進行重新的組織,對于表達同一主題的信息進行集中,經過處理后,使得用戶輸入的每一個關鍵詞都能對應特定的結構化的處理結果。如果真實現了這樣一個檢索幫助體系,用戶可以根據給定的分類,觀察自己選擇的檢索詞在整個分類體系中的位置,以及它的上位類、下位類所對應和囊括的概念是否與自己的預期相同,以便從檢索詞實際表達的內容角度調整檢索詞。如果返回結果偏多,可以從下位類中選擇相應的合適詞進行再次檢索,如果返回的結果偏少,沒有得到自己想要的信息,可以適當選擇之前關鍵詞的上位類進行檢索。 3.4 對搜索引擎信息的來源網站進行分類
如果用統一的分類體系對搜索引擎上的信息進行分類存在困難,也可以考慮在規(guī)模較大的搜索引擎上對信息資源的來源網站進行分類,分類的依據是網站的信息主題。比如說,起點網就是提供網絡小說相關信息的網站,智聯招聘網就是招聘信息的網站。這樣,用戶可以考慮直接在這些網站中進行站內搜索,避免了在搜索引擎中進行猶如大海撈針般的信息檢索;同時,這種方式也可以看作從大的集合方面將搜索引擎的信息進行分類。用戶在進行信息檢索時,這種分類方法會幫助用戶劃定檢索范疇,提高檢索效率。
現在的搜索引擎在同義詞控制方面還比較薄弱,如果不能從技術上實現同義詞之間返回結果的完全相同,可以從檢索幫助的角度,提供基于同義詞的相關檢索。比如說檢索“手機”和檢索“移動電話”返回的檢索結果是不同的,而在以“手機”或者“移動電話”作為檢索詞的檢索中,都沒有將其他表示這一概念的詞作為相關詞條提供給用戶。這種現象可能導致用戶獲得信息的不完全。如果在檢索幫助中加入必要的同義詞作為相關檢索詞條,很可能會為用戶提供有用的啟示。比如說,自己選擇的檢索詞是不是已經不是表達這一概念的常用詞?是不是有更好、更專指的詞可以表達這一概念?基于同義詞的檢索幫助是用來彌補搜索引擎當今設計中的缺陷,有助于提高用戶檢索的質量,保證用戶檢索的效率。
個性化搜索引擎概念的提出,將搜索引擎應切合用戶需求的理念植入了引擎設計者的設計過程中。因此應根據用戶的使用需要來設計引擎,但是用戶的需要千差萬別,很難用一個通用模式顧及到所有用戶的檢索需求。在設計檢索幫助的過程中,可以將有著相同檢索熱點的用戶歸為一類,為這一類用戶編制其經常進行檢索主題的分類檢索幫助或者類敘詞表檢索幫助,筆者認為類敘詞表處理會更具健壯性和實用性,因為它可以同時提供主題和分類檢索,在進行網絡檢索的時候,主題詞應該比分類詞來的更加直接,但是分類主題詞表編制的難度也較大(范圍縮小,實用性增強)。在此類檢索幫助的形式上,可以借鑒百度曾經利用過的檢索幫助的形式,在檢索頁面的一側提供分類體系,也可以借鑒淘寶網的檢索幫助形式,即在檢索下拉列表框之下直接給出分類建議。
可以模仿和的方式,由經常檢索相同主題的用戶為這一主題提供檢索詞條甚至編排分類檢索幫助(實際應用中,分類詞表的編制可以不嚴格,分類能有效描述檢索需求即可),也可以實行檢索詞條共享,用戶將自己檢索時用得比較有效率的詞條與網友共享,適當的時候替代現在廣泛使用的相關檢索。同時,由專業(yè)人員設計的檢索幫助可能無法覆蓋檢索的各個領域,由用戶參與檢索幫助的編制,一定程度上可以使得檢索幫助分領域深入下去,并能緊跟用戶新的需要進行調整,滿足更多用戶的檢索需求。
在用戶的反饋中,能體現出其對事物認知的特點,也可根據這種特點進行檢索幫助,按認知類型將用戶分類,互相借鑒檢索詞條,實現互補。依據用戶的搜索記錄,針對用戶進行二次甚至多次檢索的檢索方向,根據用戶的認知特點。比如說有些人喜歡從總體上描述一個概念,而不善于將概念細化,而有些人恰好相反,只能將概念具體到一定程度,不會從大的方向上來把握檢索。將這樣的兩個小組結為互助小組,用戶可以分享檢索過程中的經驗和教訓,彌補自身的不足??梢哉f,這種形式是檢索幫助由系統設定算法向人際交流的幫助形式進行的過渡。畢竟人與人之間的交流更直接,希望這種方式也能成為一個檢索幫助可靠的改進方向。
從目前的全文搜索引擎檢索幫助的分析研究中發(fā)現,檢索幫助確實能在幫助用戶提高檢索效率方面提供一定的幫助,但是還有提高的余地,尤其是全文搜索引擎在檢索的時候受控較弱,在檢索幫助中提供一定的受控方向是必要的。在此過程中,可以著重考慮如何才能協助用戶劃定一個合理的檢索范疇,很好地解決了這個問題,就能很好地為用戶提供必要的檢索幫助。在思索檢索幫助的改進時,傳統的信息組織理論,包括分類法、主題法等在解決網絡信息資源組織的種種問題時依然是可以借鑒的。因此在以后的實踐中,還要重視傳統信息組織方法的利用,讓信息組織方法與時俱進,為人們提供更多的幫助,更多的思考,并在以后的實踐中不斷的加以完善。
\[1\] 徐海燕,劉勇.搜索引擎的工作原理及發(fā)展趨勢\[j\].科技創(chuàng)新導報,2010(11):25.
\[2\] 趙力.網站全文搜索引擎技術的初步研究及應用\[j\].科技信息,2009(11):32-33.
\[3\] 趙淑梅.全文搜索引擎技術\[j\].鄭州鐵路職業(yè)技術學院學報,2008(3):12-14.
本文來源網絡由中國學術期刊網(www.brjzjx.com)整理發(fā)布,本站轉載的內容出于非商業(yè)性的教育和科研之目的,并不意味著贊同其觀點或證實其內容的真實性。如涉及版權等問題,請與我們聯系,我們將立即進行刪除處理。