基于復(fù)雜網(wǎng)絡(luò)的圖情檔學(xué)科文獻熱點挖掘-經(jīng)濟職稱論文發(fā)表范文

來源：職稱論文咨詢網(wǎng)發(fā)布時間：2022-06-05 21:22:55

摘要： [目的/ 意義] 跨學(xué)科、跨領(lǐng)域研究已經(jīng)成為學(xué)術(shù)研究的趨勢，針對圖情檔學(xué)科的文獻熱點分析，有助于研究者快速掌握該領(lǐng)域的熱點問題和未來趨勢，也為跨領(lǐng)域融合提供理論參考。 [方法/ 過程] 以 2016—2021 年圖情檔學(xué)科文獻為研究對象，利用復(fù)雜網(wǎng)絡(luò)技術(shù)構(gòu)建文獻關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)，使用 Gephi 網(wǎng)絡(luò)分析及可視化工具對圖情檔學(xué)科文獻熱點進行挖掘。 [結(jié)果/ 結(jié)論] 挖掘出圖書館學(xué)、情報學(xué)和檔案學(xué)的熱點研究主題后，從圖情檔一級學(xué)科的視角綜合分析現(xiàn)有文獻熱點的特征，試圖提出該學(xué)科下一步的學(xué)科熱點主題和研究方向，為后續(xù)研究者提供指引和參考。　　關(guān)鍵詞：圖情檔學(xué)科; 復(fù)雜網(wǎng)絡(luò); 文獻熱點　　當(dāng)今互聯(lián)網(wǎng)背景下的信息技術(shù)革命顛覆了各行各業(yè)，教育領(lǐng)域尤為突出。由美國西姆學(xué)院提出的“新文科” 概念，于 2018 年 8 月正式出現(xiàn)在我國中共中央發(fā)布的文件中。 2019 年，為了全面推進“四新” (即新工科、新醫(yī)科、新文科、新農(nóng)科)建設(shè)，教育部、科技部等 13 個部門聯(lián)合啟動了 “六卓越一拔尖” 計劃 2. 0[1]，至此 “新文科” 建設(shè)開始落地實施。 2020 年，在山東大學(xué)召開的新文科建設(shè)會議中發(fā)布了《新文科建設(shè)宣言》，全面部署新文科建設(shè)的相關(guān)工作[2]。　　“新文科” 建設(shè)已成為我國今后高等教育所要著力推進的核心工作，在此背景下，圖書情報與檔案管理(以下簡稱圖情檔)學(xué)界的不少學(xué)者對圖書情報學(xué)科的發(fā)展趨勢進行積極的探索。初景利[3] 認為，應(yīng)積極響應(yīng)新文科建設(shè)的戰(zhàn)略，強化圖情檔學(xué)科與其他學(xué)科的交叉融合，致力于實現(xiàn)圖情檔從 “軟學(xué)科” 到 “硬學(xué)科” 的再造。馬費成等[4] 提出要從關(guān)注社會需求、重視交叉融合、加強理論創(chuàng)新、堅守人文傳統(tǒng)等方面來思考圖情檔學(xué)科未來發(fā)展。　　柯平[5] 認為，圖情檔學(xué)科要迎合新文科建設(shè)的相關(guān)政策，努力打造出跨界融合的新文科建設(shè)模式。可見，圖情檔學(xué)科將在新文科建設(shè)征程中大有可為，提高圖情檔學(xué)科的科研水平，大力培育與其他學(xué)科交叉融合的新興學(xué)科，是當(dāng)前圖情檔學(xué)科建設(shè)所面臨的重要問題。圖情檔學(xué)科要想適應(yīng)和契合新文科戰(zhàn)略部署，必須重新審視本學(xué)科現(xiàn)有的定位。　　圖情檔學(xué)科作為一級學(xué)科，在學(xué)科門類上隸屬于管理學(xué)，管理學(xué)既不是純粹的理科，也不是純粹的文科，本身具有很強的交叉學(xué)科性質(zhì)[3]。近年來，圖情檔學(xué)科在人工智能、數(shù)據(jù)科學(xué)、公共文化管理、信息學(xué)、數(shù)字人文等新興領(lǐng)域?qū)崿F(xiàn)了跨學(xué)科的融合發(fā)展，并積累了大量的學(xué)術(shù)成果。要想更好地迎接新文科建設(shè)下的挑戰(zhàn)，就需要對圖情檔學(xué)科既往的研究成果進行綜合分析，挖掘出圖情檔學(xué)科研究熱點，既可為該領(lǐng)域及跨領(lǐng)域的研究者作出指引，也可提升圖情檔學(xué)科的學(xué)術(shù)科研水平。　　筆者分析現(xiàn)有的圖情檔學(xué)科的研究熱點文獻，發(fā)現(xiàn)研究成果不超過 5 篇，其中孫艷紅[6]、吳維芳[7]、柴歡等[8] 都是對該學(xué)科領(lǐng)域內(nèi)科研立項的情況進行統(tǒng)計分析，且多是通過簡單的圖表和描述性文字來分析數(shù)據(jù)，對關(guān)鍵詞的統(tǒng)計和劃分也帶有很大的主觀能動性，缺乏系統(tǒng)的文本處理方法和科學(xué)的關(guān)鍵詞提取技術(shù)。因考慮到科研立項情況并非能涵蓋所有的圖情檔學(xué)科研究熱點，為更好地幫助研究者快速掌握該領(lǐng)域內(nèi)全部的研究熱點，故以 2016—2021 年圖情檔學(xué)科文獻為研究對象，利用復(fù)雜網(wǎng)絡(luò)技術(shù)構(gòu)建文獻關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)，使用 Gephi 網(wǎng)絡(luò)分析及可視化工具挖掘圖情檔學(xué)科的熱點研究主題，從而揭示圖情檔學(xué)科熱點研究領(lǐng)域及各領(lǐng)域熱點研究主題。　　1 相關(guān)研究　　復(fù)雜網(wǎng)絡(luò)是對存在的網(wǎng)絡(luò)現(xiàn)象及其復(fù)雜性進行解釋的學(xué)科[9]，因其以圖像化的方式再現(xiàn)系統(tǒng)中各大主體及其之間的關(guān)系而受到不少學(xué)者的關(guān)注。該理論已被應(yīng)用于文獻挖掘領(lǐng)域，其理論模型是由大量的節(jié)點和連接兩端節(jié)點的邊組成。熱點挖掘和識別是文獻分析研究的重要方法之一，其是指探析一個學(xué)科領(lǐng)域的研究熱點及其連接關(guān)系[10]。　　分析文獻本身就是一個復(fù)雜、多階段和耗時的過程，因此 Feng L 等[11]認為，在系統(tǒng)分析文獻時要使用一定的文本挖掘技術(shù)和工具。關(guān)鍵詞是文獻文本挖掘中不可忽視的重要信息，是一篇文獻表達其主題的重要手段。通過對某一學(xué)科領(lǐng)域內(nèi)現(xiàn)有文獻的關(guān)鍵詞進行集合性分析，可揭示所在學(xué)科領(lǐng)域的總體特征、研究熱點、研究主題及發(fā)展趨勢等特性。國內(nèi)外學(xué)者基于復(fù)雜網(wǎng)絡(luò)挖掘文獻熱點展開了積極的探索。　　如 Su X 等[12]對數(shù)字圖書館文獻進行關(guān)鍵詞的統(tǒng)計和聚類分析，基于復(fù)雜網(wǎng)絡(luò)原理將提取到的關(guān)鍵詞進行兩兩不重復(fù)的、無序的組合后，統(tǒng)計出每一對關(guān)鍵詞出現(xiàn)的頻次，形成共現(xiàn)矩陣，最終結(jié)合復(fù)雜網(wǎng)絡(luò)中社區(qū)發(fā)現(xiàn)原理來挖掘不同的研究主題及主題之間的關(guān)系; Schossboeck J 等[13] 結(jié)合期刊內(nèi)容，使用文本挖掘、主題建模、 k-means聚類、社會網(wǎng)絡(luò)分析和社區(qū)檢測等數(shù)據(jù)挖掘方法，分析某一期刊上發(fā)表過的所有論文. 　　最后從期刊管理的角度對研究結(jié)果進行深入地定性解釋; 辛娟娟等[10]也運用復(fù)雜網(wǎng)絡(luò)中社區(qū)識別技術(shù)對林業(yè)領(lǐng)域的文獻進行挖掘，最終總結(jié)出八大主題研究領(lǐng)域;蔡婷婷等[14]基于復(fù)雜網(wǎng)絡(luò)理論對關(guān)鍵詞進行分析，總結(jié)出危險品運輸領(lǐng)域公路運輸、道路運輸和層次分析法三大研究熱點; 徐小瑩等[15] 基于網(wǎng)絡(luò)嵌入進行大規(guī)模關(guān)鍵詞共詞分析，最終分析出近四年來圖情學(xué)科熱度的持續(xù)、增加和減退的研究主題。復(fù)雜網(wǎng)絡(luò)的理論和文獻熱點挖掘技術(shù)在圖情檔學(xué)科領(lǐng)域暫處于起步階段，研究成果較少，這也為本文的研究提供了理論和實踐上的價值。　　2 研究思路與框架　　本研究首先利用 TF-IDF 方法提取文獻語義表征，然后利用 DBSCAN 聚類算法發(fā)現(xiàn)研究主題較為集中的文獻簇，最后利用復(fù)雜網(wǎng)絡(luò)技術(shù)構(gòu)建文獻關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)，使用 Gephi 網(wǎng)絡(luò)分析及可視化工具挖掘圖情檔學(xué)科的熱點研究主題。　　2.1 文獻采集　　筆者以 “圖情檔” “圖書情報檔案” “檔案”“檔案學(xué)” “圖書情報” “圖書館” “數(shù)字人文” “輿情” “用戶信息行為” 等關(guān)鍵詞，在知網(wǎng)數(shù)據(jù)庫中以 “主題” 檢索方式進行文獻檢索，文獻檢索范圍主要覆蓋 2016—2021 年上述關(guān)鍵詞的相關(guān)中文文獻。文獻采集的原則力求采集到的數(shù)據(jù)盡可能全面、無遺漏，具體操作時，這個問題就轉(zhuǎn)換為用于檢索的關(guān)鍵詞的設(shè)定盡可能全面。　　對于關(guān)鍵詞的評估主要根據(jù)：一是檢索結(jié)果中包含圖情檔學(xué)科相關(guān)學(xué)術(shù)期刊的中圖分類號 G25、 G35、 G26、 G27、 N99等，或者包含《中國圖書館學(xué)報》《信息資源管理學(xué)報》《圖書情報知識》《圖書館論壇》等 CSSCI、北大核心、中國科技核心類期刊; 二是因為關(guān)鍵詞之間存在共詞關(guān)系，收集一定數(shù)量關(guān)鍵詞之后新增關(guān)鍵詞檢索，結(jié)果去重之后幾乎不再增加，就認為新增的關(guān)鍵詞和已收集關(guān)鍵詞存在共詞關(guān)系，這一點在最終的分析中也能夠印證。 PageRank 排序最高的 “文獻計量學(xué)” 和 “閱讀推廣” 并沒有被用做關(guān)鍵詞去檢索文獻，因這兩個詞和本文所用到的多個關(guān)鍵詞都存在共詞關(guān)系，所在文獻一樣被收集到分析數(shù)據(jù)中。　　此外，本文的分析方法和結(jié)果也可以證明文獻采集階段所使用的關(guān)鍵詞是 “完備” 和“收斂” 的，文獻的主題聚類和關(guān)鍵詞網(wǎng)絡(luò)關(guān)系分析分別使用的是 TF-IDF 和 PageRank 方法，這兩種主流的文本關(guān)鍵詞提取方法，底層原理不同，對于本文卻可通過共詞關(guān)系完美地解釋分析結(jié)果的統(tǒng)一性和合理性。經(jīng)過多次檢索，確定關(guān)鍵詞后，采用 Python+Selenium 自動化測試框架編寫爬蟲代碼，從文獻檢索結(jié)果中獲取標(biāo)題、作者、關(guān)鍵詞、摘要、年份等數(shù)據(jù)，最終采集到文獻42 865篇。　　2.2 數(shù)據(jù)預(yù)處理　　由于采用上述不同關(guān)鍵詞分別檢索到的文獻存在重復(fù)，因此首先對文獻集進行去重。并刪除會議通告、期刊介紹、選題指南等非研究型文獻，共剩余35 297篇。最后，根據(jù)中圖分類號規(guī)則[16]，圖情檔學(xué)科相關(guān)學(xué)術(shù)期刊的中圖分類號主要為 G25、G35、 G26、 G27、 N99 等。此外，考慮到跨學(xué)科研究，保留 D92、 G40、 G42、 N94 等相關(guān)文獻進行分析，最終獲得文獻25 374篇。　　文獻的題目、摘要和關(guān)鍵詞這 3 項內(nèi)容基本能夠代表文獻的內(nèi)容，將這 3 個部分的文本內(nèi)容作為一個整體處理。這樣的處理方式主要是考慮到后面用 TF-IDF 方法對文本向量化時，同一個詞如果同時在這 3 個部分中多處出現(xiàn)，則比單獨的關(guān)鍵詞更能突顯文章主題。關(guān)鍵詞是表達文獻語義的重要手段，但常常也會存在表達偏差和表達不全，同時用文獻的題目、摘要和關(guān)鍵詞這 3 項內(nèi)容來表示文章語義是更為合適的選擇， Google Scholar、 Aminer 等學(xué)術(shù)搜索引擎同樣也是用這種處理方式來代表文章語義。　　2. 3 PCA 　　降維雖然通過 TF-IDF 方法得到了在25 374篇文獻的空間內(nèi)以文獻為單位的一個表征，但是這樣的表征是高度稀疏的，直接作為下游機器學(xué)習(xí)模型的輸入效果很差，因此引入 PCA 方法來解決這個問題。PCA 是常用的提取數(shù)據(jù)的手段，其功能為提取主成分(主要信息)，摒棄冗余信息(次要信息)，從而得到壓縮后的數(shù)據(jù)，實現(xiàn)維度的下降。其設(shè)想通過投影矩陣將高維信息轉(zhuǎn)換到另一個坐標(biāo)系下，并通過平移將數(shù)據(jù)均值變?yōu)榱恪? 　　PCA 認為，在變換過后的數(shù)據(jù)中，在某一維度上，數(shù)據(jù)分布得更分散，則認為對數(shù)據(jù)點分布情況的解釋力就更強。故在 PCA 中，通過方差來衡量數(shù)據(jù)樣本在各個方向上投影的分布情況，進而對有效的低維方向進行選擇。 KernelPCA 是 PCA 的一個改進版，它將非線性可分的數(shù)據(jù)轉(zhuǎn)換到一個適合對齊進行線性分類的新的低維子空間上，該 PCA 可以通過非線性映射將數(shù)據(jù)轉(zhuǎn)換到高維空間里，在高維空間中使用PCA 將其映射到另一個低維空間中，并通過線性分類器對樣本進行劃分。　　筆者同時嘗試了 PCA 和 KernelPCA 方法將文獻表征向量的長度從55 973維壓縮到 50 維，使表征矩陣不再稀疏。　　2. 4 文本聚類　　DBSCAN 是一種基于密度的聚類算法[18]。使用 DBSCAN 算法對25 374篇文獻聚類，同時使用Cosine 余弦距離作為距離度量，挖掘熱點并過濾掉研究主題不是很集中的文獻和噪聲數(shù)據(jù)，將聚類的最小數(shù)量適量放大。嘗試了多組搜索半徑和最小樣本數(shù)的組合，實驗效果較好的是：使用 PCA 方法降維時，搜索半徑設(shè)為 0.05，最小樣本數(shù)設(shè)為 50。　　通過實驗，共聚得 11 個類簇： 0 類簇包含文獻 126 篇，主題為圖書館學(xué); 1 類簇包含文獻 127篇，主題為目錄學(xué)，文獻編目; 2 類簇包含文獻318 篇，主題為圖書館服務(wù)，閱讀推廣; 3 類簇包含文獻 114 篇，主題為數(shù)字人文和信息技術(shù)與圖情檔學(xué)科的交叉研究; 4 類簇包含文獻 407 篇，主題為文獻計量; 5 類簇包含文獻 198 篇，主題為檔案管理模式和制度; 6 類簇包含文獻 160 篇，主題為檔案服務(wù); 7 類簇包含文獻 54 篇，主題為檔案學(xué)理論研究; 8 類簇包含文獻 52 篇，主題為圖書館服務(wù)體系研究; 9 類簇包含文獻 62 篇，主題為圖書館發(fā)展研究; 10 類簇包含文獻 95 篇，主題為新媒體平臺和高校輿情; 未聚類23 671篇，通過深入分析發(fā)現(xiàn)，未聚類的文獻存在 3 類情況：　　第一類是研究主題較為籠統(tǒng)寬泛，方向比較大，沒有立足于一個非常具體的研究點，比較典型的是綜述類文獻; 第二類是研究主題雖然明確，但不具備數(shù)量上的集中性，屬于小眾研究方向，比如 “音樂院校圖書館口述歷史資源建設(shè)路徑探索” (《四川戲劇》2021)這樣冷門的跨學(xué)科的研究方向; 第三類是噪聲數(shù)據(jù)，經(jīng)過數(shù)據(jù)預(yù)處理之后，仍然還會存在一部分噪聲數(shù)據(jù)，比如 “扎實求進，推動發(fā)展———北京市檔案館傳達全國檔案局長館長會議精神” (《北京檔案》 2021)，這種新聞簡報類數(shù)據(jù)存在于知網(wǎng)的檢索結(jié)果中，但在數(shù)據(jù)預(yù)處理時無法用單一的規(guī)則過濾，這一步借助無法聚類達到過濾的效果，消除了噪音數(shù)據(jù)對后續(xù)分析的影響。　　需要說明的是，聚類的平衡和效果，是經(jīng)過多次實驗比較之后得到的，將聚類的最小樣本數(shù)設(shè)為 50，從實驗效果和數(shù)量占比上來講也是很合理的，最小樣本數(shù)設(shè)為100時，聚類結(jié)果是 7 類，而最小樣本數(shù)設(shè)為 40 時，聚類結(jié)果就增加到 23 類. 　　另外 50 篇大概占文獻數(shù)量(25 376篇)的 2%，一個研究主題雖然具有一定的數(shù)量，但卻不超過總數(shù)的 2%，應(yīng)該也只能算很小眾的研究主題，上述兩點證明當(dāng)前聚類結(jié)果是平衡合理的。此外，從全景圖和局部圖可以看出，紫色的點是未聚類的文獻，散布在各處，藍色、綠色、黃色的點都是聚成類的文獻，而且相當(dāng)集中，各類之間邊界清晰，說明聚類效果較好。　　3 研究結(jié)果與分析　　復(fù)雜網(wǎng)絡(luò)分析中，節(jié)點度、聚類系數(shù)和平均路徑長度這 3 個基本概念可以很好地反映一個網(wǎng)絡(luò)的基本特征。另外，衡量網(wǎng)絡(luò)小世界結(jié)構(gòu)的程度可以用小世界商值，即將當(dāng)前網(wǎng)絡(luò)的聚類系數(shù) C、平均路徑長度 L 與同規(guī)模隨機網(wǎng)絡(luò)的聚類系數(shù) C 和平均路徑長度 L 進行比較運算。　　4 研究結(jié)果　　4.1 圖情檔學(xué)科的熱點研究主題　　本文基于復(fù)雜網(wǎng)絡(luò)技術(shù)，通過構(gòu)建關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)，以 2016—2021 年圖情檔學(xué)科文獻為研究對象，使用 Gephi 網(wǎng)絡(luò)分析及可視化工具挖掘圖情檔學(xué)科的熱點研究主題。　　1) 圖書館領(lǐng)域的研究熱點最為聚集，文獻核心主題以大數(shù)據(jù)、高校和公共圖書館、知識服務(wù)、人工智能、閱讀推廣、數(shù)字人文為主。總體來說，圖書館領(lǐng)域文獻熱點可分為圖書館實證研究和圖書館學(xué)科研究。圖書館實證研究是指對高校、公共等特定類型圖書館的實證問題研究; 圖書館學(xué)科研究主要是指對圖書館學(xué)科的研究熱點、專業(yè)建設(shè)或人才培養(yǎng)等方面的研究。　　2) 情報學(xué)領(lǐng)域主題可分為以文獻計量、學(xué)術(shù)評價為主的情報學(xué)應(yīng)用和大數(shù)據(jù)環(huán)境下情報學(xué)及情報學(xué)科建設(shè)兩類。前者主要是使用 Citespace、社會網(wǎng)絡(luò)分析、共詞分析等方法對各學(xué)科進行分析，數(shù)據(jù)顯示主要應(yīng)用于醫(yī)學(xué)、計算機科學(xué)、教育等學(xué)科的熱點分析及其他相關(guān)研究。后者主要是基于大數(shù)據(jù)、數(shù)據(jù)科學(xué)等數(shù)據(jù)技術(shù)對情報學(xué)的學(xué)科建設(shè)、人才培養(yǎng)、學(xué)科理論等學(xué)科發(fā)展問題進行研究。　　3) 檔案領(lǐng)域文獻熱點集中在檔案數(shù)字化、檔案館業(yè)務(wù)、檔案學(xué)科研究及檔案局業(yè)務(wù)等相關(guān)主題上。檔案數(shù)字化包括檔案信息化、電子文件、電子檔案、大數(shù)據(jù)、區(qū)塊鏈、單套制、云計算、雙套制、數(shù)據(jù)庫、人工智能等; 檔案館業(yè)務(wù)包括檔案資源、檔案利用、檔案服務(wù)、檔案文化、檔案編研、檔案展覽、檔案庫房、社交媒體、檔案開放、城市記憶、公眾參與等; 檔案學(xué)科研究包括知識圖譜、文獻計量、數(shù)字人文、檔案教育、檔案學(xué)研究、可視化、 Citespace、人才培養(yǎng)、高等教育、研究熱點等; 檔案局業(yè)務(wù)包括檔案法、民生檔案、檔案安全、公共服務(wù)、檔案工作人員、十三五、疫情防控、檔案業(yè)務(wù)指導(dǎo)、檔案宣傳、縣級檔案、鄉(xiāng)村振興、檔案管理隊伍等。　　4. 2 熱點研究主題的特征　　1) 文獻計量學(xué)研究成果較多。文獻計量學(xué)作為圖情檔學(xué)科的一個重要議題，經(jīng)過多年發(fā)展已經(jīng)成為該學(xué)科開展自身研究的一個重要方法，交叉程度不斷加深。圖情檔文獻熱點關(guān)鍵詞包括文獻計量學(xué)、文獻計量、引文分析、聚類分析、共詞分析等，現(xiàn)主研人工智能的學(xué)者也把人工智能中流行數(shù)據(jù)可視化研究方法引入到文獻計量學(xué)研究中。文獻計量學(xué)不僅能解決傳統(tǒng)的學(xué)科問題，還能為人工智能的研究提供理論知識和參考經(jīng)驗。　　2) 圖情檔學(xué)科與信息技術(shù)緊密結(jié)合。人工智能時代的來臨，可視化、知識圖譜、聚類分析和社會網(wǎng)絡(luò)分析等許多具有代表性的技術(shù)和方法也影響著圖情檔學(xué)科的發(fā)展和研究。可視化分析和 Citespace 等關(guān)鍵詞在各種指標(biāo)排序中都占有重要地位，圖情檔學(xué)科各領(lǐng)域研究均對可視化技術(shù)和工具有巨大的需求，國內(nèi)被使用最多的是Citespace。以 Citespace、 Hist Cite 為代表的可視化工具，對用戶來說存在一定的使用門檻，未來，誰可以更好地掌握可視化技術(shù)和工具誰就將在圖情檔學(xué)科研究中占得先機。　　開展公共文化服務(wù)，傳承傳統(tǒng)文化。公共文化服務(wù)一貫是我國圖情檔研究領(lǐng)域的熱點，公共圖書館、高校圖書館和檔案館都以向用戶開展均等、高質(zhì)量的文化活動為己任。當(dāng)前受疫情的影響，圖書館及檔案領(lǐng)域的應(yīng)急管理和突發(fā)公共事件相關(guān)研究熱度較高。大數(shù)據(jù)時代，承擔(dān)傳承社會記憶職能的圖書館和檔案館的載體形式發(fā)生較大的改變，除傳統(tǒng)的法治、企業(yè)、家族等檔案，現(xiàn)檔案學(xué)的研究模式開始由紙質(zhì)向電子化轉(zhuǎn)變。信息技術(shù)的發(fā)展要求檔案學(xué)要進行跨學(xué)科、跨領(lǐng)域融合，檔案學(xué)與社會記憶的交叉融合的研究值得廣大學(xué)者關(guān)注。同樣，有關(guān)古籍保護學(xué)科建設(shè)問題也是圖情檔學(xué)科的重要議題。　　5 結(jié) 語　　本文基于復(fù)雜網(wǎng)絡(luò)技術(shù)，通過構(gòu)建關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)，以 2016—2021 年圖情檔學(xué)科文獻為研究對象，文本處理上使用 TF-IDF 加權(quán)技術(shù)來分類文獻，并嘗試 PCA 和 KernelPCA 方法壓縮文獻表征向量，最終運用 DBSCAN 算法將文獻聚類。文本處理后使用 Gephi 網(wǎng)絡(luò)分析及可視化工具挖掘出圖書館學(xué)、情報學(xué)和檔案學(xué)的熱點研究主題。最終，從圖情檔一級學(xué)科的視角綜合分析現(xiàn)有文獻熱點的特征，試圖提出該學(xué)科下一步的文獻熱點主題和研究方向，為后續(xù)研究者提供指引和參考。期望本研究可以讓該領(lǐng)域研究者在了解研究熱點的基礎(chǔ)上確定好自己的研究方向，也能為新研究者或跨領(lǐng)域研究者快速了解圖情檔學(xué)科、為跨領(lǐng)域融合提供參考。　　參考文獻　　[1] 中華人民共和國教育部. “六卓越一拔尖” 計劃 2􀆰 0 啟動大會召開，掀起高教質(zhì)量革命，助力打造質(zhì)量中國 [EB/ OL]. 　　[2] 澎湃新聞. 新文科建設(shè)工作會在山東大學(xué)召開：《新文科建設(shè)宣言》發(fā)布 [ EB/ OL]. 　　[3] 初景利. “新文科” 呼喚圖情檔成為 “硬” 學(xué)科 [ J]. 圖書與情報， 2020， (6)： 1-3. 　　[4] 馬費成，李志元. 新文科背景下我國圖書情報學(xué)科的發(fā)展前景[J]. 中國圖書館學(xué)報， 2020， 46 (6)： 4-15. 　　[5] 柯平. 新圖情檔———新文科建設(shè)中的圖書情報與檔案管理一級學(xué)科發(fā)展 [J]. 情報資料工作， 2021， 42 (1)： 15-20. 　　[6] 孫艷紅. 國家基金項目視域下圖情檔學(xué)科研究現(xiàn)狀、熱點及趨勢分析 [J]. 圖書館工作與研究， 2021， (3)： 93-101. 　　[7] 吳維芳. 基于文本可視化挖掘圖情檔前沿研究熱點———來自國家社科基金 2017—2019 年圖情檔立項數(shù)據(jù) [ J]. 機電兵船檔案， 2020， (3)： 26-28. 　　[8] 柴歡，阮建海. 基于 2013—2017 年國家基金項目的 “圖書館、情報與檔案管理” 學(xué)科研究現(xiàn)狀分析 [ J]. 情報科學(xué)， 2019，37 (8)： 163-169. 　　[9] 呂莉媛. 基于復(fù)雜網(wǎng)絡(luò)的圖書館數(shù)字資源整合 [ J]. 情報科學(xué)， 2009， 27 (12)： 1811-1815. 　　[10] 辛娟娟，曹佳. 基于復(fù)雜網(wǎng)絡(luò)的文獻熱點挖掘及可視化 [ J].計算機工程與應(yīng)用， 2016， 52 (12)： 261-264， 270. 　　作者：巫芯宇

相關(guān)閱讀

婷婷五月日韩av永久免费,国产精品日本一区,久久久久久国产精品mv,老色鬼欧美精品

基于復(fù)雜網(wǎng)絡(luò)的圖情檔學(xué)科文獻熱點挖掘-經(jīng)濟職稱論文發(fā)表范文