婷婷五月日韩av永久免费,国产精品日本一区,久久久久久国产精品mv,老色鬼欧美精品

職稱論文咨詢網(wǎng),專業(yè)提供留學(xué)生論文、職稱發(fā)表論文等各類論文學(xué)術(shù)咨詢服務(wù)的論文網(wǎng)站。

當(dāng)前位置:首頁(yè) > 論文百科

東北財(cái)經(jīng)大學(xué)圖書(shū)館用戶借閱記錄數(shù)據(jù)集-經(jīng)濟(jì)職稱論文發(fā)表范文

來(lái)源:職稱論文咨詢網(wǎng)發(fā)布時(shí)間:2022-06-05 21:22:55
摘要利用匯文文獻(xiàn)信息系統(tǒng)抓取了2011-2020年間東北財(cái)經(jīng)大學(xué)圖書(shū)館用戶借閱數(shù)據(jù),該數(shù)據(jù)包含了用戶信息、借閱信息及圖書(shū)信息。通過(guò)數(shù)據(jù)匹配和加密處理,共獲得1464729條記錄。其中對(duì)用戶信息ID進(jìn)行了UUID重新編碼處理,保證了用戶隱私。本次公開(kāi)的數(shù)據(jù)集有助于高校圖書(shū)館準(zhǔn)確掌握近年來(lái)文獻(xiàn)資源利用情況、探尋用戶群體借閱行為的變化趨勢(shì)、挖掘用戶閱讀興趣;同時(shí)有助于為圖書(shū)館館藏布局調(diào)整、資源與服務(wù)的有效推廣及文獻(xiàn)資源精準(zhǔn)化服務(wù)提供決策支持。   關(guān)鍵詞借閱行為借閱記錄數(shù)據(jù)集東北財(cái)經(jīng)大學(xué)   0引言   隨著自動(dòng)化信息系統(tǒng)及數(shù)據(jù)庫(kù)技術(shù)在圖書(shū)館的快速普及,圖書(shū)館存儲(chǔ)了大量用戶的借閱數(shù)據(jù)。通過(guò)借閱數(shù)據(jù)、用戶特征及借閱行為影響因素的深入挖掘,已經(jīng)成為圖書(shū)館提升館藏文獻(xiàn)利用率、改進(jìn)館藏建設(shè)質(zhì)量、創(chuàng)新文獻(xiàn)個(gè)性化推薦服務(wù)的重要手段。   本數(shù)據(jù)集通過(guò)東北財(cái)經(jīng)大學(xué)圖書(shū)館文獻(xiàn)信息管理系統(tǒng)采集的近十年圖書(shū)館用戶借還記錄,數(shù)據(jù)完善規(guī)范,在高校圖書(shū)館擁有一定代表性[1]。本數(shù)據(jù)集可輔助開(kāi)展文獻(xiàn)資源利用評(píng)估,用戶借閱行為分析,圖書(shū)文本信息的智能發(fā)現(xiàn),為用戶提供智能化、精準(zhǔn)化的文獻(xiàn)推薦服務(wù)和知識(shí)服務(wù)具有較高的研究和實(shí)踐價(jià)值。   1數(shù)據(jù)采集和處理方法   本數(shù)據(jù)集涉及數(shù)據(jù)均采集自匯文文獻(xiàn)信息管理系統(tǒng)的后臺(tái)Oracle數(shù)據(jù)庫(kù)。用戶信息數(shù)據(jù)存儲(chǔ)在READER表中,圖書(shū)借還數(shù)據(jù)存儲(chǔ)在LEND_HIST表中,圖書(shū)相關(guān)信息數(shù)據(jù)分別存儲(chǔ)在MARC表、INDI_ACCT表及LOCATION表中,其均為結(jié)構(gòu)化數(shù)據(jù)。   1.1數(shù)據(jù)采集和匹配   準(zhǔn)備一臺(tái)安裝SQLServer2005關(guān)系型數(shù)據(jù)庫(kù)的服務(wù)器專門(mén)用于數(shù)據(jù)采集和數(shù)據(jù)匹配。為保證借閱數(shù)據(jù)具有利用價(jià)值,本數(shù)據(jù)集不僅采集了發(fā)生借閱行為的用戶信息,而且對(duì)借閱文獻(xiàn)的主題、摘要、作者簡(jiǎn)介等詳細(xì)信息進(jìn)行了關(guān)聯(lián)。通過(guò)SQLServer導(dǎo)入功能將Oracle數(shù)據(jù)庫(kù)的READER表、READER_TYPE表、LEND_HIST表、MARC表、DOC_TYPE_CODE表及LOCATION_LST表同步到數(shù)據(jù)采集服務(wù)器的SQLServer2005數(shù)據(jù)庫(kù)中。   通過(guò)SQL語(yǔ)句關(guān)聯(lián)READER表和LEND_HIST表,關(guān)聯(lián)限制條件為READER表CERT_ID字段與LEND_HIST表CERT_ID_F字段關(guān)聯(lián);READER表關(guān)聯(lián)REDR_TYPE_CODE表,關(guān)聯(lián)限制條件均為REDR_TYPE_CODE字段;LEND_HIST表關(guān)聯(lián)MARC表,關(guān)聯(lián)限制條件為L(zhǎng)END_HIST表MARC_REC_NO_F字段與MARC表的MARC_REC_NO字段關(guān)聯(lián);LEND_HIST表關(guān)聯(lián)INDI_ACCT表,關(guān)聯(lián)限制條件為L(zhǎng)END_HIST表PROP_NO_F字段與INDI_ACCT表的PROP_NO字段關(guān)聯(lián);MARC表關(guān)聯(lián)DOC_TYPE_CODE表,關(guān)聯(lián)限制條件為均為DOC_TYPE_CODE字段;LEND_HIST表關(guān)聯(lián)LOCATION_LST表,關(guān)聯(lián)限制條件為L(zhǎng)END_HIST表LOCATION_F字段LOCATION_LST表的LOCATION字段。   由于文獻(xiàn)信息中關(guān)聯(lián)了主題、文摘(摘要)、作者簡(jiǎn)介等信息,上述三部分內(nèi)容存儲(chǔ)在MARC表的同一字段中,不便于區(qū)分。因此在實(shí)際數(shù)據(jù)采集中,我們利用匯文文獻(xiàn)自動(dòng)化的系統(tǒng)管理模塊中MARC字段導(dǎo)出功能,將606、330、314字段的相關(guān)含有主題、文摘及作者介紹等數(shù)據(jù)導(dǎo)出到文本文件中,再將文本數(shù)據(jù)導(dǎo)入至SQLServer數(shù)據(jù)庫(kù)中,最后進(jìn)行用戶信息表、借閱記錄信息表及文獻(xiàn)信息表的關(guān)聯(lián)匹配,一共匯總到1464729條記錄。   1.2數(shù)據(jù)清洗   借閱用戶的信息采集了學(xué)生用戶的學(xué)號(hào)及教工用戶的職工號(hào),用戶的學(xué)號(hào)及職工號(hào)信息屬于學(xué)校師生個(gè)人敏感數(shù)據(jù),為了避免隱私數(shù)據(jù)泄露,對(duì)數(shù)據(jù)進(jìn)行了脫敏處理。首先給每條用戶記錄增加UUID編碼,實(shí)際上就是用UUID來(lái)代替用戶ID,保證ID的唯一性。UUID是通用唯一識(shí)別碼(UniversallyUniqueIdentifier)的縮寫(xiě)[2],在任何一臺(tái)計(jì)算機(jī)或服務(wù)器上生成的數(shù)字,在所有空間和時(shí)間上被視為唯一的。對(duì)用戶記錄ID重新編碼后,可以直接抹去用戶ID,再用UUID與密鑰拼接進(jìn)行MD5加密,可完全保證使用者安全利用數(shù)據(jù)。   匯文系統(tǒng)中的用戶性別是來(lái)源于學(xué)校一卡通中心同步數(shù)據(jù),但大部分性別不準(zhǔn)確。為盡可能保證性別的準(zhǔn)確性,利用用戶信息的身份證ID字段,來(lái)修正用戶的性別信息,修正完成后抹去身份證字段。但早期注冊(cè)用戶缺失身份證ID信息或性別數(shù)據(jù)的,SEX字段統(tǒng)一置為NULL值。為了區(qū)分用戶的年齡段,根據(jù)身份證ID信息提取用戶的出生年信息存入BIRTHYEAR字段。但有個(gè)別用戶的身份證在原始數(shù)據(jù)錄入時(shí)錯(cuò)誤或存入了非身份證信息(軍官證號(hào)、護(hù)照號(hào)、考號(hào)等),都會(huì)導(dǎo)致提取的值存在異常,例如出現(xiàn)“1016”、“1086”、“2886”及“2(3)”等異常值。   通過(guò)與原始數(shù)據(jù)進(jìn)行比對(duì),將明顯錯(cuò)誤的BIRTHYEWAR字段進(jìn)行了修正,但對(duì)于無(wú)法獲取用戶身份證信息的BIRTHYEAR字段賦予NULL值。年級(jí)組字段(CODE01)在數(shù)據(jù)同步時(shí),不同年份學(xué)校一卡通中心提供的字段值有所區(qū)別,因此年級(jí)組字段根據(jù)用戶注冊(cè)年份來(lái)修正。出版年字段中含有字母和其他非數(shù)字字符的,需要將字母和非數(shù)字字符清洗掉,只保留年份。單位字段(DEPT)和專業(yè)字段(OCCUPATION)中含有括弧、空格及其他特殊字符也需要清洗。另外,對(duì)于單位或?qū)I(yè)的文字表述,有的年份是全稱,有的年份是簡(jiǎn)稱,需要盡可能對(duì)同一單位或?qū)I(yè)的數(shù)據(jù)進(jìn)行名稱統(tǒng)一化處理。用戶字段數(shù)據(jù)均來(lái)源一卡通同步數(shù)據(jù),存在部分字段為空值的記錄。   借閱歷史表中財(cái)產(chǎn)號(hào)字段(PROP_NO_F),可以唯一識(shí)別借閱數(shù)據(jù)中每?jī)?cè)文獻(xiàn)。為了隱去原有系統(tǒng)的財(cái)產(chǎn)號(hào)信息,我們?nèi)匀徊捎肬UID編碼的方法生成每?jī)?cè)文獻(xiàn)的唯一記錄號(hào)信息。數(shù)據(jù)處理中首先對(duì)文獻(xiàn)財(cái)產(chǎn)表(INDI_ACCT)的每?jī)?cè)圖書(shū)信息進(jìn)行編碼存入BOOK_ID字段,再將BOOK_ID字段關(guān)聯(lián)到圖書(shū)借閱信息表中。   從匯文系統(tǒng)管理模塊導(dǎo)出的借閱文獻(xiàn)主題詞存儲(chǔ)在了不同的字段,為了方便數(shù)據(jù)使用,我們將每個(gè)主題詞之間用分號(hào)隔開(kāi),對(duì)主題詞中含有“①”、“-”及空格等特殊字符進(jìn)行了清洗,并合并到一個(gè)字段(SUB)。對(duì)于匯文系統(tǒng)沒(méi)有主題描述的,均賦予空值。以上數(shù)據(jù)清洗的過(guò)程在SQLServer2005數(shù)據(jù)庫(kù)查詢編輯器中完成,部分清洗語(yǔ)句如下:生成UUID編碼語(yǔ)句(去掉字符中的“-”):select*,replace(newId(),'-','')asUUIDinto用戶表1from原始用戶表;年級(jí)組字段修正語(yǔ)句:update用戶表1setCODE01=substring(REDR_REG_DAY,1,4);MD5加密語(yǔ)句(去掉字符中的”0x”):select*,replace(sys.fn_sqlvarbasetostr(HashBytes('MD5','拼接字符串1'+UUID+'拼接字符串2')),'0x','')USERIDinto清洗完成用戶表from用戶表1;性別字段修正語(yǔ)句:SelectUSERID,DEPT,OCCUPATION,REDR_REG_DAY,CODE01,REDR_TYPE_CODE,casewhenlen(ID_CARD)=15andcast(substring(ID_CARD,15,1)asint)%2=0then'女'whenlen(ID_CARD)=15andcast(substring(ID_CARD,15,1)asint)%2=1then'男'whenlen(ID_CARD)=18andcast(substring(ID_CARD,17,1)asint)%2=0then'女'whenlen(ID_CARD)=18andcast(substring(ID_CARD,17,1)asint)%2=1then'男'whenlen(ID_CARD)=17andcast(substring(ID_CARD,17,1)asint)%2=0then'女'whenlen(ID_CARD)=17andcast(substring(ID_CARD,17,1)asint)%2=1then'男'elseNULLendasSEXinto用戶表2FROM用戶表1;出版年字段修正語(yǔ)句UPDATE文獻(xiàn)信息表SETPUB_YEAR=replace(replace(PUB_YEAR,'c',''),'.','')wherePUB_YEARlike'c%';主題詞特殊字符處理和合并語(yǔ)句:update借閱歷史表setSUB=ISNULL(SUB1+';','')+ISNULL(SUB2+';','')+ISNULL(SUB3+';','');update借閱歷史表SETSUB=LEFT(SUB,len(SUB)-1)whereLEN(SUB)>0;   2數(shù)據(jù)字典、數(shù)據(jù)樣本和數(shù)據(jù)量   數(shù)據(jù)集包含用戶信息、借閱信息及文獻(xiàn)信息三大部分。   3數(shù)據(jù)質(zhì)量控制   本數(shù)據(jù)集涉及所有數(shù)據(jù)均由匯文系統(tǒng)后臺(tái)Oracle數(shù)據(jù)庫(kù)和系統(tǒng)管理模塊采集。為了保證數(shù)據(jù)質(zhì)量,通過(guò)匯文流通模塊的流通日志和統(tǒng)計(jì)模塊對(duì)近十年的用戶借閱記錄進(jìn)行了核實(shí),流通借閱日志和統(tǒng)計(jì)模塊的借閱統(tǒng)計(jì)數(shù)據(jù)均與從后臺(tái)提取的借閱記錄條數(shù)一致,確保了數(shù)據(jù)采集準(zhǔn)確無(wú)遺漏。另外選取多個(gè)用戶(不同用戶類型),從流通管理模塊用戶個(gè)人借閱歷史記錄查詢,并與本數(shù)據(jù)集比對(duì),數(shù)據(jù)信息內(nèi)容均一致[1]。最后通過(guò)匯文統(tǒng)計(jì)模塊的書(shū)刊信息查詢功能,對(duì)本數(shù)據(jù)集的借閱文獻(xiàn)的摘要、主題詞、作者介紹等信息進(jìn)了抽查核對(duì),所采集信息均與MARC詳細(xì)信息借閱文獻(xiàn)信息一致,確保了數(shù)據(jù)真實(shí)可靠。   4數(shù)據(jù)價(jià)值   本數(shù)據(jù)集包含2011-2020年間東北財(cái)經(jīng)大學(xué)圖書(shū)館用戶在利用圖書(shū)館文獻(xiàn)過(guò)程中產(chǎn)生的借閱行為數(shù)據(jù),數(shù)據(jù)字段較為豐富(22個(gè)),對(duì)高校圖書(shū)館用戶的文獻(xiàn)利用評(píng)估、用戶借閱行為分析和用戶需求預(yù)測(cè)等具有重要意義。近十年用戶借閱數(shù)據(jù)是對(duì)圖書(shū)館館藏進(jìn)行評(píng)價(jià)的數(shù)據(jù)基礎(chǔ),通過(guò)對(duì)這些數(shù)據(jù)的分析,不僅可全面評(píng)估現(xiàn)有館藏結(jié)構(gòu)及文獻(xiàn)保障水平[3],而且可從借閱時(shí)間變化趨勢(shì)、不同用戶類型借閱特征、熱門(mén)借閱文獻(xiàn)、借閱文獻(xiàn)主題詞熱度等多維度出發(fā),為高校圖書(shū)館文獻(xiàn)資源建設(shè)創(chuàng)新服務(wù)、用戶多元化服務(wù)、個(gè)性化推薦服務(wù)等提供科學(xué)的決策依據(jù)。   5數(shù)據(jù)使用方法和建議   本數(shù)據(jù)集可采用Tableau、Excel、SPSS、Python語(yǔ)言及關(guān)系型數(shù)據(jù)庫(kù)等軟件工具進(jìn)行統(tǒng)計(jì)分析[1]。例如,針對(duì)年度熱門(mén)借閱文獻(xiàn)的特點(diǎn)進(jìn)行可視化分析;根據(jù)近十年年度借閱量統(tǒng)計(jì)數(shù)據(jù)分析用戶文獻(xiàn)借閱量的變化趨勢(shì);根據(jù)用戶的年齡、性別、單位、專業(yè)等屬性來(lái)分析不同用戶的借閱特征和借閱頻率差異;通過(guò)時(shí)間序列分析借閱文獻(xiàn)主題詞詞熱度在一年中的變化趨勢(shì)。   圖書(shū)館論文范例:圖書(shū)館閱讀推廣的問(wèn)題表現(xiàn)與優(yōu)化對(duì)策   根據(jù)近十年的用戶借閱記錄進(jìn)行統(tǒng)計(jì)性描述分析,選擇目標(biāo)用戶群體和某大類圖書(shū)作為研究對(duì)象,對(duì)圖書(shū)的摘要簡(jiǎn)介和主題詞進(jìn)行分析,借助相關(guān)模型進(jìn)行主題挖掘,將主題化后的特征與用戶的借閱行為特征進(jìn)行融合分析,探索用戶的借閱關(guān)系,興趣變化趨勢(shì),設(shè)計(jì)特征融合的推薦模型,為用戶提供更友好、更準(zhǔn)確的圖書(shū)推薦和導(dǎo)引,提高文獻(xiàn)服務(wù)的效率[4];可引入深度學(xué)習(xí)相關(guān)算法,將近十年歷史數(shù)據(jù)形成用戶借閱行為的共現(xiàn)矩陣,研究滿足用戶多樣化需求的推薦模型[5];還可結(jié)合用戶的社交媒體行為、科研行為、校內(nèi)學(xué)習(xí)行為等圖書(shū)館外部數(shù)據(jù)進(jìn)行融合分析,盡可能全面和精確地構(gòu)建用戶畫(huà)像,滿足深入研究圖書(shū)館用戶借閱行為的需求,提高數(shù)據(jù)的使用價(jià)值[6]。   5.1數(shù)據(jù)引用格式   李榮,廖映紅,李雙.東北財(cái)經(jīng)大學(xué)圖書(shū)館用戶借閱記錄數(shù)據(jù)集[DB/OL].[日期].hdl:20.500.12304/10566.V1[Version]   5.2論文引用格式李榮,廖映紅,李雙.東北財(cái)經(jīng)大學(xué)圖書(shū)館用戶借閱記錄數(shù)據(jù)集[J/OL].圖書(shū)館雜志,2020   參考文獻(xiàn)   [1]肖錚,吳至藝,林俊偉.2007-2017年廈門(mén)大學(xué)圖書(shū)館紙質(zhì)文獻(xiàn)借閱記錄數(shù)據(jù)集[J].圖書(shū)館雜志,2020,39(6):113-117.   [2]百度百科.UUID[EB/OL].[2020-11-30].https://baike.baidu.com/item/UUID/5921266?fr=aladdin.   [3]李榮,王慶石,李雙,等.基于讀者行為大數(shù)據(jù)的圖書(shū)館精準(zhǔn)服務(wù)與管理創(chuàng)新研究——以東北財(cái)經(jīng)大學(xué)圖書(shū)館為例[J].圖書(shū)館研究,2018,48(3):19-23.   [4]施國(guó)良,張瀟瀟,楊小莉.高校讀者群體差異對(duì)其借閱行為和閱讀偏好的影響研究[J].圖書(shū)館,2020(4):59-64;78.   作者:李榮廖映紅李雙
相關(guān)閱讀
學(xué)術(shù)咨詢服務(wù)
?
喜德县| 教育| 天全县| 西青区| 金平| 吴江市| 新津县| 安化县| 宣城市| 荆门市| 阳泉市| 佛冈县| 凌海市| 津市市| 峨边| 三门峡市| 酉阳| 长丰县| 盘山县| 邹城市| 简阳市| 泽普县| 荣成市| 临澧县| 扎赉特旗| 安庆市| 武宁县| 内黄县| 青川县| 美姑县| 定日县| 甘孜县| 色达县| 沈阳市| 河津市| 时尚| 绥阳县| 隆安县| 栾川县| 休宁县| 布拖县|