知網學術不端行為檢測系統、萬方查重、維普查重、turnitin等論文檢測系統的比較

知網查重入口

學術界, 特別是高校和科研機構, 一直被大家譽為“象牙塔” 。人們希望在日趨功利化的社會中, 能存留著這樣一片凈土。然而, 近年來在我們認為純潔的這片凈土上, 卻發生了不少抄襲造假、權學交易等學術不端事件── “汪暉事件[ 1] ”;浙大“論文造假”事件[ 2] ;劉興土院士事件[ 3] 等等。學術不端事件頻發, 讓越來越多的人對中國科技事業的未來開始擔憂。20世紀以來, 科研經費成為一種稀缺資源配置, 隨著科研隊伍的擴大, 不可避免地在有限資源和職位上出現競爭。一直以來, 學術界上上下下都在強調學風建設, 學術不端事件卻因何屢禁不止? 對于這一連串學術造假事件所暴露出的學術評估乏力問題, 復旦大學葛劍雄教授呼吁:“我們需要獨立學術機構的獨立調查” 。清華大學教授蔡繼明建議[ 4] , 目前學術監管可以通過引入民間第三方的獨立審查機構來保證監管的公開、透明、公平。

為了貫徹落實好這個第三方的獨立審查機構, 并且使這個機構有客觀公正的態度和作風, 在計算機信息飛快發展的今天, 我們首先可以做的就是努力建設一個有著全面的系統的學術不端文獻檢測系統平臺的第三方機構。這個平臺的建設對提高我國科技發展水平、加快建設科技期刊強國, 對全面建設小康社會、加快推進社會主義現代化、實現中華民族偉大復興具有重大而深遠的意義。

1 什么是學術不端行為

1992 年, 由美國國家科學院、國家工程院和國家醫學研究院組成的22位科學家小組給出的學術不端行為的定義[ 5] :在申請課題、實施研究報告結果的過程中出現的捏造、篡改或抄襲行為。即不端行為主要被限定在“偽造、篡改、抄襲” (FFP) (Fabrication, Falsification, Plagiarism)三者中。

中國科協科技工作者道德與權益工作委員會提出了我國學術不端行為的七種表現形式[ 6] :抄襲剽竊他人成果、偽造篡改實驗數據、隨意侵占他人科研成果、重復發表論文、學術論文質量降低和育人的不負責任、學術評審和項目申報中突出個人利益、過分追求名利和助長浮躁之風。

在中國著名生命科學家鄒承魯看來:在我國學術上的不端行為還應包括偽造學歷和工作經歷、貶低前人成果、自我夸張宣傳、一稿多投、在自己并無貢獻的論文上署名、為商業廣告作不符合實際的宣傳等[ 7] 。

雖然以上各種定義存在差別, 但實質內容大體相同, 即學術不端行為是指在學術研究過程中出現的違背科學共同體行為規范、弄虛作假、抄襲剽竊或其他違背公共行為準則的行為。大致都把現有主要的學術不端行為分為以下這四類:抄襲、偽造、篡改及其他。“其他”主要包括不當署名、一稿多投、一個學術成果多篇發表(不包括科研階段性成果的發表)等不端行為。

2 國內科技文獻數據庫的學術不端文獻檢測系統平臺

2.1 CNKI科技期刊學術不端文獻檢測系統(AMLC)

CNKI科研誠信管理系統研究中心是同方知網出版集團旗下從事科研誠信管理產品研發的專門機構, 中心主要從事學術不端文獻檢測系統、科研誠信檔案管理系統等軟件研發。同時也承擔相關機構委托的科研誠信監測、管理等事務。還為各單位的學術評價提供科研誠信方面的參考數據, 輔助進行學術評價。它旗下的中國學術期刊(光盤版)電子雜志社(CNKI)的科技期刊學術不端文獻檢測系統(AMLC) 從2006年開始正式立項研發到目前已經達到大規模實用化的成熟程度。2008年底, AMLC管理辦公室開始為CNKI提供每期數據的期刊編輯部免費提供剛開發完成的《科技期刊學術不端文獻檢測系統(AMLC)》。

如期刊編輯部希望使用該系統, 可以郵寄、傳真方式向中國學術期刊(光盤版)電子雜志社AMLC[ 8] 管理辦公室提交《AMLC使用申請》, 簽訂授權使用協議, 就可以通過CNKI 的客服人員直接開通本編輯部的系統使用賬號, 這個賬號只能用于檢測本刊的來稿和已發表文獻。

AMLC系統建設是一個系統工程, 涉及檢測方法設計、比對數據庫建設、規范數據庫建設、大規模數據測試、系統性能測試等多個環節。系統目前的檢測范圍涵蓋中國學術期刊網絡出版總庫、中國博士論文網絡出版總庫、中國優秀碩士論文網絡出版總庫、中國報紙全文數據庫、中國專利全文數據庫(知網版)、中國科技成果數據庫(知網版)、中國年鑒網絡出版總庫、中國工具書數據庫、中國標準數據庫(知網版)。正陸續引進英文數據庫、網絡數據庫等資源。AMLC可以進行快速文獻比對。以CNKI各庫為比對基礎庫, 在2 ~ 5秒內完成一篇5000漢字的文獻比對, 出示比對結果。并支持批處理。用戶可上傳包含多篇文獻的壓縮文件進行檢測。其比對結果經過標紅, 且有定位功能。能夠快速發現文字重復的部分, 方便快捷。另外在結果中將詳細顯示比對源文獻的篇名、作者、發表刊物、發表時間等信息, 便于用戶參考。

經筆者所在編輯部試用, AMLC可以檢測的文獻格式包括:caj、doc、pdf、txt文本以及包括上述格式文獻的壓縮文件。用戶也可對已提交文獻進行重新檢測、修改、刪除操作。點擊提交文獻的篇名即可細覽該文獻的監測結果。

另外, 用戶還可以刪除系統給出的某些抄襲來源文獻, 得到新檢測結果。如果用戶點擊抄襲來源篇名, 就可以查看文件相似內容對比情況了。

2.2 萬方論文相似性檢測系統

萬方論文相似性檢測系統是基于萬方數據公司所收錄的期刊論文、學位論文、萬方數值數字化期刊全文數值庫、萬方數值學位論文、常識服務平臺的全文數值庫等海量數據, 運用先進的檢測算法研制而成, 它具有檢測速度快、檢測準確等特點。國內第二大數據集成商萬方數據, 在CNKI推出AMLC 一年零一個季度之后終于拿出了一個與CNKI相提并論的產品, 在2010的3月, 萬方公司的網站上出現了萬方論文相似性檢測系統的鏈接http://check.wanfangdata.com.cn, 通過論文相似性檢驗測定體系的官網[ 9] , 萬方數據將檢測費用定義在10元每萬字, 可以直接通過自己在萬方數據的賬戶登錄, 并進行論文的檢測, 通過檢測可以看到萬方數據提供了簡明和詳細兩種檢測報告。

2.3 維普——— 通達論文引用檢測系統

國內第三大數據集成商維普資訊, 在CNKI推出AMLC 一年零3個季度和萬方數據推出論文相似性檢系統半年之后終于也拿出了一個與CNKI和萬方數據相提并論的產品——— 論文引用檢測系統.從2010 年9 月起個人用戶在維普——— 通達論文引用檢測系統的官網http://www.gocheck. cn注冊就可免費檢測自己的文章。

維普——— 通達論文引用檢測系統經過部分高校及社會個人用戶的測試, 已經面向企事業用戶、個人用戶全面公開免費試用, 用戶僅需填寫真實的郵箱快速注冊即可免費享受論文引用檢測服務。

該論文檢測系統是基于多年數據挖掘技術領域的成功經驗, 應用于文本比對檢測領域上的成熟產品。該系統將自主研發的大規模文本處理技術, 應用于論文內容創新性評價系統, 能夠高效的與海量文本資源進行比對, 檢測出重復及引用片段等, 并且能夠計算出論文的復寫率、引用率及自寫率(對論文內容創新性評價)等指標[ 10] 。

該系統集合了專業的數據庫資源, 針對不同類型用戶的需求, 可提供專業的個人自檢測服務、高校學生論文檢測服務、期刊稿件檢測服務以及其他類型的檢測服務等。

該系統可以滿足教育界、出版社、媒體、科研機構等行業客戶及各類論文撰寫者等不同用戶的需求。通過該系統, 我們可以查出該文作者的自寫率是多少。

2.4 ROST反剽竊系統(學術論文不端行為檢測系統)

ROST反剽竊系統(學術論文不端行為檢測系統)是由武漢大學信息管理學院出版科學系沈陽教授帶領課題小組開發成功的文檔相似性檢測工具。可有效檢測論文的抄襲相似情況, 經過6年的研發(早期版本叫做網盜克星), 推出了6.0版本。

ROST反剽竊系統可以自動將文檔切割為多個50 ~ 200 字(可自定義)的小文本, 通過混合引擎與188 億個網頁和490萬篇文獻進行柔性匹配, 標示出每個文本塊與文獻庫中的文獻的最大相似度。由此軟件統計出相似度≥ 95%(基本原封不動拷貝)與相似度≥ 80% (拷貝后略作修改)的字數所占總字數比例。軟件把這個比例作為相似程度參考衡量指標。“ ROST反剽竊系統”與其他系統最大的不同之處在于覆蓋了188億個網頁以及490萬篇論文。

自ROST反剽竊系統2008年4月推出以來, 先后在武漢大學信息管理學院研究生辦公室、CSSCI核心期刊《出版科學》、《圖書情報知識》試用, 在2008年11月舉辦的第二屆數字時代出版產業發展與人才培養國際學術研討會對會議論文進行全面檢測, 并在2008年12月的第三屆中國期刊創新年會向全國期刊界做了全面推介, 取得了良好的效果。現在, ROST反剽竊系統已經進一步在《中國社會工作》、北京大學、廈門大學、上海理工大學、成都理工大學、浙江傳媒學院等全國近百所高校和期刊社中試用[ 11] 。

2.5 國內學術不端文獻檢測平臺的比較

隨著計算機技術在國內的廣泛興起, 對于學術論文不端行為檢測系統的軟件開發浪潮也一浪高過一浪。網絡和軟件的開發成功成為了國內反學術不端行為重要的里程碑, 也成為反學術論文不端行為的重要力量。通過對國內幾個著名的學術論文不端行為檢測系統的介紹, 我們發現, 國內的學術論文不端行為檢測系統都是由具有背景的各高校和研究所開發(見表1)。它們在功能和形式上大同小異, 也有各自不同的軟件算法, 支持的文件類型也非常相近, 只是由于平臺名稱科技期刊學術不端文獻檢測系統論文相似性檢測系統維普—通達論文引用檢測系統ROST反剽竊系統

后臺核心數據庫的不同, 造成了最終檢測結果有所差別。因此一個學術論文不端行為檢測系統的強大與否根本在于其后臺比對數據庫是否收錄了以前所有公開發表的文獻。由于現在CNKI和萬方爭相采取和各個編輯部簽訂獨家合作的協議[ 12] , 如果某一編輯部簽訂這一協議之后, 就勢必造成另一數據庫該刊物的原始數據文獻缺失, 也就造成了現今國內沒有一家數據庫是完整收錄所有刊物文獻數據的。由于數據庫文獻不全, 所以國內任何一家開發單位的產品都不能說百分百保證被檢測的數據一定可以與以往所有公開發表的中文文獻數據進行比對。所以各編輯部如果追求最全數據比對效果的話, 最好同時使用各個開發單位的產品。另外我們也同時呼吁國家政府管理部門出面叫停所謂的簽獨家協議的做法, 這樣做不僅僅造成的數據庫內容不完整, 更是造成了社會資源的極大浪費。

3 國外科技文獻數據庫的學術不端文獻檢測系統平臺  

反學術不端反剽竊系統作為論文初篩工具已經成為歐美高校的常用軟件, 國外高校對于反剽竊的研究高度重視, 在反剽竊領域的研究也比較成熟, 六年來國際反剽竊大會[ 13] 已經舉行了三屆, 相對來說前面介紹的國內相關研究還比較滯后。

3.1 Turnitin

Turnitin是全球最權威的英文檢測系統[ 14] , 被提交檢測的文章均為系統自動檢測, 無任何人工的干預, 所檢測出來的結果是系統與Turnitin所收錄的海量文獻進行對比分析后自動得出的結果。Turnitin提供給教育工作者強大而有效的工具, 來促進學生們的寫作技巧和獨立評價思考能力。Turnitin已經成功地在全世界90多個國家、超過7000 所高等院校應用, 全球數百萬的教師及學生都在使用Turnitin的實時評分工具和剽竊偵測服務。

十多年來Turnitin已經成為業界的領導者。每天收到的學生論文超過100000份, 已經成為教育界必不可少的工具。Turnitin依靠行業中最先進的搜索技術建立的持續增長的龐大數據庫, 來幫助教育工作者對學生作業中含有的不恰當的引用、或潛在的剽竊行為進行偵測和比對。每一份反饋的報告都提供給教師們一次教育自己的學生如何正確地引用文獻, 并以此捍衛學術誠信。

Turnitin是世界級最佳解決方案, 港臺和新加坡的很多高校也在學校網站上有詳細指導學生使用Turnitin的說明, 如香港理工大學[ 15] , 還有新加坡所有的四所大學均已使用Turnitin[ 16] 。

Turnitin的比對數據庫中擁有超過4千萬學生論文的數據庫, 索引超過120億的internet網頁, 超過10000種主流報紙、雜志及學術期刊, 數以千記的書籍, 包含文學名著等。所以Turnitin是唯一有技術能力來偵測是否是購買的論文、偽造或是學生之間的相互剽竊的系統。

3.2 CrossCheck

CrossCheck是CrossRef組織下屬的一個子網。由于近年來出版集團也和大學一樣發現有越來越多的剽竊行為。總部位于荷蘭的Elsevier公司和總部位于英國牛津的Blackwell 公司是學術界的兩大出版集團, 一共出版了2500多種期刊。因為剽竊正在變成一種普遍情況, 出版集團也和大學一樣不得不采取行動了。Blackwell的總裁BobCampbell說:“編輯們越來越頻繁地向我們抱怨這類事情”[ 17] 。

所以出版集團的聯合組織CrossRef就成為最有可能擔當此項責任的系統平臺。CrossRef[ 18] 最初是由幾家出版商于2000年創立的非營利性組織, 其宗旨是通過出版商之間的集體合作, 讓用戶能夠訪問原始研究內容。CrossRef也可以被看作是一個數據庫, 存儲它代理注冊的DOI;CrossRef 還是一個技術架構, 用來建立在不同出版商的網絡平臺上出版的STM (Science/Technical/Medical)期刊內容之間的鏈接, 稱之為“跨出版商鏈接” , 或“跨平臺鏈接” , 這是CrossRef 最重要的作用。

這種鏈接機制背后最核心的技術是DOI(DigitalObject Identificator, 數字對象標識符), 就是給網上的每篇文章分配一個唯一的身份識別代碼。目前CrossRef已有3000 多家會員單位(出版商、學協會等)。

CrossCheck是由CrossRef推出的一項服務, 用于幫助檢測論文是否存在剽竊行為。它的軟件技術來自于iThenticate。在國際出版鏈接協會(PILA)牽頭下, 國際幾大出版商和電子電氣工程師協會(IEEE)及美國計算機學會(ACM)共同參與了這項全球性項目。正是由于Crosscheck 能夠在全球范圍內最大程度地檢查和防范學術剽竊行為, 達到嚴正學術道德, 凈化學術空氣的目的, 使其一舉贏得了全球學術與專業出版者協會(ALPSP)頒發的2008年度全球最佳出版創新獎。目前全球會員單位有50多家, 包括一些國際科學出版集團和科學學會:自然出版集團(NPG), 愛思唯爾, 施普林格, 威立· 布萊克威爾(WileyBlackwell), 英國醫學期刊出版集團(BMJ) , 泰勒弗朗西斯出版集團(Taylor&Francis), 美國科學進步協會(AAAS), 美國物理學會(APS)等。我國的《浙江大學學報(英文版)》在國家自然科學基金的重點期刊項目的資助下, 也于2008年成為中國第一家Crosscheck會員[ 19] 。

CrossCheck的工作原理其實很簡單, 用戶通過客戶端將可疑論文上傳, 然后系統將該論文與CrossCheck數據庫中的已發表文獻進行比較, 最后報告給用戶可疑論文與數據庫中已發表文獻的相似度, 以百分比表示, 并將相似的文本標示出來。當其相似度總量超過50%時, 系統會自動顯示黃色背景, 如圖6所示, 提醒操作者的注意。只要點擊其中的相似度數據, 系統便直接進入具體報告列表, 操作者可以對論文具體的“ 文本重疊” 現象進行分析判斷。其中, 界面的左欄為上傳的被檢測文本, 凡與之匹配的對比文獻相似部分系統以相同的顏色和序列號標識;右欄的每個單篇匹配文獻的相似度大小順序排列。

3.3 Safeassign

SafeAssign[ 20] 是Blackboard教學管理平臺功能的一部分, Blackboard用戶無需額外費用, 能夠將提交的論文與指定的資源庫中的論文進行相似度對比檢測, 并將檢測結果(包括匹配度、分析報告)反饋給用戶;與成績中心互連, 教師可在成績中心為檢測后的論文打分。SafeAssign同樣也是強有力的反抄襲檢測工具, SafeAssign采用獨特的原創性檢測算法將提交的文章與數據庫內批量收藏的作品進行對比, 這些數據庫包括:數以億計的公眾可獲取的文件的綜合信息的互聯網;有數百萬的當前文章, 且每周都在更新的ProQuest ABI/Inform數據庫;機構的用戶提交的所有文獻研究機構的文檔庫:還包括有各地學生們自愿提交的文獻全球參考數據庫(GlobalReferenceDatabase);文獻在專業機構的數據庫內自動進行檢測。

3.4 愛思唯爾的PERK

愛思唯爾作為世界上最大的學術期刊出版機構, 旗下擁有1800多種期刊。2008年3月4日, 愛思唯爾發布了《出版道德資源工具包》(PublishingEthicsResourceKit, PERK)。PERK是一個在線資源[ 21] , 用以處理期刊編輯出版中的論文是否有學術不端問題。這是一個愛思唯爾出版道德準則的單一標準點。同時作為一個在線資源, PERK鏈接到愛思唯爾內外各種與出版道德相關的政策和程序性文件, 為期刊編輯提供及時和廣泛的在線支持。

3.5 國外其他科學文獻檢測平臺

和國內的情況不同的是, 除了上述幾家國際著名的學術不端文獻檢測平臺外, 國外還有相當多數量的學術不端文獻檢測平臺。如馬里蘭大學的ThePlagiarism Checke[ 22] , plagiarism checker公司的檢測平臺[ 23] , ArticleChecker公司的檢測平臺[ 24] , plagiarism search公司的檢測平臺[ 25] , plagiarismdetect公司的檢測平臺[ 26] , theplagiarism公司的檢測平臺[ 27] , 等等。

4 國內學術不端文獻檢測系統平臺與國際間的差距

國內學術不端文獻檢測系統的建立時間相比國外的學術不端文獻檢測系統來說很短, 技術方面都還很不完善, 無論從算法結構, 還是后臺核心數據庫, 用戶數, 還有用戶選擇上都無法和國際巨頭相提并論。更重要一點, 國內的學術不端文獻檢測系統在英文文獻上毫無辦法, 這為一些國際化程度較高的高校要選擇使用此類系統產生一定的障礙, 通過同樣處于華語區的新加坡和香港的高校, 我們可以發現, 使用國際知名的學術不端文獻檢測系統是多數。

結合國內國外的幾個學術不端文獻檢測系統平臺的實例, 我們可以發現凡是通過互聯網組織和強大數據庫后臺支持運行的學術不端文獻檢測系統平臺都相當的成熟, 并且數據的更新和維護非常及時, 無論在實際應用和現實情況上都有較大優勢。因此建議政府部門在支持建立新的學術不端文獻檢測系統平臺時, 可以考慮建設含有現今完整中文文獻數據庫和強大中文網絡搜索比對功能的科學文獻平臺, 在此平臺上建立的反學術不端、反剽竊檢測平臺必然獲得巨大的。

5 結語

所有的科學研究, 都是在前人勞動成果的基礎上進行的, 并有所創新、有所提高、有所發展。作者在撰寫論文時, 引用他人重要學術觀點、理論、成果、研究方法或數據結果、調查結論等體現出科學的繼承性及對他人勞動的尊重[ 28] 。作為一個科研工作者, 標注引用他人學術成果是一種符合科學倫理道德的行為。而現有的學術不端文獻檢測系統, 完全可以作為作者的一種自我檢查。對于作者來說, 學術不端文獻檢測系統的好處是顯而易見的, 這個由計算機數字信息處理系統所組成的功能平臺實際上起到的作用是預防剽竊, 防止該作者將文獻投稿并公開出版后被公眾指認為剽竊而后悔莫及。

作為編輯來說, 也要認識到僅僅根據文字復制比例判斷抄襲行為是有局限性的, 一定要采取科學的態度, 具體情況具體分析, 理性地作出判斷。特別是簡單、機械地整個句子抄襲在學術不端文獻檢測系統推廣后會大量減少, 可以遇見在不久的將來, 更隱蔽、更有欺騙性的剽竊論文將會大量出現。因此對于編輯來說, 任何檢測系統都不是萬能的, 對系統的結果不宜盲從, 無論是檢測結果有問題的, 還是沒有問題的, 都不一定代表是最后真正結果, 更不能將計算機判斷的結果作為判斷此論文到底有沒有剽竊的最終結果。期刊編輯對各類學術不端檢測系統檢測的結果必須要人工2次核實, 才能對論文最終做出客觀、公正的評價。如果檢測出來重復的是具有共性、普適性、權威性的并且引用過的內容, 可以剔除嫌疑, 而經同行評議發現論文作者盜用他人學術觀點、理論、數據、圖表、結論成果并在文字表述有大量改寫而通過學術不端文獻檢測系統未能檢出的文章一樣判斷為抄襲, 退稿并列入黑名單。