前言:尋找寫作靈感?中文期刊網用心挑選的科技期刊編輯篩查學術不端行為探析,希望能為您的閱讀和創(chuàng)作帶來靈感,歡迎大家閱讀并分享。
摘要:論文的統(tǒng)計學質量是學術期刊質量控制的重中之重。本文介紹幾種常用統(tǒng)計學檢驗方法的規(guī)則,結合案例分析,分享《新醫(yī)學》在文章統(tǒng)計學質量把關方面的經驗:1)t檢驗和秩和檢驗中|t|或者|Z|若<1.96,對應的P值必然>0.05,且在相同樣本量的情況下,|t|或者|Z|越大,P值越小。2)四格表的卡方檢驗,χ2值若<3.84,則對應的P值>0.05;在樣本量相同時,χ2值越大,P值越小。3)logistic回歸分析或Cox生存分析中,自然對數(shù)的底(e)的回歸系數(shù)(B)次方,即exp(B),必須等于RO或RH值;RO或RH值的95%CI的下限=exp(B-1.96Es),95%CI的上限=exp(B+1.96Es);且RO或RH值的95%CI如果包含1,對應的P值必然>0.05;RO或RH值的95%CI必然包含RO或RH值exp(B)。編輯人員應掌握基本統(tǒng)計知識,并增強與作者的溝通,刊發(fā)文章應有多次統(tǒng)計審稿,并要求作者提供具體的統(tǒng)計值。通過上述規(guī)則和經驗,希望幫助科技期刊編輯初步篩查可能存在統(tǒng)計結果錯誤的文章,以避免刊出因統(tǒng)計問題所致的結果造假類學術不端論文。
關鍵詞:學術不端;統(tǒng)計學;科技期刊;規(guī)則
2019年,國家新聞出版署了《學術出版規(guī)范期刊學術不端行為界定》,指出論文作者學術不端行為包括但不限于剽竊、偽造、篡改、不當署名、一稿多投、重復發(fā)表等問題[1]。學術不端問題不僅影響了科學的健康發(fā)展,也影響了社會對科學研究的信任。盡管《國家科技計劃實施中科研不端行為處理辦法(試行)》《學位論文作假行為處理辦法》《發(fā)表學術論文“五不準”》《高等學校預防與處理學術不端行為辦法》《關于進一步加強科研誠信建設的若干意見》等法律法規(guī)對學術不端行為的處罰有明確規(guī)定;但是由于利益驅使,學術不端行為仍屢見不鮮。對于學術不端行為,除了論文作者的自我約束外,也需要編輯工作者的“監(jiān)督”[2]。文獻數(shù)據庫的系統(tǒng)可以幫助編輯們識別剽竊、一稿多投、重復發(fā)表等問題,但仍較難識別偽造、篡改等行為。編輯若能掌握一定的統(tǒng)計知識,則可以從結果中篩查結果偽造、篡改等學術不端行為,減少“胡編亂造”的文章。《新醫(yī)學》從2014年開始,由流行病與衛(wèi)生統(tǒng)計學專業(yè)畢業(yè)的編輯人員擔任統(tǒng)計學編輯,對文章進行統(tǒng)計學把關,杜絕了學術造假的文章發(fā)表,掌握了一定經驗,現(xiàn)分享如下。
1統(tǒng)計規(guī)則幫助發(fā)現(xiàn)科學錯誤
在醫(yī)學論文中,t檢驗、秩和檢驗、卡方檢驗、logis-tic回歸分析、Cox生存分析等都較為常見。這些統(tǒng)計分析的結果有一定的“規(guī)則”。
1.1t檢驗和秩和檢驗的常見規(guī)則和使用。|t|或者|Z|若<1.96,對應的P值必然>0.05,且在相同樣本量的情況下,|t|或者|Z|越大,P值越小[3]。在《可切除原發(fā)性肝癌破裂出血急診肝切除與TACE后二期肝切除的臨床研究》[4]一文表2中,術中輸血量2組間比較的t=1.952,P=0.017,與“或者若小于1.96,對應的P值必然>0.05”不符。上文同一表里術中出血量比較,t=2.547,P=0.028。《心房顫動患者射頻消融術后運動耐力現(xiàn)狀及影響因素分析》[5]一文表1中VO2max的吸煙與否2組間比較,作者給的t=7.370,P=0.012;而BMI正常與否的2組間比較,t=2.671,P=0.009。在《影響聚乙二醇干擾素α-2b治療慢性乙型肝炎患者療效的多因素分析》[6]一文表1中,2組白蛋白比較,t=2.155,P=0.134;而丙氨酸氨基轉移酶的t=2.048,P反而為0.043。上述結果均違反“在相同樣本量的情況下,|t|或者|Z|值越大,P越小”。若要較準確地驗證,可以采用t檢驗的計算公式(見式(1)和(2)),粗略估計t值和P值,可以發(fā)現(xiàn)上述t值和(或)P值是完全不正確的。方差齊性時,式(1)和(2)可以錄入到Excel表格中進行保存,每次只要輸入2組的均數(shù)、標準差和樣本量,即能得到估算的t值和P值,將其與作者的t值和P值進行比較。如果不計算,也可以在Excel中利用t分布的公式“T.DIST.2T”以及標準正態(tài)的公式“NORM.S.DIST”,根據作者給的t值和樣本量(自由度)或者Z值,對應獲得P值,核對該P值是否與作者給的P值相符。實際上不止t檢驗,方差分析等同樣可以根據作者給的F值、樣本量和組數(shù)(自由度),在Excel中利用公式“F.DIST.RT”核對F值與P值是否相符。另外,作者若未提供均數(shù)和標準差等具體數(shù)據,文章只有條圖、直方圖,編輯同樣可以根據圖的高度以及誤差線長短估計均數(shù)和標準差,再結合樣本量,利用上述公式得到估算的統(tǒng)計值,用于結果的粗略判斷。
1.2四格表卡方檢驗的常見規(guī)則和使用。對于四格表的卡方(χ2)檢驗,即2組率的比較。χ2值若<3.84,則對應的P值>0.05;在樣本量相同時,χ2值越大,P值越小[3]。《剖宮產術后腸梗阻的相關危險因素分析》[7]一文表2中,2組產房中轉剖宮產率比較χ2=11.520,P=0.010;然而2組手術時間≥1h比例比較,χ2=10.437,P=0.001。實際上,前者的P值是0.001,編輯若有基本的統(tǒng)計知識,則可避免這樣的筆誤。《危重癥早產兒胃腸外營養(yǎng)相關膽汁淤積的影響因素分析》[8]一文表1中,同樣可以發(fā)現(xiàn)這類問題。2組間性別比較的χ2=1.245,P=0.141;而抗生素使用比較χ2=1.352,P=0.785。經過計算,可以發(fā)現(xiàn)這篇文章表1里性別、抗生素使用、新生兒濕肺、新生兒肺透明膜病指標的χ2值和P值均有誤;表2的喂養(yǎng)困難組間比較χ2值也有誤;表3關于logistic回歸分析部分更是錯得離譜。編輯要是能掌握SPSS等軟件的操作[9],則根據作者給的樣本量和率,可以很容易地得到真實的χ2值和P值。1.3logistic回歸分析和Cox生存分析的常見規(guī)則和使用logistic回歸分析或者Cox生存分析中,自然對數(shù)的底(e)的回歸系數(shù)(B)次方,即exp(B),必須等于RO或RH值(RO為優(yōu)勢比,即OR;RH為風險比,即HR)。RO或RH值的95%CI的下限=exp(B-1.96Es),95%CI的上限=exp(B+1.96Es),其中Es為標準誤。RO或RH值的95%CI如果包含1,那么對應的P值必然>0.05。RO或RH值的95%CI必然包含RO或RH值exp(B)[10-11]。《乙型肝炎肝衰竭患者預后影響因素Logistic回歸分析》[12]一文表2里4個因素的exp(B)均不等于作者給的RO值,RO值的95%CI也有誤。《影響聚乙二醇干擾素α-2b治療慢性乙型肝炎患者療效的多因素分析》[6]一文表2中多因素logistic回歸分析中,exp(B)不等于RO值,而且多個RO值的95%CI不包含RO值。《HBV相關慢加急性肝衰竭患者預后及其影響因素分析》[13]表4中PT值的exp(B)亦不等于RO值。《中國普外基礎與臨床雜志》27卷1期的《老年Ⅲ期右半結腸癌經腹腔鏡全結腸系膜切除治療的臨床效果及預后分析》[14]和《96例乳腺葉狀腫瘤復發(fā)轉移及預后相關因素分析》[15]2篇文章均存在同樣的問題。以文獻[15]的表2為例,至少有3項RO和(或)其95%CI計算有誤,見表1(原表不規(guī)范處未修改,表中最后一列為我們根據作者給的B和Es計算的結果)。其中,統(tǒng)計對象是手術方式的擴大切除術者,根據作者給的RO(0.435)和P值(0.007),可以認為擴大切除術局部復發(fā)的發(fā)生率較乳房全切除術低;根據作者給的RO的95%CI(0.282,1.718),由于區(qū)間包含了1,則認為2種手術方式差異無統(tǒng)計學意義;但根據作者給的回歸系數(shù)和標準誤計算得到的RO(95%CI)為[43.510(1.034,672.579)],認為擴大切除術的局部復發(fā)率較乳房全切除術更高。那真實情況究竟是什么?不得而知!綜上可見,已發(fā)表的文獻中存在統(tǒng)計結果錯誤的文章并不少見。不管是有意的學術不端行為,還是粗心大意導致的錯誤,最終得到的錯誤結果甚至是完全相反的結論。這類文章不但不能為臨床醫(yī)生提供有益的信息,甚至會給出錯誤的指導,造成臨床事故!若編輯人員能掌握這些統(tǒng)計學基本知識,將大大減少這類嚴重錯誤的發(fā)生。
2我們的經驗
2.1編輯人員應掌握基本統(tǒng)計知識,刊發(fā)文章應有多次統(tǒng)計審稿。編輯人員應有基本的統(tǒng)計知識,如掌握上述介紹的常用統(tǒng)計方法的幾個小規(guī)則,則有助于初步篩查嚴重錯誤。如果不能把握文章統(tǒng)計方法或者結果的準確性,則應由具有統(tǒng)計專業(yè)知識的兼職人員等負責文章的統(tǒng)計把關工作。我們的統(tǒng)計審稿包含了統(tǒng)計初篩、統(tǒng)計初審、統(tǒng)計復審等環(huán)節(jié),由衛(wèi)生統(tǒng)計專業(yè)的全職編輯負責。從接收作者的投稿文章開始,統(tǒng)計審查就與科學性、創(chuàng)新性、不端檢測等同時進行審核。統(tǒng)計初篩主要檢查作者的研究設計是否合理,統(tǒng)計分析方法是否正確,初步核對統(tǒng)計數(shù)據有無問題。若存在較大問題,尤其是學術造假問題(如上述列舉的多項錯誤同時存在),統(tǒng)計學編輯有權實行一步退稿。統(tǒng)計初審則是在文章通過專家外審之后,進行文章統(tǒng)計方法和統(tǒng)計結果的詳細審核,除了審查統(tǒng)計方法使用正確與否,還對部分數(shù)據計算核對,以核對作者方法與結果的統(tǒng)一性,以及結果的正確性。在統(tǒng)計初審時,為了方便作者修改,我們不僅提出問題所在,還給出建議的分析方法,告知作者如何修改等。這樣可以避免作者的反復修改,節(jié)省時間,縮短了審稿周期。若文章的統(tǒng)計初審有問題,則待作者修改之后,會有統(tǒng)計二審這個環(huán)節(jié),主要是審核作者是否修改正確;若仍有錯誤,則會再次退給作者,返回的修改稿進行統(tǒng)計復審環(huán)節(jié),直至沒有統(tǒng)計問題。這些環(huán)節(jié)的存在,大大避免了投機取巧的作者編造結果來投稿,從而避免了學術不端行為。
2.2要求提供具體的統(tǒng)計值。計算機技術的發(fā)展使得統(tǒng)計軟件迅猛發(fā)展,各種統(tǒng)計學檢驗很容易通過統(tǒng)計軟件實現(xiàn),可以得到具體的統(tǒng)計值。但是,不少編輯部還允許作者只提供P值是否小于0.05。由于有統(tǒng)計學意義的結果更容易被接受,所以有一些作者可能不經過計算,便給出P<0.05。如《順向、逆向開通技術在頸動脈串聯(lián)閉塞致急性缺血性卒中治療中的應用對比觀察》[16]一文中,順向組一次取栓成功率30.0%(3/10),逆向組為52.9%(9/17),作者寫P<0.05,實際上經過計算P值應該為0.424。若讓作者給出具體統(tǒng)計值,可能可以提醒他勿造假。因此,為了減少此類情況,方便對比統(tǒng)計值,我們建議所有編輯部均要求作者提供具體的統(tǒng)計值,尤其是具體的P值。
2.3增強與作者溝通。統(tǒng)計初篩時,如發(fā)現(xiàn)作者所使用的統(tǒng)計學方法是正確的,但個別結果與規(guī)則存在不合之處,則應提醒作者在修改時復核統(tǒng)計學結果。作者經過修改之后,若仍有統(tǒng)計結果錯誤,而作者堅稱并非造假,可再次與作者溝通,詳細了解其使用的統(tǒng)計學方法及處理步驟,提醒其注意是否抄寫錯誤。如有的作者經常在2組定量資料的比較中,將方差齊性檢驗的結果當作組間差異比較的結果;定性資料的分析時,經常有作者寫了用卡方檢驗,但是P值實際是從Fisher確切概率法處獲得的。若能與作者多溝通其稿件細節(jié),提醒作者核對注意事項,則可以幫助作者避免出現(xiàn)統(tǒng)計學錯誤。在溝通時,應注意盡量少使用術語,以簡明易懂的語言說明文章存在的明顯統(tǒng)計學錯誤。如不加復核,將導致研究結果不可信,即使投寄他刊刊出也將嚴重影響個人的學術誠信。不少作者在與我們溝通后,重新審視研究的統(tǒng)計學處理步驟,仔細復核統(tǒng)計學數(shù)據,使文章結果更具科學性。如作者拒絕復核,也無法提供原始數(shù)據、統(tǒng)計學處理步驟以供復核,則對其文章數(shù)據的可信性存疑,應予退稿處理。
3結束語
我國期刊數(shù)量近萬種,且不斷增加,其中醫(yī)學期刊占了不少份額[17]。數(shù)量不斷增加,學術質量也要加以保證,而統(tǒng)計學審稿是期刊尤其是醫(yī)學期刊質量控制的重中之重,是醫(yī)學論文審稿中不可缺少的重要環(huán)節(jié)[18]。但是近年來,科研造假事件頻發(fā)[19],統(tǒng)計學誤用、亂用屢見不鮮[20],文章質量堪憂。通過統(tǒng)計學審查,可以減少一部分存在“胡編亂造”學術不端的文章,提高刊發(fā)文章的質量。這就要求編輯必須提高自身的統(tǒng)計學素養(yǎng)[21],在數(shù)據的把關中有所作為[22]。希望以上規(guī)則以及經驗可以幫助編輯同行們識別“造假”問題,提高對這類文章的警惕性,做好初步的質量把關。總之,編輯人員應該克服畏難情緒,努力學習統(tǒng)計學知識,掌握篩查統(tǒng)計結果造假等學術不端的能力。遇到困難時,可向統(tǒng)計學專家請教,同時從文章的研究設計、統(tǒng)計分析方法恰當與否、分析結果是否正確、結論是否合理等對文章的統(tǒng)計質量進行評價,使得文章具有較高的統(tǒng)計學質量。只有這樣,才能避免發(fā)表存在數(shù)據造假問題的文章,提升文章的可信度和期刊的公信力,筑牢學術誠信和出版?zhèn)惱淼拙€。
作者:鄭巧蘭 林燕薇 洪悅民 楊江瑜 單位:中山大學附屬第三醫(yī)院期刊中心《新醫(yī)學》編輯部