薈萃分析(Meta-analysis):潛能和功能
時間:2022-02-19 04:10:00
導語:薈萃分析(Meta-analysis):潛能和功能一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
薈萃分析這一術語對統計學綜合和分析來自獨立研究的數據是恰當的,因為這個術語有其道理。Meta意指較晚出現的更為綜合的事物,而且通常用于命名一個新的相關的并對原始學科進行評論的學問。而其他術語則既不具體又不確切,例如“綜述”(overview)習慣上也可指傳統的文獻綜述,而“匯總”(pooling)意指源數據合并。最近“薈萃分析”一詞被列入醫學主題詞表和國家醫學圖書館的Medline檢索系統中。系統性綜述是指應用避免偏差的策略的和針對資料和方法部分的任何形式的回顧。系統性回顧可以包括也可以不包括正式的薈萃分析。
回顧歷史
獨立的研究的合并分析并非最近才有的。統計學家KarlPearson在1904年關于預防傷寒免疫血清的預防效果的報告,可能是運用正式的技術對合并不同樣本的數據進行分析的首次報道。而Pearson提出的原理仍然是現在的薈萃分析的主要的理由之一:“若考慮其中可能存在的錯誤,許多觀察組……樣本過小,難以產生任何明確意見。”
第一個薈萃分析估計一種治療措施的有效性,發表于1955年。有趣的是,這種治療為一種安慰劑。對各種差異非常大的條件如術后傷口痛、咳嗽和心絞痛等應用安慰劑的有效性的平均值進行了計算,安慰劑對35%的病人有顯著效果。然而,在十九世紀七十年代在社會科學,尤其在教育研究工作中發展了更成熟的統計學技術。薈萃分析這一術語由心理學家Glass在1976年杜撰。薈萃分析被心血管病、腫瘤學、圍產期保健領域中的醫學研究者重新發現并用于隨機化臨床試驗研究分析。人們也倡導對觀測研究的薈萃分析及“交叉設計合成”(crossdesignsynthesis)(觀測研究數據與隨機化臨床試驗的薈萃分析結果的整合)。
后來,一個由臨床醫師、流行病學家和其他衛生專業人員組成的網絡建立。Cochrane合作組(以醫學干預評價領域的先驅ArchieCochrane的名字命名)的宗旨是準備、維護和醫療保健療效的綜合性系統的回顧。自從1992年Cochrane中心在牛津建立以來,這種研究便迅速發展起來,在歐洲、北美洲和拉丁美洲、非洲和澳洲建立了15個中心以,又有數以百計的遍布世界各地的個人參與合作。
不受歡迎的統計病態面孔?
盡管薈萃分析被廣泛應用,但它一直是一項引起爭議的技術。一些擁護者認為“一旦有可能薈萃分析就應取代傳統的單主題的回顧性文章”,其他的人則把它看作是一個“新的禍根”,為一種“不受歡迎的統計病態面孔”和“應該把它扼殺在搖籃里”。這種接受性的巨大反差并不奇怪。從臨床的角度來看,合并一組具體研究的結果也許并不適合,因為它生成一個群體“平均”治療效果,而臨床醫師想要了解怎樣才能最佳醫治他或她的具體病人。對同一問題的薈萃分析可以得出截然相反的結論,如對低分子量肝素防止手術前后血栓形成的評估。及對二線抗風濕病藥物治療風濕性關節炎的評估。但事情很明顯,為了從先前的研究中獲得最大的收獲,正確的文獻回顧策略應越來越普及及予以高度重視。
敘述性綜述
傳統的敘述性綜述有其不足之處,而薈萃分析似可克服這些缺陷。典型的綜述是主觀的,因此它易引起偏差和誤差。因為沒有正規的規則作指導,評論家們可能對一些基本問題產生分歧,如應該包括何種類型的研究,應該如何平衡所獲得的定量證據。選擇支持作者觀點的內容非常普遍:臨床實驗被引用的頻率與他們所得出的結果有關,與流行觀點相一致的研究比觀點不一致的研究被引用得更頻繁。一旦收集好一組研究,傳統的對研究結果綜述的方法是計算從各方面支持該一論點的研究的數目,并選擇得到最多認同的觀點。這個步驟無疑是有缺陷的,因為它忽視了樣本大小、作用大小和研究設計。因此難怪應用傳統的方法的分析家們常常得出截然相反的結論,并且往往忽略了微小的,但可能有重要意義的差別。臨床醫學飽受相反結論之苦,而評論家似乎應有責任去平息這些爭論。然而,在爭論中,從同一證據實體得出的相反的結論可能與評論家的專業有關而不是數據本身。通過整合實際證據,薈萃分在被檢查的總數為136個的115個試驗中析可以有更客觀的評價,因此當遇到原始研究、傳統的綜述和編輯意見相左時,薈萃分析可能幫助解決不確定性。
單個研究的局限性
單個研究常常既不能發現也不能排除兩種療法較小的但與臨床有關的的差異。一個試驗可能顯示無顯著療效,然而事實上療效確實存在,因而可能產生假陰性結果。這是一種II型誤差,對某一治療效果、樣本大小和顯著意義水平的差異,這種誤差的出現的概率可能被計算出。通常I型誤差較好識別——當一個試驗隨機產生顯著差異時,這種誤差的概率反映在P值。一個對報道在試驗組和對照組之間治療無顯著差異的臨床試驗的調查顯示,在臨床研究中出現II型誤差相當普遍:對一個臨床療效的差異,在被檢查的總數為136個的115個試驗中遺漏這一作用的先驗概率(在某一樣本大?。┏^20%。臨床試驗中所包含的病人數常常不夠充分,這種情況在新近的幾年中幾乎沒有改變。在某些情況下,那些必須的樣本大小仍然很難達到。例如有一種藥物,它能使心肌梗塞的致死風險減少10%,而僅在英國每年就可以延長成千上萬病人的生命。要想測出這種藥物效應并具有90%的確定性(要求II型誤差不得超過10%),那么一個治療組就需1萬多個病人。
為取代如此巨大而昂貴、邏輯解釋又較困難的研究,薈萃分析看來是一個非常吸引人的選擇??衫脦讉€較小的但具有可比性的評估相同的或類似的藥物試驗的數據。通過這種方法容易獲得所需病人的數量,并可以按可信度發現或排除相對較小的藥物效應。
同樣,薈萃分析有助于估計研究結果的普遍性。某些具體研究的發現可能只有在與該研究人群具有相同特性的病人群體中才有效。如果在不同的病人群體的實驗發現具有類似結果,那么可以得出結論這種干預的效果具有普遍性。通過集中所有可獲得的數據,薈萃分析比單個試驗能更好地回答關于一個總體研究結果是否在各個亞群中(如男性病人、女性病人或疾病的嚴重程度不同的對象)存在差異。隨著這一系列文章的討論的展開,這些問題將加以闡明和分析,往往可以比單純的結合性效果評估方法獲得更深的見解。
結果流行病學
薈萃分析不但包括數據結合,而且包括結果的流行病學探索和評價——結果流行病學,以原始研究的發現取代個體作為分析實體。在單個研究中未能提出的一些新的假說在薈萃分析中能得到檢驗。然而,盡管所包括的研究可能為對照試驗,薈萃分析本身仍面臨著很多觀測研究的內在偏差。即使如此,薈萃分析仍然能夠引導人們識別最有希望或最緊迫的研究問題,而且可以較精確地計算出今后研究所需的樣本大小。一個關于比較分娩時監測胎兒的不同方法四個試驗的早期薈萃分析證明了上述觀點。薈萃分析推導出這樣一種假說,與間歇性聽診相比連續監測胎兒的心臟能減少新生兒發生疾病的風險。后來這個假說在一個規模相當于先前的四次聯合研究七倍的單個隨機實驗中得到證實。
更透明的評價
薈萃分析的優點之一是使文獻回顧過程中某個重要部分更加透明。在傳統的敘述性回顧中結論如何從被檢驗數據中得出往往不夠清楚。在一個表述充分的薈萃分析中讀者可以復制論點的有關定量部分。為此,充分提供薈萃分析所覆蓋的數據或允許感興趣的讀者訪問這些數據是很有價值的。
薈萃分析所需的越來越大的公開性導致用再生的數值代替一些無用的描述詞,例如:“無關系”,“某趨勢的一些證據”,“某種弱關系”,“某種強關系”。而且實施薈萃分析可能導致評論家們超越作者在論文摘要中提出的結論,并對實際數據進行全面檢驗。隨著薈萃分析成為一個標準程序,可貴的客觀性有望得以恢復。
累積薈萃分析(Cumulativemeta-analysis)
累積薈萃分析被定義為每當一個新實驗的數據發表即重復實施薈萃分析。這種累積薈萃分析能在一種治療效果首次達到常規水平的意義時回顧性地及時地確定它。例如,Lau和同事們指出在急性心肌梗塞病人靜脈注射溶栓酶的實驗中,早在1973年就已經達到了總死亡率方面的一個顯著的結合差異。當時2432個病人被隨機地分成8個小的實驗中。隨后的25個研究(包括大的GISSI-1和ISIS-2試驗,增加了總數為34542的病人)的結果,使有意義水平在1979年減少到P=0.001,在1986年減少到P=0.0001,而當第一個非常巨大的試驗問世時,P達到0.00001,死亡風險減少20%左右這個估計本質上未變的,僅使附近的可信度區間變狹窄。有趣的是,在GISSI-1試驗發表以前至少有一個國家許可將溶栓酶應用于心機梗塞中,然而許多國家當局也在等待GISSI-1試驗的問世,而有一些為了等待ISIS-2試驗的結果而翹首期盼了兩年多之久。類似的情形也見于β阻滯劑在心肌梗塞二級預防方面。在1981年,一個有影響的社論認為“盡管人們提出β阻滯劑能減少心律失常和心臟負擔以及縮小梗塞區大小,但經過了差不多20多年的臨床實驗,我們仍然沒有明確的證據證明他們能改善長期的生存率?!比欢鄯e薈萃分析表明,在1977年此療法就顯示了重要效益(P=0.02),并在1981年顯示了其聯合效益的臨床重要性及高度的顯著意義(oddsratio為0.71(95%的置信區間為0.59至0.84),P=0.0001)。隨后的一個13113個病人僅僅是進一步證實了這一結論。“公務員之家有”版權所
累積的薈萃分析的另一個應用是把逐步累積的證據與專家在回顧文章和教科書中的建議關聯起來。Artman和同事的研究表明,專家于1987年推薦把溶解血栓的藥物作為常規使用,累積薈萃分析顯示14年后這一用法的重要效益(P=0.01)就很明顯。相反,盡管在薈萃分析表明利多卡因在預防心肌梗塞方面并沒有顯示任何效益并可能存在有害作用,但它仍被不斷地推薦為預防心肌梗塞的常規應用所列舉這些例子提示一旦對已前較小實驗作薈萃分析已表明有顯著的療效,那么如果再作大量病人的實驗,即使并非不道德,也是最大的奢侈和浪費。然而,有些其他的薈萃分析的例子表明,一些薈萃分析認為具有統計學重要效益和臨床重要性的結論卻與以后一些大的隨機實驗的結論發生沖突。薈萃分析作為一種臨床研究和保健技術評估工具,明顯優于傳統的敘述性回顧,具有相當優勢。然而,薈萃分析不是“永遠正確”的工具,這將在此系列以后的文章中進行討論。