當前位置:首頁 > 科技 > 正文

醫療大數據及精準醫療

謝邦昌

台北醫學大學管理學院及大數據研究中心 院長/主任

大數據的趨勢以及價值是現在最熱門的話題,也改變了許多企業經營的方式,對于各行各業來說是勢必是一個大挑戰,能否将大數據的力量從危機到轉機就要看現代經營者有沒有轉變傳統型态的思維?

首先什麼是大數據?傳統數據一年的數據量大概為3TB左右,以現今數據來說一天的資料量為50TB,由這簡單的數據量差就可以得知傳統數據跟現今數據的差異多麼龐大,也就是現在俗稱的大數據時代。數據龐大之下,不管是銀行業、傳統零售業、社會建設公共方面甚至是醫療保健産業對數據處理、分析方式以及經營企業的模式将會有所改變。

在過往的醫療診斷曆史,到醫院看病時必須耗費許多時間等待看診,而醫生看診又要再花費時間。當醫生要求病患拍攝X光片或檢驗時,又要再花額外許多時間診斷。而在現今醫療信息高度發展的台灣,看診程序從網絡挂号、候診順序、診間病曆調閱、醫師醫令、處方開立、放射影像存取、檢查檢驗數據儲存等,無數的數據信息便在醫院中傳遞、交換、儲存。同時大多數的生理檢驗信息在你回診時得以從電子病曆中檢索,這些我們認為理所當然的信息處理,在台灣我們隻要花費少許的時間如一個早上便完成了,而這一切正是仰賴醫學信息分析與醫療大數據的交換處理。

醫學大數據的産生,主要歸功于醫療設備數字化及電子化病曆發展兩大領域的突破,透過儀器數字化,醫院得以獲得更多病人疾病與健康信息紀錄。而在病人醫療診斷方面,為了完善紀錄病患個人資料、診斷數據與過往醫療紀錄等,即促成了電子病曆系統發展。醫學大數據發展由過去紙張記錄、紙本信息數字化、醫學紀錄儲存到現今多信息整合,其數據量有着爆炸性的成長,不僅由過去個人社經信息、診斷信息等文字媒介,更拓展到多媒體影像信息,如X光影像,動态視訊影像信息,如核磁共振MRI以及電訊号信息,如心電圖等等,這些龐大醫學數據的彙集與高度整合技術能力,正是台灣醫學信息領域發展領先的原因,同時更顯得醫學數據發展的多元應用及其重要性。

而由醫療健保産業來說,個人醫療信息終端的産生給醫療産業帶來革命性的變化,連結了傳統醫院、政府(社會保障)、保險公司、藥物生産公司等相關産業,形成新的行業生态圈。将互聯網+醫療保健去建構一個智能的健康系統,在整個健康系統下會有智能的合作夥伴,包含醫院、醫生、診所、學術中心、保險公司、藥廠、醫療設備制造商、政府等相關人員等,接着産生出個人化的護理體系,其中包含個人健康、成本節約、提高效率、病人教育、增強通信、績效度量、預防等相關内容,使得人們有着更健康的社會。

經常聽到的醫療雲、照護雲以及健康雲都是運用雲端技術結合大數據去提供健康咨詢的服務。在網絡普及下,人手一台智能型手機讓這些雲更能夠去發揮,客戶隻需要使用健康感知的終端,其中包含穿戴型裝置、愛睡寶、電視機以及相關的智能型測量裝置,就能夠讓親人、醫生以及相關的護理人員得知目前的身體狀态,不僅如此,還可以遠程監護以及遠程門診,一切都透過遠程醫療平台讓人們有着安全、方便、快速及健康舒适的生活環境。

大數據在生技醫療衛生發展狀況及應用,大數據已深耕于經濟領域且創造了巨大的經濟價值

美國的大數據産業已經創造了巨大的價值,具體表現在:大數據使美國醫療服務質量得到提高。

  對于醫療服務的提供方和支付方來說,在減少醫療成本的同時不斷提高醫療質量和效率仍然是一個難以實現的目标,而這也是改善民生的重大機遇。2010年,全美醫療支出占國内生産總值的17.9%,比2000年增長13.8%。而且,某些慢性疾病如糖尿病的患病率正在增加,正在消耗更多的醫療資源。

對這些疾病和其他相關健康服務的管理将深刻地影響國家的福祉。在這方面大數據可以發揮作用。為在廣大人群中取得最有效的醫療效果,更多地使用電子健康記錄(電子健康檔案),并與新的分析工具相結合,将提供挖掘信息的機會。研究人員可以利用信息尋找有效的統計趨勢,并依據真實的醫療服務質量開展醫療評估。

大數據在醫療及生技業之應用

醫療及生技業大數據應用的當前需求來自疫情和健康趨勢分析、電子病例、醫學研發、臨床試驗等領域。

疫情和健康分析趨勢

利用大數據進行疫情分析,說明這個地方可能處于某種疾病蔓延,實時掌握病情。

Google和疾管局一樣能夠掌握流感疫情

2009年又冒出了一種新的流感病毒,稱為H1N1。這種新菌株結合了禽流感和豬流感病毒,迅速蔓延。短短幾星期内,全球的公共衛生機構都憂心忡忡,擔心即将爆發流感大流行。有些人發出警訊,認為這次爆發可能與1918年的西班牙流感不相上下,當時感染人數達到五億人,最後奪走數千萬人的性命。雪上加霜的是,面對流感可能爆發,卻還沒有能派上用場的疫苗,公共衛生當局唯一能努力的,就是減緩其蔓延的速度。為了達到這項目的,必須先知道當前流行感染的範圍及程度。
在美國,疾病管制局(CDC)要求醫生一碰到新流感病例,就必須立刻通報。即使如此,通報的速度仍然總是慢了病毒一步,大約是慢上一到兩星期。畢竟,民衆覺得身體不舒服之後,通常還是會過個幾天才就醫,而層層通報回到疾管局也需要時間,更别提疾管局要每星期才整理一次通報來的數據。但是面對迅速蔓延的疫情,拖個兩星期簡直就像是拖了一個世紀,會在最關鍵的時刻,讓公共衛生當局完全無法掌握真實情況。
說巧不巧,就在H1N1躍上新聞頭條的幾星期前,網絡巨擘Google旗下的幾位工程師,在著名的《自然》科學期刊發表了一篇重要的論文,當時并未引起一般人的注意,隻在衛生當局和計算機科學圈裡引起讨論。該篇論文解釋了Google能如何「預測」美國在冬天即将爆發流感,甚至還能精準定位到是哪些州。谷歌的秘訣,就是看看民衆在網絡上搜尋些什麼。由于Google每天會接收到超過三十億筆的搜尋,而且會把它們全部儲存起來,那就會有大量的數據得以運用。
Google先挑出美國人最常使用的前五千萬個搜尋字眼,再與美國疾病管制局在2003年到2008年之間的流感傳播數據,加以比對。Google的想法,是想靠着民衆在網絡上搜尋什麼關鍵詞,找出那些感染了流感的人。雖然也曾有人就網絡搜尋字眼做過類似的努力,但是從來沒人能像Google一樣掌握巨量數據(big data,直譯為大數據),并具備強大的處理能力和在統計上的專業技能。
雖然Google已經猜到,民衆的搜尋字眼可能與流感有關,像是「止咳退燒」,但相不相關其實不是真正的重點,他們設計的系統也不是從這個角度出發。Google這套系統真正做的,是要針對搜尋字眼的搜尋頻率,找出和流感傳播的時間、地區,有沒有統計上的相關性。他們總共用上了高達4億5千萬種不同的數學模型,測試各種搜尋字眼,再與疾管局在2007年與2008年的實際流感病例加以比較。這套軟件找出了一組共四十五個搜尋字眼,放進數學模型之後,預測結果會與官方公布的全美真實數據十分符合,有強烈的相關性。
于是,他們就像疾管局一樣能夠掌握流感疫情,但可不是一、兩星期之後的事,而是幾近實時同步的掌握!因此,在2009年發生H1N1危機的時候,比起政府手中的數據(以及無可避免的通報延遲),Google系統能提供更有用、更及時的信息。公衛當局有了這種寶貴的信息,控制疫情如虎添翼。
最驚人的是,Google的這套方法并不需要去采集檢體、也不用登門造訪各家醫院診所,而隻是好好利用了巨量數據,也就是用全新的方式來使用信息,以取得實用且價值非凡的見解、商機或服務。有了Google這套系統,下次爆發流感的時候,全球就有了更佳的工具能夠加以預測、并防止疫情蔓延。

電子病例

将分散在醫院中的各個部門、各式各樣的病例集中在雲端,醫生們可透過語意搜查找出任何病例中的相關訊息,進而為醫學診斷提供更加豐富的數據。可提供以病患為中心的個人化療程建議,或幫助對醫療問題及其患病率進行自動診斷。

台灣的醫療黑金:健保數據庫

Google台灣董事總經理簡立峰曾表示:「我認為最有價值的寶藏,就是台灣的全民健保數據庫。」,台灣醫療産業貫穿上下遊的數據,全在健保數據庫裡面,而且幾乎所有人都要加入,全世界隻有台灣擁有如此完整的數據庫。美國麻省理工學院電機與計算機科學院教授約JohnGuttag也說,相較于美國,台灣的健保是由政府買單,這讓醫療數據取得變得容易,「這是台灣的機會,未來也很有機會從中獲利。」

累積15年來、2千3百萬人民的健保數據庫,正等待着識貨的伯樂來挖寶。台中榮總醫生、陽明大學教授吳俊穎以親身經驗說明,過去醫學界隻知道,幽門螺旋杆菌跟胃癌有關,但是卻沒有規模夠大、時間夠長的臨床實驗可以證實,他與研究團隊藉由探勘台灣的健保數據庫,發現服藥根除幽門螺旋杆菌,可以降低胃癌的發生率。

這篇論文不隻發表在腸胃科排名第一的雜志《腸胃病學》上,更震撼了日本醫學界。日本是全球胃癌罹患率最高的國家,當地醫生特别把這篇論文翻譯成日文,并且說服日本厚生省,對幽門螺旋杆菌感染患者全面給付殺菌療程,不僅影響醫師的臨床運作、政府決策,甚至有可能改變國際性醫療行為準則。

吳俊穎認為,台灣的健保數據庫内容巨細靡遺,所有醫療項目都記錄得一清二楚,「它像是永不幹涸的黑金,當數據越來越多串聯和使用,就會越來越有價值。」然而,吳俊穎也提到,健保數據庫有個缺點,就是缺乏診斷和檢測結果。

麻省理工學院教授PeterSzolovits也曾舉例說明過,如果有一位病患發現關節腫起來,醫生跟他說這「疑似」是風濕性關節炎,因此記錄風濕性關節炎的費用,可能後來病人發現根本不是這個病,如果把這筆數據用在風濕性關節炎的醫療研究上,那就會變成糟糕的數據,影響研究結果。

「如果能夠把健保數據庫與醫院病曆的數據庫做結合,那它就會變成最完美的醫療數據庫!」吳俊穎提到,病曆數據包含檢測和治療的結果,不隻對于台灣醫療産業來說非常有價值,國内外的生技和醫藥大廠,也都會搶着要跟台灣合作。

想象一個情境,有天當你到南部度假,突然感到身體不适,就近到當地的診所就醫。第一次跟你見面的醫生,登入全台灣共享的醫療數據庫,調出你在其他醫院的病曆數據,花幾分鐘就能對你的身體了如指掌,還能透過臨床決策輔助系統,顯示出跟你有相同症狀的病友群體、使用各種藥物的治療狀況,透過大數據分析可以協助醫生在最短時間内,找出最适合的治療方式。

「很多人以為這樣的願景,離現實生活非常遙遠,其實台灣已經走在半路上了。」台大醫院竹東分院院長王明巨如此說道。的确,台灣醫療機構的病曆電子化程度很高,很有可能成為全球第一個全國醫院流通電子病曆的國家。

醫學研發

運用實時監測及分析大量的儀器數據,建構預測模型,并利用統計工具改善臨床試驗設計,分析臨床試驗數據。發展個人化醫學及疾病發作模式等醫療研發。

利用大數據解決多發性硬化症的算法運算複雜度

位于水牛城的紐約州立大學(SUNY)是一個領先全球的多發性硬化症(MS)研究中心。MS是一種具破壞性的、面性的神經系統疾病,影養全球近百人。這種疾病會使人的大腦和骨随發炎并産生神經病,導緻患者可能出現行動不便、視力受損、疼痛等症狀。

MS的病因是很複雜的,沒有一個單一基因是可能的緻病源。因此自2007年以來,SUNY就一直希望透過掃描MS患者的基因組的變化來開發新的治療方式,透過從原本成千上萬的基因序列的變異SNP,SNP指的是單核桃多型性,來獲得單一樣品,研究基因産物和其他基因産物及環境因素進行的交互作用。

研究人員的想法是以多個SNP變異點結合不同的環境變因,并使用一種被稱之為「AMBIENCE」的算法,來檢測縣性和非線性兩種數據數據中的相關性,以識别這些交互作用之間的關系。但是這個想法就如同大海撈針,因為環境變因包括像是實驗對象曝曬太陽的時間長短、維生素D産生的量、吸煙的情況等皆有可能影響研究結果。況且人類的基因由23對染色體所組成,其中包含約30億個DNA堿基對,這些因變量和應變量數量多到吓人,必須靠建構一套計算量高達1018的高等分析模型才能解決。

因此SUNY與IBM合作,建構一套搭配軟硬件的數據分析系統,以往平均需要27.2小時的工作,縮短到現在隻要11.7分鐘即可完成。而且這套系統不僅大大簡化和加速了複雜的分析過程,還提供了不同類型的變量值,如:分類變量、分配蔔瓦松變量或連續常态變量等。過去,隻要研究中增加一個新的變量值,研究團隊就必須重新編寫整個算法,而現在隻需按幾個鍵即可完成。

大數據系統分析的應用除了MS的研究以外,全球估計超過3300萬人感染,至今沒有方法可以完全治愈的艾滋病,以及罕見疾病等,都已開始利用大數據進行大型的醫學研究。

臨床實驗

臨床試驗藉由大數據而有了重大的改變,可利用臨床驗數據、儀器讀數等,進行比較效果研究、臨床決策支持系統、遠距病人監測及加強醫學數據透明度等方面。

擁有數據數據保護的早産兒

所謂的早産兒是指懷孕不到37周就提早出世的寶寶。這些提早降臨人世的小仙子,如果出生後體重不到1500公克,很可能會因為免疫系統尚未發育完全而受到感染,一旦感染之後就很容易引起呼吸衰竭、肺出血及敗血症。

不過,加拿大多倫多市立兒童醫院裡的早産兒,卻可以睡得特别安詳,因為他們是有數據數據保護的「datababy」。随着醫療設備的發展,利用醫療監測儀器監測病患的生命征象,如血壓、心跳和體溫等,已經是非常普遍的事了。通常這些儀器還具有警報功能,一旦生理的數據數值超出正常範圍時就會發出警示,醫療人員就會采取因應行動。但是即使醫術再精湛、經驗再豐富的醫護人員,可能也無法準确地察覺這些異常的發生時間和嚴重性,尤其當發生在脆弱的早産兒生身上。

根據美國弗吉尼亞大學追蹤以往的數據顯示,新生兒受到感染初期的12到24小時,因為脈搏和心跳幾乎都可在接受的範圍内,因此醫護人員很難從生命征象數據的改變中察覺,等到警示燈響起,常常為時已晚。

連續監測和記錄這些生理性數據,可以觀察出新生兒是否遭受感染的早期征兆,但數據量實在太過龐大了。估計這些監測設備每一秒鐘就會産生1000個讀數。以往是30到60分鐘由醫護人員歸納出一個數據做為紀錄,然後儲存72小時。如果要把這些讀數統統記錄起來,根本是不可能的事。

但這項不可能的任務,并沒有吓跑安大略省理工學院和IBM。他們使用來自懷生研究中心的最新技術,利用江河運算平台支持大量數據的收集和分析,一天24小時不間斷地收集和記錄着包括早産兒的體溫、心跳、血氧飽和濃度和血壓等電子監測儀器産生的大量數據,以及周遭環境如溫度、濕度等相關數據。

在保護病人的隐私安全考慮下,這些數據會直接傳到安大略省理工學院研究中心和IBM華生研究中心;系統會分析和研究哪些因素的交互作用會造成感染,甚至哪幾床的新生兒因為符合條件較多,可能出現疾病或感染的風險較大。之後,系統再将分析結果提供給醫護人員比較判讀。這些動作都在數秒内完成。藉由這項計劃,兒童病房裡的醫護人員已經可以提前18到24小時,預防新生兒敗血症的發生。

由于大數據在規模(Volume)、增加速度(Velocity),以及價值性(Value)上正呈現幾何上升,而其數據所表現的多樣性變化(Variety)與數據的有效性(Validation),更容易成為企業的風險源頭。面對排山倒海而來的大數據,企業需運用大數據,迅速将數據轉化成商業智能,運用分析信息,提升市場的洞察能力,做出更準确的營運決策。例如:電信業者可以分析手機在基地台漫遊的特性,提供更好的在地費率;信用卡業者可以每天定期分析各種信用貸款所産生的風險,動态調整信貸利率;便利超商可以分析消費者的購買習慣,動态調整架上存貨數量等;制造業者可透過現場制造系統所記錄的大量在線實時生産數據進行分析,以協助制造業改善制程、提升良率,并減少物料浪費。因此大數據将是企業未來所面臨的關鍵挑戰。鑒于目前信息以超乎想象的速度産生、累積、消逝,而企業所面臨的商機亦有相同的循環表現。透過海量信息的實時性分析與運用,将可對不同信息的需求者,産生不一樣的價值與意義。若能持續在既有的數據中發掘價值,同時考慮動态信息所帶動的巨大沖擊,并藉此掌握瞬息萬變的市場契機,則大數據的分析與應用,将有助于各類型企業在相關營運領域中,引領下一階段的企業永續發展。基于以上的發展潮流與态勢,麥肯錫(Mckinsey)管理顧問公司于2010年已指出未來引領企業發展趨勢的十大科技,其中即包含了大數據的獲取與分析、雲端運算服務的公共價值,以及企業多層面的參與互動及服務。在這些技術與行動通訊網絡的整合應用下,企業未來所産生的數據量将呈現倍數成長,并導緻過去傳統的儲存技術即将遇到瓶頸,因此,虛拟化的雲端運算分析技術,以及大數據的管理,将成為各方面所即将面臨處理的新課題。從目前的技術發展來看,未來各項實體化設施,将可能在未來藉由虛拟化的技術,得以降低各項成本的支出,然而雲端運算與大數據的應用,絕非僅為建置一個大型數據中心即可,對于後續所産生大量數據下的數量管控、數據的質量與分析結果,以及這些數據所衍生之相關應用與服務,才是現階段所應關心的重點。計算設施(Computer) 網絡設施(Network) 儲存設施(Storage) 數據數量管控數據應用服務數據質量分析虛拟化(Virtualization) 為了結合技術、數據,以及應用分析與服務等三項議題的探讨,本演講大數據主要闡述BIG DATA 在生技醫療衛生上之應用與研究;抛磚引玉系望能激起大家投入醫療大數據的研究!

你可能想看:

有話要說...

取消
掃碼支持 支付碼