他很興奮地說:「我們來檢定這個命題。」並立刻著手準備實驗。他調製很多杯不同的茶,有些先放茶水再加牛奶,有些先放牛奶後加茶水,然後一杯杯拿給那位主張味道不同的女士分辨。
走筆至此,我想有些讀者會對這項實驗不以為然,認為只是夏日午後的一個小消遣,他們可能會說:「這位女士能不能分辨不同茶湯的風味有什麼關係?這種芝麻蒜皮的小問題根本沒有科學價值,這些人應該把聰明才智放在一些對人類社會有貢獻的重要事情上,不應該不務正業,浪費時間。」
或許有人會聯想到這是「英國研究」。
不幸的是,不管外行人如何看待科學與科學的重要性,依照我的經驗,大部分的科學家之所以從事研究工作,是對結果感興趣,以及能從研究過程中獲得知性的刺激與滿足。優秀的科學家很少是基於成果的重要性而努力工作的,在劍橋的那個晴朗夏日午後也是一樣。那位女士可能分辨得出不同的茶,也可能分辨不出,但其中的樂趣在於找出一種方法來判斷她的說法對不對,於是在「小鬍子」的指導下,大家開始討論該如何進行判斷。
很多人都熱心參與,協助小鬍子設計實驗的飲料,幾分鐘內,他們就採用很多不同的方法調製茶,準備給那位女士品嚐,但她並不知道每杯茶的調法。最後,答案揭曉的時刻來臨,小鬍子端給她第一杯茶,她啜了一口,然後宣稱這一杯事先放茶再加牛奶。小鬍子記下她的說法,不發一語地再送上第二杯茶……
我是在1960年代末聽到這段故事的,而告訴我這個故事的人那天下午也在場。他就是史密斯(Hugh Smith,但他都以H. Fairfield Smith這個名字來發表科學論文),我認識他的時候,他是康乃狄克大學的統計學教授……。(《統計,改變了世界The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century》頁16)
留著小鬍子的紳士是費雪(Sir Ronald A. Fisher,1890-1962,英國統計學家),當時差不多快40歲了,後來被冊封為勳爵士。在1935年,費雪寫了《實驗設計The Design of Experiments》這本書,在第二張就提到那次品嚐下午茶的實驗。在書裡,費雪談到那位女士及她的看法,並把這當做一個假設性的問題。他考慮了各種可設計出的實驗方法,來測試那位女士是否能分辨出不同的茶。在設計實驗時碰到的問題是,如果只拿一杯茶給她品嚐,她有百分之五十的機會猜出這杯茶的調製方法,就算她其實分不出來,也有同樣大的機會;如果給她兩杯茶,她還是有機會猜對,事實上,如果她知道這兩杯茶以不同的方法調成,她可能一次就全部猜對(或全部猜錯)。
同樣的,即使她真的可以分辨其中的不同,她還是有機會弄錯,或是其中一杯的茶與牛奶沒有充分混合,又或者在泡茶的時候,茶水的溫度不夠高,影響了茶的味道。再不然,她可能試了10杯茶,其中9杯都說對了,只有1杯說錯──就算她真的能分辨,這情況還是有可能發生。
在書裡,費雪討論了這樣一個實驗的各種可能結果,描述該如何決定要準備多少杯茶,依照什麼順序拿給她,是否該讓她知道試喝的順序以及該透露多少。他依照她的答對與否,計算出各項結果的機率。……
費雪這本有關實驗設計的書,是20世紀前半掃過所有科學領域的一場革命的重要因素。早在費雪之前,科學實驗已進行了幾百年……。
1935年寫的書,距離現在不到一百年的時間。
實驗是一種累積知識的工具,但費雪並沒有發現到這一點意義。在費雪的年代以前,實驗總帶著科學家濃厚的獨特風格,一流的科學家可以做出很有價值的實驗,產生新知識,而二流科學家只是忙於各種實驗,蒐集大量數據,但對知識的累積沒什麼用處。……
在19世紀,科學家很少發表自己的實驗結果,他們僅描述結論,並公布那些能「證明」此結論真實性的數據。孟德爾(Gregor Mendel)並沒有把所有豌豆培育實驗的結果公布出來,而只是敘述了自己的實驗步驟,接著寫道:「兩組實驗中的前10株豌豆或許能做為一個實例,來說明……」(在1940年代,費雪檢驗了孟德爾提出的數據「實例」,發現這些數據完美得不像真的,根本沒有展現應有的隨機程度。)
雖然科學是從審慎思考、觀測與實驗發展而成的,但究竟要怎麼做實驗,卻從來沒有人提及,所有的實驗結果通常也不會公布出來給大家看。
在19世紀末至20世紀初的農業研究中,上述情況更為明顯。20世紀初,費雪任職於羅森斯特農業試驗所(Rothamsted Agriculture Experimental Station),在他到職之前,該試驗所已進行實驗研究各種不同的人工肥料,前後長達90多年。他們的做法大致如下:先將磷肥與氮肥的混合物均勻撒在整片田裡,然後種植作物,在收成時再記錄收穫量及該年夏季的雨量。他們會精心選用公式,以「調整」每塊田或每年的收成量,以便比較不同的田的收穫量,或同一塊田在不同年度的產量。他們稱這些公式為「肥力fertility index」,每個農業試驗所都擁有自己的肥力,並且相信它比別人的指數更準確。
90多年的實驗成果,僅是一大堆未經發表、毫無用處的混亂數據:有些品種的小麥似乎對某種肥料的反應優於其他品種,但這情形只發生在降雨過量的年度;而其他實驗似乎顯示,若第一年施用鉀硫化物,第二年改用碳酸硫化物,會使某些品種的馬鈴薯產量增加,但對別的品種無效。這些人工肥料實驗最多只能透露,其中某些肥料大概、或許、也許在某些時候對某類農作物有用,其他細節統統不知道。
身為一個卓越的數學家,費雪首先研究的,就是這些農業科學家用來修正實驗結果的肥力,進而以該指數解釋不同年度天氣變化所造成的差異,最後再檢驗其他農業實驗單位使用的肥力。當他把這些指數化簡為基本代數式時,卻發現這些指數根本就是相同公式的不同變化形式,換句話說,長久以來彼此激烈競爭的不同指數,所做出來的結果實際上是完全相同的。1921年,他在重量級農業期刊《應用生物學年報Annals of Applied Biology》上發表論文,指出用哪種肥力並沒有任何差異,他同時表示,這些調整不足以表示不同田地在收成上的差異。這篇非凡的論文,為一場延燒20年的科學論戰畫上了休止符。
接下來,費雪繼續研究過去90年間降雨量和作物收成的數據,發現降雨量對農作物產量的影響,遠大於肥料對產量的作用;若借用後來費雪在發展實驗設計理論實用的字眼,我們會說「各年天氣差異」與「各年人工肥料的不同」這兩個變數是交絡的(confounded),意思就是,靠這些實驗數據,我們沒有辦法區分這兩種因素對作物收成的影響。搞到最後,90年來的實驗與20多年的科學論戰幾乎是白忙一場,毫無收穫!
這百年來科技能夠快速進步,應該跟能夠避免類似這樣的虛功有關。也想起《無米樂》中崑濱伯記錄數據的那一幕。
這件事讓費雪開始思考實驗與實驗設計的問題,而他最後的結論是,科學家應該從潛在實驗結果的數學模型著手。他所說的數學模型,是指一組方程式,其中有些符號代表我們想經由實驗蒐集到的數據,而其餘的符號則代表實驗的全部結果。在考量科學問題時,科學家必須先從實驗中取得數據,再由這些數字計算出恰當的結果。
我們現在來看看下面這個「老師與學生一對一」的簡單例子。老師想找個方法,瞭解一下某學生的學習成效,因此他做了一個「實驗」:他給這個學生一組試題,每道試題的評分範圍都介於0到100分之間。只靠一次考試的分數,很難判定學生的學習成效。可能他剛好沒讀到考卷上的那一點東西,卻弄懂許多沒出現在考卷上的東西;可能在考試當天他正好頭疼,身體不舒服;又或許他那天早晨被父母責備,所以心情不好。總而言之,很多原因會使學生的某一次考試表現失常。因此,這個老師打算採用多次小考,再以所有小考的平均分數評量學生的表現,這比只考一次試要好得多。在這個例子中,學生的學習成效是實驗的結果,而每次小考的分數就是數據。
那麼老師應該怎麼進行這些小考呢?這些小考是不是只要涵蓋幾天前剛教過的內容?或是也要包括先前教過的所有範圍?他應該每週考一次?還是每天考?或者在每個單元結束的時候考?這些都是在設計實驗時需考慮的問題。……
這問題就像升學是要像聯考「一試定終身」,還是要採用在學成績。
在《實驗設計》一書裡,費雪舉了幾個實驗設計的絕佳範例,並推導出優良設計的一般規則。但是,費雪提出的方法牽涉到非常複雜的數學,因此大部分的科學家沒有辦法自行設計所需的實驗,只能按照費雪在書裡提供的設計範例,依樣畫葫蘆。
那些農業科學家瞭解到費雪實驗設計的偉大價值,因此不久之後,費雪的方法就成為英語系國家在農業科技上的主流學派。在這之後,整個科學界以費雪的研究為起點,發展出描述不同實驗設計的方法,這些實驗設計已廣泛應用於農業之外的領域,包括醫學、化學與工業上的品質管制。……
至於那位試喝下午茶的女士最後怎麼了?費雪並沒有描述那個夏日午後在劍橋所做的實驗結果。但史密斯教授告訴我,她分辨出每一杯茶,完全答對。厲害吧!(《統計,改變了世界The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century》頁19)
想起大學一年級上統計課時,哀號一片,那時如果能讀到這本透過科學史,介紹統計概念如何發明出來跟實際運用的書,面對的就是許多有趣的故事,而不是冰冷的數學公式了。
相關文章:
是科學?還是偽科學?
我是懷疑論者,不是鐵齒
存活者偏差(survivorship bias)與騙術
合格的民調應該要公布哪些資料?
為什麼網路民調跟部落格blog上的意見調查不能輕信?
數字可以怎樣「詐」我們
學習觀察力,培養分析力,擁有判斷力
0 意見:
張貼留言