2008年11月6日 星期四

數字可以怎樣「詐」我們

分享






是事實,但不是全部的事實

  最常見的誤用數據方式是,引用正確的數字,但數字的意義並非表面上看起來的那樣。數字並不是捏造的,所以,資訊有點不完整也許只是無心的疏失。這兒有個例子,你自己決定他們到底有多「無心」。

例1:標特峰打廣告說,在所有科羅拉多州的滑雪鎮裡,標特峰有最高的平均降雪量,藉此吸引滑雪者。這是事實。但滑雪者需要的是雪下在滑雪坡,不是下在鎮裡——而在許多其他的科羅拉多度假勝地,滑雪坡上的雪比較多。

  比如說,有商家保證賣得最便宜,不過限制在商家所在地方圓10公尺內。

留心「用意良善」

  好的用意似乎會吸引壞的統計。行動主義份子對他們目標的正當性深信不疑,以至於認為稍微捏造一下數字也不為過。任何人如果對那些數字質疑,似乎就在攻擊那個好的目標,所以壞數字就不斷出現。

例2:多種文化的勞動力。美國勞動人口的組成在改變中。女性有職業已變成理所當然,而移民也使得工作場所的少數民族人數增加。對這些改變的認知以及因應,當然用意良善,也是經濟上的需要。無數支持這種善意的文章及聲明不斷聲稱:在20世紀的最後幾年中,「新加入的勞動人口中,只有15%會是白種美國男性。」

  這聽起來不合理。看一看《美國統計精粹》就知道,到達工作年齡的人口中,非西班牙裔的白種男性比例超過35%。不過上面提到的15%倒不是捏造出來的,最先是在勞工部一份報告的第一頁上出現。再深入一點讀報告,我們發覺15%這個數字是指「新加入勞動力人數的淨值」,意思是新的工作人口減去勞動人口死亡及退休的人數。因為死亡或退休的工作人口多半是較老的白種男性,把他們減掉之後,降低了白種男性在新的工作人口中所佔比例。

  一個公司如果新僱了三位白種男性,而同一年有三位白種男性員工退休,則以這種新工作者淨值的計算法來看,這家公司一個新的白種男性也沒有聘。(也就是0%)

  新工作者中白種男性的淨值降到差不多15%,即使白種男性實際約佔35%。實在不懂誰會對新工作者淨值感興趣,也許寫報告的人覺得「只有15%白種男性」會是很好的標題。

  世界上的職業有很多種,製造歧視、煽動仇恨也是一種職業。

不可信的數字

  就像例2中所說明的,你常常可以查出可疑的數字,只因為它們看起來實在不可信。有時候你可以用可靠來源的數據,來比對檢查一個不大可信的數字。有時候,有如下個例子說明的,你可以做些計算來證明某個數字不可能是正確的。

例3:多產瓜田。極富聲望的《科學》期刊在一篇談論侵害植物的昆蟲的文章中,提到加州有一塊田每英畝生產75萬顆瓜。有一位讀者回應:「我從小在農場長大,我知道一英畝等於43560平方英尺,所以這塊神奇的田每平方英尺約可生產17顆瓜。若這些瓜是指哈密瓜,一顆就要占地接近一平方英尺,我猜它們一定是一顆疊著一顆長,總共有17層。」該讀者做的計算如下:

  每平方英尺瓜數 = 每英畝瓜數 / 每英畝平方英尺數 = 750000 / 43560 = 17.2

  編輯有點不好意思,回答說:正確的數字應該是每英畝大約11000顆瓜。

  《這一夜,誰來說相聲》「增羊報國」段子的美國版。

數字彼此之間是否一致?

  如果一篇文章裡面的數字之間有矛盾的情況,一定是哪裡出了差錯。這就是「內部一致性」(internal consistency)的問題。對一致性稍微注意一下就可以避免許多錯誤。以下是一篇文章一部份,這篇文章批評一位史隆-凱特林中心的癌症研究員,他被指控犯了科學上的終極罪狀,即偽造數據。

例4:假數據。「有一件事他倒是完成了,就是關於明尼蘇達老鼠實驗的總結論文……這篇論文由史隆-凱特林中心通過,而且《實驗醫學期刊》(Journal of Experimental Medicine)也接受了,論文中有一個統計表,裡面有很離譜的錯,這樣的錯,聰明的小學生都可能看得出來。表裡面列有6組動物,每組各20隻,以及每組成功的比率。雖然20隻的任何比率都應該是5的倍數,森莫林所記錄的比率卻是53、58、63、46、48以及67。

數字是否好得不像真的?

  過份精確或太有規律,也一樣叫人起疑,就像學生實驗報告裡的數據和理論結果一模一樣的狀況。實驗助教知道,儀器的準確性及學生的實踐技巧都沒有好到可以得出這麼完美的結果。助教懷疑結果是學生編出來的。底下是另一個在醫學實驗中造假的例子。

例5:又見假數據。「……萊思克受邀寫推薦函。但是在他同時讀了兩篇史勒次基的論文後,他懷疑:兩篇論文所用的控制組動物是同一批,而兩篇當中都沒提到這事實。兩篇當中的數據完全一樣,但是……兩篇所引用的動物數目卻不相同。這即使不是作假,也起碼是非常草率的做法。當史勒次基被問到這項統計上的瑕疵之後,他幾乎立刻辭職並離開了聖地牙哥。(《統計,讓數字說話Statistics: Concepts and Controversies》頁122)

  政治言詞、廣告主張、對公共議題的辯論——數字用來證明觀點或加強論據,我們每天都遭數字圍攻。利用數據來為某個目標爭論的人,是要支持那個目標,可不見得會很小心地引用數字,甚至不一定誠實。(《統計,讓數字說話》頁120)


PS.《統計,讓數字說話》用現實生活中的例子介紹每一個統計概念,是一本很不錯的統計學入門書,就算不想學統計,光把書中的舉例和小故事看完,就可以減少被騙的機會。中文版是1979年首次出版後的第四版,英文版已改版至第六版。


相關文章:
  合格的民調應該要公布哪些資料?
  為什麼網路民調跟部落格blog上的意見調查不能輕信?
  存活者偏差(survivorship bias)與騙術
  雙重存活者偏差(Double Survivorship Biases)
  用道德掩護不道德——重讀《黑暗聖經》
  你被洗腦了嗎?—脅迫憲章Chart of Coercion(上)
  明顯的事實,合理的推論,但……
  為什麼學歷高的人照樣(有時更容易?)會被詐騙?

2 意見:

adolphwolf 提到...

好書摘!
我一向覺得統計是操作來支持所想要達到目的的手段。
從事後的分析跨越到事前的預測進而到禁止、限制、導向行為。

Ming-Tsung 提到...

To adolphwolf:

謝謝您的誇讚。不過最主要是《統計,讓數字說話Statistics: Concepts and Controversies》是一本好書。

我認為統計就跟刀子一樣。醫生拿手術刀救人,殺人犯拿刀子殺人。對醫生跟殺人犯來說,刀子都是很好用的工具。

是好?是壞?端看使用的人如何使用。