以下這篇文章寫得非常精準,關心這次民進黨的人都應該細讀,去了解為何必須納入手機族。民進黨上次選舉大敗就是沒有深入了解民意,這次賴清德及民進黨難道要犯同樣的錯誤,把「離鄕背井」的年輕人或者「買不起房子」的租屋群排除在外嗎?
發達資本主義時代的打油詩人
May 7 at 4:41 AM ·
【關於民調抽樣,賴清德的兩個問題】
我其實蠻不喜歡寫賴清德的,主要的原因是我個人的寫作偏好。政治人物對我來說有四種:我喜歡的、我討厭的、我感覺複雜的、我沒感覺的。前兩種我寫得比較多,尤其是第二種。第三種我不知從何寫起,最後一種我懶得寫。
賴清德屬於第四種。簡單講,我覺得他是個無聊的人。就在幾天前,五四一百週年,他跑去胡適紀念館,讓我發現他這個人實在太無聊了,無聊到有點好笑的程度,所以我寫了一篇。後來談他和蔡英文在同一天的活動,算是五四那篇的衍生物。寫完「這個人真的很無聊」這件事以後,我又懶得寫他了。
偏偏我現在又要來寫他了。我很不想寫,到正在打字的當下還是不想寫,但是他幹了一件事,讓我覺得自己有一點點義務出來講兩句話。
◇◇◇
事情是這樣的。最近民進黨在吵初選民調,吵到了市話民調與手機民調的問題。支持手機民調的人主張,這年頭已經有很多人生活裡已經完全沒有市話了,用市話民調將會忽略這些人的意見。
賴清德跑出來反對他們,說還是市話好。為什麼市話民調比較好呢?他當然有他的陰謀論故事可以講,但是傳播陰謀論以前,他還算盡責地正面回應了手機民調支持者的訴求。簡單講,他認為市話民調忽略純手機用戶不是個問題。
這是我的重點。我覺得他的問題大了。
直接引用報導中的說法吧,刪節號為本人所加,本引文刪除了民調作弊等陰謀論,純粹討論賴清德關於「家戶民調不會忽略只用手機的年輕人」的說法。
『賴清德說,過去民調有辦法用1千多通電話代表母群體,一個行政區、一個縣、一個國家,是因為有嚴謹的科學依據。今天改成手機,有無辦法代表真正的民意恐怕要謹慎......至於年輕人接不到電話的問題,賴清德說,這個可以回推,用加權方式解決年輕人少接到電話問題......如果家戶民調,年輕人在人口比例是10%,電話民調只有5%年輕人接到,可以加權成 2倍;年紀大的人假設人口比例是15%,接到電話是30%,加權可以乘以0.5,回歸到母群體的分布。』
賴清德的這段話有兩個問題。
◇◇◇
第一,賴清德說「過去民調有辦法用一千多通電話代表母群體」,這是錯的。我不知道這樣講會不會很違反大家的常識,但是事情就是這樣。
首先,我們得稍微瞭解一下賴清德所謂的母群體是什麼。我個人比較習慣的叫法是「母體」,不是駭客任務的那個matrix,是population。所謂的母體指的是「我們做這個調查真正想要瞭解的那群人」,在選舉民調的情境下,一般指的就是「有投票權的國民」。這種人在台灣有一兩千萬,我們當然不可能去問每一個人他支持誰,所以我們得找到一群有代表性的人,並且用各種科學方法確保這群人的投票意向和母體越類似越好。這群人就叫做「樣本」。
這就是母體和樣本的關係,大概可以算是抽樣理論的基礎吧。當賴清德說「過去民調有辦法用1千多通電話代表母群體,是因為有嚴謹的科學依據」的時候,他的意思就是說「如果我們把抽樣設計得很嚴謹很科學,樣本就可以代表母體」。
然後請容我再說一次,這句話是錯的。
為什麼?
真正嚴謹地討論抽樣的時候,我們不會說樣本(sample)可以代表母體(population)。在最好的情況下,樣本可以代表抽樣母體(sampled population)。
我們從作為母體的有投票權之國民開始講吧。我們不可能去問這一兩千萬人(母體)中的每一個人他們支持誰,所以我們要從這麼多人裡面抽出一些人(樣本)來問。問題是,我們要怎麼抽呢?首先我們得有個名單,從這個名單裡面抽選我們要去問的人。在我們業內,這個名單叫做「抽樣框」(sampling frame)。在我們現在的案例裡,就是兩個抽樣框在比誰比較好:一個是市話,一個是手機。
抽樣框和母體一般不會完全重疊,事實上,在很多情況下可能還蠻不重疊的。一方面,會有一些人在抽樣框裡,卻不是母體的一部份,例如會接到民調電話卻沒有投票權的人。這些人處理起來很簡單,就當這通電話沒打過,不用他們的數據就好;另一方面的問題比較複雜,就是明明在母體裡卻沒有被抽樣框包含到的人。例如你用市話當抽樣框,純手機用戶就是母體中被忽略的成員。
又在母體裡又在抽樣框裡的人之中,還有一些人,叫做拒答者。這些人也蠻難處理的,但一方面他們不是這次爭論的核心、二方面在選舉這種情境下拒答者恐怕也相對較少,所以我們先不管吧。到最後,一個抽樣框裡,扣掉不屬於母體的成員、扣掉拒答者,剩下來的那一塊,就叫做「抽樣母體」。
問卷調查的對象,那些一個一個真的填了問卷的人,也就是我們的樣本,是從這個抽樣母體裡隨機抽出來的,不是從母體裡隨機抽出來的。
樣本是從哪裡隨機抽出來的,樣本就代表誰。
賴清德那句話錯就錯在這裡。在一切都盡善盡美超科學超嚴謹的情況下,樣本可以代表抽樣母體,但不能代表母體。抽樣母體與母體間的距離包括兩種人,一種是拒答者,一種是一開始就被抽樣框忽略掉的母體成員。從抽樣母體中隨機抽選的樣本,不能代表這兩種人。
所以,這兩種人,原則上都是我們永遠無法研究、無法推估的,尤其是一開始就被抽樣框跳過不管的那些人。所以選擇抽樣框的基本原則,就是在其它條件(如成本)類似下,盡可能讓抽樣框和母體越重疊越好,以減少遺漏。
手機民調和市話民調,哪個抽樣框比較趨近母體,這應該很明顯吧?
◇◇◇
當賴清德說樣本可以代表母體的時候,他在描述的其實是一種理想狀態,一種「抽樣框和母體重疊」的狀態。
然後他現在的主張是要把抽樣框搞得越小越好、和母體差距越遠越好。
這就是他所謂的嚴謹的科學依據嗎?
◇◇◇
很不幸地,這只是他的第一個問題。
我說的不幸指的是我自己很不幸。為了一個我實在沒什麼興趣的人寫這麼長的文章,我好不幸。
賴清德的第二個問題是,他認為可以用加權的方式解決年輕人接不到電話的問題。
加權是在做問卷調查的時候常用的方法,作法也的確就如賴清德所說的,如果樣本裡年輕人佔的比重小於母體中年輕人佔的比重,就給年輕人加點權重,讓樣本的人口結構符合母體的人口結構。
更直觀點講,加權這件事是這樣的:我們發現我們抽樣回來的年輕人跟母體裡的年輕人比起來太少了,我們就以我們抽回來的這些年輕人為基礎,複製一些年輕人出來,直到年輕人在樣本裡的比重和在母體一致為止。
這樣做的主要目的是要讓樣本的人口結構趨近於母體的人口結構,而不是把被抽樣框排除掉的人找回來。要做到後者,必須先假設:樣本裡的這些年輕人,和被抽樣框排除掉的那些年輕人是類似的,所以你可以用前者的複製人代替後者。
反過來說,我們必須假設抽樣框一開始排除那些年輕人,是隨機排除的。
如果我們用市話做抽樣框,我們能做這樣的假設嗎?不行。因為這些被排除的年輕人不是隨機被排除的,他們是因為沒有市話所以被排除的。
沒有市話的年輕人,和有市話的年輕人,是同一種年輕人嗎?我認為不是。有許多人主張,年輕的租屋者是主要的「沒有市話」的族群;而在這群人身上,兩條形構當代台灣社會主要社會矛盾的線,剛好交會在一起:城鄉與階級。一般來說,年輕租屋者更有可能是離家來到都會區工作的城鄉流動者,而非父母就住在都會區、自己也在都會區長大的年輕人;另一方面,年輕租屋者與年輕購屋者之間,也無可避免地存在著一條階級界線。
換句話說,我們看看台灣社會的年輕人的一般樣貌,會發現不同類型的年輕人身處在市話這個抽樣框的內外。在市話抽樣框的外面,是離鄉背井到大城市工作,買不起房子的年輕人;在抽樣框的內部,是要嘛在大城市長大現今與父母同住、或者乾脆就自己買了房子的年輕人。
然後今天賴清德說我們抽不到那些離鄉背井買不起房子的年輕人,沒關係,我們就複製幾個從小在都會區長大,或者自己買了房子的年輕人,用這些複製人來代替那些被排除的年輕人好了。
賴清德敢講這種話,我不敢。
摸著研究法講義也不敢,摸著良心也不敢。
◇◇◇
我猜這是我開站以來寫過最長的文章了吧。不過我沒算字數,是用疲倦與沮喪的程度來估計的。
我一開始就說過我蠻不喜歡寫賴清德的,但是這件事我不得不寫。寫這麼長這麼囉嗦,大概也不會有人看,但是我覺得這件事很重要,不能不寫。
我這輩子跟民進黨沒什麼瓜葛,所以也沒特別關注他們的初選。然而我跟研究法瓜葛倒是不少,身為一個學術宅,我希望大家不要再扯陰謀論或是歷年初選的陳規了。做民調,就是要知道人民在想什麼。抽樣框越貼近母體越好,這不是挺簡單的道理嗎?
◇◇◇
學術宅的話說完了。身為一個打油詩人,我卻還有幾句話。
我一直覺得抽樣理論對「隨機」的定義很有某種政治詩學的意味。它是這麼說的:
「母體裡的任一個體,有相同的機率被選進樣本裡。」
這難道不是某種對「民主」或是「平等」的隱喻嗎?
而關於手機民調,大家講了那麼久,說到底不就是這麼簡單的願望嗎?
我們只是希望,我們也有相同的機率,被選進樣本裡。
我們只是希望,我們也能說出我們要什麼。
這,有,很,難,理,解,嗎?