現時世界已進入大數據年代,只要數據越多越真確,我們就越能分析當下狀況,從而對症下藥解決問題。基本上,論證難免需要有數據支持,不論學術、商業甚至日常生活的對話中,我們理所當然地覺得意見背後都需要有充分理據支持,反之如同廢話一樣不想理會。

正因為我們擁有求真的心態,往往每個理論背後都是集合數據並且加以分析才得出結論,就好比推出新產品之前會透過市場調查來驗證產品是否適合售賣。所以數據的質素便左右每個理論的可信度。故此,數據來源非常重要。

本人並不是統計學專家,接下來亦不是討論統計學等學術範疇,而是討論對取得數據的難度。畢竟科技發展日新月異,然而取得數據的難度及成本似乎沒有降低。怎樣取得數據,以及如何處理數據都需要研究者精心步署。更何況現今資訊透明化,各家各戶都會引用第三方數據加以論述,但其實這些數據使用者的分析可信嗎?這些取得數據的研究是真有其事嗎?取得數據的手法是否持平?大眾實在難以一一驗證每份數據的質素。

數據的來源是否清晰?

如果數據是來自於學術研究,一般都會詳細解釋如何取得數據。如果涉及到他人的研究,還需要註明引用的文獻。當研究者使用的是一份未經加工的原始數據,即使數據存在差異,研究者都可以通過調整後就可使用。但假如研究者拿到手的數據已經是經過他人處理,那麼數據質素就是必須考慮的問題。

在日常生活中我們經常面對這個問題。我們都會透過媒體取得資訊,雖然它們一般都會引用第三方數據,但一般只是提供來源,詳細相關研究需要讀者自行搜尋。這裡並不是指責媒體會用假數據,而是公眾確實難以得知數據質素,因為數據原始出處可能需要付費查閱,網上搜尋並不一定找到。最後我們會被大量的數據淹蓋,缺乏把關的原故,我們實在難以辨別每份數據的質素。

為甚麼我們難以利用數據

統計處都會定期發布的各類研究或民意調查,大學以至擁有權威的機構都會進行調查。如此數據質素高,為什麼卻難以使用呢?

時間方面

例如我們在證券交易平台上看到的各類金融產品的實時價格,是以秒或分鐘計算。而統計處進行各種研究往往是以年度更新。而一些更加複雜的數據,例如經濟普查、人口普查等,每5-10年才會進行一次,而且從普查執行到最終詳細數據的發布,中間也要間隔2-5年的時間。故此,當我們想研究某一樣事物時, 基於那些權威性的數據跨越多年,這些數據在時間方面不能配合而不可使用。

覆蓋率方面

各種普查可以涵蓋全港,而更多的調查數據則針對某些特定群體,例如政府公佈的就業數據也會以全港及每個行業劃分,但那些數據未必可以用於每一份研究。又例如,假如我們的目標是探討飲食業16-24歲青年的就業情況時,大規模的研究卻未必適合,反而一些針對性的調查數據更有啟發。

深入度方面

數據有時候並不單止著重於量大,數據越能夠深入地探討該命題,就越能反映當時實際情況。我們想像一下把數據當成一份Excel表,每一行化表著研究對象的數量,而每一列都代表著數據所呈現的豐富程度。

總括而言,數據本身就是昂貴。若要尋找合意的數據,其實很大程度上建基於預算,從而在時間及覆蓋率方面,找出與目標配合而取得的數據。今天我們經常引用研究所得出的結論,卻忽略了研究所使用的數據。無論是時間性、覆蓋率、還是深入度方面,任何方面哪怕想提升微小的數據質素都需要投入大量資源,因為獲取數據所消耗的人力物力及時間很多,因此在大數據時代底下,數據卻變得何奇珍貴。

Loading

分享

相關文章

Whatsapp
1
Whatsapp 回覆 | 10:00 am - 7 pm
Hello👋,你有以下哪一項查詢?我們會盡快回覆你︰
1. 買入生意
2. 出售生意
3. 商業諮詢