一個統計系大學生是怎麼成為 Data Scientist 的?

by 王翰元
Published: Last Updated on

我希望可以透過一系列文章,分享我截至目前為止的所有經驗,讓也想成為資料科學家的你,對於這個領域有更多一點點想像。

作為部落格的第一篇文章,似乎有必要先自我介紹一下。

我是目前是一名工作將近三年的資料科學家。第一份工作在 iProspect 做 Data Analyst,第二份則在行動貝果擔任 Senior Data Scientist。

這篇文章主要會以經歷分享的方式,介紹我是如何我進入資料科學,並成為資料科學家的過程。


我如何遇見資料科學?

首先,我覺得標題很容易誤導人,這樣看起來好像我一開始就很想要當資料科學家一樣,這絕對是騙人的。與其說我「想」成為一名資料科學家,不如說是天時地利人和。用「成為」這兩個字總覺得很讓人困惑,但總之成為資料科學家這件事,並不是一開始就設定好的目標。

一切的起點是一份期末作業。

大三的迴歸分析,期末作業是要我們用 SAS 建立一個預測 MLB 球員薪水的模型。模型預測的數字讓我吃驚,腦袋裡只有兩個字:「神奇」。即使課堂上學過理論,真實看到應用結果的時候,還是覺得很神奇。模型這東西,只要給把一堆數字丟給他,自己就會把答案算出來,實在是太酷了

當時是 2017 年,差不多剛好是「資料科學」這四個字在台灣開始越來越熱門的時候。而我也順著風,知道了資料科學跟機器學習這兩個詞。再加上統計系上去國外讀書的學長姐,剛好回來辦分享會。在分享會上我聽到他們提到 R 、ggplot、kaggle 等等關鍵字,我便開始回家自己查很多相關資料。

大概就是從那個時間點,開始踏上了資料科學這條路。

我為了資料科學所做的事情,大概可以分成課堂與自學兩個方面來講。

我的程式自學方式:ggplot

一開始,我並沒有馬上很積極地找線上課程學機器學習或程式語言之類的。因為我知道我大概沒有耐心完成那些課程。我是以學會 ggplot 這個套件為目的,就這樣開始了。為什麼是 ggplot 呢?因為當時學長姐在分享會上說這個套件很潮,美國的工作都會用。我當時想,如果我也學會的話是不是也滿潮的,然後就開始學了。對,就這麼膚淺。

由於我在國中,曾買過一本 Java 的書自學過三個月(到底誰會幹這種事?),加上高中又是電算社(電子計算機研究社),所以對於程式算是有一點點點點底子,大概看得懂 for loop 跟 if else 的程度。所以雖然當時我沒接觸過 R,不過由於 R 相較 Java 顯得直覺許多,使用起來非常容易。嚴格說起來,我受到的程式訓練,只有在 DataCamp 上的 R Intermediate 而已(甚至也沒有完成)。

剩下的學習,全都是圍繞在「用 ggplot 畫圖」這件事上展開的。只是用 R + ggplot 把圖畫出來,就這麼簡單。沒有把畫圖的過程拿去寫成部落格或是怎麼樣,就只是用到處都看得到的公開資料集,用 ggplot 畫完圖之後,在臉書上分享出來而已。而這中間遇到的所有問題,全都是是靠 stackoverflow 解決的。

不過,為了畫圖這個目的,其實也附帶的學了很多東西。例如 dplyr 與 tidyr 兩大套件的使用,有用過 R 做過資料處理的人應該都聽過的兩大套件。

從資料學習

另一個幫助我非常多的,是大學課程「從資料學習」。在這堂課上,由於是小班制,只有十幾個人。老師用討論的方式帶領我們對經典的機器學習算法走過一輪,例如決策樹、SVM 等。不僅僅只是介紹公式,而是很常透過「為什麼」來思考算法的用意。

這堂課的期末作業也很有趣。我印象最深的有兩個。一個是我們討論了多元分類的實作方法,並且用 SVM 去親自嘗試不同實作方式的效果;第二個則是手動實作 Kmeans ,並討論不同距離算法造成的影響。而在這些作業中,最重要的並不是對與錯,而是從實作裡,了解並體會整個算法的核心理念。

這樣的方式不僅讓我對算法有較深的理解,也培養出我習慣質疑跟思考事情背後原因的習慣。例如,「為什麼 Kmeans 一開始非得用歐式距離呢?為什麼不能換成餘弦距離?好處是什麼?」現在回顧起來,這堂課完全是我的啟蒙之地。順帶一提,據說現在有一些美國學校,即使讀的是 Business Analysis ,他也會請你手刻出神經網路,真是不敢想像。

而在整個大學生涯裡,實際上跟機器學習、資料科學的理論基礎,就這麼一堂課而已。不過由於老師上課的方式非常具啟發性,所以回顧起來,其實也非常足夠了。剩下的幾乎都是自己上 kaggle 看大神們的 Machine learning 101 之類的文章,所培養出來的。

總結

我與資料科學的相遇是源自一份可能在大多數人眼裡很無趣的作業,什麼預測球員薪水嘛!還要用統計軟體跑出一大堆看不太懂的表格,不過卻成為了我的啟發點,也讓我投資了不少時間。從自學程式,到選相關的課程並完成作業,成為我找到目前職業的契機。

從旁人的角度來看,或許這還滿戲劇化的。人生還真是難說啊。不過我想就像村上春樹一樣,坐在棒球場裡喝著冰啤酒,「來寫小說吧」的想法忽然就降落在手上。旁人看起來總覺得很具戲劇性,但身處在當下就完全只是自然的演變過程而已。並不是抱持著什麼特殊的覺悟或必死的決心,破釜沈舟地要獲得全新的能力。實際上,只是自然而然就會作出的決定而已。

Leave a Comment