近期看了不少 DS 相關的職缺,想做點簡單的整理和寫下自己對於 DS 的思考,順便分享資訊給同在尋找職缺、或是想轉往 Data 領域的朋友。
文章大綱
地區
台灣
目前我所觀察到的趨勢是台灣的 DS 正在式微。想要做結構化的 ML 的公司越來越少,大多都開始轉往 LLM 發展。反而是 DA 與 DE 的職缺相較於 DS 來的多了很多,而且各種產業都有。這算是迫使我開始思考,自己到底該何去何從。
公司的生命週期可以從新創到市值千萬的大公司,需要 AI 或者 Data 的公司,以我有限的經驗來說可以分成兩種:一種是已經開始大規模擴張 (如 Notion) 或是有規模的公司(如台積電、台達電、Nvidia、微軟、谷歌),另一種是本身就想做 AI 應用的新創公司(無論是產品或專案)。
無論是哪一種,無庸置疑的是要用 AI 之前一定要有 Data。而需要有 Data,也不一定要一個專職的 Data Engineer,也可以是一個只要會架資料庫的 Backend 就好了。
新加坡
相較於台灣,新加坡的 DS 數量多出不少,其中也不少大公司如 Amazon、TikTok、Shopee等等,可能是因為不少公司都將 APAC 總部設在新加坡的關係。不過大多都要比較資深的,幾乎都要 4~6 年的經驗,幾乎沒有看到甚麼 Junior 的缺。
日本
近期樂天開了不少 Data 的缺,從做推薦&排名的 MLE,到做物流、AI 研究、甚至 Fintech 的 DS 都有,而且 JD 算是都寫得相當清楚,如果會日文的朋友也許可以挑戰看看。
美國
我知道的軟體公司如 OpenAI、Notion、Figma 都有在徵 DS,不過因為個人對美國的偏好不大,所以只有簡單的看看。
產業
近一個月看下來,我發現台灣還有在徵 DS 的產業集中在製造/零售/金融。
製造業很明顯是因為 NVidia 起飛,有許多公司想研究 LLM 的應用。零售業的 DS 則以一般 ML (結構化資料)為主,目的不外乎是優化推薦系統、排序或者廣告成效。金融業則有非常多加密貨幣的公司在徵才,不過 JD 上大多會偏向 DE 或 DA 為主。
以目的區分:應用 vs 研究
目前我所觀察到的 DS 職缺(台灣)似乎有兩極化的趨勢。一邊是 R&D 型,一邊是應用型。
R&D 型的 DS 職稱通常是 Research Scientist,會要求比較高的學歷,像是 OpenAI、NVidia 都有這類型的職位,對於各種模型的理解要求較高,我猜目標是要開發公司的核心算法,而這些核心算法會帶動整個公司的產品發展。
應用型的 DS 則更靠向市場一點,不需要到博士等級的學歷,但是職稱除了原本的 Data Scientist 之外,依照產業和職能的不同還會分化成許多種:Machine Learning Engineer、AI Engineer、Data Science Engineer 等等。這些類 DS 的職缺,以工作描述來判斷的話,我猜通常是要負責想如何用 ML/AI 的方法來解決現有問題。
應用型與研究型的差別,除了學歷高低之外,我猜主要的差別在於欲解決問題的緊急程度。畢竟之所以要做研究就是因為問題的難度很高,沒有已存在的解決方法,所以需要的時間較長;以我自己的經驗來說,應用型 DS 更通常會有明確的商業問題,要思考的是如何將眼前的問題,用現有的 ML/AI 方法來解決,並做得比 rule-based 更好。
舉個更白話的例子,如果現在要做一個辨識人頭的模型,我這種應用型 DS 會做的是去 HuggingFace 上找找看現在表現最好的模型是甚麼,然後把資料處理成該模型的格式,做出應用;而研究型 DS ,我猜他們會做的是優化某個既有的模型、或開發一個全新的模型。
個人想法
可能的話,當然我希望能做自己原本最擅長的 ML,即結構化資料為主的 DS 。不過由於環境變動的速度很快,2019~2020 還號稱「21世紀最性感的職業」,在台灣已經快要變成無感的職業了。同時我也意識到,對於大多數的公司來說,Data 都不是成長的必需品,而更像是奢侈品。
即使在這些少數有餘裕想在 Data 裡找到一些甚麼的公司,DA/DE 又是比 DS 更優先一點的存在。想要用 Data 來衡量公司的表現,需要 DA;想要做 AI/ML 的應用得先有好的 Data 品質,需要 DE。DS 不是沒有,只是會是最後一步。
簡單的說,目前我並不排斥慢慢轉向 DA/DE。理由是我一開始所說的,台灣的 DS 正在式微。而且相較 DS 來說,DA/DE 更像是剛需。所以如果想繼續生活在台灣,那麼似乎不得不做出一定程度的妥協。否則的話就只能往海外走了。
以上是一個在 Data 領域走了 5 年的 DS 的淺見。尤其是關於 Research Scientist 的工作內容,完全屬於個人推測,如果能夠有相關經驗的前輩願意回復或補充,那就再好不過了。