臺大資工系林智仁、林守德、林軒田教授帶領研究團隊再度榮獲ACM KDD Cup世界冠軍
由本校資訊工程學系林智仁教授、林守德教授以及林軒田教授共同帶領之研究團隊(成員包含麥陶德,蔡鎮澤,郭宗廷,蔡政澔,李俊良,林玠言,王柏崴,邱榮斌,游書豪,吳冠緯,張雅軒,吳鎮宏,李重毅,倪嘉懋,蘇緯倫,林瑋詩,周育正,陳耀男,陳柏龍,馮俊菘,周谷駿,王建智) 參加全球最頂尖的資料探勘比賽ACM KDD Cup,在兩個比賽項目中皆獲得冠軍。這也是臺大團隊連續四年在這個重要研究型比賽獲獎 (其中2008,2010,2011三年皆為冠軍),創下該比賽的前所未見的歷史紀錄。今年八月團隊成員在ACM SIGKDD會議上發表演說以及海報展示,並在上千位學者參與的頒獎晚會上獲頒獎牌以及一萬美金的獎金。更創下前所未有連續四年KDD Cup獲獎(其中三年為世界冠軍)的紀錄。
ACM KDD Cup 從1997年開始舉辦,由世界計算機組織Association for Computing Machinery (ACM) 轄下的資料探勘組(Special Interest Group on Knowledge Discovery and Data Mining)每年配合全球頂尖之資料探勘國際會議ACM Conference on Knowledge Discovery and Data Mining 舉辦,為資料探勘領域一年一度最重要的比賽。每年競賽的主題都是現今最熱門的議題,不只有極高的學術挑戰性,更擁有龐大的商業應用價值。各方參賽者須結合理論開發與實際程式撰寫,在三、四個月的比賽時間內開發智慧型探勘技術與系統,對於主辦單位所提供的大型資料進行預測。該比賽每年吸引學界(如史丹佛大學)及業界(如IBM Research)數百支菁英團隊參加,競爭非常激烈。
臺大資工系團隊從2008年開始參與這項競賽,連續四年都居於領先地位:在2008年,林守德教授帶領其團隊成功設計智慧型的乳癌判定系統,與IBM Research 並列當年度冠軍;在2009年,林智仁、林守德、以及林軒田教授所共同指導的團隊,分析了手機銷售的商業數據,用以準確預測消費者的行為模式,獲得當年度長期分析組的第三名;2010年,三位教授再度共同指導的團隊,以『特徵構造工程及統合分類』(Feature Engineering and Classifier Ensemble)為主軸,有效地分析了主辦單位所提供的學習系統資料,而能精準地預測學生學習的成效並獲得一般組及學生組的雙料冠軍。
今年的KDD Cup題目為「音樂推薦系統」,吸引來自全球超過1000個隊伍參賽,是該比賽有史以來參加隊伍最多的一次。自動推薦系統(Recommendation System)因為背後龐大的商業運用價值,一直都是資料探勘中非常熱門的研究主題之一。美國線上影音業者Netflix就曾在2006年舉辦過類似的電影推薦系統競賽,當時獲獎團隊得到了高達一百萬美元的獎金。今年的比賽資料由Yahoo! Music提供,分為兩個獨立的主題:第一個目標是預測使用者對音樂的評分;另一個目標是自動分辨使用者喜歡的音樂和未曾欣賞過的音樂。參賽者必須分別利用上億筆和上千萬筆的過往評分記錄,有效率的歸納出適當模型來預測目標。
承襲過去成功的經驗,今年林守德、林智仁以及林軒田教授在院系所的支持之下,開設「機器學習理論與實務」課程,給予學生相關的訓練並組隊參與KDD Cup競賽。課程中同學被分為不同的小組,各組的同學各自揮灑創意,用不同的方向來分析資料並建立模型。藉由每週一次的上臺報告,交流想法與實驗結果,在報告中不僅可以激盪出新穎的想法,也使現有的方法更加完善。比賽的後段,再將各組所建立的各種模型加以整合,使預測的結果達到更好的水準。比賽的競爭非常激烈,直到比賽邁入最後一週,臺大團隊仍然明顯落後當時的領先者,然而在成員們鍥而不捨的努力下,在最後數個小時終於脫穎而出進而拔得頭籌,擊敗各個隊伍(包括當年獲得Netflix競賽百萬獎金的強隊),包辦了兩項主題的冠軍,在第二個主題正確率更超過97%。在頒獎典禮上,主辦單位特別強調臺大團隊優異的表現,僅以三個半月的時間就超越過去Netflix長達三年的比賽成果,連續四年獲獎也創下難以超越的紀錄。