資工研究團隊榮獲全球最頂尖資料探勘比賽ACM KDD Cup雙料世界冠軍

本校資訊工程學系林智仁、林守德、以及林軒田三位教授共同帶領研究團隊參加全球最頂尖資料探勘比賽ACM KDD Cup,囊括所有組別榮獲雙料世界冠軍。Algorithm@ National Taiwan University成員包含蔡政澔、李俊良、林廷韋、林善偉、張維丞、黃冠豪、楊鈞百、吳冠逸、郭子銘、庄勇、阮毓欽、覃韋勝、殷圖駿、于桐、魏誠寬、盧昱辰、王瑞斌、林仰山、常成霞、童筱妤、蘇昱銓。

臺大團隊連續六年在此重要研究型比賽中獲獎,連續四年拿下世界冠軍的榮譽(2008、2010、2011、2012、2013皆為世界冠軍,其中2011與2013更是皆包辦全部兩個組別的世界冠軍),再度刷新此比賽的歷史紀錄。今年八月團隊成員在ACM SIGKDD舉辦之KDD 2013會議上報告成果並海報展示,隨後在上千位學者參與的頒獎晚會上獲頒獎牌。

ACM KDD Cup從1997年開始由世界計算機組織Association for Computing Machinery (ACM) 轄下的資料探勘組(Special Interest Group on Knowledge Discovery and Data Mining)每年配合全球頂尖之資料探勘國際會議ACM Conference on Knowledge Discovery and Data Mining 舉辦。為資料探勘領域一年一度最重要的比賽。每年主題都是當今最熱門議題,不僅具有極高學術挑戰性,更擁有龐大的商業應用價值。各方參賽者須結合理論開發與實際程式撰寫,在三、四個月的比賽時間內開發智慧型探勘技術與系統,對於主辦單位所提供的大型資料進行預測,每年吸引學界(如伊利諾大學香檳分校)及業界(如IBM Research)數百支菁英團隊參加,競爭激烈。

臺大資工系團隊從2008年開始參與這項競賽,連續五年居領先地位:2008年林守德教授帶領團隊成功設計智慧型乳癌判定系統,與IBM Research 並列當年度冠軍;2009年,林智仁、林守德、以及林軒田教授所共同指導的團隊,分析了手機銷售的商業數據,用以準確預測消費者的行為模式,獲得當年度長期分析組的第三名;2010年,三位教授再度共同指導的團隊,以「特徵構造工程及統合分類」(Feature Engineering and Classifier Ensemble)為主軸,有效地分析了主辦單位所提供的學習系統資料,精準預測學生學習的成效並獲得一般組及學生組的雙料冠軍;2011年三位教授共同指導團隊,在音樂推薦系統中「預測使用者對音樂的評分」與「自動分辨使用者喜歡的音樂和未曾欣賞過的音樂」兩項主題中,打敗全球上千名隊伍,獲得雙料世界冠軍。2012年,由林軒田與林守德兩位教授共同指導下,在「搜尋引擎中的預測點擊廣告」這號稱KDD Cup史上最大量資料之主題中,再度獲得世界冠軍。

今年KDD Cup由美國微軟(Microsoft)Academic Search部門提供比賽題目,第一項子競賽的題目為「作者—論文識別」,目的在於藉由提供高達25萬位作者、250萬篇論文的相關資料,訓練電腦來辨識論文的作者。第二項子競賽的題目為「作者消岐」,由於Microsoft Academic Search的資料來自於網路許多不同的來源,不免造成同一個作者,在系統中有多個ID的狀況,本題目便是藉由提供的資料,來判斷哪些ID事實上是同一人。

今年的資料雖無往年龐大,但主辦單位刻意保留資料中藏有的不少錯誤,再加上資料闕漏,為本次比賽增添了不少難度。比賽起初,本校團隊並未有出色的表現,然而在成員們不斷研究改良下,在數百隊伍中,逐漸脫穎而出。

承襲過去成功經驗,今年林智仁、林守德以及林軒田教授在電機資訊學院、資訊工程學系及資訊網路與多媒體研究所的支持之下,開設「機器學習理論與實務」課程,給予學生相關的訓練並組隊參與KDD Cup競賽。課程中同學被分為不同的小組,各組的同學各自揮灑創意,用多元的方向來分析資料並建立模型。藉由每週一次的上臺報告,交流想法與實驗結果,以激盪出新穎的想法,並使現有的方法更加完善。

比賽後段,團隊將各組建立的各種模型加以整合,使預測的結果達到更佳水準。比賽的競爭非常激烈,較早結束的第二項子競賽「作者消岐」,在比賽後期進入四強纏鬥的階段,不過在成員們不分晝夜的奮鬥,並在最後結合各個小隊完成最終的模型,以平均準確率0.992擊敗伊利諾大學香檳分校,獲得冠軍。

較晚結束的第一項子項目中,大會在結束前一週凍結排名表,比賽結束時才公布最後名次。直到比賽結束一週前,本校團隊成績仍然位於十名外,然而成員抱著鍥而不捨的精神,後來居上以平均準確率0.993拔得頭籌,獲得第二座冠軍。

臺大團隊連續六年的獲獎,也創下了難以超越的歷史紀錄。