臺大資工團隊大放異采ACMSIGKDD2010會議榮獲多項大獎

本校資訊工程系林智仁教授與學生余相甫、謝卓叡以及張凱崴合著之論文『資料超過記憶體容量之大規模線性分類』,參加 2010 年 7 月 25 日至 28 日在美國華盛頓舉行之 The Sixteenth ACM SIGKDD Conference on Knowledge Discovery and Data Mining(KDD 2010, 全球頂尖之資料探勘國際會議),於五百七十八篇投稿論文中,獲頒最佳研究論文獎(Best Research Paper Award),為臺灣首度榮獲該獎項之論文;此外,林智仁教授與同系林守德教授、林軒田教授共同帶領之研究團隊(成員包含駱宏毅、余相甫、林育仕、王建元、柏傑、張博詞、羅亦辰、郭宗廷、張哲維、洪琛洧、黃曳弘、阮昱勳、解巽評、羅經凱、麥陶德、鐘博瀚、何家華、周融瑋、魏吟軒、翁睿妤、嚴恩勗、張淳富),參加與該會議同時舉辦之 KDD Cup 2010(國際知識發掘與資料探勘大賽,為全球最重要之資料探勘競賽),在上百組全球團隊的競爭中,獲得一般組及學生組雙料冠軍的成績,為臺灣連續三年取得傲視全球的成績(2008 年世界第一;2009 年世界第三)。這些獎項肯定了臺大資工團隊在全球機器學習及資料探勘領域的優異研究成果及領導性。

什麼是 KDD 會議?

KDD 會議為資料探勘學界最頂尖的會議之一,每年由全球研究計算機科學最權威的組織ACM舉辦,由來自學界、業界、政府機構等之知名學者專家,針對各式資料探勘議題,發表最前瞻之研究成果,每年均有來自美國、歐洲、澳洲、中國、日本、臺灣等近千人與會。獲選發表之論文,皆採公開徵求稿件,經由大會嚴格的匿名審查過程選出。今年五百七十八篇投稿論文中,僅錄取一百零一篇,錄取率為17.4%。臺大除林智仁教授團隊發表之最佳論文外,尚有電機工程系陳銘憲教授團隊發表兩篇論文;而臺灣另有成大曾新穆教授團隊發表一篇論文。據大會統計數字,這四篇的論文發表,使臺灣本年度之錄取率達全球第二名(第一名為澳洲)之佳績。

資料超過記憶體容量之大規模線性分類

線性分類問題,在文件分類及網際網路上之大型資料分析上,都有極為重要的應用。然而,當資料量過大時,現有的線性分類方法會遭遇嚴重的計算瓶頸。林智仁教授之團隊所發表之論文,提出一個全新的架構,結合了理論分析及實務設計,來解決這樣的瓶頸,讓一般使用者可以簡單的在一臺普通的個人電腦上輕易地解決上百 GB 之大型線性分類工作。在大會公開的頒獎儀式上,最佳研究論文獎的評審委員,對該論文提出以下的評論:『將理論想法與工程看法漂亮地結合,並對這個重要的問題做了完整的分析』(good combination of theory ideas and engineering ideas and a solid evaluation for a very relevant problem);『解決了資料探勘領域中的一個核心問題,並在處理大規模的資料上,展現令人驚艷的結果』(addresses a central task that is specifically a KDD task. Impressive results on large data);『此方法可廣泛地運用在資料探勘領域的許多問題中』(can be proved really useful to the community on a wide spectrum of problems)。

什麼是 KDD Cup 競賽?

KDD Cup 為資料探勘學界一年一度最重要的比賽,從 1997 年開始,每年配合 KDD 會議舉辦,參賽者須設計各式資料探勘方法來分析主辦單位所提供之大型的真實資料數據,以打造更好之智慧決策系統。其目的不僅在於提升知識探勘相關技術水平,更希望參加的團隊能將資料分析的學理與實務結合,應用於解決真實世界的各種不同問題上。今年的比賽是線上數學學習系統的資料分析,參賽團隊必須由學生使用線上數學學習系統的三千多萬筆歷史記錄中,分析每一位學生所習得的知識內容,以判定每一位學生在下一道題目中正確回答的可能性。該比賽每年吸引學界及業界許多重要團隊參加,而近年來臺大的隊伍在該比賽中持續保持領先地位。在 2008 年,林守德教授帶領其團隊成功設計智慧型的乳癌判定系統,與 IBM Research 並列當年度的第一名;在 2009 年,林守德、林智仁、及林軒田教授所共同指導的團隊,分析了手機銷售的商業數據,用以準確預測消費者的行為模式,獲得當年度長期分析組的第三名。今年度三位教授再度共同指導的團隊,以『特徵構造工程及統合分類』(Feature Engineering and Classifier Ensemble)為主軸,有效地探勘了主辦單位所提供的學習系統資料,而獲得了一般組及學生組的雙料冠軍。

特徵構造工程及統合分類

由 2010 年開始,在資訊工程系之大力支持下,林智仁、林守德、及林軒田三位教授,嘗試共同開設了一門新的實務類課程『資料探勘及機器學習的理論與實務』。該課程以 KDD Cup 及其他相關競賽之資料為平臺,讓修課同學們能在實務資料上應用所習得之各式資料探勘及機器學習技術。在本年度的課堂中,修課的十九位同學被分為六組,各自嘗試揮灑臺大人獨有的創新想法,以分析 KDD Cup 2010 所提供的學習系統資料。舉例來說,有一部份的組別,嘗試著將資料中每一『大題』的知識內容與系統答題之每一『小步』做結合,構造出更適合預測的資料特徵;亦有一些組別嘗試計算每個學生在面對不同類型問題及不同時間點之答題正確率來當成特徵值,以代表學生學習的了解程度。在比賽的最後階段,余相甫、駱宏毅兩位助教負責將所有學生的判定系統以統合分類的演算法整合起來。這個整合的系統結合了每一組各種不同的創意,因而在比賽中能有優異的表現。在電機資訊學院及資訊工程系的支持下,三位教授帶領了余相甫、何家華、麥陶德、嚴恩勗等團隊成員,在大會的午宴上接受了公開表揚。除由林智仁教授代表在該比賽的討論會上發表演說外,並由學生團隊以海報發表方式與國際學界及業界有更多互動討論的機會,獲得許多國際學者之高度肯定。