臺大特色課程系列報導—電資學院:電腦之視覺與影像認知系列課程

用手機拍攝新奇的事物、記錄珍貴的生活片段、上網搜尋不熟悉的名詞、倚賴螢幕上顯示的影像或感測器所偵測的距離調整停車位置、用語音輸入訊息、通勤的時候觀看線上影片、醫生解釋著電腦螢幕上病患的X光影像,這些看似平凡的日常活動,都是多媒體領域多年來發展的成果。這些成果已經完全融入各個領域的應用上,顯示它的重要性與影響力。不僅提供我們更安全迅速便利的協助,更實際地提升生活品質。本所多媒體領域方面的課程設計,從核心課程的數位影像處理,至進階課程如電腦視覺、圖形分析辨認、數位視覺效果與多媒體資訊分析與檢索。由這些精心籌備的課程,讓學生了解到所學真的可以致用,更得以提升生活品質與安全和便利性。而這些知識只是多媒體領域冰山的一角,從課堂上學到的,只是能夠挖出更多寶藏的入門工具。期望透過這些特色課程,激發學生好奇心進而大量吸取新的知識發展,增加多媒體領域了解的深度與廣度。目前主要特色課程簡介如下:

數位影像處理

隨著資訊科技的進步與電子產品的普及,數位影像處理技術蓬勃發展,其相關應用涵蓋了醫療、生物、工業、天文、國防、航空、金融等各個領域。近年來最關鍵的技術就屬機器感知,如何透過影像處理讓機器具備感知功能以達成不同領域各式各樣的任務,進而提升機器的智慧與生活的便利性,一直是影像處理研究學者多年來所致力發展的目標。數位影像處理為資訊網路與多媒體研究所的核心課程,每個學期均有開授並開放給大學部三年級以上同學修習。授課內容從最基礎的數學開始奠定理論根基,以及人類視覺系統瞭解方法設計原理,進而介紹各種經典方法讓同學理解背後意義。其中包含空間域(spatial domain)的處理技術,如去除雜訊(denoise)、邊界偵測(edge detection)、幾何形變(geometrical modification)、紋理分析(texture analysis)、光學文字辨識(optical character recognition)、數位半色調(digital halftoning)等,以及取樣理論(sampling)與各種轉換(transform)和頻率域(frequency domain)技術如影像強化與復原(image enhancement and restoration)等。接著列舉實例引導學生思考如何解決問題,同時也搭配補充最新的相關技術和應用影片,突顯影像處理技術廣泛的應用性和趣味性。除此之外,也延伸介紹近年來發展的卷積神經網路(convolutional neural network, CNN)與深度學習(deep learning)應用在影像處理相關的問題。此一系列的課程設計,確實達到學習的有效性與一貫性,讓學生兼具理論基礎與實作能力,同時瞭解目前與未來重要的發展趨勢。

電腦視覺

電腦視覺的主要任務,是研究如何讓機器像人類視覺一樣,能夠進行目標偵測與辨識、目標追蹤與場景或物體重建等任務。主要應用包含無人駕駛車、運動分析、三維景物重建、工業檢查、機器人與人機互動。本課程著重於電腦視覺之基本觀念與理論基礎,介紹各種電腦視覺相關之應用,並設計數項專題激發同學研發出適當之演算法及計算架構並實現電腦模擬。內容包含了黑白機器視覺(binary machine vision)、門檻值(thresholding) 與分割(segmentation)、區域分析(region analysis)、統計圖案辨識(statistical pattern recognition)、數學形態學(mathematical morphology)、鄰域運算子(neighborhood operators)、調節與加標籤(conditioning and labeling)、小平面模型(the facet model)、質料(texture)、影像分割(image segmentation)、取出弧與分割(arc extraction and segmentation)等。學生藉由這門課,能夠理解如何讓人類視覺與電腦視覺建立起更強烈的連結、以解決現實生活中更多更複雜的問題。

圖形分析辨認

圖形分析辨認為一門探討如何將各種不同來源的資料加以分類或辨識之學科。電腦將所輸入的影像進行資訊提取與分析,進而理解內容而加以判讀。簡而言之,就是讓電腦有高階的資訊處理能力。由於電腦自動辨識有著高效率、高準確率的特點,此方向的發展期望能夠在多方面的應用均能漸漸取代人工。相關的應用相當廣泛,包括:影像分析、人臉辨識、表情辨識、指紋辨識、手寫辨識、語音辨識、視訊監控、行為辨識、醫療診斷、文件分析、資料探勘、資訊檢索等。本課程的目標在於讓修課同學瞭解圖形辨識的基本概念,熟悉圖形辨識的各種相關技術,以及對於圖形辨識的應用與研究領域有豐富扎實的認識。課程主題包含了貝氏決策理論(Bayesian decision theory)、監督式學習(supervised learning), 非監督式學習(unsupervised learning)、分群(clustering)和人臉偵測技術(face detection)。

數位視覺效果

近年來,數位視覺效果廣泛地融入電影特效裡面,將不可能化為可能,完美地創造出無數令人意想不到的驚奇效果,同時也大大地節省了電影拍攝成本以及提高拍攝過程的安全性,在電影製作過程中已經是不可或缺的重要環節。如何將虛擬的效果、空間與人事物真實地呈現在電影場景中,將能夠藉由這門課為同學揭開神秘的面紗。本課程將涵蓋電腦圖學、電腦視覺和影像處理中的技術,以及在製作視覺效果方面的實際或潛在用途。透過本課程的設計,學生可以學習到高動態範圍成像(high dynamic range, HDR, imaging)、色調映射(tone mapping)、影像變形(image morphing)、影像拼接(image stitching)、運動估計(motion estimation)、運動回復結構(structure from motion)、影像去背與合成(matting and composition)等相關議題。

多媒體資訊分析與檢索

隨著通信,電腦和儲存容量的先進發展,多媒體流內容如視頻、照片、音樂等變得與生活息息相關也扮演著非常重要的角色。為了處理如此大量多樣的訊息,出現了具有挑戰性的理論問題和強烈的工業需求。在本課程中,學生將通過密集的實作獲得實踐經驗。主題包括以下內容:機器學習技術(machine learning techniques such as graphical models, discriminative models, clustering) 、多媒體內容特徵表示(multimedia (video/photo/music) feature representations)、內容分析和對象識別(content analysis and object recognition)、多媒體索引與檢索(multimedia indexing and retrieval)、多媒體資料探勘(multimedia data mining)、巨量多媒體資料的個人化與可視化(summarization, personalization, and visualization of large-scale multimedia databases)等。目的是讓學生熟悉最新技術,學習如何解決實際的多媒體如影像、視頻或聲音學習及索引問題,同時藉由實驗獲得實際動手經驗。

電資學院官網:http://eecs.ntu.edu.tw/