【iThome】如何提高 AI 模型需要的高品質數據,若水揭露標註師工作的秘訣

文/ 翁芊儒, iThome 記者

「大家都知道數據(data)很重要,但如何處理數據更重要,它會加值AI模型的養成」

若水AI數據服務事業部協理簡季婕在一場活動上,揭露自家新創團隊的數據處理策略,包括如何從大量原始的資料篩選出可用的資料並進行標註,以及實際標註時運用的工具與流程。

簡季婕說明,雖然原始資料量(raw data)越多越好,但真正關鍵的挑戰是蒐集到可用的資料,舉無人車針對路況做出反應的模型為例,一般正常路況的資料量多、好蒐集,但真正訓練模型做出反應的車禍資料,反而較難取得。

圖/ Tirza van Dijk on Unsplash

因此,在數據的蒐集階段有兩項重點,一是要蒐集到足夠全面的資料(Variety),包括靜態、動態、不同環境的資料,二是要蒐集到不同複雜程度得資料(Complexity),無論是陰暗光線、雨水、被標註物件的數量或大小都會讓情境變複雜。

在蒐集足夠的資料後,下一個挑戰則是如何將龐雜的數據收斂為可用來訓練的資料。首先,必須要分類,大致可分為三類,根據蒐集到的影像,去判斷欲標註的物件是否完整、清楚,不完整或模糊的影像先歸一類;第二類,則是將背景不夠乾淨、有雜訊,或可能導致辨識錯誤的圖像篩選出來;第三,則是篩選後所剩下的清晰、乾淨、高解析度的資料,同時也是較適合拿來訓練模型的資料。

舉例來說,某品牌精華液擁有大量圖像資料,此時可依照上述步驟先將瓶身拍攝不完整或模糊的圖像篩選出來歸類,接著再將附有包裝紙、配飾、或人也入鏡的圖像資料篩選出並歸類,最後剩下的就是背景乾淨、只留精華液瓶罐的資料。

簡季婕表示:

模型可以透過第三類的資料學習物件特徵,再反過來用第二類甚至第一類的資料加深學習難度,來強化模型的辨識能力。

在數據整理與篩選的階段,若水也採取半自動化的方式讓數據清整更有效率。簡季婕表示,根據每個專案的需求,會使用不同的智慧工具來做快篩,包括物件追蹤(Object Tracking)、特徵分析(Feature Analysis)、人臉辨識(Face Recognition)等,逐步將不合適的資料篩除,從低品質資料篩到高品質資料的過程,也會有部分人力進場來做更精確判讀。

除了將數據分類,要取得高品質的標註資料也有三個步驟,包括精準的定義(Definition)、執行(Execution)、以及回饋(Feedback)。簡季婕說明,首先要精準定義出資料標註的原則,這時候領域知識(domain knowledge)就很重要;再來是根據定義去處理與標註數據,過程越精準穩定,相對的模型就會有較好表現;最後是即時的回饋,AI工程師將標註後的數據拿來訓練模型,訓練結果即時反饋給數據標註師,使其可以針對標註過程做調整,形成良性循環。

簡季婕也舉出實際應用的案例來說明。要訓練辨識鐵鏽的模型,首先要定義鐵鏽是什麼?鐵鏽的顏色、質地、形狀都需要專家來協助定義,才不會與光影、青苔和污漬搞混,否則將影響模型表現;定義完成後,將資料交由專業數據標註師處理,不經由 AI 工程師或工讀生來標記;在回饋的部份,針對模型表現的結果改善標記方式,進而提昇模型辨識的精準度。

因此,若水的成員不僅包括 AI 工程師來開發資料清整的工具、由身障者組成的專業資料標註師、協助定義標註原則的資料科學家,也與外部專家合作,在客戶對於領域知識不夠熟悉時,透過諮詢讓資料可以被更精確的標註與使用。

若水在資料標註的過程,培養身障者作為數據標註師,讓身障者透過遠距溝通的形式就能在家工作。培訓的內容主要為基礎標註訓練,不只要看的準、標得準,還要培養標註師的對資料的敏感度,目的要降低人為標註的認知落差,通常需要大量的訓練才能勝任,而標註師也需花時間熟悉遠距溝通的工作模式,因此培訓時間通常要一個月或更久。

在培訓過程,每位標註師會熟悉一種標註工具、以及該工具實際應用的場景。

主要常用的六大標註工具,包括方框標註、關鍵點標註、分類標註、像素切割標註、多邊形標註以及析線標註,分別對應不同類型的資料,例如關鍵點標註適用於動態影像的標註、分類標註適用於大量數據的快篩、工業影像常用像素切割標註法等。


【推薦閱讀】

➡️➡️ 別急著寫 Code, AI 落地前要回答的兩個問題

➡️➡️ 讓高階工程師更省力,若水幫企業練 AI 數據基本功

Appier「機器學習之神」林軒田:用數據為企業,加速 AI 數位轉型

AI 數據 人工智慧 機器人 本田

【2分鐘看AI大事】Amazon推Alexa保全服務/護送兒童上學的機器人/AI時代的策略聯盟