若水國際 AI 數據服務事業部策略顧問-簡季婕

數據教我的三件事,這麼做讓 AI 落地更精準!

文/ 簡季婕 若水AI數據處理事業部負責人

數據多重要,現在大家都知道,但如何運用數據需要策略,不然會造成許多啼笑皆非的狀況。

跟大家講個最代表性的例子。Google 曾經花了三年時間打造出相片辨識軟體,結果把黑人認成猩猩,衍伸出種族歧視的爭議。後來大家才知道,連世界級 AI 高手 Google 也會犯下數據的錯,原來,在他們的原始數據庫裡,白人的臉部畫面畫多,但黑人的相對少,才會發生錯認的窘境。Google 後來拿掉「大猩猩」這個選項,起碼機器看到黑人就會說是黑人,而非其他答案。

(圖片來源:若水 Flow)

從這個案子裡可以推想,Google 的 AI 應用之所以會有這麼關鍵性的錯誤,可能源於他們在思考數據時,發生了判斷上的瑕疵。今天要運用數據來發展AI的公司,都會與 Google 同樣面對兩大挑戰:

1.  數據太多或太少的時候怎麼辦?
2. 怎麼判定目前數據品質好壞,能為演算模型採用?

我在若水負責 AI 數據策略諮詢及服務,因此,看過各式各樣不同產業如何運用數據的現場。在我看來,數據很活,它具有生命力,會依照不同的時間、空間等情境,產生不同的定義、脈絡和應用結果。也因此,面對數據,更加要在行動前想清楚其所謂的「數據策略」,包括三種層次:識其本質、辨其情境、成事在人。

(同場加映:當 5G 來臨,有數據策略才能讓 AI 更成功!)

首先,當企業今天要做一個AI的題目或應用,一定會想到底需要哪些數據?一般本能反應,數據當然是愈多愈好!但以自駕車為例,比起學習日常在道路上開車的情境,更需要的是教機器學會辯識「意外」,但各種人為或自然造成的路障、車禍影像數據,並不容易取得。

自駕車的例子教我們面對數據的第一件事:面辨其本質,除了數量多寡外,還要從使用者實際應用面來辨別數據本質,從而思考因此衍伸的多元性以及複雜性。

要教好一台自駕車安全上路,除了在一般道路上,還要在鄉間小路、在高速公路、在不同時段、在不同天氣⋯⋯。尤其近來愈加頻繁的極端氣候下,在台灣,我們就要讓車子學習在突然的暴雨中前進,但要在大雨迷茫中,標註出各種路上物件供機器學習,實務上非常挑戰。

有了 AI 數據之後,再來就會問,怎麼收歛到比較符合需求的範圍?一般做法會先把不合乎需求定義的挑掉,但這類數據就不能用嗎?從數據分層管理(fragment management)的角度來看,其實不然。

再舉個例子,女生們最愛買的保養品 SK-II,零售業、電商平台該怎麼有效訓練機器學習辨別這個產品?這時不妨分三層篩選數據,可以有效幫助機器學習:

第一層,不設限、大量收集;

第二層,結合 SK-II 會出現的各種情境,比方有使用者出現的、或加上外盒包裝的,數據中有一點「噪音」(noise)可以放此;

第三層,針對產品特徵學習。透過這樣策略性地運用數據,後續機器學習上若有狀況,也很容易溯源掌握數據的問題所在。

當然,上述流程也有人選擇從第三層開始走,再比例性地給予較難辨識的數據,協助模型循序漸進地變聰明。一個完整的數據策略,先考量使用者的應用層面,再回頭往內看,掌握數據的特色、定義以及機器學習的難易等情境,透過分層管理,讓原始數據進化成好的數據(good data)。

好的數據經過精準定義,就成為 高標準的標註數據(high quality labeled data),更能機器學習所用。但偏偏「定義」是 AI 專案落地最常遇見的難關。

有些應用的層面如果比較普遍,可以透過內部投票來定義,但在自駕車、醫療這些高度專業領域,就勢必要找具備相關產業知識的專家諮詢,才能增加對數據的掌握度和穩定性。

這幾年,世界各地陸續傳出有橋樑斷裂造成重大意外事件。我們有個日本客戶就開發出提前偵測出橋樑安全的 AI 應用,他們知道,橋會坍倒的主要原因是鐵鏽,所以就請工程師和工讀生去標註出橋上的鐵鏽。

這下問題來了,工程師光打造 AI 模型都來不及了,又要花時間標註,開發速度就有可能趕不上目標。這位日本客戶後來找上若水幫忙,我們做了幾件事,首先了解客戶的需求、定義出什麼是目前開發需求下所要的好數據。

(同場加映:讓高階工程師更省力,若水幫企業練 AI 數據基本功。

鐵鏽能有多難?

剛開始我們也這樣認為,一去請教了建築業專家才掌握到鐵鏽的物理特色,不會把橋上的光影、污漬或顏色較深的青苔,標註成鐵鏽,讓機器誤學。還有因為鐵鏽的形狀太不規則了,我們一開始標註,都是用「點對點」的方式來處理,但效果不好,最後改成用「面積」來標,讓機器學習的效果提升很多。

(圖片來源:若水 Flow)

處理數據時,由誰來做、怎麼做的決策很重要,選擇專業分工,就有機會讓結果更好。這位日本客戶後來很感謝我們在過程中給多的諸多回饋,因為 AI 模型在建構的過程是就像一個廻圈,需要快速回饋,好讓工程師明白數據或模型上哪裡可能有瑕疵。

面對 AI 落地,如何配置企業內部資源,包括人力、時間以及預算,往往是讓主事者最頭痛的。

「委外數據」的概念,為這項棘手的核心問題提供解答。這個作法有兩大好處:第一、取得精準且被正確標籤的數據;第二、取得即時大量的數據,並且得以讓工程師有效地訓練一個可預測的模型,最終讓 AI 應用更聰明。


【推薦閱讀】

➡️➡️ 【AI 時代的工作哲學】:看見數據裡的生命力

➡️➡️ 別急著寫 Code, AI 落地前要回答的兩個問題

➡️➡️ 用鷹眼管理,從巨量數據中提煉出黃金

電梯界的「關鍵報告」:在故障發生前,先下手為強

當 5G 來臨 有數據策略才能讓 AI 更成功