恐怖谷理論與 VUI 能迸出什麼新滋味?
為了給各位帶來更好的閱讀體驗,以下是我節錄自維基百科關於恐怖谷這個條目的說明。
恐怖谷(Uncanny Valley)是一個關於人類對機器人和非人類物體的感覺假設,它在1970年由日本機器人專家森政弘提出。該假設指出,由於機器人與人類在外表、動作上相似,所以人類亦會對機器人產生正面的情感;直到一個特定程度,他們的反應便會突然變得極為負面。哪怕機器人與人類只有一點點的差別,都會顯得非常刺眼,如同面對殭屍的感覺。可是,當機器人和人類的相似度繼續上升,相當於普通人之間的相似度的時候,人類對他們的情感反應會再度回到正面,產生人類與人類之間的移情作用。
「恐怖谷」一詞用以形容人類對於跟他們相似到特定程度之機器人的排斥反應。而「谷」就是指在研究裡「好感度對相似度」的關係圖中,在相似度臨近100%前,好感度突然墜至反感水平,回升至好感前的那段範圍。
關於恐怖谷理論,事實上我們可以在多個領域中發現其應用,如電影、藝術、動畫、遊戲等等。其中最經典的莫過於一些類人型的殭屍與玩偶,比起非人型的怪物、怪獸,所帶給人的驚悚與恐懼要來得更為強烈。
之所以會提到恐怖谷理論,是因為近幾年人工智能在技術上取得了驚人地躍進,機器對於語意分析的能力也因此獲得提升,順勢帶起了許多以文字對話、語音溝通為主的人機交互方式。特別是 Amazon Echo, Google Home 這種以智能音箱作為互動主體的家用裝置,成為了市場上的主流。然而 Voice User Interface 並非僅止於了解用戶說話時的語意分析,接下來它還必須根據它所理解的使用者意圖給出適當的回應。而多數產品在實作這樣的雙向互動時,主要還是在模仿人類實際的說話方式,因此這才讓我聯想到恐怖谷理論。我在這裡想與大家討論的是
恐怖谷理論是否也適用於 VUI 的領域?
還記得 2018 年 Google I/O 大會的開幕演說中,有一個令在場所有人印象深刻的環節。執行長 Sundar Pichai 展示了兩段由 Google Assistant 打電話給真實店家預訂髮型設計師與餐廳的錄音。其中所使用的 Duplex 語音技術,其聲音幾乎與真人相同,不但能與店員有來有往的對話、協調時間,還能在交談中適時加入「嗯…」、「Oh」、「Mm-hmm」等語助詞,其自然且毫不生硬的口吻順利地在對方沒有察覺任何異樣的情況下完成預約。
然而 Duplex 以假亂真的表現確實令不少人感到害怕,也因此引發了批評聲浪。有網友便指出 AI 的聲音應當與人聲做出區隔,就像是我們刻意在無色無味的瓦斯當中加入臭味,讓用戶在意外發生時提高警覺。
也由於這段插曲,讓我不禁聯想到恐怖谷理論。雖然目前恐怖谷理論主要還是應用在視覺表現為主的領域,而在 VUI 方面還沒有太多研究案例,但既然目前語音交互的主流是讓機器人盡可能「擬人化」地與用戶進行溝通,我覺得在技術的演進上勢必會遭遇到恐怖谷的困境,正如同上述案例中 Google Assistant 所引發的爭議一般。
至於 VUI 該如何克服恐怖谷,由於我本身並非語音交互的專家,我也不太清楚業界是否有關於這個主題的研究或洞察,我在這裡只是單純提出一點自己的看法,與有興趣的人交換一下意見。
我認為未來的 VUI 可能會有兩種截然不同的走向,分別位於恐怖谷的兩端。第一種就是機器人依舊保有人類想像裡機器該有的特質,充滿合成器的聲線、僵硬的語調、提供明確且獨立的選項與人類進行交互,而不是像人與人之間日常的交談方式,將可能的選項融入到對話中。舉個簡單的例子,假設你今天打電話去餐廳訂位,你可能會先告訴對方你想要預定的時間與人數,機器人就會從你的語意中辨識出你的意圖(訂位)與關鍵訊息(預定時間、人數),假設你所提出的時間段沒辦法預約,由於意圖與人數是不會改變的因素,機器人便會提供更多能夠預約的時間段給你選擇,有可能是由大至小讓顆粒度越來越細的選項,從日期開始,接著往下 break down 為早中晚以及確切的時間。這種做法的好處是用戶不會因為沒辦法判斷對方是真人或機器人而感到困惑,明確的選項也能夠給人帶來安心感,技術可行性上也相對容易,但缺點是溝通的效率比較低。倘若是在節省人力成本的前提下企業想要導入 VUI 作為 Call Center,這個方案就已經足以滿足其需求。
第二種可能的未來則是建立在恐怖谷理論對於 VUI 而言只是個假議題的前提之下。為什麼説恐怖谷理論對於 VUI 可能只是個假議題呢?因為人類對於新科技所帶來的變革一直以來都是抱持著畏懼且排斥的心態。19世紀末,新興的蒸氣驅動汽車問世,開始出現在各個發達國家的街道上時曾引起了很大的騷動。當時的汽車不僅笨重、速度慢,又經常撞壞未經修補的路面而引發許多事故。為此,1865年,英國議會針對當時的汽車制定了史上第一部機動車道路安全法規,也就是所謂的「紅旗法案」,法案中不僅規定了極為嚴格的限速條款,其中第三條規定現在看起來更是令人啼笑皆非,它寫道:
「每一輛在道路上行駛的機動車必須遵守 2 個原則:其一是一輛車至少要由3個人來駕駛;其二是 3 個人中必須有 1 個人在車前 50 米以外步行作引導,並且要手持紅旗不斷搖動,為機動車開道」
之所以出現這樣荒唐的法案正是因為人們對於新事物所可能帶來的生活變化所產生的恐懼與抗拒。同樣地,2007 年史上第一台 iPhone 問世時,許多消費者認為這個沒有鍵盤且售價驚人(當時大約是 500 美金)的科技玩具是一個天大的笑話,且不具備任何商業價值。但之後的事情我想大家都知道了,現在一台 iPhone 你得要花一千多美元才買得到,Apple 的市值也因為 iPhone 成為第一個市值突破一兆美元的史詩級企業。
因此,或許我們並不真的在意電話那頭的聲音是來自一個真人還是機器,只是我們還沒準備好迎接這個新技術所可能帶來的變化。當市場上出現了足夠多的應用場景,VUI 終究會跨越那道恐怖谷,正式來到你我的日常生活面前。因此我個人更傾向於相信第二種未來才是 VUI 最有可能的走向。
如果想要更深入了解 VUI,我非常推薦 Her 這部電影,可以讓我們窺見許多未來語音交互的可能性。