人工智能能通過聲學表現認知移情嗎？

發布時間: 2024-04-08 11:41

人工智能能通過聲學表現認知移情嗎？

壹項研究表明，人工智能可以從音頻片段中識別恐懼、喜悅、憤怒和悲傷。

要點

壹項新的同行評審研究表明，人工智能如何檢測出與人類表現同等的情緒。
科學家們使用三種不同的人工智能深度學習模型對短音頻片段中的情緒進行分類。
人工智能和數據科學的心理學方法顯示了機器在認知移情任務中的潛力。

截屏2024-04-08 11.28.12.png 理解和正確識別人類的情緒狀態對心理健康提供者來說很重要。人工智能（AI）機器學習能否展示人類的認知移情能力？壹項新的同行評審研究表明，人工智能如何從短至1.5秒的音頻片段中檢測出與人類表現相當的情緒。

該研究的第壹作者、馬克斯·普朗克人類發展研究所壽命心理學中心的Hannes Diemerling與德國心理學研究人員Leonie Stresemann、Tina Braun和Timo von Oertzen合作寫道：“人聲是表達情緒狀態的強大渠道，因爲它提供了關于發送者處境的普遍可理解的線索，並可以遠距離傳播。”。

在人工智能深度學習中，訓練數據的質量和數量對算法的性能和准確性至關重要。本研究使用的音頻數據來自1500多個獨特的音頻片段，這些音頻片段來自英語和德語開源情感數據庫，來源于Ryerson情感語音和歌曲視聽數據庫，德語錄音來自柏林情感語音數據庫（Emo DB）。

研究人員寫道：“錄音中的情感識別是壹個快速發展的領域，對人工智能和人機交互具有重要意義。”。

爲了進行這項研究，研究人員將情緒狀態縮小到六類：喜悅、恐懼、中性、憤怒、悲傷和厭惡。錄音被整合成1.5秒的片段和各種功能。量化的特征包括音調跟蹤、音調幅度、頻譜帶寬、幅度、相位、MFCC、色度、Tonnetz、頻譜對比度、頻譜滾降、基頻、頻譜質心、過零率、均方根、HPSS、頻譜平坦度和未修改的音頻信號。

心理聲學是聲音心理學和人類聲音感知科學。音頻頻率（音高）和振幅（音量）極大地影響了人們對聲音的體驗。在心理聲學中，音高描述了聲音的頻率，並以赫茲（Hz）和千赫（kHz）爲單位進行測量。音高越高，頻率就越高。振幅是指聲音的響度，以分貝（db）爲單位測量。振幅越高，音量就越大。

頻譜帶寬（頻譜擴展）是高頻和低頻之間的範圍，由頻譜質心導出。頻譜質心測量音頻信號頻譜，並且是頻譜的質量中心。頻譜平坦度測量相對于參考信號的跨頻率的能量分布的均勻度。頻譜滾降在信號中找到最強的頻率範圍。

MFCC，即梅爾頻率倒譜系數，是語音處理中廣泛使用的特征。

Chroma，或音高類檔案，是分析音樂基調的壹種方式，通常是壹個八度音階的十二個半音。

在音樂理論中，Tonnetz（德語翻譯爲“音頻網絡”）是新雷曼理論中和弦之間關系的視覺表現，以現代音樂學創始人之壹、德國音樂學家雨果·裏曼（1849-1919）的名字命名。

音頻分析的壹個常見聲學特征是零交叉率（ZCR）。對于音頻信號幀，過零率測量信號幅度改變符號並通過X軸的次數。

在音頻制作中，均方根（RMS）測量聲音波形隨時間的平均響度或功率。

HPSS，諧波沖擊源分離，是壹種將音頻信號分解爲諧波和沖擊分量的方法。

科學家們結合Python、TensorFlow和貝葉斯優化，實現了三種不同的人工智能深度學習模型，用于對短音頻片段中的情緒進行分類，然後將結果與人類表現進行對比。評估的人工智能模型包括深度神經網絡（DNN）、卷積神經網絡（CNN）和組合DNN處理特征與CNN分析頻譜圖的混合模型。我們的目標是看看哪種型號表現最好。

研究人員發現，總體而言，人工智能模型情緒分類的准確性超過了偶然性，與人類表現不相上下。在三種人工智能模型中，深度神經網絡和混合模型的表現優于卷積神經網絡。

人工智能和數據科學的結合應用于心理學和心理聲學特征，說明了機器如何有潛力執行基于語音的認知移情任務，與人類水平的表現相比。

研究人員總結道：“這項跨學科研究，將心理學和計算機科學聯系起來，突出了自動情緒識別及其廣泛應用的潛力。”。

Cami Rosso writes about science, technology, innovation, and leadership.

psychology today