你有没有想到过,智能手机的“智能”会进化到能窥探你的心情?也就是说,当你对它说一句话,它能知道你当时是什么情绪。
不管你有没有想到过,已经有人将其付诸研究,美国罗彻斯特大学一个工程师团队——黑泽尔曼团队的新研究将会很快实现这个目的。不久前,该团队展现了一项新的电脑技术——语音情感分类计算法则,它能够通过语音来识别人类的情绪。这项新技术在识别情绪的精确性上比现有技术有着实质性的提升。
智能手机从语调识别情绪
一部手机理解情绪的前提是认识人类如何理解情绪。
人皆有七情六欲,如何识别人类的情绪,前提是必须对各种情绪有所分类。我们日常生活中所能观察到的情绪就是表情,表情是内心情绪变化的外部表现,它分为面部表情、姿态表情和语调表情。
现在研究比较多的分类是面部表情,美剧《Lie To Me》中的测谎专家卡尔·莱特曼的生活原型保罗·艾克曼开发出了一套面部表情编码系统(FACS),不同部位的面部肌肉运动会组合成不同的情绪。比如,看到一张眉头紧锁、咬紧牙关、面部发红的人脸,我们会将其归类为愤怒;一张眉头拱起、嘴巴张开、眼睛放大的人脸,我们会将其归类为惊奇。姿态表情包括身体表情和手势表情,如高兴时的捧腹大笑,紧张时的坐立不安,恐惧时的紧缩双肩等,还有竖起大拇指表示赞扬等。而智能手机对情绪的识别,基于第三种表情——语调表情。
建立不同情绪类型的声音程序
黑泽尔曼团队的合作研究者、罗彻斯特大学心理学家梅丽莎斯塔格-苹果(Melissa Sturge-Apple)说,情绪会影响人们讲话的方式,改变说话的音量、音高甚至讲话的协调性。正如面部表情可以分为眉毛、眼睛、鼻子、嘴巴等脸部活动一样,语调表情也可以具体化为一些人类或者电脑可以识别的特征。
声调表情作为一种声音,有着许多声学特征。黑泽尔曼团队采用了三种最基本的声学成分来对声音进行编码:音调、音响和共振峰。音调是人耳听到声音的高低,它取决于发声物体每秒振动的次数;音响是声音的响度,它取决于发声物体的振幅;共振峰是在声音的频谱中能量相对集中的一些区域,也就是共鸣区,它决定了声音的音质。他们共分析了12种声音特征,包括音调、音响、两个相邻声音的音调差值、两个相邻声音的音响差值、前四个共振峰的各自频率和带宽。
研究者将每一段录音进行分类,并以此教电脑程序学会悲伤、快乐、恐惧、厌恶或者中性的声音听起来是什么样子。也就是说建立一个不同情绪类型的声音程序。接下来这个系统会对新的录音进行分析,并判断它是否属于电脑中存储的已知某种情绪。如果电脑程序不能够判断两种或者更多种情绪,它会将这段录音归为无分类之列。
心理医生可通过电话评估病人情绪
这个研究技术已经被黑泽尔曼的研究生用来开发一个应用程序。这个应用程序在记录和分析了说话者的语音后,会展现出一个快乐或者悲伤的表情。当然,这个技术还处于早期阶段,但是不难想象,最后会开发出一个更加复杂的应用程序,可以让你的智能手机在记录你的声音后自动完成许多事,如根据使用者的当前情绪状态来选择合适的音乐播放。
在健康护理领域,此项技术也有大展身手的空间。比如,临床医生可以在线评估由情绪障碍引起的心理问题。
电话心理咨询是当今心理咨询的一种常见形式,但它不具备面对面咨询给临床心理医生提供的那种观察和评估优势,而能读出病人语气中的准确情绪状态的语音情感技术则能解决这个问题。这样更有利于临床心理医生通过电话准确评估病人的情绪状态。