机器学习增强在线课堂的非语言交流

由:

2021年6月21日

加州大学圣地亚哥分校娱乐与学习研究中心(CREL)的研究人员开发了一种系统，可以分析和跟踪眼球运动，以提高未来虚拟教室的教学效果——也许未来的虚拟音乐厅也会如此。

加州大学圣地亚哥分校音乐和计算机科学教授什洛莫·杜布诺夫(Shlomo Dubnov)是计算机音乐专家，负责总部位于高通研究所的CREL，他开始开发这一新工具，以应对COVID-19大流行期间音乐教学优于Zoom的缺点。

杜布诺夫说:“在音乐课上，面部表情和肢体动作等非语言交流对于保持学生完成任务、协调音乐流程和交流即兴想法至关重要。”“不幸的是，这种非语言的教学方式在虚拟教室里受到了极大的阻碍，因为你不在同一个物理空间里。”

为了解决这个问题，杜布诺夫和博士生罗斯·格里尔最近发表了一篇会议论文*，介绍了一种系统，该系统使用眼球跟踪和机器学习，让教育工作者与不同位置的个别学生或表演者进行“目光接触”，并让每个学生知道他或她什么时候是老师关注的焦点。

研究人员建立了一个原型系统，并通过Zoom在加州大学圣地亚哥分校的虚拟音乐课上进行了试点研究。

加州大学圣地亚哥分校雅各布斯工程学院电子和计算机工程博士生格里尔解释说:“我们的系统使用摄像头捕捉演示者的眼球运动，以跟踪他们在屏幕上看的地方。”“我们把屏幕分成91个格子，在确定了老师脸和眼睛的位置后，我们提出了一种‘目光估计’算法，可以最好地估计出老师在看哪个格子，从而知道老师在看哪个学生。”

当系统识别到老师看的地方发生变化时，算法就会确定学生的身份，并在屏幕上标记他或她的名字，这样每个人都知道老师在关注谁。

在初步研究中，杜布诺夫和格里尔发现，该系统在估计演示者的目光方面非常准确——在27.5 x 13英寸(70x39厘米)的屏幕上，它与正确的点的距离不超过3 / 4英寸(2厘米)。“原则上，”格里尔说《新科学家》杂志说，“如果有足够的高质量数据，该系统应该在小屏幕上工作得很好。”

据杜布诺夫说，一个缺点是:演讲者离摄像机越远，眼睛就越小，越难被追踪，导致凝视估计不准确。然而，有了更好的训练数据、更高质量的相机分辨率，以及在跟踪面部和身体姿势方面的进一步进步，他认为这个系统甚至可以让指挥家远程挥舞指挥棒，指挥一支分散的交响乐团——即使每个音乐家都在其他地方。

*罗斯·格里尔和什洛莫·杜布诺夫，眼球追踪软件可以让视频通话费用更逼真，CSME论文集(2021)， isbn: 978-989-758-502-9 doi: 10.5220/0010539806980708