宠物摄影机提供另类学习法


寵物攝影機提供另類學習法

很多主人会在自己的宠物身上装个摄影机,来看看自己家的狗狗猫猫是怎幺度过牠们的一天。你有想过这种影片除了具有窥探宠物隐私的功能(咦?),还能够做什幺吗?最近有一篇投稿至ArXiv的文章,表示他们还能够使用这些影片,在一些情境下模拟机器狗的动作。

人们常自然而来地把自己的观点带到其他生物身上,私以为狗狗摇尾巴代表开心,猫咪折手手是信任你,在玩弄宠物的时候,有人有想过宠物的感受吗?这里不是要谈濠梁之辩,但是得去思考一下,传统上,当我们想要模拟动物的行为时(仿生机器人),都是依据套好的刺激与动作下去建模,如此人工的模型是否会偏离了动物真实的习性?相对的,这篇文章的作者则提供了不同的学习角度,试着为动物的行为模式赋予意义。

以动物做为题材并不少见

就读华盛顿大学的Kiana仔细地帮一只阿拉斯加雪橇犬穿上各种装备,在牠的背上固定了一台GoPro之后,就让饲主带着牠到处散步。相机记录着牠走过河岸,晃过交叉路口,奔跑在草地上,跟各种路人互动再回到小窝的一天。在这之后的事情也不複杂,就是取出记忆卡,把资料送进机器里进行训练。

像这样的影片资料集,可以追溯至2014年由九州大学团队建立的”DogCentric Activity Dataset”。他们搜集了几个宠物狗身上的影片,由人工标记狗的各种动作后,就送到机器里训练出一个能做动作辨识的模型。Kiana的团队同样也建立了一套名为”DECADE”资料集,从字面上的意思来看,资料集便是以狗的视角出发,设法切入牠们自我中心(ego-centric),了解这样的一个智慧生物是如何在真实世界中与环境互动。

宠物摄影机提供另类学习法

图一、九州大学团队的Dataset,图片取自[2][3]

 Kiana说:「我们的短期目标是模拟狗的行为,并将这样的模型套用在机器狗身上。」

身为电脑视觉研究者的他们称这些宠物叫作「具有视觉智慧的个体」(Visually intelligent agents)。是因为他们的行为比人类简单许多,也不像人们在行为出现之前会想很多,此外,透过与其他个体的互动,又能做出一些更複杂的行为与反馈。在电脑视觉的进程迈入更複杂的任务之前,从宠物身上做模拟应该会是个较佳的选择。

建立资料库的考量

除了在狗的头上安装一台GoPro,他们也让狗儿穿上一套安装着加速度计和陀螺仪的衣服,用来记录牠身体、关节、四肢的相对移动量。「首先,这种设计必须够坚固耐用,能承受住狗的所有动作和甩动,再来也得够轻薄舒适,确保这样的纪录方式不会影响到狗本来的习性。」

宠物摄影机提供另类学习法

图二、DECADE资料库的收集模式,图片取自[1][4]

得到了由影像与动作组成的观测资料,接着就是做前处理送到模型的时刻。这时提到这种连续又具有前后相关性的资料,这时就很容易想到他们採用的是Sequence-to-Sequence的架构。举例来说,给定从A点走到B点的影像,机器能够预测这过程中狗狗的一连串肢体动作,包括如何移动关节、转动颈部等等。训练得好就有机会让机器狗做出更栩栩如生的反应。

非典型的监督式学习法

机器学习应用在电脑视觉上早已行之有年,多数时候做的还是相当特定的任务,像是物件辨识、数值估计等等。这类任务相对而言很好去做定义,诸如标记的是非对错、区分类别又或是代表的数值,只要有足够的资料对,选择适合的损失函数,都很容易评估学习的确效。相反的,这种模拟狗行为的任务却是複杂许多,也不易评估,那为何他们团队仍要尝试呢?

他们的想法是这样的。

一般来说,传统电脑视觉的训练任务都要準备数以万计的图片或影片,过程中确保资料的一致性、进行前处理等等还算是小事,麻烦的是每张图片还需经由人手一一做标记,才能在监督式学习的架构下教导机器做出跟人一样的判断。为此,有些人提供了非监督式学习的办法,但往往效果不比本来的方法好。

他们则想到,这些标记(Label)事实上是一种人工的代理作业,而忽略了本质上产生标记的意义——从人们产生的客观事实认为狗在做某种动作,但狗的主观感受可能会是截然不同的。在这样的出发点下,团队索性不对动作做任何标记,而是直接利用狗的习性对机器做监督式学习,也就是提供刺激(狗的视野)与反应(肢体动作),训练机器来模拟出狗会做出的动作。

令人惊豔的结果

考虑到狗的行动应该具有避开障碍物的考量,Kiana等人实作了一项被称作「辨识可行走区域」的任务,要求机器标示出影像内的可行走区域,并与真实区域做重叠比较。他们发现使用ResNet-18(一种CNN架构)在DECADE上训练出来的结果,比起使用同样的模型在ImageNet(图片资料库)上的结果高出了3%。

宠物摄影机提供另类学习法

图三、「可行走区域」的训练模式,图片取自[1][4]

这听起来虽然不是很厉害。但是要知道的是,训练时所使用的ImageNet是由超过一百万笔精心标记的资料组成,相形之下,DECADE则只有约两万笔未经标记的资料组成,却能产生如此强的结果。除此之外,在一些预测反应任务中,像是如何调整身体姿态去追逐主人扔出的球,比起其他方法都有较好的表现。

关于Kiana团队的下一步,他们认为AI的核心议题还是如何将模型朝一般化方向推进。也许是多进行在不同品种上的实验,也许还需要许多志愿者的帮助,只要在狗儿身上安装一些设备,主人只需要多跟牠玩,出去散散步就能够持续让模型变得更好。

编译来源:Jeremy Hsu. “Dog Cam” Trains Computer Vision Software for Robot Dogs. IEEE SPECTRUM. 18 Apr 2018.


参考文献:

[1] Kiana Ehsani, Hessam Bagherinezhad, Joseph Redmon, Roozbeh Mottaghi, Ali Farhadi. Who Let The Dogs Out? Modeling Dog Behavior From Visual Data. Mar 2018.[2] Yumi Iwashita, Asamichi Takamine, Ryo Kurazume, M.S. Ryoo. First-Person Animal Activity Recognition from Egocentric Videos. ICPR 2014.[3] DogCentric Activity Dataset[4] dogTorch[5] 特色图片取自 Shutterstock。



上一篇: 下一篇: