物联传媒 旗下网站
登录 注册
RFID世界网 >  技术文章  >  其他  >  正文

五感传感器令电子设备更接近人类(完)

作者:伊藤元昭、野泽哲生
来源:日经BP社
日期:2009-10-13 10:06:56
摘要:五感传感器令电子设备更接近人类(七):分析设备小型化是关键;(八):将喜欢的味道数值化;(九):“顺风耳”;(十):“千里眼”
本文中文翻译由《电子设计应用》特别提供 

分析设备小型化是关键
 

  若要扩大嗅觉传感器的应用领域,系统就必须小型化,这是今后的开发重点。 

  例如,将来有可能将现在仅用于实验室的气相色谱分析功能嵌入到各种设备上。最近,食品的仿冒及变质问题已经成为社会问题,如果能够开发出具有气相色谱分析功能的设备,那么消费者就可以很容易地识破上述问题。 

  此外,还能够将可通过呼气诊断疾病的手机连接到日常健康保健中心。手机是个人随身携带的设备,在通话时常常无意识地呼气,将其作为日常检测健康状态的设备是最合适的。 

  在CEATEC JAPAN 2007 展会上,NTT DoCoMo 发布了可以记录口臭、人体脂肪率、脉搏、步数的终端,而且该终端可以将测得的数据发送给服务器。如果能够在疾病恶化之前及时发现并加以治疗,那么就可以大大降低医疗费用。 

MEMS 的小型化成为后动力 

  目前已有多款小型嗅觉传感器实现产品化。 

  日本FIS 公司是一家半导体气体传感器生产商,该公司已实现了台式简易气相色谱仪的产品化(见图11) 。该产品的灵敏度为0.1ppb~1ppb。普通的气相色谱仪需要气罐来提供载气(流动相气体),所以体积巨大。但该新产品是通过内置泵吸入空气作为载气,所以体积非常小。检测对象虽然只限于呼气及VOC等特定气体的分析,但已经可以识别肉的特定种类及品牌产品所发出的气体。 

  此外,虽然尚处于研究阶段,但使用MEMS技术使气体传感器更小型化,而且可检测更多气体种类的开发也开始起步。作为嗅觉传感器元件,此技术是面向下一代产品的技术,技术水平与后文将要介绍的生物仿真嗅觉结构的传感器差不多。 

  瑞士巴塞尔大学的研究小组已经开发了将悬臂用于气体传感器的技术,悬臂是用MEMS技术制作而成,其中使用了原子力显微镜。悬臂的一侧是高分子膜,可对气体做出反应,当高分子膜上吸附特定气体时会发生变形,借此就可以检测高分子膜的变形,从而换算为气体浓度。 

  如果将多个悬臂阵列状排列,各悬臂上的高分子膜分别对应不同的检测气体,那么就可以实现可检测多种气体的小型气体传感器。 

仿真嗅觉结构 

  半导体气体传感器的灵敏度与以前相比已大为提高,但是,它并不是对所有气味的味源物质都具有足够的灵敏度。而且,现在检测气体的时间有时会长达几分钟,检测时间仍需缩减。 

  为了解决上述问题,科学家们正致力于开发仿真生物嗅觉结构的嗅觉传感器,目前已经开发出可检测气味的传感器芯片(见图12),可检测的浓度为ppb级,已与人类嗅觉相当。  

  生物的嗅觉结构复杂,为了模拟生物嗅觉结构制作传感器,就必须掌握味源物质的感应组织与识别组织。人类大约有350 种气味感应体,而气味的味源物质约有1万种以上,这些分子与嗅觉细胞中的感应体结合,就可检测出气味。通常,1种气味的味源物质要与多个感应体结合。而且,1个感应体也与多种味源物质结合。总之,气味与感应体的对应关系是多对多的关系。 

  感应体并不直接检测味源物质的分子,而是读取一部分分子结构,确认分子中是否存在苯环、是否存在特定长度的疏水链。通过制作可读取这类分子结构的传感器元件,就得到了嗅觉传感器。 

  传感器元件使用表面分极控制法来读取味源物质分子的分子结构。该方法通过控制电极表面电位,然后根据电化学阻抗测量电位与化学物质之间的相互作用。这是一种成熟的电化学测量方法,其电路组成方法及操作方法已经明确,所以容易得到较高的灵敏度。 

利用抗原抗体反应原理仿真犬类的嗅觉 

  人类的嗅觉能力已经退化,在动物之中属于嗅觉不发达的物种。如果能实现比人类嗅觉更灵敏的嗅觉传感器,那么其应用就有可能扩大到更大的范围,甚至是目前无法想象的领域。 

  众所周知,犬类是嗅觉较佳的动物。人类大约有4000 万个感应气味的细胞。但是,犬类动物大约有10 亿个,数量庞大。这种程度就可以感应到ppt 级的嗅觉。 

  在美国已有医疗机构开始利用犬的嗅觉来诊断早期乳癌。日本OJPC 福利犬养育协会已经训练出名为玛琳的癌探知犬,可以100%检测从初期到晚期的食道癌、肺癌、胃癌、肝癌、大肠癌、乳癌、胰腺癌,肺癌、恶性淋巴肿瘤等。明海大学外崎肇一教授专门负责研究疾病与气味的关系,据他介绍:“辨别结构并不是很明确。但是与癌有关的部分,也就是癌特有的蛋白质是在细胞内合成的,因此狗可以检测到此类蛋白质所发出的气味。” 

  为了实现与犬类同等水平的嗅觉传感器,科学家们正在进行多项研究。但是,即使是使用台式气相色谱仪和目前已开发的嗅觉结构仿真生物传感器,要达到此类ppt级别的检测也不容易,还需要基于更新的概念技术。 

  作为解决方法,科学家们已提出利用抗原抗体反应,来检测爱滋病毒与登革热病毒(见图13)。该方法是以气味的味源物质为抗原,然后制成与其1对1结合的物质,并通过其检测出气味。抗原与抗体的结合会造成传感器表面折射率发生细微变化,然后用高灵敏度的表面等离子共振检测这种变化。不光是医疗方面,预计还将用来检测炸药TNT 的气味,以及探测地雷等。  

  九州大学教授都甲洁所领导的研究小组所试制的传感器可以同时检测4 种化学物质,容积大约是30cm3,重量不到10kg。该传感器据说可检测几ppt气味的味源物质,已经实现ppt 级的灵敏度。

味觉 将喜欢的味道数值化 

  兴高采烈地前往餐饮指南上的星级餐饮店,结果却发现完全不合自己口味,这大概是许多人都有过的经验。依赖于味觉传感器,不久的将来可能可以防止这种情况的出现。因为味觉传感器可以客观地评价食物的味道,而不像以前美食家的评价其实仅符合美食家的口味。如果能够知道符合自己口味的味道的数值化数据,那么以后无须亲自体验,也可以检索到可做出近似味道的餐馆。 

将基本味道分别数值化 

  可将味道数值化再进行评价的味觉传感器备受人们关注( 见图14),目前已经运用在食品开发及品质管理、药品开发等方面。此类传感器并不是用来检测像蔗糖、谷氨酸等甜味、鲜味的味源物质,而是可以将人所感觉到的味道用数值表示出来,实际上就是模仿舌头味蕾结构的生物嗅觉传感器。  

  舌头表面感觉味道的器官被称为味蕾。味蕾上存在可感觉甜味、咸味、酸味、苦味、鲜味五种基本味道的各种味蕾细胞。味觉传感器也可以分别区分这五种基本味道的浓淡程度。产生味道的化学物质有无数种,而且还可进行组合,组合之后的味道甚至十分相近。味觉传感器将不同的化学物质进行组合,当人类觉得味道相似时,就输出相似味道的数值,这就是高度仿真人类味觉的传感器。 

只能间接评估 

  目前,在食品界很难客观的评价味道。像品质管理那样,如果必须了解客观的评价指标,首先需要知道到底包含了无数味源物质中的哪些物质,然后再针对所包含的每种味源物质进行测量,并按其浓度进行统计处理,从而进行间接评估。但是,对于每种味源物质的评价无法对应人所感觉到的味道。因为味道与味道之间存在相互作用。在西瓜上撒上些盐可以增加甜味,像这种现象就无法评估。 

  因此,在食品开发方面,人类的感官试验是不可或缺的。但是,专业的测试人员也有自己的嗜好,所以也只能进行主观评价。而且在测试时测试人员的健康状态往往也会影响结果。 

仿真味觉检测结构 

  味觉传感器的代表产品是智能传感器技术公司销售的味觉传感器TS-5000Z,其中使用了九州大学都甲洁教授所开发的一款生物传感器。该传感器基于味觉检测结构仿真原理, 可区分的浓度差可达到1%~2%。一般人的舌头只能识别20% 以上的浓度差,所以可以说其灵敏度相当高。 

  此外,除了可判断基本味道,还可检测食品界已习惯使用的特殊味道的味觉传感器也已出现,如可检测出啤酒苦、麻涩、有机苦、涩味、极鲜味等共计10 种味道。这种新产品可以将消费者喜欢的味道与食品的品牌进行匹配,客观地找出消费者所要求的味道。 

  该公司还开发了多种味觉传感器阵列化集成芯片,可以通过USB连接电脑使用(见图15)。该芯片大小为40mm × 10mm × 1mm,可应用到便携式味觉传感器或嵌入电子产品中,使设备可根据自己的喜好自动进行烹调。  

  味觉传感器芯片是通过以下工艺制造的。首先,在玻璃基板上蚀刻多条细长沟道。然后在沟道内通过电子束加热,镀上薄银膜。再用同样的方法制作基准电位电极。对应要测量的味道,将相应的脂质与高分子膜与溶剂相混,制成不同的液体。然后在各条沟道中,分别注入已制成的液体,再让溶剂挥发,在沟上形成脂质高分子膜。然后将该玻璃基板传感器部分安装到信号处理部位。 

也可测量人无法感觉的味道 

  味觉传感器的原理还可用于食品以外的应用,如用来分析唾液,了解齿槽脓漏、糖尿病、应激反应等健康状态。富山大学准教授山口昌树所领导的研究小组认为,通过对唾液中所含的齿肉沟液进行分析,可以测量血糖值,而通过分析消化酶(淀粉酶)则可以测量人体应激状态。 

  再进一步,以后的传感器甚至可以测量人无法感觉的味道。那时候应该可以应用到更新的领域。

听觉 将圣德太子的耳朵安装到所有设备上 

  微软公司在发布Windows Vista之前,曾面向证券分析师公开演示了新操作系统的语音识别功能,但此次演示却未能成功。演示人员试着让机器识别“Dear Mom”的发音,并显示成文本,但显示出来的却是“Dear aunt”。演示人员口头指挥其进行修正,最后的修正结果变成了“Dear aunt, let’s set so double the killer delete select all”。苦笑着的演示人员用食指指了指嘴巴,示意听众安静一些。 

音源分离是关键 

  这一实例直接说明了语音识别技术的难度之大。微软具有该领域最先进的技术,但还是会如此失败。这主要是因为将识别对象的声音与周围杂音进行分离的技术难度太高,目前语音识别技术仍处于发展中(见图16)。 

  与电子设备听觉相对应的传感器是麦克风。目前,音响设备、PC、汽车导航仪等许多电子设备上都配备了麦克风。因此,当小型、高性能的硅麦克风作为听觉传感器元件上市之后,就无需再烦恼其集成到设备中时的尺寸问题,而且听觉效果十分丰富。如果在一个设备上集成多个硅麦克风,那么设备就可以具有优良的耳朵,性能方面可达到前所未有的程度。  

  本来,使用硅麦克风的用户界面应该可以更为普及,但现实并非如此。主要原因就是语音识别技术不够成熟。反过来说,将识别对象的声音从周围杂音中分离出来的声音分离技术的改善,是听觉传感器普及的关键。 

应用领域可能迅速扩大 

  日本历史上有名的圣德太子,据说能在10个人同时发声时听懂每个人所说的话。这虽然是极端的例子,但人在喧闹环境下确实可以将谈话对方的声音从周围的杂音中分离出来,这种人耳所具有的区分声音的能力被称为鸡尾酒会效应。 

  利用目前的电子设备中所集成的语音识别技术,如果使用头戴式麦克风,只需辨识某个人发出的声音,也能获得很高的识别率。但其应用必然有所限制。所以,目标是要让电子设备具有像圣德太子一样的能力。而且,不光是具有比现在更优良的语音识别性能,而且还能对设备所提取的声音进行自由加工。 

  比如可以开发具有新的均衡功能的视频设备。目前的均衡器只能按频率带宽控制声音强弱,而新的均衡器可以强调或减弱音乐中特定乐器的声音或特定的声音,打造全新的功能。如果在会议系统中应用此技术,就可以消除背景音乐,只抽取出特定发言人的意见,让人听得更明白。 而且,如果能与图像数据一同使用,通过位置信息还可以用箭头等标出发言人所在的位置。 

  此外,还可以面向不能使用助听器的重度听觉残障人士,开发同时具有HMD(头盔显示系统)功能的助听系统。无论从哪个角度、发出怎样的声音,都可以将其文字化并显示到显示屏上。 

可同时听懂3个人的下单 

  京都大学教授奥乃博所领导的研究小组建立了音源分离的技术体系,同时也领导着各领域的实际应用开发。该研究小组已开发了可以分离、识别多人同时发出的声音的技术(见图17)。不光可分离人的声音,还可分离周边环境的音乐与杂音。已试制完成的识别系统可以在1.9s 内识别3 位客人同时下单的声音。如果不选择使用场所,就可以把任意说话人作为识别对象。该处理对硬件并无特殊要求,普通PC就足够满足性能要求。  

  事实上,该技术已经被嵌入本田的双脚步行机器人ASIMO 体内。最关键的技术是具有语音识别功能的中间件,该中间件被称为HARK,是与日本本田研究所共同开发的。 

  奥乃教授开发的技术主要由三部分组成。音源定位:用来把握声音的方向;音源分离:从混合声音中分离个别声音;分离音识别:识别分离后所产生的已变形的声音信号。 

  音源定位是根据多个麦克风所取得的声音的差异来掌握音源位置。使用麦克风划分音源位置时,如果增加所用麦克风的数量,就可以更准确地确定位置。因此,ASIMO上左右两侧各集成了4个麦克风。小型硅麦克风的上市,使得一台设备上即使集成多个麦克风,也不会出现安装面积不够的问题。 

  音源分离分析需遵守以下原则:相同方向只有一个音源;相同的谐波结构(基本声音的表现);所捕捉声音的性质,如果细分的话,每个人是不一样的。HARK 参照位置与谐波结构的连续性,将声音分组后再分离音源。 

  但是,由于声音是从各种声音重合之后再分离的,所以分离后的各音源的声音波形会发生变形。如果不加以处理,就会产生识别错误。 

  因此系统中导入了被称为MFM(Missing feature Mask)的技术,通过该技术就可以识别变形后的声音信号。在利用MFM技术识别时,如果与参照模型有较大差异,就进行掩码处理,屏蔽掉变形较大的部分后再进行语音识别。也就是删除造成误差的部分,只对剩下部分的语音进行识别。 

声音内所包含的情感及状况 

  除了语音分离技术之外,在该领域较为重要的技术开发有两种趋势。其一是从语音当中提取说话人的情感及周边环境信息的技术。另外就是直接提取说话人当时的真实环境下的声音,包括由于说话人所在位置周围的建筑物所引起的声音微妙变化等。虽然提取的是真实环境的声音,但输出时可自由输出。 

  人类发出的声音,除了包含一般语音识别可得到的语言信息之外,还包括了说话人的情感信息。例如面红耳赤时所发生的声音、震动的声音、低沉的声音等。此外,杂音中也包括了说话人所处周边环境的信息。 

  以往情况下,这些信息都是直接忽略的,如果要读取此类信息,可能就需要能够灵活控制电子设备工作的技术。例如,在汽车方面,当驾驶员陷入很容易引起操作失误的情绪时,汽车如果能够对此进行判断,那么就可以考虑相应的对策。 

  还有一种新的技术也正在开发,就是传输包括音源在内的音响空间的信息,这样,在重放时即可重现与现实十分接近的音响空间。即使闭上眼睛聆听,也可以感觉到周围有什么,空气是怎么流动。 

  京都大学与国际电气通信基础研究所共同开发了将音响空间传输到远方的技术。通过70 个麦克风与安装在听众周围的70 个扬声器,可以与远方共享相同的音响空间。 

  此外,东京理科大学教授沟口博所领导的研究小组所开发的技术,可以在3个方向安装32个扬声器,并可向扬声器所包围范围内的某人传输声音。分别控制各扬声器输出声音时的延时与振幅,然后通过相互干涉,可以只在圆柱状或球状范围内使人听到6dB~8dB的声音。 此技术可应用于街头广告等用途,例如可以只对行走在一定范围内的特定人员发送声音。 

视觉 挑战超人类的视野 

  与其他五感传感器相比,视觉传感器,特别是传感器元件部分(各种感光元件)的实用化程度高出很多。目前仍在进一步发展,其中包括人脸识别、笑脸识别之类的图像识别技术。不过,由于大部分产品都只是追求类似人类视觉的效果,所以在超越人类感觉上的开发目前尚未太多进展。特别是在超高速动态物体的拍摄及信息处理等方面,进展明显不够。 

高精度与高速度 

  对于超越人类感觉的视觉传感器,目前正在进行开发的包括红外线、紫外线等非可视光感光元件,以及1个光子级的超微光检测技术,还有1万~100 万分之1秒极短时间内的曝光摄影技术等。此类技术在医疗、汽车事故测试等各种开发现场的需求较大。但是,如果要求综合性能高,追求高精度、高速度的图像识别性能,就只能选择特定功能的产品。例如,分辨率为1000 万像素的影像最多只能达到10fps,相反如果速度为1000fps,那么最高精度就只有100万像素,而且只能保存几十秒的记录,无法实现实时的图像识别等。 

  之所以如此,是因为以下三点原因。首先,受限于感光元件的反应速度。当像素数增加时,每次扫描时间就更长,帧速率就无法提高。如果像素为1000 万、速度为10fps,读出1 个像素所花费的时间就必须在10ns(1 亿分之1 秒)以下。第二,受限于传输带宽。将大容量图像数据从感光元件传往PC 等图像处理系统时,传输带宽有限。如果像素为100 万、速度为1000fps,每1 个像素的信息为10 位时,传输速度至少需要10Gbps。该速度已经是目前可使用的传输技术的上限,虽然可以实现,但成本太高。 

  第三,受限于存储器与图像识别速度。传输大容量数据时,如果速度超过10Gbps,那么即使设备的存储容量超过1TB,也只能保存13分钟左右的数据。要想实时处理图像数据,光靠芯片上的缓存是难以实现的。如果将数据保存到内存内,不光是传输速度的问题,传输延迟问题等也是瓶颈。 

生物仿真视觉传感器 

  日本东北大学大学院工学研究科生物机器人专业教授小柳光正与准教授田中彻的研究小组,正在研究模拟生物眼睛的视觉传感器,以期能突破上述限制。其目标是用几十mW的极低功率实现相当于 1 万fps 的超高速影像。 

  具体来说,是开发仿真眼球视网膜结构的人工视网膜芯片(见图18)。该芯片将受光芯片、输出控制芯片、调制芯片等通过贯通电极纵向叠层而成。目前,主要面向视网膜功能受损的失明人士,目标是取代视网膜与视神经连接,从而恢复视力。该芯片由安装在眼镜上的电池进行无线电磁感应供电。目前已开发出在非层积型芯片上集成输出电路的试验芯片,并将该芯片嵌入到兔子的眼球里,确认了其反应。  
 

      该人工视网膜用芯片与现有的感光元件有几大差别。最大的不同就是各像素直接与神经相连,无需扫描像素。 

  据小柳教授介绍:“虽然最近已有感光元件通过采用并行扫描每个像素列的列并行技术实现了高速度。但我们开发的产品采用点并行方式,无需扫描就可同时读出所有像素,所以无需扫描时间。由于像素之间的运算能够实现超高速,所以应答时间快。如果用帧速率描述,大概相当于1000fps~10000fps。” 

  扫描型产品虽然在原理上可以通过提高帧速率来提高反应速度,但此时的功耗就过于庞大。相反,生物据说只需几十mW的能量就可以活动眼睛。所以如果是点并行技术,就无需提高每个元件与电路的处理速度。 

  此外,人工视网膜用芯片的输出电路是立体层叠而成的,所以开口率高,而且采用了脉冲数调制,调制方式与生物体的调制方式相同。这些都是与现有感光元件不同的地方。 

超高速处理会改变社会 

  与东北大学小柳教授的开发思路类似,广岛大学大学院工学研究科复杂系统专业教授石井抱与东京大学大学院信息理工系研究科系统信息学专业教授石川正俊所领导的研究小组用现有技术也开发了阶段性执行图像数据处理的系统。石井教授开发的Hiroshima Hyper Human Vision (H3 Vision)系统,具有高精度且超高帧速率,而且可以实时处理信息。该系统由美国Photron公司的100 万像素、1000fps 的摄像头、FPGA信息处理电路,以及PC组成(见图19)。  

  石井教授小组的目的是想调查将超高速帧的图像数据传输给电脑的途中,如果只抽取必要信息,会有什么结果。但是,传输超高速帧时,一般用来进行图像识别处理的电脑能力不足,存储器容量也不够,于是他们考虑在传输过程中去除一部分信息,以减轻电脑负担。因此,现在的系统比较类似脑视觉处理系统。 

视觉变身为听觉和触觉 

  在石井教授开发的系统里,如果改变FPGA 的处理内容,并对提取的数据内容及运算处理进行各种变换,就可以适当改变传感器的作用(见图20)。例如,使用前后时序的数据,并对时间进行微分处理,就可以看见速度分布。石井教授的小组使用上述技术,可以让机器人在几米的近距离内以160km/s 的速度击球。由于可以看到以30 转/s 的速度旋转的球的样子,所以可以击打曲线球,这已经明显超过了人类的能力。  

  如果不采用时间微分,而是批量处理相邻的多个像素,那么就是在影像系统中实现实时的扩大/ 缩小,而且毫无杂音。而如果使用提取物体动作的算法,就可以通过视觉识别声音的振动。这是由于,帧速率达到1000fps~10000fps 时,正好与人类的大部分可听频率(20Hz~20kHz)及时间分辨率相重合。打响指、轻击物体但并不发出实际声音时,也可以通过视觉传感器取得声音信息。 

  此外,该系统还可用来制造加速度传感器与触觉传感器。只需再将速度分布进行微分,就可以看见加速度分布。牛顿定律F=ma 描述了加速度与力的关系。如果对列车过桥时的图像进行速度分布微分处理,那么就可以看到力加载在桥的哪里,而且可以发现螺栓的松弛及龟裂等问题。 

  用手指弹弄某物体时,可以根据振动分布及传递方式了解手指的接触位置与所弹物体的材质等,这相当于可以取代触觉传感器。