物联传媒 旗下网站
登录 注册
RFID世界网 >  技术文章  >  其他  >  正文

基于人工免疫系统的RFID数据过滤模型研究

作者:吴华瑞 李美英 赵春江 朱华吉 朱成礼 杨宝祝
来源:RFID世界网
日期:2009-01-16 10:54:18
摘要:为了避免感染计算机病毒或者包含恶意代码等不良信息的电子标签对RFID应用系统运行效率的影响,采用人工免疫系统的多层过滤机制建立了面向RFID数据中不良信息的过滤模型,模型的实施包括数据预处理、多层过滤器的生成与衰亡、过滤器的应用及进化。实验结果表明,该模型有较高的召回率和正确率,这说明了基于人工免疫系统的RFID数据过滤模型具有动态性和自适应强的优点,并为特定领域的信息分类问题解决提供了参考。

  0 引言

  近几年来,无线射频识别(RFID)系统在工业自动化控制、物流和供应链管理等领域中得到了广泛应用。目前,大多数计算机安全专家认为RFID芯片的内存容量有限,因此对RFID标签会感染及传播病毒的可能性并不重视;还有一些专家认为,读写器对RFID标签一扫而过不会更改后台的应用,而且即使有影响也不会是恶意的。但是荷兰阿姆斯特丹自由大学的M.R.Rieback等人研究人员称:“无线电芯片(RFID)不仅威胁隐私,而且易受电脑病毒攻击”,“RFID标签可能会感染上一种病毒,可传染与影响后台数据库,并能轻易地向其他RFID标签传播”;美国Weizmann学院Adi Shamir教授和他的学生已能侵入某个RFID标签并开发出密码杀手,即一种使标签自毁的代码 ;加州Menlo Park的SRI研究机构PeterNeumann在《电子商务时报》上发表观点:“RFID技术所需要冒的威胁是多种多样的,它不单单是一种类型的威胁,这是一个将来会出现的大问题”;美国自动识别与移动技术协会的主席Daniel P.Mullen表示,采取措施保护标签中的数据已势在必行 。

  RFID系统的这种潜在安全问题是业界讨论的热门话题。当前,如何安全有效地过滤出RFID读写器所收集到的RFID数据中的病毒、检测出恶意代码等,是目前RFID行业需要关注的重要问题之一。在数据过滤方面,人工免疫系统(AIS)具备强大的识别、学习和记忆能力,它的自我与非自我识别能力正是RFID数据过滤良好而又天然的解决方法 ;另外,人工免疫系统的多层过滤机制 更是RFID多层过滤策略的生物再现。本文在人工免疫系统原理基础上,将人工免疫系统多层过滤机制应用于RFID数据过滤,建立了针对RFID数据中不良信息的过滤模型,有效地剔除RFID数据中的不良信息,保证了RFID应用系统及其网络的安全。

  1 人工免疫系统

  1.1 自然免疫系统

  自然免疫系统是由多个防御子系统组成的一个多层次、多结构的自适应防御体系,它主要包括皮肤(物理屏障)、温度和pH值(生理屏障)、吞噬细胞(固有免疫系统)、淋巴细胞(自适应性免疫系统)等部分。自然免疫系统的主要功能是区分自我和非自我 。

  自适应免疫系统的主要组成部分为T淋巴细胞和B淋巴细胞,其运行原理是:首先B细胞和T细胞由体内特定区域随机生成,为防止自体免疫,未成熟T细胞和B细胞分别在胸腺和骨髓中被耐受化,经阴性选择 而成熟;B细胞与抗原结合后被激活,经过克隆选择,以得到与抗原更高亲和度的B细胞,达到亲和度成熟。新B细胞与病原体抗原结合成功后,分裂为浆细胞与记忆B细胞,浆细胞分泌抗体来消灭外来病原体;记忆B细胞使得免疫系统在再次遭受类似病原体入侵时能快速识别并反击抗原,完成二次免疫应答。T淋巴细胞也分化为两种:a)协同细胞,为B细胞及其他细胞提供辅助信号;b)抑制细胞则用来辅助其他细胞或直接消灭病原体。

  1.2 人工免疫系统

  人工免疫系统是近些年出现的新型智能系统研究领域,它是基于模拟自然免疫系统主要是人类免疫系统的一定生物系统过程,开发各种解决工程和科学问题的方法。A1S主要用于信息分类与求解。在应用人工免疫系统进行信息分类时,把需要的信息定义为自我,不需要的定义为非自我,系统通过探究自我和非自我的内在关联来构造过滤器。过滤器最初可随机产生,然后在自我集合中通过反向选择的筛选,实现对非自我的识别。除此之外过滤器还要具有记忆功能(类似生物体的B细胞记忆功能)以便今后的高效判别,同时过滤器的过滤范围也可变(类似生物体中的细胞变异)。这样当外部信息进入时,由过滤器来识别其是否为非自我,并作出相应的处理。

  2 基于AlS多层检测机制的RFID数据过滤模型

  感染计算机病毒或者被注入恶意代码等不良信息的RFID数据,可能会对RFID系统及后台数据库进行攻击。利用AIS在信息处理上的各种优势,将其应用到RFID中间件过滤中,本文构造一个RFID免疫系统(RFID immune systerns,RIS)模型。此模型的任务就是通过调节、变异、学习、进化,过滤RFID数据,防止脆弱点或安全漏洞对RFID数据的影响以及对其中间件和计算机网络的潜在威胁。图1为RIS模型的设计框架。

  根据以上思考,本文将模型的设计流程分为四个阶段,即RFID预处理阶段、过滤器的生成阶段、过滤器的应用阶段和过滤器的进化阶段。该模型的主要实现流程如图1所示。



图1 RIS模型框架


  2.1 RFID预处理阶段

  RFID预处理阶段是后面几个阶段的前奏,它将RFID数据转换为系统易于处理的格式。将读取到的RFID数据,预处理为三部分:a)(IP)为读写器IP地址;b)(ID)为标签ID;C)(content)为内容子矢量。内容子矢量的处理是一个自然语言的处理过程,主要是分词处理,即分词先进行语种分类,然后将标签内容的属性值分解为单词。

  2.2 多层过滤器的生成与衰亡

  考虑到生物免疫系统的工作机制,本文将RIS中的过滤器分为四层:

  a)设为IP过滤器层(IPF)。对应于生物免疫系统的物理屏障,采用XML技术和黑白名单技术,该过滤器由两部分组成:(IP,ipFlag)。其中:IP对应黑/8名单列表中的项;ipFlag标志过滤器是黑名单还是白名单过滤器。ipFlag为真,则是白名单过滤器中的项;反之,为黑名单过滤器中的项。IPF由黑/白名单列表生成。一个未注册的读写器是通过XML技术,由RFID控制台注册,若注册成功,在黑/白名单中添加一项对应该过滤器;同样也可以通过XML技术注销此读写器对应的过滤器,此时黑/白名单列表中将注销相应的过滤器。

  b)ID过滤器层(IDF)。对应于生理屏障,采用平滑过滤技术,表示为(ID,idFlag)。其中:ID为平滑列表中的项;idFlag用于标志为ID的过滤器是否是新注册的。IDF由平滑列表产生。当待过滤标签出现时,如果此标签ID类型在检测类型之列,则激活IDF过滤器,并利用平滑列表中的过滤器对该标签过滤,如果匹配失败,则置idFlag的值为假,须先对该标签进行注册后再交由ConF处理;如果匹配成功,则置idFlag为真,直接交由ConF处理。

  c)Content过滤器层(ConF)。对应于先天免疫层,采用关键词匹配技术,只包含内容子矢量,此子矢量是一个无序的、可变长的数组,数组中的元素来自相应的脆弱性数据库或者不良信息的关键词数据库,表示为(NonContent)。其中:电子标签数据中的content包含不定数目的属性,每个属性值中都可能存在不良数据。初始时,将一些有信誉的组织公布的关键词和表示词作为基因库的初始值,也可以通过RFID控制平台设置、添加或者删除基因库的值,并且每个过滤器被赋予一定的初始重要度,重要度随时间衰减。基因库中每个基因有一定的初始权重,当过滤结果正确时,相应基因的权重增加,每个包含该基因的过滤器的重要度增加;当过滤结果与控制平台的反馈结构相反时,则删除包含该基因的过滤器,同时相应的基因权重衰减,当衰减到0时删除该基因,同时删除所有包含该基因的过滤器。

  d)B过滤器层(BF)。对应于获得性免疫层中的B细胞。

  采用基于内容的RFID数据过滤技术,由标签ID和NonContent两个子矢量组成,表示为(ID,NonContent)。与ConF类似,每个子矢量都是一个无序的、可变长的数组。但待过滤RFID数据中的不良信息表示词(抗原)刺激BF过滤器而产生的新过滤器(抗体)。

  多层过滤器中,ConF和BF的设计,正是为了体现生物免疫系统记忆B细胞二次免疫应答的思想。

  2.3 过滤器的应用阶段

对于RFID数据C和过滤器只的匹配,本文设C、只为两个无序的文本矢量,各自又包含一个或多个文本子矢量,定义C、只的亲和度为C和只中每个子矢量之间的亲和度的平均值。本系统采用如下亲和度的计算公式:

  其中: nq表示子矢量pi和Qj 中相同的表示词(病毒或不良信息)数目;min(pi,qj)表示矢量pi和qj中较短的子矢量的长度。由上述公式和计算方法可得亲和度的取值范围为[0,1]。

  a)通过IPF过滤器,如果IPF过滤器未被激活,表示此读写器未注册,即在黑/白名单中都不存在;如果IPF过滤器被激活,则根据ipFlag标志决定其后的处理方法。若ipFlag为假,则表明该阅读器处于黑名单过滤器中,过滤器被屏蔽,此待过滤RFID数据被丢弃;若ipFlag为真,系统将试图激活IDF过滤器。

  b)如果IDF过滤器未被激活,表明该标签ID类型被屏蔽,将丢弃该RFID数据。如果IDF过滤器被激活,且idFlag为真,交由记忆过滤器过滤;如果记忆过滤器被激活,表示该RFID数据内容包含与记忆过滤器中亲和度较高的不良信息;剔除该RFID数据中的不良信息,如果记忆过滤器未被激活,此时应交由ConF过滤器做进一步的匹配;若idFlag为假,则应先将ID添加到记忆过滤器中,然后将其标签内容直接交由ConF过滤器过滤。

  c)ConF过滤器包含多个子矢量,每个子矢量对应一个过滤器。如果ConF过滤器被激活,说明该RFID数据内容与ConF过滤器中某个或者某几个过滤器有较高的亲和度,剔除该RFID数据中的不良信息;如果ConF过滤器未被激活,则交由BF过滤器来处理。

  d)如果上面的记忆过滤器和ConF过滤器均未激活,则交由BF过滤器处理。若BF过滤器被激活,将产生新的过滤器(抗体),过滤不良信息。模型过滤流程图如图2所示。



图2 模型讨滤流程图


  2.4 过滤器的进化阶段

  生物免疫系统中抗体的种类相对于抗原的种类是很弱小的,生物体通过抗体的动态进化机制和自适应学习机制来解决该问题。本文的RIS系统中,过滤器进化主要是指ConF过滤器和BF过滤器的进化,通过体细胞交叉变异和受体基因重组机制来实现,如图3所示。

  过滤器的具体进化过程如下:

  a)待过滤RFID数据与记忆过滤器中的过滤器进行匹配,如果匹配未成功,即记忆过滤器未被激活,则交由ConF过滤器和BF过滤器组成的过滤器集进行处理。

  b)根据上文提出的亲和度计算公式,依次计算RFID数据的内容(包括多个属性)与过滤器之间的亲和度。

  c)选择亲和度最高的一个过滤器。

  d)同时选择亲和度较高的一组过滤器集,采用体细胞交叉变异的方法来产生一组新的过滤器;另外采用受体基因重组产生一批新的过滤器,两类过滤器融合而成新过滤器集。

  e)计算RFID数据与新过滤器集之间的亲和度。如果新过滤器集匹配,则选取其中的最高亲和度与C)相比较,具有较高亲和度的过滤器加入记忆过滤器。

  至此,完成过滤器的进化。既此过程完成了记忆过滤器(病毒库或者不良信息库)的进化,又体现了免疫细胞的亲和度成熟机制,以及自然免疫和获得性免疫相结合完成进化学习的机制。



图3 过滤器进化流程图

  3 实验分析

  实验中使用记忆过滤器集为包含100个计算机病毒(主要是一些经典的DOS病毒、蠕虫和注入的SQL代码)的过滤器;自我是185个未感染不良信息的RFID数据,非自我是215个感染了实验中使用的病毒样本的RFID数据;本RFID过滤模型中的抗原集合(待过滤的RFID数据)是185个自我RFID数据(自我)和215个感染了实验中使用的病毒样本的RFID数据(非自我)。

  在读写器读写RFID数据过程中,采用人为修改蠕虫或者经典DOS病毒的二进制代码的方法,产生蠕虫或者病毒的变种;然后通过2.4节的过滤器进化方法完成对记忆过滤器集的进化。用 代表记忆过滤器集样本的个数;T1表示记忆过滤器集中向量变异之后的增加的样本;S表示未感染不良信息的RFID数据;s.表示感染病毒样本的RFID数据;s 表示模型进化之后能够识别出感染病毒样本的RFID数据的个数; 表示待过滤的RFID数据的总量(S+S )。该模型的召回率为病毒的剔除率 ./ ,正确率为所有待过滤RFID数据的检对率(S+S )/K。表1是记忆过滤器的进化对模型检测效率的影响。

  表1 记忆过滤器的进化对模型检测效率的影响

  表1说明,随着病毒样本库中病毒变种数目的增加,即记忆过滤器集的进化,RFID数据过滤模型的召回率和正确率在随之提高,从根本上说明了该模型的进化能力。

  4 结束语

  本文借鉴了生物免疫系统的多层防御机制,提出了一种基于人工免疫多层数据过滤机制的RFID数据过滤模型。本文中详细描述了多层过滤器的定义、生成与消亡方法,亲合度计算方法以及各层过滤器的应用方法,多层过滤器中ConF过滤器和BF过滤器的进化机制。实验表明:本文所作研究,能有效防范、过滤及处理RFID数据中的计算机病毒等不良信息,在某种程度上保证了RFID数据以及RFID系统乃至整个计算机网络的安全性。同时,人工免疫系统应用于RFID数据过滤模型有动态性和自适应强的优点,为特定领域的信息分类问题提供了一种参考机制。