通过对图像样本特征库中色情图像和正常图像的特征学习构建球形邻域。设色情图像样本特征库 ,正常图像样本特征库 ,m和k分别为两个特征库中的样本数量。通过特征库建立由m个球形邻域构成的FP神经网络 ,Ci为球心,Ri为相应的半径,具体步骤如下,
Step1: 为色情图像样本特征库中各样本建立标记位, ,FP神经网络初始化为零。
Step2: 从色情图像样本特征库中选取 为0的特征,若没有,则退出。若有,则选取其一,从Step3开始构建球形邻域,同时=1。
Step3: 令 ,表示该色情样本到正常样本库各样本的最小距离; ,表示该色情样本到其他未训练的色情样本的最大距离。
Step4: 如果 ,则取 ,否则取 。
Step5: 增加一个球形 ,跳转到Step2。
反复执行m次之后得出色情图像分类的FP神经网络。
色情图像分类过程的关键在于求出待识别图像到FP网络各球形邻域球心的最近距离,针对待识别特征库 中每一张图像的特征 ,判断是否存在,使 ,即能够被球形邻域覆盖, 若存在此球形邻域则认为该特征对应的图像为色情图像;否则,认为是正常图像。
4 实验与分析
4.1 本地实验
实验分为两组,识别准确度对比实验和参数调整实验。使用Washington大学Ground truth Database数据库中随机选取的649张正常图像,以及从网络上下载的色情图像631张,共1280张图像作为实验图像库。
实验1:为验证本文提出算法的先进性,将本文的算法与当前国内公认的“护花使者”反黄软件中的图像识别模块(表格中简称“护”)进行比较。识别效果采用查全率pr和查准率pn表示,分别用来衡量识别系统识别色情图像的能力和识别系统识别色情图像的准确度。公式如下,
nn为正检数,即正确识别出的色情图像数,ne为检出数,即算法识别出的色情图像数,nt为色情图像总数。两项指标越高说明识别的性能越好,反之越差。结果如表1所示,其中查全率和查准率的单位为%。
根据表1的结果,可以看出本文提出的色情图像识别方法的查全率及查准率均高于“护花使者”,表明采用基于直觉模糊- FP神经网络进行色情图像识别更符合实际需求。实验同时说明,普通配置的计算机即可满足图像识别速度的要求,每张图像的响应时间小于0.3秒,识别过程中,CPU占用率不大于3.5%。
实验2:为确定算法中两个重要参数,颜色直方图中颜色位及训练样本数量对识别结果的影响,进一步作了参数调整实验。实验结果分别如图3及图4所示。
通过实验2可知,本文提出的色情图像识别算法在颜色位很少的时候,受到直方图颜色位的影响很大,而当颜色位升到一定的数量的时候,因其已经能够足够的表达色情图像内容,再增加颜色位也不会影响识别结果。样本数量对识别算法的影响与其类似。因此,为不影响识别速率和准确性,应选择适当的颜色位和样本数量。
4.2 实网测试
为进一步测试该算法实际应用时的性能指标,将其放入国家某部信息安全中心进行实网测试。测试中,针对一个Web服务器列表,依照顺序对每一台服务器提供的Web网站进行监控,将数据导入数据库,识别其中图像是否为色情图像。
(责任编辑:adminadmin2008)