《基于深度模型的场景自适应行人检测-蔡英凤.pdf》由会员分享,可在线阅读,更多相关《基于深度模型的场景自适应行人检测-蔡英凤.pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第G21 G22卷第G21期G23 G24 G25 G22年G22月G26东南大学学报G21自然科学版G22G21 G22 G23 G24 G25 G26 G27 G22 G28 G29 G22 G23 G2A G2B G2C G26 G29 G2A G23 G25 G2DG2E G2C G24 G29 G2DG2A G2F G21 G25 G30 G31G32 G33G30 G34 G29 G35 G36G37 G38 G35 G37 G2C G39 G36G31G36G3A G38 G22G26G2E G3A G34G3B G21 G22 G25 G3A G3B G21G21 G32 G3
2、4G3C G23 G24 G25 G22G3D G22 G2D G23 G25 G24 G3B G27 G28 G29 G28 G3E G3FG3B G36G40 G40 G38 G3B G25 G24 G24 G25 G2A G24 G2B G24 G2B G3B G23 G24 G25 G22 G3B G24 G21 G3B G24 G24 G28基于深度模型的场景自适应行人检测蔡英凤G25G26王G26海G23G26孙晓强G25G26袁朝春G25G26陈G26龙G25G26江浩斌G23G21G25江苏大学汽车工程研究院G24镇江G23 G25 G23 G24 G25 G27 G22G21
3、G23江苏大学汽车与交通工程学院G24镇江G23 G25 G23 G24 G25 G27 G22摘要G23针对现有基于机器学习的行人检测算法存在当训练样本和目标场景样本分布不匹配时检测效果显著下降的缺陷G24提出一种基于深度模型的场景自适应行人检测算法G3B首先G24受G55 G30 G4B G4B G36G38 G4B机制启发G24以相对独立源数据集构建多个分类器G24再通过投票实现带置信度度量的样本自动选取G26其次G24利用G3D G44 G25 G25深度结构的特征自动抽取能力G24加入一个自编码器对源目标场景下特征相似度进行度量G24提出了一种基于深度模型的场景自适应分类器模型并设计
4、了训练方法G3B在G45 G2DG2A G2A G2D数据库的测试结果表明G24所提算法较现有非场景自适应行人检测算法具有较大的优越性G26与已有的场景自适应学习算法相比较G24该算法在检测率上平均提升约G21 G46 G3B关键词G23场景自适应G26行人检测G26深度结构G26卷积神经网络中图分类号G23 G2A G47 G27 G28 G25 G3B G21 G26 G26文献标志码G23 G26 G26 G26文章编号G23 G25 G24 G24 G25 G2A G24 G2B G24 G2B G21 G23 G24 G25 G22 G22 G24 G21 G48G24 G29 G2
5、2 G28 G48G24 G29G41 G2C G27 G2F G27 G2B G28 G2B G23 G2AG33G26 G27 G23 G27 G28 G27 G29 G2AG24 G33G2B G2F G28 G27 G2AG27 G2C G2AG33G25 G2F G2B G4AG34 G25 G24 G33G2AG32 G22 G36 G2B G29 G27 G28 G25 G2F G28 G27 G27 G23 G22 G25 G28 G27 G4AG44 G30 G36 G2F G36G38 G4B G41G37 G38 G4BG25G26 G4C G30 G38 G4B G2B
6、 G30 G36G23G26 G29 G32 G38 G56 G36G30 G3A G58 G36G30 G38 G4BG25G26 G2F G32 G30 G38 G44 G4A G30 G3A G35 G4A G32 G38G25G26 G44 G4A G37 G38 G27 G3A G38 G4BG25G26 G21 G36G30 G38 G4B G2B G30 G3A G4E G36G38G23G21G25G26 G32 G31G3A G42 G3A G31G36G51 G37 G2C G38 G4B G36G38 G37 G37 G33G36G38 G4B G24 G37 G40 G
7、37 G30 G33G35 G4A G2DG38 G40 G31G36G31G32 G31G37 G24 G21 G36G30 G38 G4B G40 G32 G23 G38 G36G51 G37 G33G40 G36G31G3C G24 G49 G4A G37 G38 G3FG36G30 G38 G4B G23 G25 G23 G24 G25 G27 G24 G44 G4A G36G38 G30 G22G21G23G29 G35 G4A G3A G3A G34 G3A G41 G26 G32 G31G3A G42 G3A G31G36G51 G37 G30 G38 G39 G2A G33G3
8、0 G41G41G36G35 G2C G38 G4B G36G38 G37 G37 G33G36G38 G4B G24 G21 G36G30 G38 G4B G40 G32 G23 G38 G36G51 G37 G33G40 G36G31G3C G24 G49 G4A G37 G38 G3FG36G30 G38 G4B G23 G25 G23 G24 G25 G27 G24 G44 G4A G36G38 G30 G22G35 G36 G29 G2AG24 G2B G2C G2A G23 G2A G3A G40 G3A G34G51 G37 G31G4A G37 G52 G33G3A G4E G
9、34G37 G42 G31G4A G30 G31 G31G4A G37 G39 G37 G31G37 G35 G31G36G3A G38 G37 G41G41G37 G35 G31 G3A G41 G31G4A G37 G37 G43 G36G40 G31G36G38 G4B G42 G30 G35 G4A G36G38 G37 G34G37 G30 G33G38 G36G38 G4B G4E G30 G40 G37 G39 G52 G37 G48G39 G37 G40 G31G33G36G30 G38 G39 G37 G31G37 G35 G31G36G3A G38 G30 G34G4B G
10、3A G33G36G31G4A G42 G40 G39 G37 G35 G33G37 G30 G40 G37 G40 G39 G33G30 G42 G30 G31G36G35 G30 G34G34G3C G4F G4A G37 G38 G31G4A G37 G39 G36G40 G31G33G36G4E G32 G31G36G3A G38 G40 G3A G41 G31G33G30 G36G38 G36G38 G4B G40 G30 G42 G52 G34G37 G40 G30 G38 G39G40 G35 G37 G38 G37 G31G30 G33G4B G37 G31 G40 G30 G
11、42 G52 G34G37 G40 G39 G3A G38 G3A G31 G42 G30 G31G35 G4A G24 G30 G40 G35 G37 G38 G37 G30 G39 G30 G52 G31G36G51 G37 G52 G37 G39 G37 G40 G31G33G36G30 G38 G39 G37 G31G37 G35 G31G36G3A G38 G30 G34G4B G3A G33G36G31G4A G42 G4E G30 G40 G37 G39 G3A G38 G31G4A G37 G39 G37 G37 G52G42 G3A G39 G37 G34 G36G40 G5
12、2 G33G3A G52 G3A G40 G37 G39 G3B G28 G36G33G40 G31 G24 G36G38 G40 G52 G36G33G37 G39 G4E G3C G31G4A G37 G55 G30 G4B G4B G36G38 G4B G21 G55 G3A G3A G31G40 G31G33G30 G52 G30 G4B G4B G33G37 G4B G30 G31G36G38 G4B G22 G42 G37 G35 G4A G30 G38 G36G40 G42 G24 G42 G32 G34G31G36G52 G34G37 G33G37 G34G48G30 G31G
13、36G51 G37 G34G3C G36G38 G39 G37 G52 G37 G38 G39 G37 G38 G31 G40 G3A G32 G33G35 G37 G40 G30 G42 G52 G34G37 G40 G30 G33G37 G32 G40 G37 G39 G31G3A G4E G32 G36G34G39 G42 G32 G34G31G36G52 G34G37 G35 G34G30 G40 G40 G36G41G36G37 G33G40 G30 G38 G39 G31G4A G37 G38 G31G30 G33G4B G37 G31 G31G33G30 G36G38 G36G3
14、8 G4B G40 G30 G42 G48G52 G34G37 G40 G4F G36G31G4A G35 G3A G38 G41G36G39 G37 G38 G35 G37 G40 G35 G3A G33G37 G30 G33G37 G4B G37 G38 G37 G33G30 G31G37 G39 G4E G3C G51 G3A G31G36G38 G4B G3B G29 G37 G35 G3A G38 G39 G34G3C G24 G32 G40 G36G38 G4B G31G4A G37 G30 G32 G31G3A G42 G30 G31G36G35 G41G37 G30 G31G3
15、2 G33G37 G37 G43 G31G33G30 G35 G31G36G3A G38G30 G4E G36G34G36G31G3C G3A G41 G3D G44 G25 G25 G21 G39 G37 G37 G52 G35 G3A G38 G51 G3A G34G32 G31G36G3A G38 G30 G34 G38 G37 G32 G33G30 G34 G38 G37 G31G4F G3A G33G53 G22 G30 G38 G39 G30 G39 G39 G36G38 G4B G30 G39 G37 G37 G52 G30 G32 G31G3A G48G37 G38 G35 G
16、3A G39 G37 G33 G31G3A G52 G37 G33G41G3A G33G42G31G4A G37 G40 G3A G32 G33G35 G37 G48G31G30 G33G4B G37 G31 G40 G35 G37 G38 G37 G41G37 G30 G31G32 G33G37 G40 G36G42 G36G34G30 G33G36G31G3C G35 G30 G34G35 G32 G34G30 G31G36G3A G38 G24 G30 G39 G37 G37 G52 G42 G3A G39 G37 G34G48G4E G30 G40 G37 G39 G40 G35 G3
17、7 G38 G37 G30 G39 G30 G52 G31G36G51 G37 G35 G34G30 G40 G40 G36G41G36G37 G33G42 G3A G39 G37 G34 G36G40 G52 G33G3A G52 G3A G40 G37 G39 G30 G38 G39 G36G31G40 G31G33G30 G36G38 G36G38 G4B G30 G34G4B G3A G33G36G31G4A G42 G36G40 G39 G37 G40 G36G4B G38 G37 G39 G3B G2A G4A G37 G37 G43 G52 G37 G33G36G42 G37 G
18、38 G31G40 G3A G38 G31G4A G37 G45 G2DG2A G2A G2D G39 G30 G31G30 G40 G37 G31 G39 G37 G42 G48G3A G38 G40 G31G33G30 G31G37 G31G4A G30 G31 G31G4A G37 G52 G33G3A G52 G3A G40 G37 G39 G30 G34G4B G3A G33G36G31G4A G42 G52 G37 G33G41G3A G33G42 G40 G4E G37 G31G31G37 G33 G31G4A G30 G38 G31G4A G37 G37 G43 G36G40
19、G31G36G38 G4B G38 G3A G38 G48G40 G35 G37 G38 G37 G30 G39 G30 G52 G31G36G51 G37 G52 G37 G39 G37 G40 G31G33G36G30 G38G39 G37 G31G37 G35 G31G36G3A G38 G30 G34G4B G3A G33G36G31G4A G42 G40 G3B G55 G37 G40 G36G39 G37 G40 G24 G35 G3A G42 G52 G30 G33G37 G39 G4F G36G31G4A G31G4A G37 G37 G43 G36G40 G31G36G38
20、G4B G40 G35 G37 G38 G37 G30 G39 G30 G52 G31G36G51 G37 G3A G4E G3FG37 G35 G31 G39 G37 G31G37 G35 G31G36G3A G38 G30 G34G4B G3A G48G33G36G31G4A G42 G40 G24 G31G4A G37 G52 G33G3A G52 G3A G40 G37 G39 G30 G34G4B G3A G33G36G31G4A G42 G36G42 G52 G33G3A G51 G37 G40 G31G4A G37 G39 G37 G31G37 G35 G31G36G3A G38
21、 G33G30 G31G37 G3A G38 G30 G51 G37 G33G30 G4B G37 G4E G3C G30 G52 G52 G33G3A G43 G36G42 G30 G31G37 G34G3C G21 G46 G3BG37 G27 G38 G39 G25 G24 G28 G29 G23 G40 G35 G37 G38 G37 G30 G39 G30 G52 G31G36G3A G38 G26 G52 G37 G39 G37 G40 G31G33G36G30 G38 G39 G37 G31G37 G35 G31G36G3A G38 G26 G39 G37 G37 G52 G40
22、 G31G33G32 G35 G31G32 G33G37 G26 G39 G37 G37 G52 G35 G3A G38 G51 G3A G34G32 G31G36G3A G38 G30 G34 G38 G37 G32 G33G30 G34 G38 G37 G31G4F G3A G33G53收稿日期G23 G23 G24 G25 G29 G48G25 G25 G48G24 G29 G3B G26作者简介G23蔡英凤G21 G25 G28 G2D G2B G27 G22 G24女G24博士G24副教授G24 G35 G30 G36G35 G30 G36G43 G36G30 G3A G24 G27
23、 G24 G21 G2E G25 G23 G29 G3B G35 G3A G42 G3B基金项目G23国家自然科学基金资助项目G21 G23 G25 G2B G29 G21 G23 G24 G25 G24 G29 G25 G21 G24 G27 G25 G22 G23 G24 G29 G25 G29 G24 G25 G23 G24 G27 G22 G25中国博士后基金资助项目G21 G23 G24 G25 G21 G50 G2B G29 G25 G2B G28 G23 G24 G23 G24 G25 G2B G2A G2D G24 G2B G25 G25 G22 G25江苏省重点研发计划资助项
24、目G21 G55 G2C G23 G24 G25 G29 G25 G21 G28 G22 G25江苏省自然科学基金资助项目G21 G55 G45 G23 G24 G25 G21 G24 G2B G2B G2B G22 G25江苏省六大人才高峰资助项目G21 G23 G24 G25 G21 G48G3D G49 G56 G56 G48G24 G21 G24 G24 G23 G24 G25 G2B G48G21 G56 G4D G44 G48G24 G25 G23 G22 G3B引用本文G23蔡英凤G24王海G24孙晓强G24等G3B基于深度模型的场景自适应行人检测G2A G21 G2B G3B东
25、南大学学报G21自然科学版G22 G24 G23 G24 G25 G22 G24 G21 G22 G21 G21 G22 G23 G29 G22 G28 G29 G2D G21 G3B G3D G22 G2D G23G25 G24 G3B G27 G28 G29 G28 G3E G3FG3B G36G40 G40 G38 G3B G25 G24 G24 G25 G2A G24 G2B G24 G2B G3B G23 G24 G25 G22 G3B G24 G21 G3B G24 G24 G28 G3BG26 G26现有的行人检测方法可分为G23类G23基于背景建模的方法和基于机器学习的方法G3
26、B背景建模法难以应对场景动态变化的问题G24仅适用于固定摄像头G24如监控场景G3B而基于机器学习的方法则是利用特征表达G24从大量训练样本中学习并构建行人分类器或检测器G24其对动态及静态场景均适用G24是目前主流的研究方法G3B在分类器训练中G24特征描述和分类器构造是G23万方数据个关键问题G3B在特征描述方面G24早期的行人检测方法多采用如纹理G25轮廓G25边缘等单一特征G2A G25 G23 G2BG3B近年来出现了多种更优的人工设计的图像表达特征G24如G2B G22 G57和G27 G55 G47特征等G2A G27 G21 G2BG3B分类器是影响检测性能的另一个关键因素G2
27、4用于确定最优的决策边界G3B目前行人检测领域最具代表性的分类器是支持向量机G21 G29 G2E G50 G22和G26 G39 G30 G55 G3A G3A G40 G31分类器G2A G2B G29 G2BG3B近年来又出现了许多改进方法G2A G22 G2BG24进一步提升了行人检测的性能和速度G3B实际应用中G24已有检测器在新场景下的行人检测性能往往急剧下降G24其主要原因是新旧场景的差异G24使得原有训练集和新场景中的样本遵从不同的数据分布G3B而当新旧场景存在分布差异时G24原有基于样本同分布统计学习方法的检测器在新场景下难以有效地检测行人G3B基于此G24场景自适应方法G2
28、1 G40 G35 G37 G38 G37 G30 G39 G30 G52 G31G30 G31G36G3A G38 G22和迁移学习G21 G31G33G30 G38 G40 G41G37 G33 G34G37 G30 G33G38 G48G36G38 G4B G22G2A G2D G25 G24 G2B逐步引入机器学习领域G3B与传统的统计学习方法不同G24它们利用从一个场景或环境中学习到的知识来帮助完成新环境下的学习任务G3B为了实现已有检测器和样本在新场景下的迁移和自适应G24首先需要获取新场景下高质量的行人样本G3B目前在视频行人检测领域G24新场景下样本的获取方法主要有人工标注和自
29、动获取G23类G2A G25 G25 G25 G27 G2BG3B在样本的自动获取方面G24常用的方法有G23背景减除法G2A G25 G21 G2BG24其产生的样本可靠性不高G26半监督的自训练方法G2A G25 G2B G2BG24其不能完全反映新场景的数据分布特性G26利用上下文信息及跟踪等进行样本选取的方法G2A G25 G29 G25 G22 G2BG3B由于新旧场景数据分布可能存在差异G24上述方法均存在新场景下自动获取的样本标注的噪声及噪声程度不同的问题G24因此需要寻找一种对目标场景下新标注样本置信度进行度量的方法G3B设计一个具有场景自适应学习能力的训练方法对行人检测器进行
30、重新训练G24也是一个需要解决的关键问题G3B文献G2A G25 G2D G2B提出了一种采用G44 G3A G38 G51 G25 G37 G31框架的分类器训练方法G24该方法通过保留共享滤波器及剔除非共享滤波器实现了分类器迁移G3B G4C G30 G38 G4B等G2A G25 G29 G2B提出了一个通用性较好的迁移框架G24其在原始的G29 G2E G50目标函数中加入源目标场景关联度惩罚项G3B获取检测器后G24重新标注目标样本和源样本G24进行新一轮的训练和优化G24输出最终的检测器G3BG44 G30 G3A等G2A G25 G28 G2B对G26 G39 G30 G55 G
31、3A G3A G40 G31算法进行扩展G24提出了G2DG2A G48G27 G26 G39 G30 G48G55 G3A G3A G40 G31方法G24该方法通过计算分类器在源和目标数据集上的错分率来动态调整样本权重G24最终的分类器由每轮得到的分类器线性加权组合而成G3B上述方法所采用的特征均为人工设计特征G24不能按照分类对象的不同而进行调整G26浅层模型的分类器结构也不能很好地描述高维复杂的超平面G24因而在分类面生成上也存在局限性G3B本文对场景自适应学习算法的样本自动选取和分类器模型的建立进行了研究G3B首先G24借鉴投票机制G24提出了一种带置信度度量的样本自动选取方法G26
32、然后G24利用G3D G44 G25 G25深度结构的特征自动抽取能力和特征自编码器对源目标场景特征相似度的度量能力G24构建了新的场景自适应分类器模型并设计了训练方法G3BG3A G3B采用投票机制的置信样本选取G55 G30 G4B G4B G36G38 G4B G21 G55 G3A G3A G31G40 G31G33G30 G52 G30 G4B G4B G33G37 G4B G30 G31G36G38 G4B G22是G2B G30 G42 G36G39等G2A G23 G24 G2B提出的一种集成学习方法G24它将多个不同的子学习器集成为一个总的学习器G3B其理论基础是通过选取不同
33、的数据子集G24并利用在不同数据子集上训练得到的子学习器的G28投票G29机制获得对未知样本的最终判定G21见图G25 G22 G3B图G3A G3B G57 G2B G34 G34 G33G2F G34集成学习方法借鉴G55 G30 G4B G4B G36G38 G4B的投票机制G24选取若干相对独立的源训练数据集G2DG4CG21 G4C G2F G25 G24 G23 G24 G30 G24 G49 G24 G49为样本集总个数G22 G24各数据集均是在不同天气环境及场景下采用不同摄像头获取的G21对每一个源训练数据集G2DG4CG24采用较为成熟的基于G2B G22 G57特征和可变
34、部件模型G21 G39 G37 G41G3A G33G42 G30 G4E G34G37 G52 G30 G33G31G40 G42 G3A G39 G37 G34 G24 G3D G47 G50 G22G2A G23 G25 G2B分类器的行人检测算法训练得到对应的行人检测分类器G2EG4CG21面向实际场景G24所有行人检测分类器G2EG4C均对某个待判断样本进行判断G24设其中有G5FG4C个子分类器判断该样本为行人G24则该样本归类为行人样本的置信度G29 G24可用下式表示G23G29 G2FG5FG4CG49G21 G25 G22因为样本均为自动生成和标记G24其置信度不大于G24
35、G2DG29东南大学学报G21自然科学版G22 G26 G26 G26 G26 G26 G26 G26 G26 G26 G26 G26 G26 G26第G21 G22卷万方数据G25 G24其取值为G21 G24 G24 G25 G2B G21实际工程中G24在不同的场景下G24选取不同的时间段G24采用不同的图像采集设备G24以不同的分辨率采集了G49 G2F G25 G24个相对独立的数据集G21将这些数据集构建成G25 G24个样本子集G24并用来进行子分类器训练G24以实现带置信度的目标场景样本生成G21G3C G3B基于G48 G31 G50 G50及自编码器的场景自适应分类器训练G
36、26 G26现有的场景自适应学习方法均采用低层人工特征进行分类器训练G24因此仅在分类器参数层面进行迁移调整G3B而已有研究结果表明G24样本的特征表达方法往往决定了分类器分类能力的上界G24分类器参数的训练只能是对该上界的逼近G3B近年来兴起的深度模型存在结构灵活和具有特征自学习能力两大优点G24满足本文应用G3B因此G24本文以深度模型中的深度卷积网络G21 G3D G44 G25 G25 G22对特征进行抽取G24并结合自编码器G24利用目标场景样本对所抽取特征进行筛选G24寻找并采用更适应目标场景的特征进行分类器训练G24从而实现新场景的自适应学习G3B本文提出的行人场景自适应学习的训
37、练模型如图G23所示G3B该模型在训练阶段以源场景训练样本和目标场景训练样本共同作为输入G24并可以同时完成自动编码重构和分类识别G3B在特征抽取方面G24本文采用一组G23层的深度卷积神经网络G21 G3D G44 G25 G25 G22 G3B作为深度学习常用模型之一G24 G3D G44 G25 G25是一种生物启发训练的架构G24它隐式地从训练数据中进行特征学习G24并具有局部权值共享的结构优势G24使得其在图像处理方面有着特征生成效果好G25计算复杂性低等独特的优越性G2A G23 G23 G2BG3B本文所采用的G3D G44 G25 G25的具体结构及参数如图G27所示G3B图G
38、3C G3B复合深度模型示意图图G3F G3B G48 G31 G50 G50的具体结构及参数该G3D G44 G25 G25包括G25个输入层G25 G23个卷积下采样层及G25个特征向量输出层G3B其输入层大小为G27 G23 G36G29 G21像素G24该尺寸和所有待训练样本的像素尺寸保持一致G3B G23个隐层均采用大小为G2B G36 G2B像素的卷积核G24下采样滤波器大小均为G23 G36 G23 G24选用G28池最大G29操作G3B因此G24 G23个隐层的卷积层G44 G25 G24 G44 G23和下采样层G29 G25 G24 G29 G23大小分别为G23 G2D
39、G36 G29 G24 G24 G25 G24 G36 G23 G29 G24 G25 G21 G36 G27 G24 G24 G2B G36 G25 G27像素G3B特征层和下采样层G29 G23及下采样层G29 G25的二次下采样层相连G24共包含G29 G24 G24个神经元G3B在该结构中G24特征向量输出层实质是由下采样层G29 G25和G29 G23组合而成G24其目的是保留图像在多尺度下的特征信息G3B在G3D G44 G25 G25特征抽取的基础上G24所提复合深度模型的结构如图G27所示G3B图中G24 G3D G44 G25 G25特征输出层G50的后端增加了G23个隐层G
40、4BG25和G4BG23G24 G25个重构隐层G36G4BG25G24 G25个重构特征层G37G50以及G25个分类标签G2A G21上述结构中G24隐层G4BG25G24 G4BG23G24G36G4BG25和重构特征G36G26实质上是构成了一个服务于特征向量G2B的自动编码器G24该自动编码器仅接受从目标场景获取的样本并进行特征重构误差计算G24用以对目标场景下的样本进行源场景目标场景的相似性评估G24并在目标函数中赋以不同的权重G21这些层间的参数传递按照下述公式进行G23G22G25G2F G28 G21 G2CG2AG25G2B G31 G25G25G22 G21 G23 G2
41、2G22G23G2F G28 G21 G2CG2AG23G2B G31 G25G23G22 G21 G27 G22G38G2A G2F G28 G21 G2CG2AG27G22G23G31 G25G27G22 G21 G21 G22G37G22G25G2F G28 G21G36G2CG2AG23G22G23G31G37G25G23G22 G21 G2B G22G38G2BG25G2F G28 G21G36G2CG2AG25G37G22G25G31G37G25G25G22 G21 G29 G22式中G24 G28 G21 G26 G22 G2F G25 G52 G2A G25 G2A G37 G
42、43 G52 G21 G2A G26 G22 G2B为激活函数G24 G26为负指数幂G26 G2B为由G44 G25 G25所抽取出的特征向量G26 G22G2BG21 G2BG2F G25 G24 G23 G22为深度信念网络中第G2B个隐层所对应的含有隐节点的向量G24该深度信念网络以目标场景下的样本为输入G24可用来进行共享特征的获取G26 G38G2A为通过所涉及网络计算并估计出的分类标签G24用来指示一个滑动窗口内图像是否为行人G26G37G22G25为重构层的隐向量G24其维数同G22G25G26G38G2BG25为重构特征向量G24其维数同G2B G26权重向量G2CG25G2
43、4 G2CG23G24 G2CG27G24G36G2CG25G24G36G2CG23及基向量G25G25G24 G25G23G24G25G27G24G37G25G25G24G37G25G23均为待训练参数G21G25G2DG29第G21期蔡英凤G24等G23基于深度模型的场景自适应行人检测万方数据该网络的训练方法如下G23设第G3B个训练样本在G3D G44 G25 G25中所抽取的特征为G2BG3BG24其对应的标签为G45G3BG24则该训练样本所对应的参数集为G2C G2BG3BG24 G45G3BG24 G29G3BG24 G44G3BG2D G21其中G24 G44G3B表示该样本是
44、否属于目标场景G24如果该样本属于目标场景G24则令G44G3BG2F G25 G26反之G24 G44G3BG2F G24 G21 G29G3B是样本的置信度G24如果样本属于源场景G24则G29G3BG2F G25 G26反之G24 G29G3BG23 G21 G24 G24G25 G22 G24由式G21 G25 G22计算得到G21在训练样本参数集设定完成的基础上G24以反向传播G21 G4E G30 G35 G53 G48G52 G33G3A G52 G30 G4B G30 G31G36G3A G38 G24 G55 G47 G22算法对网络权值进行训练G24并设计了如下目标函数G2
45、3G24 G28G24G3BG37G32 G24 G24G23G21 G2BG3BG24 G38G2BG3BG22G24G38G21 G45G3BG24 G38G45G3BG24 G29G3BG22 G2E G22 G44G3BG24G23G21 G2BG3BG24G38G2BG3BG22G21 G22 G22其中G24 G24G23G21 G2BG3BG24G38G2BG3BG22 G2F G21 G2BG3BG2AG38G2BG3BG21G23G24用来计算目标场景样本生成的特征与重构特征之间的误差G21此外G24将从G3D G44 G25 G25获得的特征利用目标场景下的样本进行重构G2
46、4具有较小特征重构误差的目标场景下的样本可以认为和源场景样本在该特空间下的分布更为接近G24被视为更有价值的样本并在训练中赋予更大的权重G21 G24G35G21 G45G3BG24 G38G45G3BG24 G29G3BG22 G2F G29G3BG24G2CG21 G45G3BG24 G38G45G3BG22 G24其中G24G2CG21 G45G3BG24G38G45G3BG22 G2F G2A G45G3BG34G3A G4B G38G45G3BG2A G21 G25 G2A G45G3BG22 G34G3A G4B G21 G25 G2A G38G45G3BG22为交叉熵损失函数G2
47、4用以对样本估计标签和真实标签之间的差异进行度量G24而G24G35G21 G45G3BG24 G38G45G3BG24 G29G3BG22则是用样本的置信度G29G3B对该差异赋予相应的权重G21G3F G3B实验与分析在G45 G2DG2A G2A G2D道路图像数据库中对本文所提出的场景自适应的行人检测分类器进行实验G3B在该数据库中G24若检测框与实际行人外接矩形框有G2D G24 G46以上的重叠率G24则视为实现了一个行人的成功检测G3B G24 G22 G44曲线被用来作为各行人检测方法的性能评价指标G3B本文中的实验图片均来自于G45 G2DG2A G2A G2D道路图像数据库
48、G24该数据库包含多种道路情况下拍摄的图像G24并对道路物体G21包括行人G22进行了准确标注G2A G23 G27 G2BG3BG45 G2DG2A G2A G2D道路图像数据库被人为随机地分为训练集和测试集两部分G24 G45 G2DG2A G2A G2D训练集含有图片G22 G21 G2D G25张G24其中含有行人约G25 G3B G27 G36 G25 G24G21个G26 G45 G2DG2A G2A G2D测试集含有图片G22 G2B G25 G2D张G24其中含有行人约G28 G24 G24 G24个G3B实验中G24正样本源训练数据仍来自于第G25节所述的G25 G24个相对
49、独立的行人样本集G24不同的是此处将所有行人样本汇集成一个大的正样本库G24共计行人样本G22 G2B G24 G24个G3B正样本目标场景训练数据来自于G45 G2DG2A G2A G2D道路图像训练集G24由第G27节采用投票机制的置信样本选取方法生成G24其中G38值分别取G24 G3B G22 G24 G24 G3B G2D G24 G24 G3B G28和G25 G3B G24进行实验G3B所有训练的负样本则是由G45 G2DG2A G2A G2D数据库中训练集随机生成的不含行人的图片集构成G24共G23 G3B G24 G36 G25 G24G21张G3B测试集随机选取了G45 G2DG2A G2A G2D测试集中的G23 G24 G24 G24张道路图片G24其中含有行人G27 G29 G2D G22个G3B为对所提算法进行评估G24将本算法和现有的图像识别中的非场景自适应学习算法和场景自适应学习算法进行了比较G24其中非场景自适应学习算法包括G3D G47 G50G2A G23 G25 G2BG25 G2DG42 G30 G4B G37 G38 G37 G31深度卷积神经网络G21 G3D G44 G48G25 G25 G48G2DG42 G30 G4B G37 G38 G37 G31 G22G2A G23 G23 G2B及改进的深度卷
限制150内