国家标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210837834.2 (22)申请日 2022.07.16 (71)申请人 电子科技大 学 地址 611731 四川省成 都市高新区 (西区) 西源大道 2006号 (72)发明人 王岚晓 邱荷茜 赵泰锦 李宏亮  孟凡满 吴庆波 许林峰  (74)专利代理 机构 电子科技大 学专利中心 51203 专利代理师 邹裕蓉 (51)Int.Cl. G06V 10/44(2022.01) G06N 3/08(2006.01) G06N 3/04(2006.01) G06V 10/82(2022.01) (54)发明名称 基于多层属性引导的人群场景图像字幕描 述方法 (57)摘要 本发明提出了一种基于多层属性引导的人 群场景图像字幕描述方法, 从输入图像中提取出 区域级视觉特征、 对应的位置信息以及人的动作 特征; 利用多层感知机得到完成特征嵌入映射后 的视觉特征、 位置特征和动作特征; 通过设置的 特征处理层与多层感知机依次得到全局视觉特 征、 局部特征、 对象层次特征、 动作层次特征和状 态层次特征; 利用全局视觉 特征、 对象层次特征、 动作层次特征、 状态层次特征和上一时刻的隐藏 层状态得到融合特征; 利用全局视觉特征、 融合 特征和上一时刻 的语义特征得到当前时刻 的语 义特征; 最后根据当前时刻的语义特征预测当前 单词的概率 分布并输出。 本发明提取不同的层次 人群属性特征, 从而生成更具有人群特定的生动 细节的描述。 权利要求书2页 说明书5页 附图1页 CN 115294353 A 2022.11.04 CN 115294353 A 1.基于多层属性引导的人群场景图像字幕描述方法, 其特 征在于, 包括以下步骤: 1.图像特征提取步骤: 从输入图像中提取出区域级视觉特征Fr、 对应的位置信息Fp以及 人的动作特 征Fc; 2.视觉特征嵌入步骤: 利用多层感知机MLP将区域级视觉特征Fr、 位置信息Fp以及动作特征Fc映射到同一特征 空间中, 分得 得到完成映射后的视 觉特征Vr、 位置特征Vp和动作特 征Vc; 3.多层次密集人群感知处 理步骤: 设置特征处理层, 所述特征处理层从区域级和通道级的注意力 两个方面对输入的特征 进行处理输出多层次特征, 定义查询向量Q和值向量V为特征处理层的输入, 特征处理层的 输出Vout定义为: βr=softmax(W3tanh(W1Q+W2V)) βc=softmax(W6tanh(W4AvgPool(Q)+W5V)) Vout=βc⊙( βrV) 其中, W1、 W2、 W3、 W4、 W5、 W6均为特征处理层的权值, βr为区域级注意力特征, βc为通道级注 意力特征, Av gPool为平均池化, tanh为双曲正切激活函数, ⊙为哈达玛乘积, softmax为归 一化指数函数; 3.1包含有N个特征向量的视觉特征Vr通过平均池化得到特征向量Vg, 特征向量Vg进行N 倍复制后与视觉特征Vr进行哈达玛积, 将该哈达玛积的结果作为查询向量Q输入特征处理 层, 视觉特征Vr作为值向量V输入特征处理层, 特征处理层的输出作为第一MLP的输入, 第一 MLP的输出为全局视 觉特征Vglobal; 3.2对全局视觉特征Vglobal进行N倍复制后与视觉特征Vr进行特征级联后的特征作为第 二MLP的输入, 第二MLP的输出为局部特 征Vlocal; 3.3全局视觉特征Vglobal进行N倍复制后和局部特征Vlocal进行哈达玛积, 该哈达玛积的 结果作为对象层次的查询向量Q输入 至特征处理层, 局部特征Vlocal作为对象层次的值向量V 输入至特征处理层, 特征处理层的输出作为第三MLP的输入, 第三MLP输出对象层次特征 Vobject; 3.4动作特征Vc和对象层次特征Vobject进行哈达玛积, 该哈达玛积的结果作为动作层次 的查询向量Q输入至特征处理层, 动作特征Vc作为动作层次的值向量V输入至特征处理层, 特征处理层的输出作为第四MLP的输入, 第四MLP输出动作层次特 征Vaction; 3.5位置特征Vp和局部特征Vlocal通过矩阵加法得到的加法结果作为状态层次的查询向 量Q输入至特征处理层, 对象层次特征Vobject和动作层次特征Vaction进行哈达玛积, 该哈达玛 积的结果作为状态层次的值向量V输入至特征 处理层, 特征 处理层的输出作为第五MLP的输 入, 第五MLP输出状态层次特 征Vstatus; 4.特征融合步骤: 在每一时刻t均进行特征融合: 将全局视觉特征Vglobal、 对象层次特征 Vobject、 动作层次特征Vaction和状态层次特征Vstatus级联起来得到总特征V, 再利用上一时刻 的隐藏层状态ht‑1和总特征V计算出权值, 将总特征V与权值对应相乘进 行加权, 加权的结果 再加上总特征通过平均池化处理得到的平均值, 相加后的结果为当前时刻融合后的特征 Vh; 5.密集人群导向的解码步骤: 将全局视觉特征Vglobal、 融合特征Vh和上一时刻的语义特权 利 要 求 书 1/2 页 2 CN 115294353 A 2征相加得到融合视觉特征; 将上一单词的词嵌入向量与融合视觉特征在通道维度级联, 将 级联后的特征向量输入多层感知机MPL, 多层感知机MPL输出特征Vin; 再将特征Vin输入长短 期记忆人工神经网络 LSTM, LST M输出当前时刻的隐藏层状态ht; 将隐藏层状态ht和局部特征 Vlocal经哈达玛乘积得到特征的查询向量, 根据查询向量对局部特征进行加权得到优化后的 局部特征V ′local; 将V′local、 ht和Vin在通道维度级联, 将级联后的特征输入至多层感知机 MLP, MLP输出当前时刻的语义特征 最后将语义特征 进行全连接FC后输入Softmax函 数预测当前 单词的概 率分布并输出。 2.如权利 要求1所述方法, 其特征在于, 通过预训练的Faster  R‑CNN网络提取 区域级视 觉特征Fr以及对应的位置信息Fp; 通过预训练的HRNet网络提取 人的动作特 征Fc。 3.如权利要 求1所述方法, 其特征在于, 视觉 特征嵌入步骤中, 区域级视觉 特征Fr和位置 特征Fp的嵌入通过单层的MLP实现, 得到处理后的视觉特征Vr和位置特征Vp, Vr=MLP(Fr), Vp =MLP(Fp), 而动作特 征Vc则通过三层的感知机 MLP3, Vc=MLP3(flatten(Fc))。 4.如权利要求3所述方法, 其特 征在于, 单层的MLP处 理方式如下: MLP(*)= LayerNorm(ReLU(FC(*) )) FC表示全连接, ReLU为整流线性单元激活函数, LayerNorm为一种归一化处理, *表示输 入。 5.如权利要求3所述方法, 其特征在于, 所述MLP具体采用带短连接的多层感知机MLPSC 的形式, 单层的MLPSC处理方式如下: MLPSC(*1,*2)=LayerNorm(ReLU(FC(*1)+*2)) *1为MLPSC的第一输入, *2的第二输入。 6.如权利要求5所述方法, 其特征在于, 采用MLPSC的多层次密集人群感知处理步骤的 3.1中特征处理层的输出作为第一MLPSC的第一输入, 特 征向量Vg作为第一MLPSC的第二输入; 3.2中对Vglobal进行N倍复制后与 视觉特征Vr进行特征级联后的特征作为第二MLPSC的第 一输入, 视 觉特征Vr直接作为第二MLPSC的第二输入; 3.3中特征处理层的输出作为第三MLPSC的第一输入, 全局视觉特征Vglobal作为第三MLPSC 的第二输入; 3.4中特征处理层的输出作为第四MLPSC的第一输入, 全局视觉特征Vglobal作为第四MLPSC 的第二输入; 3.5中特征处理层的输出作为第五MLPSC的第一输入, 全局视觉特征Vglobal作为第五MLPSC 的第二输入。权 利 要 求 书 2/2 页 3 CN 115294353 A 3

PDF文档 专利 基于多层属性引导的人群场景图像字幕描述方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多层属性引导的人群场景图像字幕描述方法 第 1 页 专利 基于多层属性引导的人群场景图像字幕描述方法 第 2 页 专利 基于多层属性引导的人群场景图像字幕描述方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:42:45上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。