(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210837834.2
(22)申请日 2022.07.16
(71)申请人 电子科技大 学
地址 611731 四川省成 都市高新区 (西区)
西源大道 2006号
(72)发明人 王岚晓 邱荷茜 赵泰锦 李宏亮
孟凡满 吴庆波 许林峰
(74)专利代理 机构 电子科技大 学专利中心
51203
专利代理师 邹裕蓉
(51)Int.Cl.
G06V 10/44(2022.01)
G06N 3/08(2006.01)
G06N 3/04(2006.01)
G06V 10/82(2022.01)
(54)发明名称
基于多层属性引导的人群场景图像字幕描
述方法
(57)摘要
本发明提出了一种基于多层属性引导的人
群场景图像字幕描述方法, 从输入图像中提取出
区域级视觉特征、 对应的位置信息以及人的动作
特征; 利用多层感知机得到完成特征嵌入映射后
的视觉特征、 位置特征和动作特征; 通过设置的
特征处理层与多层感知机依次得到全局视觉特
征、 局部特征、 对象层次特征、 动作层次特征和状
态层次特征; 利用全局视觉 特征、 对象层次特征、
动作层次特征、 状态层次特征和上一时刻的隐藏
层状态得到融合特征; 利用全局视觉特征、 融合
特征和上一时刻 的语义特征得到当前时刻 的语
义特征; 最后根据当前时刻的语义特征预测当前
单词的概率 分布并输出。 本发明提取不同的层次
人群属性特征, 从而生成更具有人群特定的生动
细节的描述。
权利要求书2页 说明书5页 附图1页
CN 115294353 A
2022.11.04
CN 115294353 A
1.基于多层属性引导的人群场景图像字幕描述方法, 其特 征在于, 包括以下步骤:
1.图像特征提取步骤: 从输入图像中提取出区域级视觉特征Fr、 对应的位置信息Fp以及
人的动作特 征Fc;
2.视觉特征嵌入步骤:
利用多层感知机MLP将区域级视觉特征Fr、 位置信息Fp以及动作特征Fc映射到同一特征
空间中, 分得 得到完成映射后的视 觉特征Vr、 位置特征Vp和动作特 征Vc;
3.多层次密集人群感知处 理步骤:
设置特征处理层, 所述特征处理层从区域级和通道级的注意力 两个方面对输入的特征
进行处理输出多层次特征, 定义查询向量Q和值向量V为特征处理层的输入, 特征处理层的
输出Vout定义为:
βr=softmax(W3tanh(W1Q+W2V))
βc=softmax(W6tanh(W4AvgPool(Q)+W5V))
Vout=βc⊙( βrV)
其中, W1、 W2、 W3、 W4、 W5、 W6均为特征处理层的权值, βr为区域级注意力特征, βc为通道级注
意力特征, Av gPool为平均池化, tanh为双曲正切激活函数, ⊙为哈达玛乘积, softmax为归
一化指数函数;
3.1包含有N个特征向量的视觉特征Vr通过平均池化得到特征向量Vg, 特征向量Vg进行N
倍复制后与视觉特征Vr进行哈达玛积, 将该哈达玛积的结果作为查询向量Q输入特征处理
层, 视觉特征Vr作为值向量V输入特征处理层, 特征处理层的输出作为第一MLP的输入, 第一
MLP的输出为全局视 觉特征Vglobal;
3.2对全局视觉特征Vglobal进行N倍复制后与视觉特征Vr进行特征级联后的特征作为第
二MLP的输入, 第二MLP的输出为局部特 征Vlocal;
3.3全局视觉特征Vglobal进行N倍复制后和局部特征Vlocal进行哈达玛积, 该哈达玛积的
结果作为对象层次的查询向量Q输入 至特征处理层, 局部特征Vlocal作为对象层次的值向量V
输入至特征处理层, 特征处理层的输出作为第三MLP的输入, 第三MLP输出对象层次特征
Vobject;
3.4动作特征Vc和对象层次特征Vobject进行哈达玛积, 该哈达玛积的结果作为动作层次
的查询向量Q输入至特征处理层, 动作特征Vc作为动作层次的值向量V输入至特征处理层,
特征处理层的输出作为第四MLP的输入, 第四MLP输出动作层次特 征Vaction;
3.5位置特征Vp和局部特征Vlocal通过矩阵加法得到的加法结果作为状态层次的查询向
量Q输入至特征处理层, 对象层次特征Vobject和动作层次特征Vaction进行哈达玛积, 该哈达玛
积的结果作为状态层次的值向量V输入至特征 处理层, 特征 处理层的输出作为第五MLP的输
入, 第五MLP输出状态层次特 征Vstatus;
4.特征融合步骤: 在每一时刻t均进行特征融合: 将全局视觉特征Vglobal、 对象层次特征
Vobject、 动作层次特征Vaction和状态层次特征Vstatus级联起来得到总特征V, 再利用上一时刻
的隐藏层状态ht‑1和总特征V计算出权值, 将总特征V与权值对应相乘进 行加权, 加权的结果
再加上总特征通过平均池化处理得到的平均值, 相加后的结果为当前时刻融合后的特征
Vh;
5.密集人群导向的解码步骤: 将全局视觉特征Vglobal、 融合特征Vh和上一时刻的语义特权 利 要 求 书 1/2 页
2
CN 115294353 A
2征相加得到融合视觉特征; 将上一单词的词嵌入向量与融合视觉特征在通道维度级联, 将
级联后的特征向量输入多层感知机MPL, 多层感知机MPL输出特征Vin; 再将特征Vin输入长短
期记忆人工神经网络 LSTM, LST M输出当前时刻的隐藏层状态ht; 将隐藏层状态ht和局部特征
Vlocal经哈达玛乘积得到特征的查询向量, 根据查询向量对局部特征进行加权得到优化后的
局部特征V ′local; 将V′local、 ht和Vin在通道维度级联, 将级联后的特征输入至多层感知机
MLP, MLP输出当前时刻的语义特征
最后将语义特征
进行全连接FC后输入Softmax函
数预测当前 单词的概 率分布并输出。
2.如权利 要求1所述方法, 其特征在于, 通过预训练的Faster R‑CNN网络提取 区域级视
觉特征Fr以及对应的位置信息Fp; 通过预训练的HRNet网络提取 人的动作特 征Fc。
3.如权利要 求1所述方法, 其特征在于, 视觉 特征嵌入步骤中, 区域级视觉 特征Fr和位置
特征Fp的嵌入通过单层的MLP实现, 得到处理后的视觉特征Vr和位置特征Vp, Vr=MLP(Fr), Vp
=MLP(Fp), 而动作特 征Vc则通过三层的感知机 MLP3, Vc=MLP3(flatten(Fc))。
4.如权利要求3所述方法, 其特 征在于, 单层的MLP处 理方式如下:
MLP(*)= LayerNorm(ReLU(FC(*) ))
FC表示全连接, ReLU为整流线性单元激活函数, LayerNorm为一种归一化处理, *表示输
入。
5.如权利要求3所述方法, 其特征在于, 所述MLP具体采用带短连接的多层感知机MLPSC
的形式, 单层的MLPSC处理方式如下:
MLPSC(*1,*2)=LayerNorm(ReLU(FC(*1)+*2))
*1为MLPSC的第一输入, *2的第二输入。
6.如权利要求5所述方法, 其特征在于, 采用MLPSC的多层次密集人群感知处理步骤的
3.1中特征处理层的输出作为第一MLPSC的第一输入, 特 征向量Vg作为第一MLPSC的第二输入;
3.2中对Vglobal进行N倍复制后与 视觉特征Vr进行特征级联后的特征作为第二MLPSC的第
一输入, 视 觉特征Vr直接作为第二MLPSC的第二输入;
3.3中特征处理层的输出作为第三MLPSC的第一输入, 全局视觉特征Vglobal作为第三MLPSC
的第二输入;
3.4中特征处理层的输出作为第四MLPSC的第一输入, 全局视觉特征Vglobal作为第四MLPSC
的第二输入;
3.5中特征处理层的输出作为第五MLPSC的第一输入, 全局视觉特征Vglobal作为第五MLPSC
的第二输入。权 利 要 求 书 2/2 页
3
CN 115294353 A
3
专利 基于多层属性引导的人群场景图像字幕描述方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:42:45上传分享