(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210218635.3
(22)申请日 2022.03.04
(71)申请人 华南理工大 学
地址 510640 广东省广州市天河区五山路
381号
申请人 广州启辰电子科技有限公司
(72)发明人 马千里 程雨 方昆阳 钟毅
郑佳炜 郑彦魁
(74)专利代理 机构 广州市华学知识产权代理有
限公司 4 4245
专利代理师 黄卫萍
(51)Int.Cl.
G06F 16/9535(2019.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)G06V 10/762(2022.01)
(54)发明名称
一种基于深度聚类算法的电影个性化序列
推荐方法
(57)摘要
本发明公开了一种基于深度聚类算法的电
影个性化序列推荐方法, 实现个性化的电影推
荐。 过程如下: 获取电影数据集, 分离出所需数
据; 通过深度聚类从所获得的数据中挖掘用户的
高层次意图, 形成融合用户高层次意图的交互序
列; 通过对 所获得的数据进行用户静态特征的挖
掘, 并与用户观影序列结合, 形成用户特征动态
序列; 将融合用户高层次意图的交互序列与用户
特征动态序列结合输入门控循环单元, 得到融合
的序列信息; 用融合的序列信息计算出所有候选
项目与此序列的匹配得分, 并从中选取排名前K
个项目作为推荐结果。 本发明可以有效捕捉到用
户在观看电影时较高层次的意图特征, 并通过聚
类的分布 来缓解长尾问题, 最终生成个性化的电
影推荐。
权利要求书3页 说明书8页 附图1页
CN 114647778 A
2022.06.21
CN 114647778 A
1.一种基于深度聚类算法的电影个性化序列推荐方法, 其特征在于, 所述电影个性化
序列推荐方法包括以下步骤:
S1、 获取用户观看电影的序列数据、 用户个人的属性数据与电影本身的属性数据作为
电影序列数据集, 从中提取出用户静态信息、 交互序列信息和电影项目属性信息, 其中, 用
户静态信息包括用户的性别、 年龄, 交互序列信息包括用户观影序列, 电影项目属性信息包
括电影类别、 导演及电影上映的年份;
S2、 采样数据中所有的电影项目作为电影项目群, 通过深度聚类从电影项目群中获得
每个电影项目对应的聚类中心, 将步骤S1中所获得的交互序列信息中的每个电影项目与每
个电影项目对应的聚类中心拼接形成融合高层次意图的交 互序列嵌入;
S3、 对用户静态信息进行挖掘, 将用户静态信息与交互序列信息拼接形成用户特征动
态序列嵌入;
S4、 将所述融合高层次意图的交互序列嵌入与用户特征动态序列嵌入结合输入门控循
环单元, 捕获融合的序列信息;
S5、 使用所述融合的序列信息计算出所有候选电影项目与用户交互序列的匹配得分,
并从中选取排名前 K个的项目作为推荐结果, 对用户进行个性 化的电影 推荐。
2.根据权利要求1所述的一种基于深度聚类算法的电影个性化序列推荐方法, 其特征
在于, 所述 步骤S1的过程如下:
S1.1、 从电影序列数据集 提取用户静态信息、 交 互序列信息及电影项目属性信息;
S1.2、 对交互序列信息进行划分, 将交互序列中倒数第一次交互行为用作测试, 倒数第
二次交互行为用作验证, 其 他交互行为用作训练;
S1.3、 令S={s1,s2,…,s|V|}表示所有交互序列中的交互项目, 其中|V| 是所有交互项目
数的和; 令A={s1,s2,…,sc}代表用户在一个会话中的交互序列, 其中sb表示在此交互序列
里的第b个交 互行为, sb∈S, b=1,2, …,c, c表示用户在一个会话中的交 互动作数量;
S1.4、 为所有 交互序列创建一个嵌入矩阵E, 并设常数零向量0作 为嵌入矩阵E空白部分
的填充项, 所述 嵌入矩阵E的创建过程如下: 检索每个交互序列的前p个项目, 并将其堆叠在
一起产生嵌入矩阵E∈Rt×d, 其中d是潜在的维度, 此处假设为1, 嵌入矩阵E定义如下, 其中
Apr代表第r条交 互序列的前p个项目:
3.根据权利要求1所述的一种基于深度聚类算法的电影个性化序列推荐方法, 其特征
在于, 所述 步骤S2过程如下:
S2.1、 为电影项目群创建嵌入矩阵W, 并设常数零向量0作 为嵌入矩阵W空白部分的填充
项, 所述嵌入矩阵W的创建过程如下: 检索每个电影项目属性信息, 并将其堆叠在一起产生
嵌入矩阵W∈Rn×d, 其中d是潜在的维度, 此处假设为 1, 嵌入矩阵W定义如下, 其中mn代表电影权 利 要 求 书 1/3 页
2
CN 114647778 A
2项目群中第n个电影项目属性信息:
S2.2、 假设整个电影项目群共分为k个类, 每个类分别 有一个聚类中心, 首先对k个聚类
中心初始化, 然后假设每一个样本点与该样本点所属的聚类中心的距离满足以下分布:
在上述公式中, i表示第i个样本, j表示本轮聚类过程中第j个聚类中心, zi表示最初的
电影项目属性信息在经过深度聚类初步编码处理之后的空间分布, μj代表第j个聚类的中
心点, α 是自由度, qij表示样本i属于聚类j的概 率;
S2.3、 根据步骤S2.2确定最初的聚类中心, 接着用分布公式来衡量此样本是否属于某
个聚类, 通过计算得 出一个符合聚类中心且紧凑的辅助分布:
在上述公式 中, pij表示样本i属于聚类j的概 率, fj表示软分配函数, fj=∑iqij;
S2.4、 根据步骤S2.2与步骤S2.3中得到 的两个不 同的分布计算距离损失函数, 不断进
行迭代直至收敛, 聚类中心也随着每一轮迭代优化改变, 其中, 所述距离损失函数如下:
每次迭代的梯度更新原理公式如下:
将交互序列嵌入中的每一个电影项目与 此电影项目所对应的聚类中心拼接, 形成融合
高层次意图的交 互序列嵌入。
4.根据权利要求1所述的一种基于深度聚类算法的电影个性化序列推荐方法, 其特征
在于, 所述 步骤S3过程如下:
S3.1、 为用户静态信息创建嵌入矩阵U, 并设常数零向量0作为嵌入矩阵U 空白部分的填
充项, 所述嵌入矩阵的创建过程如下: 检索每个用户的用户静态信息, 并将其堆叠在一起产
生嵌入矩阵U∈Rv×d, 其中d是潜在的维度, 此处假设为1, 矩阵U定义如下, 其中uv代表第v个
用户的用户静态信息:
权 利 要 求 书 2/3 页
3
CN 114647778 A
3
专利 一种基于深度聚类算法的电影个性化序列推荐方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:32:22上传分享