学术学位硕士研究生学位论文开题报告
及课题研究计划
所在学院 计算机科学与工程 学科专业 计算机软件与理论 研究方向 信息检索 年 级 2013级 学 号 研 究 生 指导教师
入学年月 2013年9月
重庆理工大学研究生处制
论文题目 融合主题模型与协同过滤的个性化新闻推荐研究 横 向 国 家 部 委 省、市、自治区 联 系 基础研究 应用基础 √ 工程技术 √ 其 他 自 选 题目来源 题目类型 经 费 一、论文选题的意义 近几十年来,通信技术、互联网、移动互联网的不断发展,信息的采集、传播以及展示的速度和规模都达到了空前的水平,人类社会已从工业时代步入了信息时代。信息时代的降临为人们的生活带来了极大便利,知识技能的获取不用再找特定的老师,约定特定的地点进行,远程教育让你即使在家也可以进行学习,网络上大量的资料足以包含任何你想要的内容;电子商务让你随时随地享受购物的快乐;百度一下成为了无所不能的老师,大多数人有了问题首先想到的都是它。信息时代为人们生活带来极大便利的同时,也带来了不少困扰,其中之一就是信息过载,汹涌而来的信息出现在人的眼前,让人不知所措,无所适从。想要从浩瀚如烟的信息海洋中迅速而准确地获得自己最需要的信息,对用户来说已变得非常困难。 搜索引擎和分类目录很大程度上为人们解决了信息过载带来的困扰。搜索引擎是信息检索技术在大规模文本集合上的实际应用,是目前最为高效的信息检索方式之一,当用户面临巨大的网络资源不知如何选择时,仅需要输入需求内容所包含的几个关键词,就能快速找到所需的信息,目前的网络搜索引擎如Google和百度,都具备了高可靠性的页面排序算法,不仅能找出用户想要的内容,还为内容的质量进行了排序;分类技术的应用非常广泛,haol23、360导航等分类网站将互联网上主要的网站进行分门别类,各大综合门户网站将其内容划分成了诸如时政、财经、文化、教育等不同的板块,通过分类目录,方便了用户对需求内容的查找。 以上两种方法在很大程度上协助人们解决了在浩瀚的信息中找寻自己需要信息的问题,然而,面对每天指数级增长的巨大信息,再强的搜索引擎,再大的分类网站也无法解决如下问题:一种情况是人们无从选择,不知道什么才是需要的信息,只有漫无目的的浏览网站,寻找感兴趣的内容;另一种情况是人们无法准确描述自己的需求。鉴于以上原因,推荐系统开始得到大规模的使用。 推荐系统是一种帮助用户快速发现有用信息的工具,它通过用户的历史行为数据分析用户的兴趣和偏好,给用户的兴趣建模,然后根据不同用户兴趣和偏好不同为其推荐能够满足他们兴趣和需求的信息。 在新闻领域,同样面临了“信息过载”问题,每天,来自世界各地包括政治、经济、文化、娱乐、生活、社会各种不同板块的新闻铺天盖地而来,各大门户网站无时无刻不再更新各个地方、各个领域发生的大事小事。绝大多数人都有阅读新闻的习惯,为了帮助人们快速而精准地找到自己感兴趣的新闻,不在无聊的新闻阅读上花费时间,研究好的个性化新闻推荐系统成为了学术界和企业界的热点。 二、国内外研究现状 当前的推荐技术主要分为协同过滤推荐、基于关联规则的推荐、基于内容的推荐以及混合推荐等.协同过滤推荐是利用某个兴趣相投、拥有共同经验的群体的喜好来向使用者推荐其感兴趣的物品或信息,可以是利用当前用户与其他用户对部分项目的已知偏好数据来预测当前用户对其他项目的潜在偏好,或者利用用户对当前项目或者其他项目的已知偏好数据来预测其他用户对当前项目的潜在偏好[1];关联规则挖掘是数据挖掘领域中一项重要的课题,它从大量数据中发现物品之间有趣的关联或相关联系。其核心思想是通过对已知数据的挖掘,发现大量数据中所蕴含的,满足一定支持度的规则模式及这些模式间的相互关系[2]。基于内容的推荐方法起源于信息检索和信息过滤的研究,是协同过滤推荐的延伸与发展。该方法对推荐对象进行内容上的挖掘与分析,基于用户历史行为获得用户的兴趣,并向用户推荐在内容上与其兴趣最匹配的物品[3]。混合推荐是将以上推荐方法按照不同的方式进行混合,取长补短,克服各自方法的不足。 2.1 个性化推荐技术研究现状 基于用户的协同过滤是个性化推荐中最古老的算法,该方法在1992年被提出,并应用于邮件过滤系统。在最早期的协同过滤推荐系统中,系统需要用户指定兴趣相似的近邻,只有在用户了解彼此间的兴趣爱好之后才能做出推荐因此,只适用于规模较小且相互熟悉的小型用户群(例如同一办公室或研究小组),而不适合于电子商务、互联网这种用户群体庞大且相互陌生的环境[4]。之后出现了以GroupLens为代表的自动化的协同过滤推荐系统[5],它允许用户使用评分等方式表达自己的兴趣偏好信息,系统根据兴趣相似的用户的评分信息为当前活动用户进行个性化推荐。自动化的协同过滤推荐系统不需用户指定相似用户,不需要用户之间相互了解,也不需要分析系统项目的内容,它能够自动寻找兴趣相似的用户,发现用户的潜在兴趣,具有较高的个性化和自动化程度,也正因为此,协同过滤算法受到了广泛关注。但随着用户数的增长以及网站规模的扩大,协同过滤算法出现了许多问题和挑战,诸如稀疏性问题,扩展性问题,冷启动问题等,后期的诸多研究也都是围绕如何解决这些问题展开。 面对稀疏性问题,Sarwar等人提出了基于项目的协同过滤算法,引入了项目间的相似度和矩阵降维技术,他们指出项目间的相似性要比用户间的相似性面临更低的稀疏性问题,而且更加稳定,项目间相似性的计算可以离线进行,可以提高系统的可扩展性[6]。有研究者提出了填充的方式,例如使用固定值填充(一般使用项目平均分或用户平均分)、贝叶斯分类预测填充等等。但该方法最明显的的缺点是在一定程度上抹煞了用户的兴趣和特征,尤其是在大规模的填充后,更是如此[7]。也有学者提出了引入平滑聚类的方法,使用用户-项目评分矩阵对用户进行聚类,然后,在同类用户中寻找兴趣相似用户,最后给出推荐[8]。但是用户兴趣多样,类别间存在交叉,因此,聚类标准难以确定,最终致使个性化推荐精度较低。 针对可扩展性问题,学者们提出了基于模型的协同过滤算法,其基本思想是在离线状态下建立用户的兴趣模型,在线时使用建好的兴趣模型进行预测推荐,以此做到在线时快速响应的效果,建模中主要使用的算法有贝叶斯网络技术[9],潜在语义技术[10]等。该类方法稳定性较好,实时性较高,可以在一定程度上解决可扩展性问题,但建模花费代价高,一般比较适合于用户兴趣与特征比较稳定的环境,不适用于数据频繁更新的系统,而且它还面临推荐精度较低等问题。 面对协同过滤的冷启动、数据稀疏性、推荐准确性等问题,学者提出了基于内容的推荐方法。 基于内容的推荐方法起源于信息检索和信息过滤的研究,是协同过滤推荐的延伸与发展。该方法对推荐对象进行内容上的挖掘与分析,基于用户历史行为获得用户的兴趣,并向用户推荐在内容上与其兴趣最匹配的物品[11]。该方法的核心在于对推荐对象内容特征的挖掘,并进行基于内容特征和用户行为的兴趣模型的构建。 随着文本信息挖掘技术的日益成熟,目前的研究中以推荐对象为文本的描述为主,基于给定的特定词组的集合,如关键词、属性词或者不限定特定词等,通过统计的方法进行基于文本特征向量的建模。将文本模型与用户兴趣模型进行相似度计算,判断该推荐对象是否符合用户的兴趣。 基于内容的推荐不依赖其它用户的数据,能够准确地捕捉用户的兴趣,推荐效果较精确,能够推荐新出现的推荐对象和非热门对象,解决协同过滤推荐的冷启动和稀疏性问题。随着文本处理技术和信息检索技术的成熟,基于内容推荐方法对于文本类内容的推荐已具有相当的优势。但是其应用也存在着一定的局限性:对于无法通过机器学习规则或难于提取内容特征的内容无法进行有效推荐,如多媒体数据(视频、音频等);无法挖掘用户对推荐对象的真实态度,即默认用户的购买和阅览等行为均为正面行为;过度特性化的推荐过程导致用户没有过行为的相关内容永远不会被推荐,推荐新颖性不足,使得用户失去发现不同类型信息的机会。 随着各种推荐方法的发展,近年来有很多研究围绕着多种推荐方法的混合应用展开。混合推荐的主要目的是结合各个方法的优点,取长补短。按照在各个混合推荐系统中进行混合的时间点,可以将其分为以下两种: 前期混合:直接混合几种推荐方法,属于方法层次上的混合。混合的策略可以分为互补混合、包含混合、分层混合。互补混合即通过某一算法获得另一算法所需的参数或初始点等,如通过马尔科夫蒙特卡洛方法得到贝叶斯混合效果回归模型的参数[12]。包含混合是指在某种推荐算法的框架内,混合另外一种算法。如为了克服协同过滤的稀疏性,通过基于内容推荐的特征提取方法,充实用户的兴趣模型,用于计算用户的相似性[13]。分层混合是指将多个推荐算法按照处理流程的先后顺序,将一个推荐机制的结果作为另一个的输入,得到更准确的推荐结果。 后期混合:这种方法是指在不同的推荐方法产生推荐结果之后,将多个推荐引擎获得的结果混合,并通过一定的推荐策略或权重比重,向用户提供综合的推荐结果,以提高推荐的准确性和多样性,满足用户需求。这种基于推荐结果的混合方式,通常的方法有:对结果的线性加权组合、投票选择、分区组合等。 虽然在理论研究方面主要承袭国外的一些理念,但国内也有了不小建设性的进步与发展,文献[14]从影响集的概念中得到启发,提出了基于影响集的协同过滤推荐算法,利用当前活动用户的影响集来提高评分密度,从而缓解稀疏性问题;文献[15]主要从用户及项目本身的属性考虑,认为不同的用户,具有不同的兴趣与需求,他们总是在某个方面或者某几个方面的兴趣或需求相似,于是提出了一种基于概念格的用户兴趣预测算法,作者充分分析了文档独立性,有效地识别和划分用户偏好,符合用户之间仅仅在某一兴趣上相似、而并非所有兴趣都相似这一特点,该方法有效的缓解了协同过滤算法中的稀疏性问题以及冷启动问题。 2.2 个性化新闻推荐研究现状 个性化新闻推荐领域,面对海量的新闻内容,如何发现新闻内容与用户之间的相关性,找到与用户兴趣爱好相似的新闻内容是个性化推荐新闻系统的关键。推荐系统通过分析用户行为,如用户浏览、用户评论和用户分享,可以发现用户的兴趣喜好,给不同用户提供不同的个性化页面展示,来提高网站的点击率和转化率。 早期的新闻推荐系统可以为用户提供一定程度的内容定制,却不能随着用户的使用来动态调整推荐的新闻[16]、之后的新闻推荐系统如Digg、Google News都应用了协同过滤的推荐思想[17][18],用大量兴趣相投、拥有共同经验的用户群之间的喜好的相似性,来向用户推荐感兴趣的新闻。但基于协同过滤的新闻推荐系统仍然存在一些缺陷,如系统没有对新闻内容进行挖掘致使用户兴趣表达不准确完整的问题;由于用户和新闻量的激增导致的系统实时处理能力问题;缺少历史数据而导致的新加入新闻无法被推荐的冷启动问题等[19]。 基于内容的推荐方法已通过多种形式应用于新闻文章的个性化推荐系统中。在基于内容的新闻推荐系统中,计算各个新闻与用户兴趣间的相似度时通常需要考虑新闻内容,当给出一系列最近发布的新闻文章,并给出用户的阅读历史时,基于内容的推荐系统将循序地找到内容与用户阅读兴趣匹配的新闻。新闻内容通常由向量空间模型表示,或通过由语言模型获得的主题分布表示,并基于此对用户兴趣进行建模。 传统的用户兴趣模型通常将用户兴趣抽象为关键词、命名实体序列、主题向量、语义网络、本体论等方式[20]。Amalthaea[21]从用户阅读过的新闻中抽取关键词,将用户兴趣表示为一组词语序列;文献[22]提出了一种WEB用户的兴趣模型,基于用户的导航信息和WEB内容分析,运用关键词抽象表达用户喜好。Liang,T.在关键词表示用户兴趣的基础上,提出了一个基于关键词的语义扩展模型[23],挖掘用户的潜在兴趣。文献[24]、[25]分别应用语义网络和主题图的方法对用户兴趣进行分析和建模,将用户兴趣与其他用户及内容主题相关联。OBIWAN[26]使用用户浏览页面的主题本体来描述用户访问过的网页内容。这些本体通常采用层次概念树的形式,树的每个节点表示了用户的一个兴趣类。文献[27]将新闻以二叉树的模型聚类,并结合新闻聚类构建树形的用户模型,通过用户与新闻的树形路径进行推荐。文献[28]采用用户兴趣和场景兴趣来描述用户关注度,通过用户对内容的关注程度进行新闻推荐。文献[29]利用社会化网络推特中的信息来提取用户的兴趣模型。 基于内容的推荐系统的代表例子包括News Dude[30],利用TF-IDF结合K最近邻居算法将新闻聚类,根据用户行为进行新闻推荐。YourNews系统通过赋予用户改编其个人文件信息来增加新闻推荐的透明度[31]。Guo提出基于标签概率生成模型的推荐系统[32],在系统中引入了修正的LDA (Latent Dirichlet Allocation)模型,并通过修正的LDA模型将标签和用户聚集成簇,以形成用户及群体兴趣信息,进而通过兴趣信息为用户推荐新闻。 当前的基于内容的推荐方法中,新闻内容和用户的兴趣通常表现为一种预先设置的类别(体育、政治、娱乐等),或是一组关键词序列或新闻的标签集合,抑或是词语间的关联图表示。然而在某些场景中,仅仅利用用户兴趣或新闻信息中的关键词不足以准确捕捉用户的阅读兴趣,这些方法并没有深入的挖掘新闻背后隐含的语义,将新闻的特性与用户的阅读习惯偏好相结合,使用户的兴趣无法兼顾新闻内容的事件针对性和多主题性,导致在进行个性化推荐时,用户兴趣的多样性表达不完整。同时当前的用户兴趣模型设计没有针对用户阅读新闻所处的情境信息以及兴趣迁移,忽略了用户阅读新闻时的特定场景和习惯,从而影响了推荐内容的准确性。 一些推荐系统釆用混合的推荐方法[32],将协同过滤与基于内容推荐的结果后期混合,在新闻推荐生成辅以过滤、冗余删除等步骤,将新闻推荐给用户,取得了不错的推荐效果。 随着文本处理技术和信息检索技术的成熟,相比于协同过滤推荐,基于内容推荐方法对于文本类内容的推荐已具有相当的优势。然而个性化新闻推荐系统在基于内容的推荐上仍面临着诸多挑战: 新闻模型和用户兴趣的表达。现有的新闻推荐方法通常基于新闻的关键词等文本特征或新闻标签[33]对新闻和用户兴趣进行建模,特征比较单一,没有兼顾新闻内容的事件针对性和多主题性;与此同时用户兴趣没有与用户行为的情境信息相融合,导致在构建用户兴趣模型和进行个性化推荐时,用户兴趣的表达不准确,多样性不完整。 用户的兴趣很容易受到热门事件及网站新闻内容的影响。因此,即使某个用户对热门新闻产生了行为,往往不能代表该用户的个性。因为用户可能是在跟风,或者这则新闻的链接到处都是,这些都会对用户兴趣的挖掘带来影响;用户对内容及主题的兴趣偏好也并非唯一,且伴随着时间随时可能发生改变,需要考虑用户的长期和短期兴趣。 网站的新闻内容可能比较单一,对用户兴趣模型的建立会产生影响,甚至无法挖掘出用户的潜在兴趣。例如,某网站的新闻内容在体育方面较多,用户在浏览体育新闻的同时,偶尔也会关注其他新闻内容。那么,通过用户的历史行为进行用户兴趣建模时,其偏向体育的权值就会很高,甚至会掩盖用户对其他新闻的潜在兴趣,因此无法很好地表达用户的兴趣偏好。这样,在向用户推荐新闻时,推荐结果的新颖性会受到影响,因此系统很可能只会给其推荐有关体育的新闻,却并不知道用户可能还喜欢娱乐等新闻。 另一个问题是新闻推荐生成,新闻的时效性强、更新速度快、生命周期较短,其流行度和新颖度是随着时间变化的这不同于其他系统的物品推荐(如商品推荐和电影推荐),因此,基于内容的个性化新闻推荐需要一个完整的、全面的对初始新闻推荐列表的处理过程,结合用户行为反馈,在冗余重复删除,过滤用户行为数据的基础上,考虑新闻分类、时间性排序等因素。 参考文献: [1] 孟祥武.移动推荐系统及其应用[J].软件学报,2013,24(1):101-108 [2] 刘金亮.基于主题模型的个性化新闻推荐系统的研究与实现[D].北京邮电大学,2013 [3] 曹一鸣.基于协同过滤的个性化新闻推荐系统的研究与实现[D].北京邮电大学,2013 [4] 李聪.电子商务推荐系统中协同过滤瓶预问题研究[D].合肥工业大学,2009. [5] P. Resnick, N. lakovou, M. Sushak,et al. GroupLens: An Open Architecture for CollaborativeFiltering of Netnews[C]. In: Proceedings of ACM 1994 Computer Supported Cooperative Work,1994: 175-186. [6] B. Sarwar, G Karypis, J. Konstan, et al. Item-based Collaborative Filtering RecommendationAlgorithms[C]. In: Proceedings of the 10th International World Wide Web Conference, 2001:99 285-295. [7]黎明,徐德智.一种结合基于项目和用户的个性化推荐算法[J].小型微型计算机系统,2011,32(4):611-613. [8]范敏敏.非负矩阵分解与聚类方法在个性化推荐系统中的应用研究[M].华东交通大学,2012. [9]王爱国,李廉,杨静等.一种基于Bayesian网络的网页推荐算法[J].山东大学学报(工学版),2011,41(4): 137-142. [10]陈登科,孔繁胜.基于高斯pLSA模型与项目的协同过滤混合推荐[J].计算机工程与应用,2010,23(4): 209-211. [11] Billsus,D.,Pazzani, M. 2000. User Modeling for Adaptive News Access. User Modeling and User-Adapted Interaction, vol. 10, nos. 2-3,(Feb. 2000),47-180. [12] Ansari A, Essegaier S, Kohli R. Internet recommendations systems. Journal of Marketing Research, 2000, 37(3):363-375. [13] Melville P, Mooney RJ, Nagarajan R. Content-Boosted collaborative filtering for improved recommendations. In: Proc, of the 18th National Conf. on Artificial Intelligence. Menlo Park: American Association for Artificial Intelligence, 2002,l87 - l92. [14]陈健,印鉴.基于影响集的协作过滤推荐算法[J].软件学报,2007,18(7):1685-1694. [15]茅琴娇,冯博琴,李燕等.一种基于概念格的用户兴趣预测方法[J].山东大学学报(工学版),2010,40(5): 159-163. [16]Lei Li, Ding-Ding Wang, Shun-Zhi Zhu, Tao Li. Personalized News Recommendation: A Review and an Experimental Investigation. JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY, Volume 26 Number 5. 2011,754-766. [17]Digg Recommendation Engine Updates, http://about.digg.com/blog/ [18]Das, A. S.,Datar, M.,Garg, A., Rajaram, S. Google news personalization: scalable online collaborative filtering. Proceedings of the 16th international conference on World Wide Web, 2007 [19]HaoWen, Liping Fang, Ling Guan.A hybrid approach for personalized recommendation of news on the Web .Expert Systems with Applications. 2012,5806 - 5814. [20] Burke, R. Hybrid Recommender Systems: Survey and Experiments. User Modeling and User-Adapted Interaction 12,4(Nov. 2002), 331-370. [21] Moukas, A.: Amalthaea: Information Discovery And Filtering Using A Multiagent Evolving Ecosystem. In: Applied Artificial Intelligence 11(5) (1997) 437-457. [22] Lancieri, L.,& Durand, N. Internet user behavior: Compared study of theaccess traces and application to the discovery of communities. IEEE Transactionson Systems, Man, and Cybernetics: Part A, 2006. 36(1),208-219. [23] Liang, T.,Yang, Y. Chen, D. & Ku, Y. A semantic-expansion approach to personalized knowledge recommendation. Decision Support System, 2008.45(3),401-412. [24] JikeGe, ZuqinChen,Semantic Link Network Portal for Multimedia Content Recommendation, International Conference on Semantics, Knowledge and Grid. 2009. [25] Wei Kuang, Nianlong Luo, User Interests Mining based on Topic Map,2010 Seventh International Conference on Fuzzy Systems and Knowledge Discovery. 2010. [26]Pretschner,A.Gauch,S. Ontology Based Personalized Search. In: Proceedings of 11 IEEE Intl. Conf. on Tools with Artificial Intelligence. 1999.391—398. [27] Effective Hierarchical Vector-based News Representation for Personalized Recommendation Computer Science and Information Systems. Vol. 9,No. 1,January 2012. [28]基于用户关注度的个性化新闻推荐系统,计算机应用研究VoL29No.3.2012. [29]Nirmal Jonnalagedda. Susan Gauch Personalized News Recommendation Using Twitter. IEEE/WIC/ACM International Conferences on Web Intelligence(WI) and Intelligent Agent Technology(IAT),2013. [30]Billsus D, Pazzani M J. A personal news agent that talks, learns and explains. In Proc. the 3rd Annual Conference on Autonomous Agents, Seattle, USA, May 1-5,1999, 268-275. [31] Ahn J, Brusilovsky P, Grady J, He D,Syn S Y. Open user profiles for adaptive news systems: Help or harm? In Proc. The 16th International Conference on World Wide Web. Canada, May 8-12, 2007, 11-20. [32] Burke R. Hybrid systems for personalized recommendations. In Proc. Workshop on Intelligent Techniques for Web Personalization, Acapulco,Mexico, Aug. 11,2005,133-152. [33] Y. Guo and J. B. Joshi, “Topic-based personalized recommendation for collaborative tagging system,\" Proceedings of the 21st ACM conference on Hypertext and hypermedia, 2010. 三、研究目标、内容、拟解决的关键问题、研究方法、技术路线等 3.1研究目标: 通过研究得到一种能准确表述用户兴趣,同时具备推荐多样性与个性化,且数据稀疏性小的新闻推荐方法。 1、得到的新闻主题模型要能准确表述用户的兴趣; 2、最后得到的推荐方法要具有推荐的多样性同时满足用户的个性化要求; 3、用于补充推荐多样性的协同过滤算法要能避免数据的稀疏性问题。 3.2研究内容: 1、使用主题模型的新闻推荐技术研究,以实现新闻推荐的个性化 使用主题模型的新闻推荐属于基于内容的新闻推荐方法,传统的基于内容的推荐技术面临用户兴趣表示不清晰的问题,这是由于在某些场景中,仅仅利用用户兴趣或新闻信息中的关键词不足以准确捕捉用户的阅读兴趣,这些方法并没有深入的挖掘新闻背后隐含的语义,将新闻的特性与用户的阅读习惯偏好相结合,使用户的兴趣无法兼顾新闻内容的事件针对性和多主题性,即用户的兴趣表示不清晰。主题模型在挖掘隐含语义上有相当优势。 对于中文新闻,文本的特征表示还存在极大不足,关键词如何获取,同义词如何替换,都需要得到解决,文本的特征表示关系到了构建的主题模型的优劣;构建主题模型过程中,模型求解是非常重要的一个部分,其实质是对主题模型中参数进行估计的过程,标准的主题模型求解是一个非常复杂的最优化问题,很难有精确求解的方法,但模型参数关系到最后所得模型的准确性,必需得到尽可能准确的模型求解结果。因此,本部分的研究重点集中在新闻文本特征表示、主题模型相关理论研究以及模型的求解上。 2、协同过滤算法中减小数据稀疏性的研究 协同过滤算法面临数据稀疏性地问题,传统单一的推荐方法或者融合方法对协同过滤的结果有极大依赖,不能轻易减小稀疏矩阵的规模,本课题使用主题模型进行推荐,推荐结果中用户兴趣可以得到充分的表达,融合协同过滤算法主要是为了弥补推荐多样性的不足,因此可以对协同过滤中的稀疏矩阵进行简化,稀疏矩阵的简化方法有多种,可以从数学理论上对其进行简化,也可以从矩阵内容和规模上进行简化,这是本文的一个研究工作。 3、主题模型与协同过滤融合方法的研究 现有的推荐技术中,仅使用基于内容的推荐方法必然面临推荐多样性的不足,而仅使用协同过滤方法又必然面临推荐个性化不足的问题。要想使推荐的结果既保证推荐多样性,又能够实现个性化,必需将两者进行融合。已知的融合方式有多种,如直接将结果进行合并,去除重复结果然后向用户进行推荐;通过基于用户的协同过滤得到具有相同爱好的用户,向用户推荐满足同类用户主题的新闻等。通过分析可知不同的方法都可以解决单一方法在推荐方法在多样性或个性化上的不足,但两者进行融合会遇到推荐结果集过大、推荐结果无法排序、运算过于繁杂等问题,这要求本课题对主题模型与协同过滤的融合方法进行深入的研究,甚至提出新的融合方法,在解决单一推荐方法不足的同时,不至于带来更多更大的问题。 3.3论文拟解决的关键问题: 1、如何完整准确地表述中文新闻文本特征,以实现新闻推荐的个性化 新闻特征特征提取首先需要提取新闻关键词,特殊属性词(如记者、“紧急消息”等)以及关键短语等,在中文新闻特征的提取过程中,如何得到关键词、特殊属性词以及特殊短语是一个关键;在文本中,同意词或同意短语的处理也是一个关键,如“中华人民共和国”与“中国”,两个词具有相同的语义,在研究特征提取的过程中,需要研究这类同意词的处理方法;表述特征的方法有很多,如TF-IDF、卡方检验、互信息、信息增益以及以上方法的改进等,需要充分进行研究,选择出最能准确、完整表述新闻特征的方法。 2、如何进行主题模型与协同过滤方法的融合 两者融合有多种不同的方法,都可以解决单一方法在推荐方法在多样性或个性化上的不足,但两者进行融合会遇到推荐结果集过大、推荐结果无法排序、运算过于繁杂等问题,这要求本课题对主题模型与协同过滤的融合方法进行深入的研究,甚至提出新的融合方法,在解决单一推荐方法不足的同时,不至于带来更多更大的问题。 3.4论文的研究方法: 本论文用到的研究方法包括文献研究法和实验研究法,对于待研究的所有内容,首先通过对文献的研究,找到理论基础,然后对文献进行分析,设计出合理的研究进度及研究方案。对于研究的每一部分内容,先用现存的方法进行试验,得到现行方案的实验结果,分析现行方案的不足,提出改进方法,再通过实验将提出的改进方法与现行方法进行比较。 3.5论文的技术路线: 本课题的技术路线如图3-1所示,首先通过查阅相关文献、学习课题相关的基本工作准备确定课题的研究框架,在此基础上将课题的技术板块主要分为三个方面,包括协同过滤、基于内容的推荐方法以及主题模型,对各个板块分别进行研究,然后在基于内容的推荐方法中引入主题模型,简化协同顾虑算法,将协同过滤与主题模型进行融合,对推荐新闻进行特征表示,将之通过融合的算法进行求解,得出推荐结果。最后,将推荐结果与用户后期看过的新闻进行比较,求出推荐结果相比于用户浏览行为的准确率、召回率以及F值,用以模拟推荐结果的优劣性,将融合后的方法得出的结果与传统的协同过滤和基于内容的推荐方法所得到的结果进行比较,验证融合方法的有效性。 以下对技术路线中各步奏进行逐一介绍: 1、基于内容的推荐技术 基于内容的推荐技术其核心在于推荐对象内容特征的挖掘以及内容特征和用户兴趣偏好模型的构建,在上述两者的基础上还需要有好的方法对新的新闻文本与用户的偏好模型进行相似度计算,判断该新闻是否符合用户的兴趣。 1)新闻特征提取 基于内容的推荐中,首先需要对各新闻文本进行特征提取与表述,如何找到新闻文本的关键词,用何种方法表示新闻文本的特征,得到的新闻文本特征是否具有正确性都需要进行研究。 2)用户偏好建模 本课题中,用户偏好模型区别于用户兴趣模型,专指通过基于内容的推荐方法得到的与用户兴趣相关的模型。研究用户偏好模型,主要研究不同位置提取到的特征在偏好模型中所占的比例,例如在新闻标题中提取到的关键词与在新闻文本中提取到的关键词在用户偏好模型中的重要性就应当不同,有的新闻文本在其主体内容开始前还要其他说明,这些说明在用户偏好模型中,也应当占一定比重。 3)待推荐新闻与用户偏好模型的相似度计算 相似度的计算方法有多种,常用的有欧氏距离、余弦夹角、皮尔逊相似度等,需要进行研究,以正确反映待推荐新闻与用户偏好模型的相似性。 2、主题模型 主题模型是文本的一种生成模型,它通过将文本和词语的维度转化成文本与主题,主题与词语的维度,将文本映射到主题空间,认为一个文本由若干个个主题随机组成,从而捕获各个文本之间的语义关系。本课题中,对主题模型的研究分为以下两方面: 1)对主题模型相关理论的研究 LDA主题模型涉及贝叶斯理论、Dirichle分布、多项分布、图模型、变分推断、EM算法、Gibbs抽样的理论,想构建正确的新闻主题模型,需要对这些相关理论有深入的研究。 2)构建新闻主题模型的研究 构建准确的新闻主题模型,需要求解主题模型中的各参数,需要研究参数的求解方法,以找到全局最优解。 3、协同过滤算法 基于用户的协同过滤以及基于内容的协同过滤在本课题中都需要进行研究,两种算法中,最重要的部分都包括相似度计算、评分预测以及结果排名,均需进行逐一研究。 1)相似度的计算 与基于内容中的相似度理论上相同,有欧氏距离、余弦夹角、皮尔逊相似度等。但协同过滤求解的内容与内容推荐中结果相似度的求解内容不同,仍需要进行单独的研究。 2)评分预测以及推荐结果排名 协同过滤中,先决条件是获得用户对推荐物品的评分,但用户不可能对每一个物品都进行了评分,在新闻推荐中,更是根本就没有用户评分数据,这需要提出方法对用户阅读的每一篇新闻进行评分预测,目前已经提出了很多评分预测方法,需要这些方法进行研究;协同过滤得到的推荐结果不止一个,在展示给用户是,需要进行排名,排名越靠前的应该是用户越喜爱的,这里需要对推荐结果排名进行研究。 3)简化协同过滤算法 为避免融合协同过滤算法带来的数据稀疏性和处理效率的问题,要对协同过滤的简化进行研究。 4、基于协同过滤与基于内容的混合推荐方法的研究 在对新闻推荐的研究中,将协同过滤与基于内容推荐的结果进行混合,在新闻推荐生成辅以过滤、冗余删除等步骤,将新闻推荐给用户,已经取得了不错的推荐效果。本课题要研究融合主题模型与协同过滤,首先需要对既往的互补混合、包含混合、分层混合等前期混合方式和线性加权组合、投票选择、分区组合等后期混合方式进行研究,进而提出合适的主题模型与协同过滤的融合方法。 课题研究框架新闻特征提取基于用户的协同过滤协同过滤算法基于物品的协同过滤简化协同过滤算法在基于内容的推荐中使用主题模型主题模型基于内容的推荐方法主题模型与协同过滤的融合输出推荐结果候选新闻表示推荐结果去重与排序实验验证 图3-1 课题技术路线 3.6 评测方案 本课题研究中,以财新网2014年某月所有用户阅读情况作为研究数据,根据用户当月浏览新闻情况进行推荐,将推荐结果与用户最后一次的阅读行为进行比较,求出推荐结果与用户阅读的准确率与召回率,再根据准确率与召回率求得F值。将融合主题模型与协同过滤后的评测F值与传统的基于内容的推荐方法和基于协同过滤的推荐方法的评测F值进行比较,说明融合方法的有效性。 四、研究计划进度 2014.09——2015.01第一阶段:阅读文献,收集相关资料,完成开题报告。 2015.02——2015.05第二阶段:分析模型,研究算法,分别测试现有的协同过滤、内容过滤方法、主题模型提取的实际性能。 2015.06——2015.10第三阶段:设计轻量级的主题模型,融合主题模型与协同过滤两种方法,并进行推荐性能的测试与比较。 2015.11——201 5.12第四阶段:完善系统,并完成论文提纲编写。 2016.01——2016.03 第五阶段:撰写论文。 2016.04——2016.05第六阶段:提交专家审定与准备论文答辩。 导师意见 导师(签名): 年 月 日 开题报告会记录 时 间: 地 点: 参加人: 主持人: 记录人: 提问及回答要点: 主持人(签名): 记录人(签名): 年 月 日 专家组对开题报告的评议 1.对开题报告的整体评价 2.存在的主要问题和建议 3.开题报告结论: 开题报告专家组共 人,其中 票评定该生的开题报告为优秀; 票评定该生的开题报告为合格; 票评定该生的开题报告为不合格。 因此,专家组认为该生的开题报告 □优秀 □合格 □不合格 专家组组长签名: 年 月 日 参加学位论文开题报告的专家名单 姓名 职称 学科、专业 工作单位 专家签名 所在学院学位评定分委员会意见 该生的开题报告 □优秀 □合格 □不合格 学位评定分委员会主席(签名): 年 月 日 注:可自行加页。本表一式两份,分别交研究生处及所在学院。
因篇幅问题不能全部显示,请点此查看更多更全内容