CF_Note3

01174587.pdf
在CF中考虑用户的倾向时考虑了整体社会的规范，因为用户通常都是从众的
本文研究的是：可能不能很好的满足用户的需要，但用户有时候需要的是最新的新闻和信息等，提出了一个想法与其他的个性技术进行比较。
Information Overload：多个含义These general informational characteristics include concepts such as complex, random, intense, jarring, heterogeneous, dissonant, intermittent, rare, novel, surprising, meaningless, asymmetrical, close, crowded, or dense

01204292.pdf
基于多agent的系统
用户的分组由用户自己解决，所以可以不用考虑用户的group问题
用户对文档的注释表示用户对类似的文档感兴趣，所以用户本身就是一个评价算法。这里的注释表示对文档的Vote，喜欢或是不喜欢

对于一篇文档，先给group中的一部分人看，如果被接受那么就发送给group中的其他人，并继续接受反馈
User agent的设置包括：有多少人对文档进行评价，要从怎样的置信度上接受他们的评价；初始的判定准则的指定，即如何判断一篇文档是否符合社区和用户（一般可以使用KNN判断与社区、用户的profile的兴趣度高不高）;判断用户评价的准则的指定，需要判断是否继续分发文档（默认就是用户的评价是正的还是负的）；如果用户忽略文档如何处理的准则（默认是用户不感兴趣）

THINK：用户的隐私，可能有的文档不希望给别人看

一些问题：有的用户不确定是否要共享自己的文档，但希望和别人一起对文档进行评价；有些只希望接收文档而不愿意进行评价；还有的人只会给别人发一些别人不愿意看的东西，比如广告等。

解决的方法是对社区和用户进行分类：
用户分类：annoying user：建议、文档经常不被人接受；passive user：不评价文档，但对提供的文档还是看的；active user：参加评价的工作流，积极的浏览者，对一篇文档给出建议，对社区的积极建议者
社区分类：社区里面都是active suggestor和active reviewer，这样文档就能被充分的浏览并给予评价；社区里面有上面两者还有passive user，如果passive user的百分比超过active reviewer，那么很多文档将不被评价，无法正确作出预测，所以需要overload active reviewer。

社区中：如果一个用户得到系统负的评价，那么很有可能被踢出社区（包括很长一段时间不review文档，即不给出评价，那么被认为是一个passive user，给出一个负的评价；还包括对社区大部分接受的文档持否定的评价；对社区排除的文档持肯定的评价）

社区对用户的踢出应该是透明的
对于一个新用户，社区使用数据挖掘工具判断他的profile与社区里面的大部分成员是否相似，以决定是否可以将其进行吸收。

reviewer的选择：1、用系统管理员；2、社区内了解主题内容的人；3、大家进行投票表决

01222119.pdf
在手机铃声的推荐系统里面采用基于记忆的CF
太过简单，几乎没有考虑数据膨胀、数据稀疏等问题

01236281.pdf
试图要解决数据稀疏和数据膨胀问题，再看看

使用对Items使用K-means进行分类，并用二分树进行表示，之后的预测就在一个相对小型的数据库里面搜索和预测，可以比一般的CF提高精确度（我觉得应该和SVD等方法进行一些比较）

为了解决数据膨胀问题，有两类方法：下降维度（dimension reduction）、半自动过滤agent（semi－intelligent filtering agent）
本文的数据觉得有问题，不可能比简单的基于Item的算法错误率更低，因为本文的方法进行了预先Items的分类，之后的预测的范围就小了很多，由部分Item可能会漏过。

0222_Huang2.pdf
似乎是不错的文章，比较了多个常用的CF算法
举出了常见的CF的站点
列出了五个提供CF技术的公司：Net Perceptions, Epiphany, Art Technology Group, BroadVision, and Blue Martini Software.

CF在电子商务方面主要需要的是下列三种类型的数据：产品的信息、用户的信息、用户和产品之间的信息（rate，buy，浏览等）
主要是需要高质量的用户与产品的关系的信息，但是很难得到
最简单的推荐就是推荐最流行的产品

CF中的一些问题：用户和产品的关系通常有很多，但是最后的推荐值可能只有两值：推荐或不推荐，这个问题可以通过整合这些统计量来解决；在现有的多种算法如果要进行合并，一个完整的比较是十分必要的，而以为的论文都只和有限的几种方法进行比较；最后一个问题就是历时已久的数据稀疏问题，这在很大程度上导致用户之间相似度判断的不可信，和最后推荐结果的不可信。

本文有两个事：评价各个算法，以及各个算法在数据稀疏上效能

给出了六个常用的算法，以及本文自己提供的算法
User-Based、Item-Based、Dimensionality Reduction（使用SVD分解）、Generative Model（对用户判断其分类，然后集中在分类中计算对产品的购买率）、Spreading Activation、Link Analysis（本文的算法）

给出了一些比较常用的评测公式！

直接把Rating的分值当作购买，记为1，如果分值为0或负数，表示没有购买
取与产品有交互数为5～100之间的用户作为测试集

THINK:考虑随时间推移的兴趣度的度量，初步想法（兴趣度或者rating应该随着时间和看的书而慢慢的下降）

这里面的评测分都很低，低于1％
有大量的评测值！

posted on 2005-04-11 20:09 Betop 阅读(490) 评论(1) 编辑收藏

Comments

# re: CF_Note3

yuan

也在做推荐系统的研究吗?
CF是协同过滤算法吧,关于数据稀疏问题,很多文章提出了解决方案
不知道能不能拜读一下您最近的大作

Posted @ 2006-06-15 10:41 回复更多评论

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理

导航

统计

常用链接

留言簿(3)

随笔档案

文章档案

搜索

最新评论

阅读排行榜

评论排行榜

CF_Note3