正文
Google-利用海量数据进行判断:
Google的Pagerank算法的核心思想是通过其他网页对当前网页的引用数来判断网页的等级,这种算法需要通过海量的用户数据来进行。
协同过滤
说到个性化推荐最常用的设计思想,不得不说说协同过滤,它一种在做个性化推荐时候的方法论。
因为如果仅仅按照单一的热门推荐,网络的马太效应(指强者愈强、弱者愈弱的现象)就会明显;且长尾中物品较难被用户发现,造成了资源浪费。
而协同过滤问题恰恰解决了用户的个性化需求(用户更愿意打开自己感兴趣或者熟悉的内容),使得长尾上的物品有了被展示和消费的可能性,也使得马太效应相对弱化。
协同过滤包括两种类型:
1.Item-CF(基于物品的协同过滤):
小明在网站上看了《超人归来》的电影,系统就会推荐与这部电影的相似的电影,比如《蜘蛛侠2》给小明。这是基于电影之间的相似性做出的推荐。
注意:两部电影时间的是否相似是由大量用户是否同时都看了这两部电影得到的。如果大量用户看了A电影,同时也看了B电影,即可认为这两部的电影是相似的,所以Item-CF仍然是基于用户行为的。
腾讯视频中,当观看《超人归来》时系统推送的电影
2.User-CF(基于用户的协同过滤):
小明在购物网站上买了一副耳机,系统中会找出与小明相似的“近邻好友”他们除了买耳机之外,还买了什么。
如果与小明相似的“近邻”小华还买过音箱,而这件东西小明还没买过,系统就会给小明推荐音箱。这是基于用户之间的相似性做出的推荐。
注:这里的CF=collaborative filtering
而这两种类型的协同过滤都是要基于
用户行为
来进行。
而除了协同过滤之外,还有
基于内容的推荐、基于知识的推荐、混合推荐
等方式。
这句话很好地解释了协同过滤这种方法的思想。
亚马逊网站上对图书的推荐 -基于Item-CF
前一阵参加了一个人工智能产品经理的活动,主讲人香港中文大学的汤晓鸥教授(目前人工智能视觉方面的顶级专家)说,目前机器视觉领域可以通过社交网络照片或者个人相册中的图片的学习,可以做到预测个人征信。