专栏名称: CDA数据分析师
CDA数据分析师品牌官方微信,开放、创新、分享。
目录
相关文章推荐
IDC咨询  ·  Data+AI市场快速演进,数据管理分析与G ... ·  23 小时前  
IDC咨询  ·  Data+AI市场快速演进,数据管理分析与G ... ·  23 小时前  
大数据文摘  ·  5个月狂飙200%!Anthropic ... ·  2 天前  
软件定义世界(SDX)  ·  【PPT】AI的前世今生 | ... ·  3 天前  
51好读  ›  专栏  ›  CDA数据分析师

让机器猜猜你喜欢的歌手-R关联分析

CDA数据分析师  · 公众号  · 大数据  · 2017-09-14 18:27

正文

请到「今天看啥」查看全文


发生的强度,提升度是一个比值,用来衡量 A 条件的重要性。


看一个小例子:


下面是一个购物篮清单



这里 TID 是交易编号,不参与计算,右边 ABCDEF 分别表示不同的商品,下面两个规则的支持度和置信度分别为:

· A => C (50%, 66.6%)

· C =>A  (50%, 100%)


关联规则挖掘的基本过程


给定事务的集合 T ,关联规则发现是指找出支持度大于等于 minsup ,并且置信度大于等于 minconf 的所有规则,其中 minsup minconf 是对应的支持度和置信度的阈值。由于需要计算每一个可能规则的支持度和置信度,这种方法过高的代价让人望而却步。因此,我们将目标做相应转化为找出所有频繁项集,即发现满足最小支持度阈值的所有项集,这些项集称作频繁项集( frequent itemset ),并进一步由频繁项集中提取所有高置信度的规则 (受篇幅影响,这部分暂时省略) ,这些规则称作强规则( strong rule )。下面我们通过算例来实现上面的想法。

让“机器”猜猜谁是你喜欢的歌手

这是我在概率论课上的一个案例,目的是帮助学生理解条件概率,于是让学生每人填写 3 个以上的华语歌手(呵呵,要是填英语歌手的话, 事物 太多,而学生有限,这样结果会不好)。于是,同学们填出来的结果是这样的:


学号 欢的歌手
13 *34 梁静茹
13 *45 邓紫棋
…… ……


为了计算歌手之间的相关规则,我们可以调用 R 语言的 arules 包来进行计算,代码如下:

##### code start #####

# 加载包

library(arules)# 加载程序包 arules ,当然如果你前面没有下载过这个包,就要先 install.packages(arules)

setwd( "G:\\ 公文包 \\R 语言 关联分析 " )# 这里设置你自己的工作路径

# 加载数据

singer

# 将数据转换为 arules 关联规则方法 apriori 可以处理的数据形式 . 交易数据

data 歌手 , singer$







请到「今天看啥」查看全文