专栏名称: 大数据挖掘DT数据分析
实战数据资源提供。数据实力派社区,手把手带你玩各种数据分析,涵盖数据分析工具使用,数据挖掘算法原理与案例,机器学习,R语言,Python编程,爬虫。如需发布广告请联系: hai299014
目录
相关文章推荐
51好读  ›  专栏  ›  大数据挖掘DT数据分析

[python]评论文本挖掘:找出兴趣相投的用户并作产品推荐

大数据挖掘DT数据分析  · 公众号  · 大数据  · 2017-04-10 23:03

正文

请到「今天看啥」查看全文


:[ 4 , 1 , 3 , 4 , 5 ],

  • 'doreen' :[ 3 , 4 , 2 , 5 , 3 ]

  • }

  • #录入用户数据

  • def user_data(user_dict):

  • for name in user_dict:

  • user_info[name] = {u '消失的爱人' : user_dict[name][ 0 ]}

  • user_info[name][u '霍比特人3' ] = user_dict[name][ 1 ]

  • user_info[name][u '神去村' ] = user_dict[name][ 2 ]

  • user_info[name][u '泰坦尼克号' ] = user_dict[name][ 3 ]

  • user_info[name][u '这个杀手不太冷' ] = user_dict[name][ 4 ]

  • user_data(user_dict)

  • #存放用户数据

  • try :

  • with open( 'user_data.txt' , 'w' ) as data:

  • for key in user_info:

  • data.write(key)

  • for key2 in user_info[key]:

  • data.write( '\t' )

  • data.write(key2)

  • data.write( '\t' )

  • data.write( '\t' )

  • data.write(str(user_info[key][key2]))

  • data.write( '\n' )

  • data.write( '\n' )

  • except IOError as err:

  • print ( 'File error: ' + str(err))




  • 计算皮尔逊相关系数,找出兴趣相投的用户:(插入自己的数据)


    1. from math import sqrt

    2. #计算皮尔逊相关度(1为完全正相关,-1为完成负相关)

    3. def sim_pearson(prefs, p1, p2):

    4. # Get the list of mutually rated items

    5. si = {}

    6. for item in prefs[p1]:

    7. if item in prefs[p2]:

    8. si[item] = 1

    9. # if they are no ratings in common, return 0

    10. if len(si) == 0 :

    11. return 0

    12. # Sum calculations







    请到「今天看啥」查看全文


    推荐文章
    中央戏剧学院就业创业指导中心  ·  校园招聘会单位发布之二十:华策影视
    8 年前
    射手座网  ·  射手座如何巧妙的经营爱情?
    8 年前
    51Testing软件测试网  ·  高效测试人员应具有的7个品质
    8 年前