专栏名称: 程序员大咖
为程序员提供最优质的博文、最精彩的讨论、最实用的开发资源;提供最新最全的编程学习资料:PHP、Objective-C、Java、Swift、C/C++函数库、.NET Framework类库、J2SE API等等。并不定期奉送各种福利。
目录
相关文章推荐
OSC开源社区  ·  OpenAI用Rust重写AI编程工具Cod ... ·  4 天前  
程序员的那些事  ·  不到 2 个月,OpenAI 火速用 ... ·  2 天前  
程序员的那些事  ·  程序员:在 8 ... ·  4 天前  
阿里技术  ·  Cursor入门:MCP开发调用和项目实战 ·  3 天前  
腾讯技术工程  ·  腾讯的CMS管理系统能好用到什么程度 ·  2 天前  
51好读  ›  专栏  ›  程序员大咖

基于概率论的分类方法:朴素贝叶斯

程序员大咖  · 公众号  · 程序员  · 2017-11-13 10:24

正文

请到「今天看啥」查看全文


'dog' , 'has' , 'flea' , 'problems' , 'help' , 'please' ], #[0,0,1,1,1......]

[ 'maybe' , 'not' , 'take' , 'him' , 'to' , 'dog' , 'park' , 'stupid' ],

[ 'my' , 'dalmation' , 'is' , 'so' , 'cute' , 'I' , 'love' , 'him' ],

[ 'stop' , 'posting' , 'stupid' , 'worthless' , 'garbage' ],

[ 'mr' , 'licks' , 'ate' , 'my' , 'steak' , 'how' , 'to' , 'stop' , 'him' ],

[ 'quit' , 'buying' , 'worthless' , 'dog' , 'food' , 'stupid' ]]

classVec = [ 0 , 1 , 0 , 1 , 0 , 1 ] # 1 is abusive, 0 not

return postingList , classVec


2.6.1.4 准备数据: 从文本中构建词向量


def createVocabList ( dataSet ) :

"""

获取所有单词的集合

:param dataSet: 数据集

:return: 所有单词的集合(即不含重复元素的单词列表)

"""

vocabSet = set ([]) # create empty set

for document in dataSet :

# 操作符 | 用于求两个集合的并集

vocabSet = vocabSet | set ( document ) # union of the two sets







请到「今天看啥」查看全文