专栏名称: 机器学习算法与Python学习
作为沟通学习的平台,发布机器学习与数据挖掘、深度学习、Python实战的前沿与动态,欢迎机器学习爱好者的加入,希望帮助你在AI领域更好的发展,期待与你相遇!
目录
相关文章推荐
爱可可-爱生活  ·  [LG]《AutoRule: ... ·  13 小时前  
闹闹每日星运  ·  面试中最淡定的星座,佛系求职心态超好 ·  昨天  
人工智能那点事  ·  清华美女学霸回应父亲“漂亮女生不适合直播”言 ... ·  2 天前  
闹闹每日星运  ·  最难约出来的几大星座 ·  2 天前  
51好读  ›  专栏  ›  机器学习算法与Python学习

十个小众却实用的Python库,用过的都说香!

机器学习算法与Python学习  · 公众号  ·  · 2024-09-01 17:33

正文

请到「今天看啥」查看全文


据集是不平衡的,这些数据集对机器学习算法的学习阶段和后续预测都有影响,imbalanced-learn的创建就是为了解决此类问题,它与scikit-learn兼容,是scikit-learn-contrib项目的一部分。下次如果你遇到不平衡的数据集时,考虑一下它。(项目地址:https://github.com/scikit-learn-contrib/imbalanced-learn)
安装:
pip install -U imbalanced-learn
# or
conda install -c conda-forge imbalanced-learn

4、FlashText

在NLP任务中清理文本数据通常需要替换句子中的关键字或从句子中提取关键字。这类操作一般使用正则表达式来完成,但是如果搜索的关键词数量达到数千个,就会变得很麻烦。Python的FlashText模块是基于FlashText算法,它为这种情况提供了一个合适的替代方案。FlashText最好的部分是,不管搜索词的数量是多少,运行时都是一样的。 (项目地址: https://github.com/vi3k6i5/flashtext
安装:
$ pip install flashtext
示例:
from flashtext import KeywordProcessor
keyword_processor = KeywordProcessor()
# keyword_processor.add_keyword()
keyword_processor.add_keyword( Big Apple New York )
keyword_processor.add_keyword( Bay Area )
keywords_found = keyword_processor.extract_keywords( I love Big Apple and Bay Area. )
keywords_found
[ New York Bay Area ]
关键词替换:
keyword_processor.add_keyword( New Delhi NCR region )
new_sentence = keyword_processor.replace_keywords( I love Big Apple and new delhi. )
new_sentence
I love New York and NCR region.

5、Fuzzywuzzy

这个名字听起来确实很奇怪,但是涉及到字符匹配时,fuzzywuzzy是一个非常有用的库。 可以快速实现诸如字符串匹配度、令牌匹配度等操作。 它还可以方便地匹配保存在不同数据库中的记录。 (项目地址: https://github.com/seatgeek/fuzzywuzzy)
安装:
$ pip install fuzzywuzzy
示例:
from






请到「今天看啥」查看全文