专栏名称: Python技术博文
分享有关Python知识,了解IT界最新技术,让我们一起从菜鸟变成大牛吧!
目录
相关文章推荐
Python爱好者社区  ·  月薪3万35岁脑干出血程序员:ICU躺了28 ... ·  2 天前  
Python爱好者社区  ·  务必立即拿下软考证(政策红利) ·  3 天前  
Python爱好者社区  ·  软考,yyds ·  2 天前  
Python爱好者社区  ·  Science披露:近3年,垃圾论文激增,9 ... ·  3 天前  
51好读  ›  专栏  ›  Python技术博文

数据分析+分类模型预测乳腺癌患病概率

Python技术博文  · 公众号  · Python  · 2019-11-09 13:57

正文

请到「今天看啥」查看全文


.shape

#查看数据集类别样本分布#2为良性,4为恶性data.groupby('Class')['Mitoses'].count().reset_index(name='class_count')

三、缺失值处理

# 将?替换为标准缺失值表示。data = data.replace(to_replace='?', value=np.nan)# 丢弃带有缺失值的数据(只要有一个维度有缺失)。data = data.dropna(how='any')# 输出data的数据量和维度。data.shape

四、构建训练集和测试集

# 使用sklearn.cross_valiation里的train_test_split模块用于分割数据。from sklearn.cross_validation import train_test_split# 随机采样25%的数据用于测试,剩下的75%用于构建训练集合。X = data[column_names[1:10]] # 第一列“Sample code number”为编号,与Y无相关性,过滤掉Y = data[column_names[10]]X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.25, random_state=33)
# 查验训练样本的数量和类别分布。y_train=pd.Series(y_train)y_train.value_counts()

# 查验测试样本的数量和类别分布。y_test=pd.Series(y_test)y_test.value_counts()

标准化数据集

# 从sklearn.preprocessing里导入StandardScaler。






请到「今天看啥」查看全文