专栏名称: 创宇前端

人工智障也刷题！Kaggle 入门之实战泰坦尼克号

创宇前端 · 掘金 · 前端 · 2018-12-05 06:51

正文

泰坦尼克号问题背景
就是大家从小到大被洗脑的“u jump I jump”的「jack 和 rose」的故事了。游艇在撞击了一个冰山后沉没了。乘客们都惊慌失措，副船长「lady and kid first」，所以模型不会向抛硬币那样看脸决定你是否获救。而是有着一定背景的，至于出了女士和孩子优先，还有哪些值得我们考虑，这就是稍后我们在特征工程中解决的问题了。
训练和测试数据是一些乘客的个人信息以及存活情况，尝试应用这些数据来建立一个合适的模型进行预测。
这是一个二分类问题（survived 或者 not），本文尝试用 logistic regression 来处理问题
说明
「没有所谓的算法优劣，也没有绝对高性能的机器学习算法，只有在特定的场景、数据和特征下更合适的机器学习的算法。」由于还只是在学习阶段，对于 XGBC、随机森林、SVC 还不了解，本文所用的算法只是 logistic regression。

在 Data 下我们会看到官方给的 train.csv 和 test.csv 两个文件，分别是训练和测试数据。我们可以使用 virtualenv 来创建一个“隔离”的 python 应用环境（虚拟环境）。在这里，你不需要考虑系统原有库的版本，只需要 pip 来管理你需要用到的一切。

import pandas as pd 
import numpy as np 
from pandas import Series,DataFrame

data_train = pd.read_csv("./train.csv")
pd.DataFrame(data_train)
复制代码

pandas 是常用的 python 数据处理包，把 csv 文件读入成 dataframe 格式，在 jupyter notebook 中，可以看到我们的数据长什么样：

我们就可以把它看作一张 excel 表格，共有 12 列，891 行（代表在 train_csv 中共有 891 个乘客）。Survived 字段代表该乘客是否获救（1 代表获救，0 代表没有获救），其余是一些个人信息

data_train.info()
复制代码

推荐文章

山东环境 · 2025年全国“安全生产月”公益广告

8 小时前

山东环境 · 2025年全国“安全生产月”公益广告

8 小时前

前端之巅 · 苹果12年首次大改UI，还炮轰“跨平台”框架！“液态玻璃”会是Flutter开发者的“至暗时刻”吗？

昨天

前端早读课 · 【第3527期】Pinterest 采用文档即代码模式

昨天

前端早读课 · 【图书】Cursor与Copilot开发实战：让烦琐编程智能化

昨天

前端大全 · 12年首次大改！真有人喜欢苹果的“液态玻璃”吗？至少Flutter 开发者的噩梦开始了

2 天前

尚榜 · 【今日快讯】邯郸1-4日公交免费坐 & 衡水爱心志愿者寒冬精准帮扶

8 年前

宇宙解码 · 前苏联科学家历经万难终于传回金星彩色照片

8 年前

程序员大咖 · 一名 40 岁“老”程序员的反思

8 年前

中国标准化 · 【新闻】第二批企业标准排行榜在京发布

8 年前

远峰电子 · 【安信电子孙远峰团队-持续推荐深天马A】全面屏产业新趋势，公司有望深度受益

7 年前