这次实战的Kaggle比赛,其实只是其中一个没有奖金的公益比赛。
主页: http://www.kaggle.com/c/titanic-gettingStarted
主题是:
Titanic: Machine Learning from Disaster
在比赛之中,官方给出了一些原始的一半的数据作为比赛用的训练集与测试集。另外一半作为官方自己的测试集。最后成绩评定也是会使用官方自己留着的一半数据进行评比。
注意: 有一个取巧的方式,那就是去网上去搜索全部原始数据并依此为基础提交算法。 好吧,我用的是比这个笨的方法:)
在这里介绍一下,我比较擅长的是java,并且也希望使用java完成这次比赛。
如果希望使用Python,可以参考:http://triangleinequality.wordpress.com/2013/09/05/a-complete-guide-to-getting-0-79903-in-kaggles-titanic-competition-with-python/
为了完成这次比赛,首先需要下载官方的数据集。
训练集用Excel打开之后的样子:
下面解释一下训练集之中的数据:
PassengerId | 旅客ID | 这条数据应该没啥用 |
Survived | 是否活下来了,1:yes 0:no | 这个应该是对我们很有用的一个数据 |
Pclass | 旅客等级 1 2 3 分别代表不同的等级 | |
Name | 名字 | |
Sex | 性别 | |
Age | 年龄 | |
SibSp |
有多少兄弟姐妹/配偶同船 Number of Siblings/Spouses Aboard |
|
Parch |
有多少父母/子女同船 Number of Parents/Children Aboard |
|
Ticket |
船票号码? |
|
Fare | 船票收费 | |
Cabin | 所在小屋 | |
Embarked |
登船城市 Port of Embarkation |
C Q S 分别代表不同的城市 |
最后,在打开看了一下训练数据之后,第一反应就是使用决策树来实现预测功能。
下一篇文章将讲诉我是如何进行 数据预处理 的
相关推荐
NULL 博文链接:https://rangerwolf.iteye.com/blog/2075203
kaggle 赛题 elo-merchant-category-recommendation 数据集
kaggle泰坦尼克数据集生存预测完整代码,包括数据清洗等一系列流程
kaggle-titanic, 关于Kaggle的Titanic教程 kaggle这是一个在Kaggle笔记本上进行竞赛的教程,来自灾难的泰坦尼克机器学习。 这个存储库的目标是为那些兴趣进入数据分析或者使用 python的kaggle科学比赛的数据提供竞争...
Kaggle_Titanic_master数据,是Kaggle上关于泰坦尼克号数据的分析
kaggle的titannic数据集,用于机器学习的测试!!!!
kaggle数据集 gun-violence-data_01-2013_03-2018kaggle数据集 gun-violence-data_01-2013_03-2018
The Rotten Tomatoes movie review dataset包含train.tsv >8M和test.tsv >3M两个文件 kaggle下载地址: ...1 somewhat negative 2 neutral 3 somewhat positive 4 positive
Kaggle泰坦尼克号-从灾难中学习机器
实战Kaggle比赛:房价预测-数据集
Kaggle_Titanic-master
kaggle实战案例,赛事课题内容,解决方案汇总,机器学习、人工智能案例参考。 kaggle实战案例,赛事课题内容,解决方案汇总,机器学习、人工智能案例参考。kaggle实战案例,赛事课题内容,解决方案汇总,机器学习、...
Dogs vs. Cats Kaggle猫狗大战数据集
kaggle竞赛经典数据集Titanic 包括train.csv test.csv gender_submission.csv
Kaggle_Titanic-master例程
KAGGLE竞赛官方网站上下载下来的数据集,最全kaggle泰坦尼克数据集。欢迎下载。
人工智能-项目实践-模型压缩-基于kaggle上Titanic数据集实现的ID3、C4.5、CART和CART剪枝算法 基于kaggle上Titanic数据集实现的ID3、C4.5、CART和CART剪枝算法
kaggle项目Titanic的训练集和测试集