Kaggle平台挑战多样,如高奖金的“Featured”竞赛和平易近人的“Research”等,均遵循相同模式,利用训练集建模,再通过测试集评估结果以决胜负。竞赛页面会显示时间、队伍数、奖金,并实时更新排名。在截止前,队伍可自由参与或改进方案,排名持续变动,胜负难料。此外,Kaggle允许用户建立个人档案,展示参与项目、活跃度、实时及历史排名,既具成就感,又可作为求职或申请的凭证。
编程语言最基础的入门学者也需要学会初步使用一门编程语言。对于毫无基础的新手,推荐使用Python,因为Python作为一种强大的胶水语言,可迅速入门。探索数据光有编程语言是不够的,还需要学习如何探索性分析你手上的数据,这是进入数据科学的一步。因为通常到手的数据都多到不可思议,你要学会取舍和迅速获取最有用的信息。模型训练熟悉使用机器学习库,培养良好的习惯,为之后的工作做铺垫实战,从初级可以逐渐增加难度。
Simple Competitions
遵循标准Kaggle格式的比赛。在简单的比赛中,用户在接受比赛规则后,可以在比赛开始时访问完整的数据集。作为竞争对手,您将下载数据,在本地或笔记本中构建模型,生成预测文件,然后将您的预测作为提交上传到Kaggle。到目前,Kaggle上的大多数比赛都遵循这种格式。
Two-stage
分为一阶段和二阶段,第二阶段建立在团队在第1阶段取得的成绩的基础上。第2阶段涉及在阶段开始时发布的新测试数据集。第2阶段的资格通常需要在第1阶段提交。在两个阶段的比赛中,阅读和理解比赛的具体规则和时间表尤为重要。
Code Competitions
在这些比赛中,所有提交都是在Kaggle笔记本内部提交的,并且无法直接将提交上传到比赛。
这些比赛有两个吸引人的特点。竞争更加平衡,因为所有用户都有相同的硬件限额。获胜模型往往比其他比赛中的获胜模型简单得多,因为它们必须在平台施加的计算限制内运行。对您可以提交的笔记本配置了自己独特的约束。这些可能受到以下特征的限制:CPU或GPU运行时、使用外部数据的能力以及对Internet的访问。要了解您必须遵守的限制,请查看该特定比赛的要求。