【AutoGluon】【表形式データの分類】Kaggleに初挑戦

はじめに

Kaggleに初挑戦しました。
www.kaggle.com
タイタニック号乗客の生存を予測する問題です。
今回は参加することが目的ですので成績は度外視です。
古いテーマですのでWeb上に情報がたくさんあります。好成績を求める人は他のサイトを読んで下さい。

学習データを使って学習

import pandas as pd
from autogluon.tabular import TabularDataset, TabularPredictor

all_data = pd.read_csv('train.csv', index_col=0)
all_data = all_data.drop(columns=['Name', 'Ticket'])

train_data = TabularDataset(all_data)

save_path = 'ag-predict'
predictor = TabularPredictor(label='Survived', path=save_path).fit(train_data)

推論と提出用CSVファイル作成

import pandas as pd
from autogluon.tabular import TabularDataset, TabularPredictor

all_data = pd.read_csv('test.csv', index_col=0)
all_data = all_data.drop(columns=['Name', 'Ticket'])

test_data = TabularDataset(all_data)

save_path = 'ag-predict'
predictor = TabularPredictor.load(save_path)

y_pred = predictor.predict(test_data)

result = pd.DataFrame(y_pred, columns=['Survived'], index = all_data.index)
result.to_csv('result.csv')