【AutoGluon】【表形式データの分類】Kaggleに初挑戦

はじめに

Kaggleに初挑戦しました。
www.kaggle.com
タイタニック号乗客の生存を予測する問題です。
今回は参加することが目的ですので成績は度外視です。
古いテーマですのでWeb上に情報がたくさんあります。好成績を求める人は他のサイトを読んで下さい。

学習データを使って学習

import pandas as pd
from autogluon.tabular import TabularDataset, TabularPredictor

all_data = pd.read_csv('train.csv', index_col=0)
all_data = all_data.drop(columns=['Name', 'Ticket'])

train_data = TabularDataset(all_data)

save_path = 'ag-predict'
predictor = TabularPredictor(label='Survived', path=save_path).fit(train_data)

推論と提出用CSVファイル作成

import pandas as pd
from autogluon.tabular import TabularDataset, TabularPredictor

all_data = pd.read_csv('test.csv', index_col=0)
all_data = all_data.drop(columns=['Name', 'Ticket'])

test_data = TabularDataset(all_data)

save_path = 'ag-predict'
predictor = TabularPredictor.load(save_path)

y_pred = predictor.predict(test_data)

result = pd.DataFrame(y_pred, columns=['Survived'], index = all_data.index)
result.to_csv('result.csv')

Kaggleに提出、その結果は?

出来上がった「result.csv」を提出しました。
結果は・・・

0.76794

15,737位 / 23,478

欠損値の補完などなにも考えていないのでこんなものでしょう。
モデルの選定すら自分ではしていません。

動作環境

Ubuntu 18.04 (WSL2)
GPUなし

Python 3.6.9
autogluon==0.0.16b20210124

その他

AutoGluonでの表形式の分類についてはこちらに詳しく書いています。良かったら読んで下さい。
touch-sp.hatenablog.com

このエントリーをはてなブックマークに追加