はじめに
Kaggleに初挑戦しました。www.kaggle.com
タイタニック号乗客の生存を予測する問題です。
今回は参加することが目的ですので成績は度外視です。
古いテーマですのでWeb上に情報がたくさんあります。好成績を求める人は他のサイトを読んで下さい。
学習データを使って学習
import pandas as pd from autogluon.tabular import TabularDataset, TabularPredictor all_data = pd.read_csv('train.csv', index_col=0) all_data = all_data.drop(columns=['Name', 'Ticket']) train_data = TabularDataset(all_data) save_path = 'ag-predict' predictor = TabularPredictor(label='Survived', path=save_path).fit(train_data)
推論と提出用CSVファイル作成
import pandas as pd from autogluon.tabular import TabularDataset, TabularPredictor all_data = pd.read_csv('test.csv', index_col=0) all_data = all_data.drop(columns=['Name', 'Ticket']) test_data = TabularDataset(all_data) save_path = 'ag-predict' predictor = TabularPredictor.load(save_path) y_pred = predictor.predict(test_data) result = pd.DataFrame(y_pred, columns=['Survived'], index = all_data.index) result.to_csv('result.csv')
Kaggleに提出、その結果は?
出来上がった「result.csv」を提出しました。結果は・・・
0.76794
15,737位 / 23,478
欠損値の補完などなにも考えていないのでこんなものでしょう。
モデルの選定すら自分ではしていません。
動作環境
Ubuntu 18.04 (WSL2) GPUなし
Python 3.6.9 autogluon==0.0.16b20210124
その他
AutoGluonでの表形式の分類についてはこちらに詳しく書いています。良かったら読んで下さい。touch-sp.hatenablog.com