自然言語処理

bertにCoLAデータセットを学習させてセンター試験英語の穴埋め問題を解いてみたがうまくいかなかった

結論 問題 学習コード 推論コード 結果 補足 環境 結論 正解率が上がらずうまくいかなかった。 その原因として以下のことが考えらえる。 bertモデルの使い方が根本的に違う CoLAデータセットが今回の問題に適切でなかった モデルのチューニング(ハイパーパ…

GluonNLPを使ってみる

環境 バージョン確認(pip freeze) 実行スクリプト 結果 環境 Windows10 Pro Python 3.7.5 GPUなし バージョン確認(pip freeze) certifi==2019.9.11 chardet==3.0.4 gluonnlp==0.8.1 graphviz==0.8.4 idna==2.6 mxnet==1.6.0b20191004 numpy==1.16.5 requ…

今さらながら自然言語分類を試してみる②(実践)

はじめに モデルの作成 実行 結果の確認 参考文献 はじめに 文章を固定長のベクトルで表現することにチャレンジ 前回準備したデータを使用 touch-sp.hatenablog.com モデルの作成 GRUを使用する 「gru.py」として保存 import mxnet as mx from mxnet.gluon i…

今さらながら自然言語分類を試してみる①(データ準備)

はじめに 使用するデータ ファイルの読み込み 形態素解析と単語のID化→その後保存 参考文献 はじめに 文章を固定長のベクトルで表現することにチャレンジ 使用するデータ 「livedoor ニュースコーパス」を使用させて頂く。 「ldcc-20140209.tar.gz」をダウン…

GluonNLPを使ってみる

はじめに 環境 バージョン確認(pip freeze) 実行スクリプト 学習済みモデルの種類 2019年9月4日追記 2019年9月5日追記 はじめに 以前にGloveやFastTextを試してみた。 touch-sp.hatenablog.com touch-sp.hatenablog.com 今回はGluonNLPでGloveの学習済みモ…

WindowsからfastTextを使ってみる

参考にさせて頂いたページ tadaoyamaoka.hatenablog.com 環境 下準備 fastTextの導入 テキストファイルの準備 fastTextの実行 gensimを使って評価 結果 テキストファイルの下処理 「CKD(慢性腎臓病)」-「慢性」+「急性」=「AKI(急性腎障害)」 感想 R…

「慢性腎臓病」-「慢性」+「急性」=「急性腎障害」

下準備 データの取得 GloVe Word Embeddingsを使用 結果の確認 環境 下準備 #ストップワードを決める library(tm) new_stopwords <- c(stopwords("en"), "also", "however", "thus", "may") saveRDS(new_stopwords, "new_stopwords") データの取得 腎臓関連…

GloVe Word Embeddingsを試してみる

ほとんどマニュアル通りに行っただけ。 GloVe Word Embeddings <環境> > sessionInfo() R version 3.4.2 (2017-09-28) Platform: x86_64-w64-mingw32/x64 (64-bit) Running under: Windows 10 x64 (build 16299) Matrix products: default locale: [1] LC_…