自然言語処理

GluonNLPを使ってみる(Word Embeddings)

以前にも同様の記事を書いています。 touch-sp.hatenablog.com MXNetとGluonNLPが新しくなっているため改めて動作確認を行いました。 環境 バージョン確認(pip freeze) 実行スクリプト 結果 2021年1月1日追記 環境 Windows10 GPUなし Python 3.8.2 バージ…

bertにCoLAデータセットを学習させてセンター試験英語の穴埋め問題を解いてみたがうまくいかなかった

結論 問題 学習コード 推論コード 結果 補足 環境 結論 正解率が上がらずうまくいかなかった。 その原因として以下のことが考えらえる。 bertモデルの使い方が根本的に違う CoLAデータセットが今回の問題に適切でなかった モデルのチューニング(ハイパーパ…

今さらながら自然言語分類(日本語)を試してみる【MXNet】

はじめに 使用するデータ ファイルの読み込み 形態素解析と単語のID化→その後保存 モデルの作成 実行 結果の確認 参考文献 はじめに 文章を固定長のベクトルで表現することにチャレンジしました。 最後にt-SNEで2次元に落とし込んで図示しています。 使用す…

GluonNLPを使ってみる(Word Embeddings)

はじめに 環境 バージョン確認(pip freeze) 実行スクリプト 学習済みモデルの種類 2019年9月4日追記 2019年9月5日追記 はじめに 以前にGloveやFastTextを試してみた。 touch-sp.hatenablog.com touch-sp.hatenablog.com 今回はGluonNLPでGloveの学習済みモ…

WindowsからSCDVを使ってみる

参考にさせて頂いたページ qiita.com 2018年2月現在SCDVに関して日本語で書かれたページはここしか見つからなかった。 SCDVを勉強したいが元論文は英語で書かれていてもちろん読めるわけがない。 Githubのスクリプトを眺めてもなにがなんだかわからない。 …

WindowsからfastTextを使ってみる

参考にさせて頂いたページ tadaoyamaoka.hatenablog.com 環境 下準備 fastTextの導入 テキストファイルの準備 fastTextの実行 gensimを使って評価 結果 テキストファイルの下処理 「CKD(慢性腎臓病)」-「慢性」+「急性」=「AKI(急性腎障害)」 感想 R…

Perlを使って表記ゆれ対策(自然言語処理)

WindowsストアからUbuntuをインストールしたらPerlが入っていた。 WindowsでPerlを使いたければ直接インストールするよりも楽だと思う。 Rの「tm」パッケージ「stemDocument」はうまくいかないので自力で。 while(<>){ s/studies/study/ig; s/mortalities/mo…

GloVe Word Embeddings 「慢性腎臓病」-「慢性」+「急性」=「急性腎障害」

下準備 データの取得 GloVe Word Embeddingsを使用 結果の確認 環境 下準備 #ストップワードを決める library(tm) new_stopwords <- c(stopwords("en"), "also", "however", "thus", "may") saveRDS(new_stopwords, "new_stopwords") データの取得 腎臓関連…

GloVe Word Embeddingsを試してみる

ほとんどマニュアル通りに行っただけ。 GloVe Word Embeddings <環境> > sessionInfo() R version 3.4.2 (2017-09-28) Platform: x86_64-w64-mingw32/x64 (64-bit) Running under: Windows 10 x64 (build 16299) Matrix products: default locale: [1] LC_…