RとfastTextを使ってSCDVのようなことをやってみる

R

Ubuntu上でfastTextを実行(word2vecの代わり) その結果をRで拾い上げ、その後を実行 Ubuntu上でfastTextを実行(word2vecの代わり) touch-sp.hatenablog.com その結果をRで拾い上げ、その後を実行 library(text2vec) #fastTextデータ(ワードベクトル)を…

WindowsからSCDVを使ってみる

参考にさせて頂いたページ qiita.com 2018年2月現在SCDVに関して日本語で書かれたページはここしか見つからなかった。 SCDVを勉強したいが元論文は英語で書かれていてもちろん読めるわけがない。 Githubのスクリプトを眺めてもなにがなんだかわからない。 …

WindowsからfastTextを使ってみる

参考にさせて頂いたページ tadaoyamaoka.hatenablog.com 環境 下準備 fastTextの導入 テキストファイルの準備 fastTextの実行 gensimを使って評価 結果 テキストファイルの下処理 「CKD(慢性腎臓病)」-「慢性」+「急性」=「AKI(急性腎障害)」 感想 R…

トピックモデルを使った文献スクリーニング (2)

データのダウンロード Linuxコマンドでmd5チェックと解凍 C#を使ってアブストラクトを抽出 Perlを使って表記ゆれ対策 Rのtext2vecパッケージを使う 結果 データのダウンロード ダウンロードはこちらから。 Linuxコマンドでmd5チェックと解凍 md5sum -c pubme…

Perlを使って表記ゆれ対策(自然言語処理)

WindowsストアからUbuntuをインストールしたらPerlが入っていた。 WindowsでPerlを使いたければ直接インストールするよりも楽だと思う。 Rの「tm」パッケージ「stemDocument」はうまくいかないので自力で。 while(<>){ s/studies/study/ig; s/mortalities/mo…

トピックモデルを使った文献スクリーニング

R

データの準備 約10万文献を使用。 下記を参照。 touch-sp.hatenablog.com トピックモデルの作成 library(text2vec) #データの読み込み new_stopwords <- readRDS("new_stopwords") Absts <- readLines("Absts_train.txt") #単語の抽出 it <- itoken(Absts, t…

ガイドライン作成時の文献1次スクリーニング

目標 約450文献から16文献を抽出する。 (実際に過去に行った作業であり16文献はその結果である) まずは16文献がどのように散らばっているかを見てみよう。 まんべんなく散らばっていることがわかる。 今回はそれらを集めることが目標。 データの準備 約10…

GloVe Word Embeddings 「慢性腎臓病」-「慢性」+「急性」=「急性腎障害」

下準備 データの取得 GloVe Word Embeddingsを使用 結果の確認 環境 下準備 #ストップワードを決める library(tm) new_stopwords <- c(stopwords("en"), "also", "however", "thus", "may") saveRDS(new_stopwords, "new_stopwords") データの取得 腎臓関連…

文献1次スクリーニングのためにdoc2vecを試してみる

検索結果のダウンロード、データの取得 touch-sp.hatenablog.com doc2vecを試してみる Pythonを使用 import warnings warnings.filterwarnings(action='ignore', category=UserWarning, module='gensim') from gensim.models.doc2vec import Doc2Vec from ge…

PubMedからダウンロードしたXMLファイルをC#で操作する (巨大な場合)

C#

検索結果のダウンロード PubMedから検索結果をXMLフォーマットでダウンロード。 検索結果をダウンロードするには、検索結果ページの右上にある「Send to」をクリック、「File」を選択し、Formatを「XML」にして「Create File」をクリック。 「pubmed_result.…

GloVe Word Embeddingsを試してみる

ほとんどマニュアル通りに行っただけ。 GloVe Word Embeddings <環境> > sessionInfo() R version 3.4.2 (2017-09-28) Platform: x86_64-w64-mingw32/x64 (64-bit) Running under: Windows 10 x64 (build 16299) Matrix products: default locale: [1] LC_…

ExcelからWord内の単語を置換する

Excel VBAを使ってWord内の単語を置換する方法です。