R

Rできれいな図を描く(棒グラフ) Part 2

R

touch-sp.hatenablog.com mydata <- c(1.6,1.2,1.23,1.08,1.01,1.00,1.12,1.06,1.15,1.28,1.35) mycol <- rep(rgb(90,155,215, maxColorValue=255),11) mycol[6] <- "red" png("myGraph.png", width=900, height=600, bg="transparent") #外枠を描く plot(0,…

「text2vec」パッケージを使ってSCDVのようなことをやってみる

R

================================================ word2vecの代わりに「text2vec」パッケージのGloveを使用 GMMは「ClusterR」パッケージを使用 ================================================ 環境 データの準備 GloVeでワードベクトル作成まで 混合…

RとfastTextを使ってSCDVのようなことをやってみる

R

Ubuntu上でfastTextを実行(word2vecの代わり) その結果をRで拾い上げ、その後を実行 Ubuntu上でfastTextを実行(word2vecの代わり) touch-sp.hatenablog.com その結果をRで拾い上げ、その後を実行 library(text2vec) #fastTextデータ(ワードベクトル)を…

トピックモデルを使った文献スクリーニング (3)

touch-sp.hatenablog.com 上記をやや修正した Perlを使って表記ゆれ対策 下準備 Rのtext2vecパッケージを使う 結果 Perlを使って表記ゆれ対策 Rの「tm」パッケージ「stemDocument」はうまくいかないので頻出単語を調べたうえで自力で。 変換する単語数を増や…

トピックモデルを使った文献スクリーニング (2)

データのダウンロード Linuxコマンドでmd5チェックと解凍 C#を使ってアブストラクトを抽出 Perlを使って表記ゆれ対策 Rのtext2vecパッケージを使う 結果 データのダウンロード ダウンロードはこちらから。 Linuxコマンドでmd5チェックと解凍 md5sum -c pubme…

トピックモデルを使った文献スクリーニング

R

データの準備 約10万文献を使用。 下記を参照。 touch-sp.hatenablog.com トピックモデルの作成 library(text2vec) #データの読み込み new_stopwords <- readRDS("new_stopwords") Absts <- readLines("Absts_train.txt") #単語の抽出 it <- itoken(Absts, t…

文献アブストラクトから作成したTF-IDFを使って似たような文献を探してみる

R

<環境> > sessionInfo() R version 3.4.2 (2017-09-28) Platform: x86_64-w64-mingw32/x64 (64-bit) Running under: Windows 10 x64 (build 16299) Matrix products: default locale: [1] LC_COLLATE=Japanese_Japan.932 LC_CTYPE=Japanese_Japan.932 [3] …

GloVe Word Embeddingsを試してみる(2)日本語に挑戦

R

パソコンで楽しむ自分で動かす人工知能作者: 中島能和出版社/メーカー: インプレス発売日: 2017/08/10メディア: Kindle版この商品を含むブログを見る上記に書かれていることをMeCabとRとtext2vecパッケージを使って実行。 <環境> > sessionInfo() R versio…

GloVe Word Embeddingsを試してみる

R

ほとんどマニュアル通りに行っただけ。 GloVe Word Embeddings <環境> > sessionInfo() R version 3.4.2 (2017-09-28) Platform: x86_64-w64-mingw32/x64 (64-bit) Running under: Windows 10 x64 (build 16299) Matrix products: default locale: [1] LC_…

文献のアブストラクトを取得してTF-IDFを作成する(2)

R

PubMedから検索結果をXMLフォーマットでダウンロードした場合を想定。 検索結果をダウンロードするには、検索結果ページの右上にある「Send to」をクリック、「File」を選択し、Formatを「XML」にして「Create File」をクリック。 「pubmed_result.xml」とい…

文献のアブストラクトを取得してTF-IDFを作成する

R

<環境> > sessionInfo() R version 3.4.2 (2017-09-28) Platform: x86_64-w64-mingw32/x64 (64-bit) Running under: Windows 10 x64 (build 16299) Matrix products: default locale: [1] LC_COLLATE=Japanese_Japan.932 LC_CTYPE=Japanese_Japan.932 [3] …

Rの「text2vec」パッケージ

R

Rの「text2vec」パッケージを使ってみる。 library(text2vec) a <- c("1:He loves her.", "2:She loves her.", "3:Her friends loved her") 【1】単語を抽出する it <- itoken(a, tolower, word_tokenizer) (voc <- create_vocabulary(it)) Number of docs: …

RでEutilsを使ってみる

Rによるスクレイピング入門作者: 石田基広,市川太祐,瓜生真也,湯谷啓明出版社/メーカー: シーアンドアール研究所発売日: 2017/03/27メディア: 単行本(ソフトカバー)この商品を含むブログ (2件) を見る上記を参考にEutilsを使用してみる。 library(dplyr) l…

RMeCabを使ってみる

R

Rによるスクレイピング入門作者: 石田基広,市川太祐,瓜生真也,湯谷啓明出版社/メーカー: シーアンドアール研究所発売日: 2017/03/27メディア: 単行本(ソフトカバー)この商品を含むブログ (2件) を見る上記を参考にRMeCabを使用してみる。 RMeCabのインスト…

Rできれいな図を描く(円グラフ)

R

value <- c(50, 51, 29, 35, 18, 68) mycol <- c( rgb(134, 202, 232, maxColorValue = 255), rgb(153, 165, 204, maxColorValue = 255), rgb(246, 170, 200, maxColorValue = 255), rgb(254, 210, 122, maxColorValue = 255), rgb(245, 162, 108, maxColorV…

Rできれいな図を描く(棒グラフ)

R

2010 2011 2012 2013 2014 2015 1 149 136 133 122 118 144 2 174 132 154 111 126 152 データの作成 データの読み込み(Excelからクリップボード経由で読み込む想定) mydata <- read.table(file = "clipboard", header = T, check.names = F) mymatrix <- …

Rできれいな図を描く(折れ線グラフ)

R

2008 2009 2010 2011 2012 2013 2014 2015 A 43.30 44.50 43.60 44.30 44.20 43.80 43.50 43.70 B 22.80 21.90 21.00 20.20 19.40 18.80 17.80 16.90 C 10.60 10.70 11.70 11.80 12.30 13.10 14.20 14.20 データの読み込み(Excelからクリップボード経由で読…

Rで横軸が時系列のグラフを書く

R

日付の場合 a <- as.Date(c("2017/4/15","2017/5/2","2017/8/31")) b <- c(2,8,7) par(xaxt="n") plot(a,b,type="b",ylim=c(0,10),xlab="time",ylab="value") par(xaxt="s") axis.Date(1,at=seq(min(a),max(a),"month"),format="%m月%d日") 時間の場合 a <- …

rmarkdownで表を書く

R

rmdファイル --- title: "irisテーブル" output: html_document --- ```{r} head(iris) ``` --- ```{r results="asis"} print(xtable(head(iris)),type="html") ``` --- ```{r results="asis"} al <- rep("center",ncol(iris)+1) print(xtable(head(iris), a…

Rの結果をPDFに出力する (rmarkdown)

R

以前にも同様のことを書いた touch-sp.hatenablog.com 今回は「rmarkdown」パッケージを使用する PDF出力はWordで行う rmdファイルを用意する(Markdown1.rmd) --- output: word_document --- ```{r echo=FALSE} print(title) t.test(セトサ, バージーカラー,…

Rの小技

R

過去の記事をまとめたもの ■ExcelファイルをRに読み込む クリップボード経由でファイルを読み込む方法 mydata <- read.table(file="clipboard",header=T,sep="\t") ■データフレームの入力 mydata <- edit(data.frame()) ■プロットのマーカーをきれいに表示…

YOLO学習のためのファイル操作もろもろ

複数のファイルに連番をつける Windowsの場合にはコマンドプロンプト(あるいはPower Shell)を使えばできる。 新たに勉強するのが面倒くさいのでRで行う。 (例としてPASという名前がついたtifファイルに連番をつける) mypath <- getwd() setwd(choose.dir…

RでMXNet(9)

vgg16モデルを使ったfinetune Kaggleの「Dogs vs. Cats」をやってみる 学習データ、テストデータの準備 学習データは犬の写真2000枚、猫の写真2000枚 テストデータは犬の写真1250枚、猫の写真1250枚 library(EBImage) #jpeg画像を配列に変換 x_train <- arra…

WindowsのRからGPU版MXNetを使う

環境 Windows 10 Professional GeForce GTX 1080 Microsoft R open 3.4.0 手順 Visual C++ 2015 Build Toolsをインストール CUDA Toolkit 8.0をインストールするためにはVisual Studio 2015が必要と書かれているが実はこれだけインストールしていれば問題な…

RでMXNet(8)

速報 Githubをなんとなくのぞいてみたら、 400 mx.model.FeedForward.create <- 401 function(symbol, X, y=NULL, ctx=NULL, begin.round=1, 402 num.round=10, optimizer="sgd", 403 initializer=mx.init.uniform(0.01), 404 eval.data=NULL, eval.metric=N…

RでMXNet(7)

Windows10 64bit Microsoft R Open 3.4.0 ネットワークモデルを変更する方法 Fine-tuneをするにあたって大事 いつの日かGPU搭載パソコンが手に入ることを夢見て簡単なモデルで練習(泣) 数年前に手に入れたノートパソコン(Intel第3世代 Ivy Bridge搭載)で…

RでMXNet(6)

Windows10 64bit Microsoft R Open 3.4.0 VGG16訓練後モデルを取得する方法 download.file("http://data.dmlc.ml/models/imagenet/vgg/vgg16-symbol.json","vgg16-symbol.json") download.file("http://data.dmlc.ml/models/imagenet/vgg/vgg16-0000.params"…

RでMXNet(5)

訓練後のモデルの保存(手動) mx.model.save(model, "mymodel", 5) 最後の数字は訓練の回数を表す。 同じモデルでも数字を変えればパラメータを別々に保存できる。 たとえば10エポック訓練した後のパラメータ、20エポック訓練した後のパラメータなどなど。 …

RでMXNet(4)

Kaggleの「Dogs vs. Cats」をやってみる。 こちらを参考にさせて頂いた。 train.zip(25000枚のjpeg画像)をダウンロードして解凍。 猫、犬の画像をそれぞれcatフォルダ、dogフォルダに分ける。 データの準備 library(EBImage) #jpeg画像を配列に変換 x_trai…

RでMXNet(3)

MNIST 99%以上を目指す! と言っても下記の本で紹介されているニューラルネットワークをMXNetで書いただけ。ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装作者: 斎藤康毅出版社/メーカー: オライリージャパン発売日: 2016/09/24メ…