自然言語処理

Stability AI が公開している「Japanese InstructBLIP Alpha」を使って日本語で写真の説明をしてもらう

huggingface.co はじめに以前BLIP, BLIP2を使った経験があります。 touch-sp.hatenablog.com touch-sp.hatenablog.com 「Japanese InstructBLIP Alpha」は名前から分かる通り日本語が使えます。 質問にも答えてくれました。用意した画像以前と同様、こちらの…

リクルート社が発表した「japanese-clip-vit-b-32-roberta-base」を使って日本語で画像検索をする

前回に引き続きリクルート社が発表した「japanese-clip-vit-b-32-roberta-base」を使っていきます。 touch-sp.hatenablog.com 今回は日本語での画像検索に挑戦しました。 1年以上前にOpenAIのCLIPを使って同じことをした経験があります。 touch-sp.hatenablo…

今さらながら自然言語分類(日本語)を試してみる【MXNet】

はじめに 使用するデータ ファイルの読み込み 形態素解析と単語のID化→その後保存 モデルの作成 実行 結果の確認 参考文献 はじめに 文章を固定長のベクトルで表現することにチャレンジしました。 最後にt-SNEで2次元に落とし込んで図示しています。 使用す…

WindowsからSCDVを使ってみる

参考にさせて頂いたページ qiita.com 2018年2月現在SCDVに関して日本語で書かれたページはここしか見つからなかった。 SCDVを勉強したいが元論文は英語で書かれていてもちろん読めるわけがない。 Githubのスクリプトを眺めてもなにがなんだかわからない。 …

WindowsからfastTextを使ってみる

参考にさせて頂いたページ tadaoyamaoka.hatenablog.com 環境 下準備 fastTextの導入 テキストファイルの準備 fastTextの実行 gensimを使って評価 結果 テキストファイルの下処理 「CKD(慢性腎臓病)」-「慢性」+「急性」=「AKI(急性腎障害)」 感想 R…

Perlを使って表記ゆれ対策(自然言語処理)

WindowsストアからUbuntuをインストールしたらPerlが入っていた。 WindowsでPerlを使いたければ直接インストールするよりも楽だと思う。 Rの「tm」パッケージ「stemDocument」はうまくいかないので自力で。 while(<>){ s/studies/study/ig; s/mortalities/mo…

GloVe Word Embeddings 「慢性腎臓病」-「慢性」+「急性」=「急性腎障害」

下準備 データの取得 GloVe Word Embeddingsを使用 結果の確認 環境 下準備 #ストップワードを決める library(tm) new_stopwords <- c(stopwords("en"), "also", "however", "thus", "may") saveRDS(new_stopwords, "new_stopwords") データの取得 腎臓関連…

GloVe Word Embeddingsを試してみる

ほとんどマニュアル通りに行っただけ。 GloVe Word Embeddings <環境> > sessionInfo() R version 3.4.2 (2017-09-28) Platform: x86_64-w64-mingw32/x64 (64-bit) Running under: Windows 10 x64 (build 16299) Matrix products: default locale: [1] LC_…