WSL2でStable Diffusion 2.0を使用する

PC環境 Ubuntu 20.04 on WSL2 RTX 3080(VRAM 12GB) CUDA 11.6.2 Miniconda3-py39_4.12.0-Linux-x86_64環境構築cuDNNのインストールは不要です。Minicondaを使用しています。 conda create -n SDv2 python=3.9 conda activate SDv2 簡単にするために一部「r…

WindowsでStable Diffusion 2.0を使用する

おことわり公式ページには「xformers」ライブラリのインストールを推奨すると書いてありますが今回は行っていません。そのためかVRAM 12GBのRTX 3080で768x768pxを扱うSD2.0-vはメモリ不足で実行できませんでした。 WSL2ではxformersのインストールが簡単でS…

【物体検出】AutoGluonを使ってMMDetectionの学習を行う

はじめに 環境構築 学習データの準備 学習 推論 結果 関連記事 はじめにAutoGluonを使ってMMDetectionの学習を行うことができるようになったのでさっそく試してみました。学習データを作成するところから学習、推論といっきにやっていきます。環境構築 Ubunt…

MMOCR学習用のデータを自作して学習を行う

公開日:2022年11月16日 最終更新日:2022年11月24日 はじめに TRDGを使う方法 PySide6を使う方法 Pythonスクリプト 実行環境 準備するもの テキストファイルと辞書ファイル PySide6で使用するフォントファイル TRDGで使用するフォントファイル テスト用デー…

【改良】MMOCR学習用のデータセットをPySide6で作ってみた

はじめに Pythonスクリプト 使い方 フォントファイル(fonts.txt)の準備 テキストファイル(texts.txt)の準備 実行 結果 はじめに以前書いたPythonスクリプトを改良しました。 touch-sp.hatenablog.com 改良点は以下の3点 GUIを非表示にしました マルチス…

MMOCRで日本語を学習させた時の結果あれこれ

OCR

テスト画像 「max_seq_len」をいろいろ変えてみた 「max_seq_len = 25」(default) 「max_seq_len = 30」 「max_seq_len = 35」 「Image Size」をいろいろ変えてみた 「Image Size 200x32」 「Image Size 150x32」 関連記事 テスト画像上4つがTRDGで作った…

MMOCR学習用のデータセットをPySide6で作ってみた

公開日:2022年10月31日 最終更新日:2022年11月11日 はじめに Pythonスクリプト 結果 関連記事 補足(ノイズの追加) スクリプトの改良 はじめに以前、MMOCR学習用のデータを「TextRecognitionDataGenerator」で作りました。 github.com 今回PySide6を使っ…

OpenMMLab の MMOCR に日本語の学習をさせたい【dev-1.x】

OCR

公開日:2022年10月27日 最終更新日:2022年11月24日 はじめに PC環境 Python環境構築 学習データの作成 Configファイルを作成する 学習用ファイルを実行する 補足① 補足② その他 はじめに前回「MMOCR==0.6.2」を使って日本語の学習を行いました。 touch-sp.…

OpenMMLab の MMOCR に日本語の学習をさせたい【v0.6.2】

OCR

公開日:2022年10月25日 最終更新日:2022年10月26日 PC環境 Python環境構築 学習データの作成 テキストファイルを準備する 辞書ファイルを作成する フォントを準備する TextRecognitionDataGeneratorを使用する Configファイルを作成する 学習用ファイルを…

OpenMMLab の MMOCR==1.0.0rc3 を試してみる

OCR

公開日:2022年10月15日 最終更新日:2022年11月14日 はじめに 動作環境 インストール Pythonスクリプト 結果 補足(辞書ファイルのダウンロードについて) abinet_20e_st-an_mj crnn_mini-vgg_5e_mj master_resnet31_12e_st_mj_sa nrtr_resnet31-1by8-1by4_…

画像生成AI「Stable Diffusion」をVRAM 6GBしかないノートPCで実行しました【WSL2】

公開日:2022年10月11日 最終更新日:2022年10月13日 はじめに PC環境 WSL2環境 環境構築 実行方法 リポジトリのクローン 学習済みパラメーター「sd-v1-4.ckpt」のダウンロード 「sd-v1-4.ckpt」の移動 いよいよ実行 動作確認できたその他の環境 Ubuntu 20.0…

PySide6でPDF.jsを使う

はじめに PDF.jsの導入 Pythonスクリプト 使い方 補足 はじめに以前PythonでPDFを扱う記事を書きました。 touch-sp.hatenablog.com 今回はPDF.jsを使って同じことをしてみました。 GUI周りはPyQt6からPySide6に変えています。PySide6にはWebEngineが組み込ま…

続・OpenMMLab の MMDetection==3.0.0rcを試してみる【学習編】

公開日:2022年9月30日 最終更新日:2022年11月22日 はじめに 環境構築 モデル別学習スクリプト faster-rcnn_r50_fpn_1x_coco 学習 推論 はじめに前回推論を行いました。 touch-sp.hatenablog.com今回は学習編です。 公式サイトにはCOCOフォーマットを使って…

OpenMMLab の MMDetection==3.0.0rc を試してみる

公開日:2022年9月28日 最終更新日:2022年11月26日 初めに インストール オリジナル 動作確認済みの最新環境 推論のためのPythonスクリプト 気付いた変更点 学習編 初めに2022年11月25日現在MMDetectionの最新は2.26.0です。公式ページによると3.xの公開に…

AutoGluonを使ってMMOCRの推論が行えるよ

公開日:2022年9月27日 最終更新日:2022年11月17日 この記事は2022年11月17日AutoGluon 0.6が公開されたのに合わせて更新されています。 はじめに Pythonスクリプト 結果 その他のモデル 環境構築 はじめに以前「MMOCR」の推論を行う記事を書きました。 tou…

OpenMMLab の MMDetection を使う【学習編】

公開日:2022年9月21日 最終更新日:2022年9月24日 はじめに 今回使用した学習データ モデル別学習スクリプト faster_rcnn_r50_fpn_1x_coco cascade_rcnn_r50_fpn_1x_coco libra_faster_rcnn_r50_fpn_1x_coco ssd512_coco yolox_s_8x8_300e_coco 推論 結果 f…

【超簡単】MMTrackingとYOLOv5を使って物体検出モデルの学習を教師データ作成含めてサクッと行う

公開日:2022年9月19日 最終更新日:2022年9月21日 はじめに 方法の概略 実行 Clone サンプル動画のダウンロード 学習データ作成、学習 推論 環境構築 使用させて頂いたツール その他 はじめに以前からどうにか物体検出モデルの学習を簡単にできないかと模索…

OpenMMLab の MMTracking でconfig、checkpointをダウンロードしようとするとエラーが出た

公開日:2022年9月16日 最終更新日:2022年9月20日 2022年9月19日「mmtrack==0.14.0」が公開されてこのバグは修正されています。 エラーが出るPythonスクリプト import os from mim.commands.download import download os.makedirs('models', exist_ok=True)…

OpenMMLab の MMOCR を使ってみる

OCR

公開日:2022年9月16日 最終更新日:2022年11月24日 はじめに Pythonスクリプト 結果 その他 解説 選択できるモデル Detectionモデル Recognitionモデル Key Information Extractionモデル 動作環境 環境構築 補足 はじめに今までいろいろOCRの記事を書いて…

OpenMMLab の MMSegmentation を使ってカメラからの入力に対して人物以外の背景を消す

はじめに スクリプトの比較 MMDetection MMEditing MMSegmentation 人物以外の背景を消すPythonスクリプト(本題) 動作環境 関連記事 MMDetection MMEditing はじめにOpenMMLabの「MMdetection」を使ってもセグメンテーションはできますが、「MMdetection」…

【Windows】【OpenBLAS】MXNet 2.0(dev) + CUDA 11.7(Building From Source)

Windowsで動作するGPU版MXNet2.0(CUDA 11.7)をOpenBLASを使ってソースからビルドすることに成功しました。

【WSL2】【OpenBLAS】MXNet 2.0(dev) + CUDA 11.7(Building From Source)

CUDA 11.7の環境でGPU版MXNet2.0(dev)をソースからビルドすることに成功しました。

【Windows】【OpenBLAS】【no GPU】MXNet 1.9(Building From Source)

公開日:2022年9月12日 If you want to use GPU, please see this page. https://touch-sp.hatenablog.com/entry/2022/09/06/004928 Introduction Environment Preparation Install OpenCV Download OpenBLAS binary package Download MXNet sources Build C…

AutoGluon の MultiModalPredictor まとめ

AutoGluonのMultiModalPredictorを使った記事をいくつか書きました。 わかりやすいようにまとめ記事を書きました。

GluonTSに新しく導入されたPandasDatasetを使う

公開日:2022年9月8日 最終更新日:2022年10月13日 はじめに PC環境 Python環境 Pythonスクリプト その他 学習済みモデルの保存 保存 読み込み 将来予測 「make_evaluation_predictions」を使う方法 「predict」を使う方法 Dev版 GluonTS はじめにGluonTSの…

【Windows】【OpenBLAS】MXNet 1.9 + CUDA 11.7(Building From Source)

Windowsで動作するGPU版MXNet(CUDA 11.7)をOpenBLASを使ってソースからビルドすることに成功しました。

【Windows】【MKL BLAS】MXNet 1.9 + CUDA 11.7(Building From Source)

Windowsで動作するGPU版MXNet(CUDA 11.7)をMKL BLASを使ってソースからビルドすることに成功しました。

【WSL2】【OpenBLAS】MXNet 1.9 + CUDA 11.7(Building From Source)

CUDA 11.7の環境でGPU版MXNetをソースからビルドすることに成功しました。

【続】画像生成AI「Stable Diffusion」をローカル環境で実行する(img2img:画像と文章から新たな画像を作成する)

前回に引き続きオープンソースで公開されているStability AIの画像生成AI「Stable Diffusion」をローカル環境で実行します。今回はimg2imgに挑戦しました。

画像生成AI「Stable Diffusion」をローカル環境で実行する

オープンソースで公開されているStability AIの画像生成AI「Stable Diffusion」をローカル環境で実行してみました。