2022-01-01から1年間の記事一覧

【Stable Diffusion】人物の姿勢を決めるのに呪文をあれこれ考えるのもいいけど元画像を用意した方が簡単です

公開日:2022年12月31日 最終更新日:2023年3月7日 はじめに 元画像 結果 プリンセス風 金髪美女 使用したスクリプト おまけ(trinart_stable_diffusion_v2) 結果 Pythonスクリプト おまけ(waifu-diffusion-v1-3-5) おまけ②(ControlNet) はじめに「Stab…

「Versatile-Diffusion」でImage Captioningをやってみたけど精度はいまいちだった

はじめに 環境 方法 リポジトリのダウンロード フォルダの作成 学習済みパラメーターのダウンロード 実行 結果 はじめに「Stable Diffusion」などの画像生成AIが最近話題です。これらはテキスト(呪文)から画像を生成します。「Versatile-Diffusion」はその…

【Diffusers】VRAM 6GBしかないノートPCで「Stable Diffusion 2.1-base」をローカルで動かす

公開日:2022年12月17日 最終更新日:2023年2月11日 はじめに Hugging Faceリポジトリをダウンロードする方法 GitHubリポジトリをダウンロードする方法 PC環境 環境構築 Hugging Faceのリポジトリダウンロード 方法1 方法2 Pythonスクリプト 少ないVRAMで…

【Optimized Stable Diffusion】ネガティブプロンプトを使ってみる

はじめに PC環境 環境構築 実行 「optimized_txt2img.py」の書き換え まずは普通に動かしてみる プロンプトを記述したファイル(prompt.txt) 実行 結果 赤い髪と赤い眼を除外 プロンプトを記述したファイル(prompt.txt) ネガティブプロンプトを記述したフ…

WindowsでStable Diffusion 2.1を使用する(xFormersあり)

公開日:2022年12月10日 最終更新日:2023年1月8日 はじめに PC環境 環境構築 実行方法 リポジトリのクローン いよいよ実行 Text-to-Image Classic Img2Img はじめにWindowsでStable Diffusion 2.1を使用する方法を書きます。PC環境 Windows 11 RTX 3080(VR…

OpenMMLab の MMEditing 1.0.0rc を使ってサクッと超解像

公開日:2022年12月6日 最終更新日:2023年9月8日 MMEditingはMMagicに吸収されました。 新しくMMagicを使った超解像の記事を書いたのでよかったらそちらを見て下さい。 touch-sp.hatenablog.com これ以降がオリジナル記事ですが内容が古くなっています。は…

WSL2でStable Diffusion 2.0を使用する

公開日:2022年11月26日 最終更新日:2022年12月3日はじめに別記事にWSL2を使わない方法も書いていますので良かったらそちらも読んで下さい。 touch-sp.hatenablog.com PC環境 Ubuntu 20.04 on WSL2 RTX 3080(VRAM 12GB) CUDA 11.6.2 使用したPythonはUbun…

WindowsでStable Diffusion 2.0を使用する(xFormersあり)

公開日:2022年11月26日 最終更新日:2022年12月10日 Version 2.1の記事を新たに書きました。 touch-sp.hatenablog.com はじめに PC環境 環境構築 実行方法 リポジトリのクローン 学習済みパラメーター「768-v-ema.ckpt」のダウンロード いよいよ実行 他の環…

【物体検出】AutoGluonを使ってMMDetectionの学習を行う

公開日:2022年11月26日 最終更新日:2023年1月31日 はじめに 環境構築 学習データの準備 学習 推論 結果 関連記事 はじめにAutoGluonを使ってMMDetectionの学習を行うことができるようになったのでさっそく試してみました。学習データを作成するところから…

MMOCR学習用のデータを自作して学習を行う

公開日:2022年11月16日 最終更新日:2022年11月24日 はじめに TRDGを使う方法 PySide6を使う方法 Pythonスクリプト 実行環境 準備するもの テキストファイルと辞書ファイル PySide6で使用するフォントファイル TRDGで使用するフォントファイル テスト用デー…

【改良】MMOCR学習用のデータセットをPySide6で作ってみた

はじめに Pythonスクリプト 使い方 フォントファイル(fonts.txt)の準備 テキストファイル(texts.txt)の準備 実行 結果 はじめに以前書いたPythonスクリプトを改良しました。 touch-sp.hatenablog.com 改良点は以下の3点 GUIを非表示にしました マルチス…

MMOCRで日本語を学習させた時の結果あれこれ

OCR

テスト画像 「max_seq_len」をいろいろ変えてみた 「max_seq_len = 25」(default) 「max_seq_len = 30」 「max_seq_len = 35」 「Image Size」をいろいろ変えてみた 「Image Size 200x32」 「Image Size 150x32」 関連記事 テスト画像上4つがTRDGで作った…

MMOCR学習用のデータセットをPySide6で作ってみた

公開日:2022年10月31日 最終更新日:2022年11月11日 はじめに Pythonスクリプト 結果 関連記事 補足(ノイズの追加) スクリプトの改良 はじめに以前、MMOCR学習用のデータを「TextRecognitionDataGenerator」で作りました。 github.com 今回PySide6を使っ…

OpenMMLab の MMOCR に日本語の学習をさせたい【dev-1.x】

OCR

公開日:2022年10月27日 最終更新日:2022年11月24日 はじめに PC環境 Python環境構築 学習データの作成 Configファイルを作成する 学習用ファイルを実行する 補足① 補足② その他 はじめに前回「MMOCR==0.6.2」を使って日本語の学習を行いました。 touch-sp.…

OpenMMLab の MMOCR に日本語の学習をさせたい【v0.6.2】

OCR

公開日:2022年10月25日 最終更新日:2023年7月18日 PC環境 Python環境構築 学習データの作成 テキストファイルを準備する 辞書ファイルを作成する フォントを準備する TextRecognitionDataGeneratorを使用する Configファイルを作成する 学習用ファイルを実…

OpenMMLab の MMOCR==1.0.0rc を試してみる

OCR

公開日:2022年10月15日 最終更新日:2022年12月8日 はじめに 動作環境 1 2 Pythonスクリプト 結果 補足(辞書ファイルのダウンロードについて) abinet_20e_st-an_mj crnn_mini-vgg_5e_mj master_resnet31_12e_st_mj_sa nrtr_resnet31-1by8-1by4_6e_st_mj r…

画像生成AI「Stable Diffusion」をVRAM 6GBしかないノートPCで実行しました【WSL2】

公開日:2022年10月11日 最終更新日:2022年12月15日 はじめに PC環境 WSL2環境 環境構築 実行方法 リポジトリのクローン 学習済みパラメーター「sd-v1-4.ckpt」のダウンロード 「sd-v1-4.ckpt」の移動 いよいよ実行 動作確認できたその他の環境 Windows 11 …

PySide6でPDF.jsを使う

はじめに PDF.jsの導入 Pythonスクリプト 使い方 補足 はじめに以前PythonでPDFを扱う記事を書きました。 touch-sp.hatenablog.com 今回はPDF.jsを使って同じことをしてみました。 GUI周りはPyQt6からPySide6に変えています。PySide6にはWebEngineが組み込ま…

続・OpenMMLab の MMDetection==3.0.0rcを試してみる【学習編】

公開日:2022年9月30日 最終更新日:2022年12月3日 はじめに 環境構築 モデル別学習スクリプト faster-rcnn on VOC dataset 学習 faster-rcnn on COCO dataset 学習 推論 はじめに前回推論を行いました。 touch-sp.hatenablog.com今回は学習編です。 公式サ…

OpenMMLab の MMDetection==3.0.0rc を試してみる

公開日:2022年9月28日 最終更新日:2022年11月26日 初めに インストール オリジナル 動作確認済みの最新環境 推論のためのPythonスクリプト 気付いた変更点 学習編 初めに2022年11月25日現在MMDetectionの最新は2.26.0です。公式ページによると3.xの公開に…

AutoGluonを使ってMMOCRの推論が行えるよ

公開日:2022年9月27日 最終更新日:2022年11月17日 この記事は2022年11月17日AutoGluon 0.6が公開されたのに合わせて更新されています。 はじめに Pythonスクリプト 結果 その他のモデル 環境構築 はじめに以前「MMOCR」の推論を行う記事を書きました。 tou…

OpenMMLab の MMDetection を使う【学習編】

公開日:2022年9月21日 最終更新日:2022年9月24日 はじめに 今回使用した学習データ モデル別学習スクリプト faster_rcnn_r50_fpn_1x_coco cascade_rcnn_r50_fpn_1x_coco libra_faster_rcnn_r50_fpn_1x_coco ssd512_coco yolox_s_8x8_300e_coco 推論 結果 f…

【超簡単】MMTrackingとYOLOv5を使って物体検出モデルの学習を教師データ作成含めてサクッと行う

公開日:2022年9月19日 最終更新日:2022年12月31日 はじめに 方法の概略 実行 Clone サンプル動画のダウンロード 学習データ作成、学習 推論 環境構築 使用させて頂いたツール その他 はじめに以前からどうにか物体検出モデルの学習を簡単にできないかと模…

OpenMMLab の MMTracking でconfig、checkpointをダウンロードしようとするとエラーが出た

公開日:2022年9月16日 最終更新日:2022年9月20日 2022年9月19日「mmtrack==0.14.0」が公開されてこのバグは修正されています。 エラーが出るPythonスクリプト import os from mim.commands.download import download os.makedirs('models', exist_ok=True)…

OpenMMLab の MMOCR を使ってみる

OCR

公開日:2022年9月16日 最終更新日:2022年11月24日 はじめに Pythonスクリプト 結果 その他 解説 選択できるモデル Detectionモデル Recognitionモデル Key Information Extractionモデル 動作環境 環境構築 補足 はじめに今までいろいろOCRの記事を書いて…

OpenMMLab の MMSegmentation を使ってカメラからの入力に対して人物以外の背景を消す

はじめに スクリプトの比較 MMDetection MMEditing MMSegmentation 人物以外の背景を消すPythonスクリプト(本題) 動作環境 関連記事 MMDetection MMEditing はじめにOpenMMLabの「MMdetection」を使ってもセグメンテーションはできますが、「MMdetection」…

【Windows】【OpenBLAS】MXNet 2.0(dev) + CUDA 11.7(Building From Source)

Windowsで動作するGPU版MXNet2.0(CUDA 11.7)をOpenBLASを使ってソースからビルドすることに成功しました。

【WSL2】【OpenBLAS】MXNet 2.0(dev) + CUDA 11.7(Building From Source)

CUDA 11.7の環境でGPU版MXNet2.0(dev)をソースからビルドすることに成功しました。

【Windows】【OpenBLAS】【no GPU】MXNet 1.9(Building From Source)

公開日:2022年9月12日 If you want to use GPU, please see this page. https://touch-sp.hatenablog.com/entry/2022/09/06/004928 Introduction Environment Preparation Install OpenCV Download OpenBLAS binary package Download MXNet sources Build C…

AutoGluon の MultiModalPredictor まとめ

AutoGluonのMultiModalPredictorを使った記事をいくつか書きました。 わかりやすいようにまとめ記事を書きました。