2023-01-01から1年間の記事一覧

【Diffusers】最新学習モデル「BracingEvoMix」をDiffusersから使ってみる

最終更新日:2023年6月5日 Pythonスクリプト from diffusers import StableDiffusionPipeline, EulerAncestralDiscreteScheduler import torch from compel import Compel, DiffusersTextualInversionManager import argparse parser = argparse.ArgumentPar…

「Prompt-Free-Diffusion」を使って動画を作成してみる

人物にはそれなりに一貫性が認められますが背景がダメでした。 見続けると酔います(笑)はじめにgithub.com 「Prompt-Free-Diffusion」というのが公開されています。 動画作成に使えるのではないかということでさっそく試してみました。環境 Windows 11 Pyt…

【Compel】【Diffusers】プロンプト内のワードの重みづけ

最終更新日:2023年6月5日 はじめにプロンプト内のワードの重みづけをしたい時、DiffusersではCompel Libraryを使うようです。インストールは簡単です。 pip install compel使い方実際のPythonスクリプト from diffusers import StableDiffusionPipeline, Eu…

【MasaCtrl】 MasaCtrl with T2I-Adapter を使って動画を作成してみる

顔は崩れてしまいましたがフレーム間の一貫性が保たれています。 着ている服や靴、背景に注目して下さい。はじめにMasaCtrlに関しては以下を参照して下さい。 touch-sp.hatenablog.com ざっくり言うと一貫性のある画像(例えば同じキャラクターの姿勢違いな…

【Diffusers】Stable Diffusion Mixture Tiling を使ってみる

最終更新日:2023年6月3日 はじめにDiffusersに新たにCommunity Pilelineとして追加された「Stable Diffusion Mixture」を使ってみました。「家」と「道」と「ロボット」を別々のプロントで一つのモデルに与えるとそれを合成(Mix)した画像を生成してくれま…

MasaCtrl を使ってみる

github.com はじめにMasaCtrlは一貫性のある画像(例えば同じキャラクターの姿勢違いなど)を生成することが可能です。ReferenceOnly + ControlNet のようなものと思って使いました。間違っていたらごめんなさい。なにができる?結果を示した方が分かりやす…

【Diffusers】 Kandinsky-2 というモデルを使ってみる

最終更新日:2023年6月2日 Kandinsky-2とはgithub.com 上記レポジトリにはこのように記載されています。 Kandinsky 2.1 inherits best practicies from Dall-E 2 and Latent diffusion, while introducing some new ideas.日本語訳(DeepLで翻訳) Kandinsky…

ddPn08/RVC-WebUI でボイスチェンジャーに挑戦しました

RVC WebUI(ddPn08/rvc-webui)を使うと、自分が用意した声を学習させてその声を使ってボイスチェンジが可能になります。

2023年5月20日現在 RTX 4090 が久しぶりに25万円をきっています

AIプログラムをローカルで実行している人にとってVRAM 24GBは魅力ですよね。 25万円は十分高額ですが。 買いたいですが去年7月デスクトップ用RTX 3080、今年1月RTX 3080搭載ノートPC買ったばかりなんですよね。 touch-sp.hatenablog.com touch-sp.hatenablog…

【ReazonSpeech】日本語音声の文字起こしにチャレンジしました。

「ReazonSpeech」を使って日本語音声の文字起こし(音声からテキストを作成)にチャレンジしました。Pythonを使えば3行のスクリプトで目的が達成できました。導入も簡単です。

SadTalkerの設定をいろいろいじってみる(1枚の顔写真からしゃべっている動画を作成)

SadTalkerは一枚の顔写真から任意の音声に合わせた口パク動画を生成することができます。今回は各種設定をいろいろ試してみました。

Stable Diffusion web UI (AUTOMATIC1111)を導入しようとしてはまった

Stable Diffusion web UI (AUTOMATIC1111)を久々に導入しようとしてはまったので解決方法を個人的メモとして記録しておきます。

【Whisper】日本語音声の文字起こしにチャレンジしました。

「Whisper」を使って日本語音声の文字起こし(音声からテキストを作成)にチャレンジしました。Pythonを使えば4行のスクリプトで目的が達成できました。導入も簡単です。

Shap-Eを使って1枚の画像から3Dオブジェクトを生成する

github.com はじめに前回テキストからの3D生成を行いました。 touch-sp.hatenablog.com 今回は1枚の画像から3D生成を行います。環境 Ubuntu 22.04 on WSL2 CUDA 11.8 Python 3.10導入 pip install torch==2.0.1+cu118 torchvision==0.15.2+cu118 --index-url…

Shap-Eを使ってテキストから3Dオブジェクトを生成する

github.com はじめに前回「Stable-Dreamfusion」というのを使って3D生成を行いました。 touch-sp.hatenablog.com 今回は「Shap-E」というのを使わせて頂きました。環境 Ubuntu 22.04 on WSL2 CUDA 11.8 Python 3.10導入 pip install torch==2.0.1+cu118 torc…

Stable-Dreamfusionを使ってテキストから3Dオブジェクトを生成する

github.com はじめに今まで画像生成や動画生成は試してきましたが3Dオブジェクト生成は今回が初めてです。「Stable-Dreamfusion」というのを使わせて頂きました。環境 Ubuntu 22.04 on WSL2 CUDA 11.8 Python 3.10導入 pip install torch==2.0.1+cu118 torch…

【Diffusers】BRA(Beautiful Realistic Asians) V5 が公開されたので ControlNet 1.1 と組み合わせて使ってみました

はじめに少し前にBRA(Beautiful Realistic Asians) V4を使ったばかりです。 touch-sp.hatenablog.com 新たにV5が公開されたようですのでさっそく使ってみました。結果 服の色は指定していませんがseedを変えるといろいろな色になりました。実行方法こちらの…

Barkを使って音声合成(日本語も可能)

github.com はじめに以前から「Open JTalk」や「ESPnet」を使って音声合成にチャレンジしてきました。 touch-sp.hatenablog.com touch-sp.hatenablog.com 今回は「Bark」というものにチャレンジしてみました。 今までチャレンジしてきた音声合成の中で最も簡…

【Diffusers】BRA(Beautiful Realistic Asians) V4 と ControlNet 1.1を組み合わせて使ってみました

はじめにControlNet 1.0ではすでに試しています。 touch-sp.hatenablog.com 結果が悪かったわけではないのですが新しいControlNetが公開されているので使ってみました。 モデルには「BRA(Beautiful Realistic Asians) V4」を使用しました。 さらに今回はsche…

【みんラボ】キーボード/マウスエミュレータ (USB接続版)を買って使ってみました

はじめにこちらの商品を買って使ってみました。 sites.google.com なにができる?タブレットやノートPCをマクロパッドとして使用できます。以前同じことをやりたくてUSBシリアル変換アダプターとArduino Leonardoを使って自作したことがあります。 touch-sp.…

【ToDo】PySide6でシリアル通信をやりたかったがPySide6==6.5.0ではうまくいかなかった

self.serial.setBaudRate(QtSerialPort.QSerialPort.Baud9600) self.serial.open(QIODevice.WriteOnly) PySide6==6.5.0では上記スクリプトでエラーがでました。 解決方法がわからないのでPySide6==6.4.3にダウングレードしました。 PySide6==6.4.3では問題な…

【DIffusers】Diffusersで「EasyNegative」を使ってみる

はじめに「EasyNegative」については以下の記事を参照させて頂きました。 koneko3.com 今回はDiffuserに「EasyNegative」を導入してみます。EasyNegativeを使う必要なのはたったの2行でした。(こちらを参照) pipe.load_textual_inversion("EasyNegative-te…

【DiffEdit】【Diffusers】写真に写る犬を猫に変換する

はじめにあらたにDiffEdit(Zero-shot Diffusion-based Semantic Image Editing with Mask Guidance)というのがDiffusersから使えるようになっていたので試してみます。やったことはタイトル通り「写真に写る犬を猫に変換する」です。似たようなものは過去…

【ToDo】PySide6==6.5.0 と PyAutoGUI==0.9.53 の組み合わせでエラーが出ました。

エラー内容 qt.qpa.window: SetProcessDpiAwarenessContext(DPI_AWARENESS_CONTEXT_PER_MONITOR_AWARE_V2) failed: COM error 0x5: アクセスが拒否されました。 Qt's default DPI awareness context is DPI_AWARENESS_CONTEXT_PER_MONITOR_AWARE_V2. If you …

【Text2Video-Zero】【Diffusers】Text2Video-ZeroのVRAM使用量を減らしたい

結果640x640の動画で試しています。何もなし14.3GBのVRAMを使用しています。 main took 1035.0138499736786 secondsenable_sequential_cpu_offload()メモリ消費の削減には最も効果的のように見えますが速度がかなり犠牲になります。14.3→11.6GBに使用量を減…

【AnimatedDrawings】【閲覧注意】Michael JacksonのThrillerを躍らせてみました。ファンのみなさまごめんなさい。

結果 環境 Ubuntu 20.04 on WSL2 (Windows 11) CUDA 11.6.2 Python 3.8方法VideoTo3dPoseAndBvhYouTube動画からモーションファイル(拡張子:bvh)を作成しました。こちらを使わせて頂きました。 github.com まずはリポジトリをクローンして学習済みパラメー…

【AnimatedDrawings】個人的ToDoリスト

github.com

【AnimatedDrawings】いらすとやの女性を踊らせてみた

結果 元画像こちらの画像を使わせて頂きました。 www.irasutoya.com 前回の記事前回の記事の続きです。画像をいらすとやの女性に変更しただけです。詳しくは前回の記事を見て下さい。 touch-sp.hatenablog.com mask画像と関節の位置を記述したyamlファイルを…

【AnimatedDrawings】1枚の手書きイラストを動かす(WSL2での動作確認)

github.com 結果 環境構築 Ubuntu 20.04 on WSL2 (Windows 11) Python 3.9CUDAは必要ありません。 以下をインストールする必要があります。 sudo apt install libosmesa6-dev freeglut3-dev sudo apt install libglfw3-dev libgles2-mesa-dev sudo apt insta…

【ESPnet】【Python3.10】テキストファイルから音声ファイルを作成する

以前にESPnetに関しての記事を書きました。 touch-sp.hatenablog.com その時にはPython3.10で動作させることができませんでした。 最近の改良でPython3.10でも動作するようになったようです。 以下の環境で問題なく動作しました。torch==1.13.1+cu117 Ubuntu…