2023-05-01から1ヶ月間の記事一覧

【MasaCtrl】 MasaCtrl with T2I-Adapter を使って動画を作成してみる

顔は崩れてしまいましたがフレーム間の一貫性が保たれています。 着ている服や靴、背景に注目して下さい。はじめにMasaCtrlに関しては以下を参照して下さい。 touch-sp.hatenablog.com ざっくり言うと一貫性のある画像(例えば同じキャラクターの姿勢違いな…

【Diffusers】Stable Diffusion Mixture Tiling を使ってみる

最終更新日:2023年6月3日 はじめにDiffusersに新たにCommunity Pilelineとして追加された「Stable Diffusion Mixture」を使ってみました。「家」と「道」と「ロボット」を別々のプロントで一つのモデルに与えるとそれを合成(Mix)した画像を生成してくれま…

MasaCtrl を使ってみる

github.com はじめにMasaCtrlは一貫性のある画像(例えば同じキャラクターの姿勢違いなど)を生成することが可能です。ReferenceOnly + ControlNet のようなものと思って使いました。間違っていたらごめんなさい。なにができる?結果を示した方が分かりやす…

【Diffusers】 Kandinsky-2 というモデルを使ってみる

最終更新日:2023年6月10日 Kandinsky-2とはgithub.com 上記レポジトリにはこのように記載されています。 Kandinsky 2.1 inherits best practicies from Dall-E 2 and Latent diffusion, while introducing some new ideas.日本語訳(DeepLで翻訳) Kandinsk…

ddPn08/RVC-WebUI でボイスチェンジャーに挑戦しました

RVC WebUI(ddPn08/rvc-webui)を使うと、自分が用意した声を学習させてその声を使ってボイスチェンジが可能になります。

2023年5月20日現在 RTX 4090 が久しぶりに25万円をきっています

AIプログラムをローカルで実行している人にとってVRAM 24GBは魅力ですよね。 25万円は十分高額ですが。 買いたいですが去年7月デスクトップ用RTX 3080、今年1月RTX 3080搭載ノートPC買ったばかりなんですよね。 touch-sp.hatenablog.com touch-sp.hatenablog…

【ReazonSpeech】日本語音声の文字起こしにチャレンジしました。

「ReazonSpeech」を使って日本語音声の文字起こし(音声からテキストを作成)にチャレンジしました。Pythonを使えば3行のスクリプトで目的が達成できました。導入も簡単です。

SadTalkerの設定をいろいろいじってみる(1枚の顔写真からしゃべっている動画を作成)

SadTalkerは一枚の顔写真から任意の音声に合わせた口パク動画を生成することができます。今回は各種設定をいろいろ試してみました。

Stable Diffusion web UI (AUTOMATIC1111)を導入しようとしてはまった

Stable Diffusion web UI (AUTOMATIC1111)を久々に導入しようとしてはまったので解決方法を個人的メモとして記録しておきます。

【Whisper】日本語音声の文字起こしにチャレンジしました。

「Whisper」を使って日本語音声の文字起こし(音声からテキストを作成)にチャレンジしました。Pythonを使えば4行のスクリプトで目的が達成できました。導入も簡単です。

Shap-Eを使って1枚の画像から3Dオブジェクトを生成する

github.com はじめに前回テキストからの3D生成を行いました。 touch-sp.hatenablog.com 今回は1枚の画像から3D生成を行います。環境 Ubuntu 22.04 on WSL2 CUDA 11.8 Python 3.10導入 pip install torch==2.0.1+cu118 torchvision==0.15.2+cu118 --index-url…

Shap-Eを使ってテキストから3Dオブジェクトを生成する

github.com はじめに前回「Stable-Dreamfusion」というのを使って3D生成を行いました。 touch-sp.hatenablog.com 今回は「Shap-E」というのを使わせて頂きました。環境 Ubuntu 22.04 on WSL2 CUDA 11.8 Python 3.10導入 pip install torch==2.0.1+cu118 torc…

Stable-Dreamfusionを使ってテキストから3Dオブジェクトを生成する

github.com はじめに今まで画像生成や動画生成は試してきましたが3Dオブジェクト生成は今回が初めてです。「Stable-Dreamfusion」というのを使わせて頂きました。環境 Ubuntu 22.04 on WSL2 CUDA 11.8 Python 3.10導入 pip install torch==2.0.1+cu118 torch…

【Diffusers】BRA(Beautiful Realistic Asians) V5 が公開されたので ControlNet 1.1 と組み合わせて使ってみました

はじめに少し前にBRA(Beautiful Realistic Asians) V4を使ったばかりです。 touch-sp.hatenablog.com 新たにV5が公開されたようですのでさっそく使ってみました。結果 服の色は指定していませんがseedを変えるといろいろな色になりました。実行方法こちらの…

Barkを使って音声合成(日本語も可能)

github.com はじめに以前から「Open JTalk」や「ESPnet」を使って音声合成にチャレンジしてきました。 touch-sp.hatenablog.com touch-sp.hatenablog.com 今回は「Bark」というものにチャレンジしてみました。 今までチャレンジしてきた音声合成の中で最も簡…

【Diffusers】BRA(Beautiful Realistic Asians) V4 と ControlNet 1.1を組み合わせて使ってみました

はじめにControlNet 1.0ではすでに試しています。 touch-sp.hatenablog.com 結果が悪かったわけではないのですが新しいControlNetが公開されているので使ってみました。 モデルには「BRA(Beautiful Realistic Asians) V4」を使用しました。 さらに今回はsche…

【みんラボ】キーボード/マウスエミュレータ (USB接続版)を買って使ってみました

はじめにこちらの商品を買って使ってみました。 sites.google.com なにができる?タブレットやノートPCをマクロパッドとして使用できます。以前同じことをやりたくてUSBシリアル変換アダプターとArduino Leonardoを使って自作したことがあります。 touch-sp.…

【ToDo】PySide6でシリアル通信をやりたかったがPySide6==6.5.0ではうまくいかなかった

self.serial.setBaudRate(QtSerialPort.QSerialPort.Baud9600) self.serial.open(QIODevice.WriteOnly) PySide6==6.5.0では上記スクリプトでエラーがでました。 解決方法がわからないのでPySide6==6.4.3にダウングレードしました。 PySide6==6.4.3では問題な…

【DIffusers】Diffusersで「EasyNegative」を使ってみる

はじめに「EasyNegative」については以下の記事を参照させて頂きました。 koneko3.com 今回はDiffuserに「EasyNegative」を導入してみます。EasyNegativeを使う必要なのはたったの2行でした。(こちらを参照) pipe.load_textual_inversion("EasyNegative-te…