2023-05-01から1ヶ月間の記事一覧
顔は崩れてしまいましたがフレーム間の一貫性が保たれています。 着ている服や靴、背景に注目して下さい。はじめにMasaCtrlに関しては以下を参照して下さい。 touch-sp.hatenablog.com ざっくり言うと一貫性のある画像(例えば同じキャラクターの姿勢違いな…
最終更新日:2023年6月3日 はじめにDiffusersに新たにCommunity Pilelineとして追加された「Stable Diffusion Mixture」を使ってみました。「家」と「道」と「ロボット」を別々のプロントで一つのモデルに与えるとそれを合成(Mix)した画像を生成してくれま…
github.com はじめにMasaCtrlは一貫性のある画像(例えば同じキャラクターの姿勢違いなど)を生成することが可能です。ReferenceOnly + ControlNet のようなものと思って使いました。間違っていたらごめんなさい。なにができる?結果を示した方が分かりやす…
最終更新日:2023年6月10日 Kandinsky-2とはgithub.com 上記レポジトリにはこのように記載されています。 Kandinsky 2.1 inherits best practicies from Dall-E 2 and Latent diffusion, while introducing some new ideas.日本語訳(DeepLで翻訳) Kandinsk…
RVC WebUI(ddPn08/rvc-webui)を使うと、自分が用意した声を学習させてその声を使ってボイスチェンジが可能になります。
AIプログラムをローカルで実行している人にとってVRAM 24GBは魅力ですよね。 25万円は十分高額ですが。 買いたいですが去年7月デスクトップ用RTX 3080、今年1月RTX 3080搭載ノートPC買ったばかりなんですよね。 touch-sp.hatenablog.com touch-sp.hatenablog…
「ReazonSpeech」を使って日本語音声の文字起こし(音声からテキストを作成)にチャレンジしました。Pythonを使えば3行のスクリプトで目的が達成できました。導入も簡単です。
SadTalkerは一枚の顔写真から任意の音声に合わせた口パク動画を生成することができます。今回は各種設定をいろいろ試してみました。
Stable Diffusion web UI (AUTOMATIC1111)を久々に導入しようとしてはまったので解決方法を個人的メモとして記録しておきます。
「Whisper」を使って日本語音声の文字起こし(音声からテキストを作成)にチャレンジしました。Pythonを使えば4行のスクリプトで目的が達成できました。導入も簡単です。
github.com はじめに前回テキストからの3D生成を行いました。 touch-sp.hatenablog.com 今回は1枚の画像から3D生成を行います。環境 Ubuntu 22.04 on WSL2 CUDA 11.8 Python 3.10導入 pip install torch==2.0.1+cu118 torchvision==0.15.2+cu118 --index-url…
github.com はじめに前回「Stable-Dreamfusion」というのを使って3D生成を行いました。 touch-sp.hatenablog.com 今回は「Shap-E」というのを使わせて頂きました。環境 Ubuntu 22.04 on WSL2 CUDA 11.8 Python 3.10導入 pip install torch==2.0.1+cu118 torc…
github.com はじめに今まで画像生成や動画生成は試してきましたが3Dオブジェクト生成は今回が初めてです。「Stable-Dreamfusion」というのを使わせて頂きました。環境 Ubuntu 22.04 on WSL2 CUDA 11.8 Python 3.10導入 pip install torch==2.0.1+cu118 torch…
はじめに少し前にBRA(Beautiful Realistic Asians) V4を使ったばかりです。 touch-sp.hatenablog.com 新たにV5が公開されたようですのでさっそく使ってみました。結果 服の色は指定していませんがseedを変えるといろいろな色になりました。実行方法こちらの…
github.com はじめに以前から「Open JTalk」や「ESPnet」を使って音声合成にチャレンジしてきました。 touch-sp.hatenablog.com touch-sp.hatenablog.com 今回は「Bark」というものにチャレンジしてみました。 今までチャレンジしてきた音声合成の中で最も簡…
はじめにControlNet 1.0ではすでに試しています。 touch-sp.hatenablog.com 結果が悪かったわけではないのですが新しいControlNetが公開されているので使ってみました。 モデルには「BRA(Beautiful Realistic Asians) V4」を使用しました。 さらに今回はsche…
はじめにこちらの商品を買って使ってみました。 sites.google.com なにができる?タブレットやノートPCをマクロパッドとして使用できます。以前同じことをやりたくてUSBシリアル変換アダプターとArduino Leonardoを使って自作したことがあります。 touch-sp.…
self.serial.setBaudRate(QtSerialPort.QSerialPort.Baud9600) self.serial.open(QIODevice.WriteOnly) PySide6==6.5.0では上記スクリプトでエラーがでました。 解決方法がわからないのでPySide6==6.4.3にダウングレードしました。 PySide6==6.4.3では問題な…
はじめに「EasyNegative」については以下の記事を参照させて頂きました。 koneko3.com 今回はDiffuserに「EasyNegative」を導入してみます。EasyNegativeを使う必要なのはたったの2行でした。(こちらを参照) pipe.load_textual_inversion("EasyNegative-te…