OCR
はじめに C#でOCRアプリを作るにはTesseractが良いと思っていました。 その記事も書きました。 touch-sp.hatenablog.com しかし、Windowsに標準で搭載されているOCR機能を使った方が精度が高かったです。 環境 Windows11 Visual Studio Community 2026 .NET …
C#とTesseractを使って実際に使えるOCRアプリを作りました。
はじめに 少し前にPaddleOCR-VLの記事を書いたばかりです。 touch-sp.hatenablog.com 早くもバージョン1.5が公開されました。 PaddleOCR-VL-1.5は、OCR(光学文字認識)に加えて、表認識、数式認識、チャート認識、Spotting(テキスト位置検出)、印章認識な…
はじめに GLM-OCRは画像からテキスト、数式、表を認識できるモデルです。 複数の認識タイプに対応しており、日本語も含めた様々な言語のテキスト認識が可能です。 今回はGradioを使用してWebUI化し、実際に動作を確認してみました。 PC環境 Windows 11 Pytho…
PC環境 Windows 11 Python環境構築 uvを使っています。pyproject.tomlを載せておくので uv sync のみで環境構築可能です。 ただし、flash-attentionは事前にこちらの方法でビルドしています。 flash-attentionはなくても実行可能です。 [project] name = "de…
PC環境 Windows 11 Python環境構築 uvを使っています。pyproject.tomlを載せておくので uv sync のみで環境構築可能です。 [project] name = "lightonocr2" version = "0.1.0" description = "Add your description here" readme = "README.md" requires-pyt…
実行画面 日本語もそこそこいけるようです。Pythonスクリプト from transformers import AutoProcessor, AutoModelForImageTextToText, TextIteratorStreamer import gradio as gr from threading import Thread model = AutoModelForImageTextToText.from_p…
実行画面 Pythonスクリプトできるだけシンプルに書いてみました。ollama.chat() を使えば、デフォルトで http://localhost:11434 に接続します import gradio as gr from ollama import chat def extract_text_from_image(image): """画像から文字を抽出する…
Pythonスクリプト import ollama import gradio as gr def extract_text(filepath: str): """ 画像からテキストを抽出する関数(ストリーミング対応) """ if not filepath: yield "画像がアップロードされていません。" return try: # Ollamaでテキスト抽出…
はじめに以前LM StudioとGraidoを組み合わせてOCRアプリを作りました。 touch-sp.hatenablog.com lmstudioというPythonライブラリを使うともっと簡単に実現可能でした。Pythonスクリプト import lmstudio as lms import gradio as gr import os # モデルの初…
はじめにQATとは量子化認識トレーニング(Quantization-Aware Training)の略です。これによって高品質を保ちながらVRAM使用量を大幅に抑えられるようです。今回は「gemma-3-27b-it-qat-q4_0-gguf」をLM Studioから使ってみました。LM Studioから検索すると…
はじめに画像からテキストを抽出するのにLangChainの必要性はあまりありません。ただ、LangChainを使うとスクリプトが非常にシンプルになります。Pythonスクリプト from langchain_core.prompts import ChatPromptTemplate from langchain_core.output_parse…
注意「Mistral-Small-3.1-24B-Instruct-2503」と「gemma-3-27b-it」は自身のPC環境の制限のため4bit量子化して使用しています。本来はもう少し性能が高いと思いますので今回の結果は参考程度に見て下さい。パラメーターの設定も詰め切れてないと思います。お…
結果わずか15行のスクリプトでOCRアプリが作成できました。 同じことを以前 Streamlit を使ってやっています。 touch-sp.hatenablog.com その時は16行でした。 1行だけ短くなりました(笑)。Pythonスクリプト from PIL import ImageDraw import easyocr imp…
公開日:2022年11月16日 最終更新日:2022年11月24日 はじめに TRDGを使う方法 PySide6を使う方法 Pythonスクリプト 実行環境 準備するもの テキストファイルと辞書ファイル PySide6で使用するフォントファイル TRDGで使用するフォントファイル テスト用デー…
はじめに Pythonスクリプト 使い方 フォントファイル(fonts.txt)の準備 テキストファイル(texts.txt)の準備 実行 結果 はじめに以前書いたPythonスクリプトを改良しました。 touch-sp.hatenablog.com 改良点は以下の3点 GUIを非表示にしました マルチス…
テスト画像 「max_seq_len」をいろいろ変えてみた 「max_seq_len = 25」(default) 「max_seq_len = 30」 「max_seq_len = 35」 「Image Size」をいろいろ変えてみた 「Image Size 200x32」 「Image Size 150x32」 関連記事 テスト画像上4つがTRDGで作った…
公開日:2022年10月31日 最終更新日:2022年11月11日 はじめに Pythonスクリプト 結果 関連記事 補足(ノイズの追加) スクリプトの改良 はじめに以前、MMOCR学習用のデータを「TextRecognitionDataGenerator」で作りました。 github.com 今回PySide6を使っ…
公開日:2022年10月27日 最終更新日:2022年11月24日 はじめに PC環境 Python環境構築 学習データの作成 Configファイルを作成する 学習用ファイルを実行する 補足① 補足② その他 はじめに前回「MMOCR==0.6.2」を使って日本語の学習を行いました。 touch-sp.…
公開日:2022年10月25日 最終更新日:2023年7月18日 PC環境 学習データの作成 テキストファイルを準備する 辞書ファイルを作成する フォントを準備する TextRecognitionDataGeneratorを使用する Configファイルを作成する 学習用ファイルを実行する 補足(WS…
公開日:2022年10月15日 最終更新日:2022年12月8日 はじめに 動作環境 1 2 Pythonスクリプト 結果 補足(辞書ファイルのダウンロードについて) abinet_20e_st-an_mj crnn_mini-vgg_5e_mj master_resnet31_12e_st_mj_sa nrtr_resnet31-1by8-1by4_6e_st_mj r…
公開日:2022年9月27日 最終更新日:2022年11月17日 この記事は2022年11月17日AutoGluon 0.6が公開されたのに合わせて更新されています。 はじめに Pythonスクリプト 結果 その他のモデル 環境構築 はじめに以前「MMOCR」の推論を行う記事を書きました。 tou…
公開日:2022年9月16日 最終更新日:2022年11月24日 はじめに Pythonスクリプト 結果 その他 解説 選択できるモデル Detectionモデル Recognitionモデル Key Information Extractionモデル 動作環境 環境構築 補足 はじめに今までいろいろOCRの記事を書いて…
公開日:2022年7月9日 最終更新日:2022年8月29日 はじめに PC環境 つまづき① つまづき② Python環境構築 Pythonスクリプト ライブラリのバージョン はじめに1年以上前の記事の振り返りです。 touch-sp.hatenablog.com PyTorchを1.12.1+cu116にアップデートし…
はじめに 変更できるところ 変更前 変更後 修正後のPythonスクリプト Python環境 2021年11月19日追記(easyocr 1.4.1) 2022年3月18日追記(easyocr 1.4.1) Windows 11 Ubuntu 20.04 on WSL2 2022年4月26日追記(easyocr 1.4.2) Ubuntu 22.04 on WSL2 2022…
C#とTesseractを使って実際に使えるOCRアプリを作りました。
EasyOCRとStreamlitを使ってOCRアプリを作りました。
環境 準備 tesseractの導入 コード 工夫した点 苦労した点 変更履歴1 2021年3月28日追記 環境 Windows10 Pro 64bit Visual Studio Community 2017 準備 こちらから「tesseract-ocr-3.02.eng.tar.gz」をダウンロードして解凍する 実行ファイルと同じフォルダ…