DeepSeek OCR - kocya-dev/note GitHub Wiki
- 【ローカルAI】Deepseek-OCRを使ってみた話【OCR】
- Ubuntu22.04へCUDA11.8環境を作る
- DeepSeek OCR in WSL
- WSL2でDeepSeek-OCRを試してみる
- CPU Core i7-11700
- RAM 16.0 GB
- GeForce RTX 3060 12GB
- https://github.com/vllm-project/vllm/releases/tag/v0.8.5からvllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whlをDLする
- https://github.com/deepseek-ai/DeepSeek-OCR/をcloneしておく
sudo apt -y update
sudo apt -y upgrade
sudo apt install python3
sudo apt install python3-pipwget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt -y update
sudo apt -y upgrade
sudo apt-get -y install cuda-toolkit-13-0pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118
pip install vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whl
cd <DeepSeekのリポジトリのパス>
pip install -r requirements.txt
pip install flash-attn==2.7.3 --no-build-isolation- DeepSeek-OCR/DeepSeek-OCR-master/DeepSeek-OCR-vllm/<入力ファイル>
- DeepSeek-OCR/DeepSeek-OCR-master/DeepSeek-OCR-vllm/config.py を編集 (以下例)
INPUT_PATH = 'in/test.pdf'
OUTPUT_PATH = 'out'
- DeepSeek-OCR/DeepSeek-OCR-master/DeepSeek-OCR-vllm/以下に移動して入力ファイルに応じたスクリプトを実行
python3 run_dpsk_ocr_pdf.py
python3 run_dpsk_ocr_image.py
- DeepSeek-OCRルートのPDF(22ページ)に対して、VRAMをほぼ限界まで利用して3分くらいで出力完了
- 精度はかなりのもの。pdfとほぼ同等のレイアウト。表はmarkdownなので表現の限界がある。htmlタグで表のセル結合などを表現していた。
Ubuntuのパッケージ更新とインストールでディスクを25GBくらい持ってかれた