WSL2環境でDeepSeek-OCRを使ってみる

参考資料

環境

CPU Core i7-11700
RAM 16.0 GB
GeForce RTX 3060 12GB

WSL2でGPU/Cuda利用前提のセットアップ

https://github.com/vllm-project/vllm/releases/tag/v0.8.5からvllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whlをDLする
https://github.com/deepseek-ai/DeepSeek-OCR/をcloneしておく

Pythonインストール

sudo apt -y update
sudo apt -y upgrade
sudo apt install python3
sudo apt install python3-pip

Cuda 13.0インストール

wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt -y update
sudo apt -y upgrade
sudo apt-get -y install cuda-toolkit-13-0

必要なパッケージのインストール (pytorchは本来cudaのバージョンに合わせるべきだが間違えた)

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118
pip install vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whl
cd <DeepSeekのリポジトリのパス>
pip install -r requirements.txt
pip install flash-attn==2.7.3 --no-build-isolation

実行

DeepSeek-OCR/DeepSeek-OCR-master/DeepSeek-OCR-vllm/<入力ファイル>
DeepSeek-OCR/DeepSeek-OCR-master/DeepSeek-OCR-vllm/config.py を編集 (以下例)

INPUT_PATH = 'in/test.pdf' 
OUTPUT_PATH = 'out'

DeepSeek-OCR/DeepSeek-OCR-master/DeepSeek-OCR-vllm/以下に移動して入力ファイルに応じたスクリプトを実行

python3 run_dpsk_ocr_pdf.py
python3 run_dpsk_ocr_image.py

結果

DeepSeek-OCRルートのPDF(22ページ)に対して、VRAMをほぼ限界まで利用して3分くらいで出力完了
精度はかなりのもの。pdfとほぼ同等のレイアウト。表はmarkdownなので表現の限界がある。htmlタグで表のセル結合などを表現していた。

補足

Ubuntuのパッケージ更新とインストールでディスクを25GBくらい持ってかれた

DeepSeek OCR - kocya-dev/note GitHub Wiki

WSL2環境でDeepSeek-OCRを使ってみる

参考資料

環境

WSL2でGPU/Cuda利用前提のセットアップ

Pythonインストール

Cuda 13.0インストール

必要なパッケージのインストール (pytorchは本来cudaのバージョンに合わせるべきだが間違えた)

実行

結果

補足

関連

⚠️ GitHub.com Fallback ⚠️

DeepSeek OCR - kocya-dev/note GitHub Wiki

WSL2環境でDeepSeek-OCRを使ってみる

参考資料

環境

WSL2でGPU/Cuda利用前提のセットアップ

Pythonインストール

Cuda 13.0インストール

必要なパッケージのインストール (pytorchは本来cudaのバージョンに合わせるべきだが間違えた)

実行

結果

補足

関連

⚠️ **GitHub.com Fallback** ⚠️

⚠️ GitHub.com Fallback ⚠️