Visual Models - a startupspaceai Collection

startupspaceai 's Collections

MIT License models

Visual Models

updated Sep 25, 2025

microsoft/git-base-vqav2

Visual Question Answering • 0.2B • Updated Mar 9, 2024 • 89 • 20
vidore/colqwen2.5-v0.2

Visual Document Retrieval • Updated Jun 16, 2025 • 17.2k • 93
PaddlePaddle/PP-OCRv5_server_det

Image-to-Text • Updated Jul 22, 2025 • 319k • 52
PaddlePaddle/PP-LCNet_x1_0_doc_ori

Image-to-Text • Updated Jul 22, 2025 • 393k • 4
ibm-granite/granite-docling-258M

Image-Text-to-Text • 0.3B • Updated Sep 23, 2025 • 206k • 1.09k
Qwen/Qwen2.5-VL-7B-Instruct

Image-Text-to-Text • 8B • Updated Apr 6, 2025 • 2.68M • • 1.42k
Running

131

PaddleOCR

⚡

131

Extract text from images in multiple languages
Running

181

OCR Image To Text

📸

181

Extract text from images using OCR
Running

73

Mistral OCR 3

🌆

73

Try out Mistral's latest OCR with pdfs and images
meta-llama/Llama-3.2-11B-Vision-Instruct

Image-Text-to-Text • 11B • Updated Dec 4, 2024 • 100k • • 1.55k