OCR - a hbkang Collection

hbkang 's Collections

VLA

korean-language

synthetic-data-generation

OCR

Makeup Transfer

ID-Preserving Generation

interesting architecture

generative-model-training

talking-head-generation

artistic rendering

full-body-generation

OCR

updated 3 days ago

PubTables-1M: Towards comprehensive table extraction from unstructured documents

Paper • 2110.00061 • Published Sep 30, 2021 • 3
Optimized Table Tokenization for Table Structure Recognition

Paper • 2305.03393 • Published May 5, 2023 • 1
Qwen3-VL Technical Report

Paper • 2511.21631 • Published Nov 26, 2025 • 152
PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model

Paper • 2510.14528 • Published Oct 16, 2025 • 113
PaddlePaddle/PaddleOCR-VL

Image-Text-to-Text • 1.0B • Updated 1 day ago • 15.9k • 1.54k
DeepSeek-OCR: Contexts Optical Compression

Paper • 2510.18234 • Published Oct 21, 2025 • 92
deepseek-ai/DeepSeek-OCR

Image-Text-to-Text • 3B • Updated Nov 4, 2025 • 2.98M • 3.13k
HunyuanOCR Technical Report

Paper • 2511.19575 • Published Nov 24, 2025 • 22
tencent/HunyuanOCR

Image-Text-to-Text • 1.0B • Updated 24 days ago • 1.51M • 552
DocReward: A Document Reward Model for Structuring and Stylizing

Paper • 2510.11391 • Published Oct 13, 2025 • 27
SynthDoc: Bilingual Documents Synthesis for Visual Document Understanding

Paper • 2408.14764 • Published Aug 27, 2024
OmniLayout: Enabling Coarse-to-Fine Learning with LLMs for Universal Document Layout Generation

Paper • 2510.26213 • Published Oct 30, 2025 • 10
MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns

Paper • 2511.10390 • Published Nov 13, 2025
Structured Document Translation via Format Reinforcement Learning

Paper • 2512.05100 • Published Dec 4, 2025 • 2
DeepSeek-OCR 2: Visual Causal Flow

Paper • 2601.20552 • Published 9 days ago • 53
OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models

Paper • 2601.21639 • Published 8 days ago • 48
PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing

Paper • 2601.21957 • Published 8 days ago • 14
MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning

Paper • 2601.21468 • Published 8 days ago • 20