OCR - a hbkang Collection

hbkang 's Collections

korean-language

synthetic-data-generation

Makeup Transfer

ID-Preserving Generation

interesting architecture

generative-model-training

talking-head-generation

artistic rendering

full-body-generation

OCR

updated 22 days ago

PubTables-1M: Towards comprehensive table extraction from unstructured documents

Paper • 2110.00061 • Published Sep 30, 2021 • 3
Optimized Table Tokenization for Table Structure Recognition

Paper • 2305.03393 • Published May 5, 2023 • 1
Qwen3-VL Technical Report

Paper • 2511.21631 • Published Nov 26, 2025 • 157
PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model

Paper • 2510.14528 • Published Oct 16, 2025 • 118
PaddlePaddle/PaddleOCR-VL

Image-Text-to-Text • Updated 20 days ago • 9.96k • 1.55k
DeepSeek-OCR: Contexts Optical Compression

Paper • 2510.18234 • Published Oct 21, 2025 • 93
deepseek-ai/DeepSeek-OCR

Image-Text-to-Text • Updated Nov 4, 2025 • 3.21M • 3.17k
HunyuanOCR Technical Report

Paper • 2511.19575 • Published Nov 24, 2025 • 22
tencent/HunyuanOCR

Image-Text-to-Text • Updated Jan 13 • 896k • 554
DocReward: A Document Reward Model for Structuring and Stylizing

Paper • 2510.11391 • Published Oct 13, 2025 • 27
SynthDoc: Bilingual Documents Synthesis for Visual Document Understanding

Paper • 2408.14764 • Published Aug 27, 2024
OmniLayout: Enabling Coarse-to-Fine Learning with LLMs for Universal Document Layout Generation

Paper • 2510.26213 • Published Oct 30, 2025 • 10
MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns

Paper • 2511.10390 • Published Nov 13, 2025
Structured Document Translation via Format Reinforcement Learning

Paper • 2512.05100 • Published Dec 4, 2025 • 2
DeepSeek-OCR 2: Visual Causal Flow

Paper • 2601.20552 • Published 27 days ago • 63
OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models

Paper • 2601.21639 • Published 26 days ago • 50
PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing

Paper • 2601.21957 • Published 26 days ago • 19
MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning

Paper • 2601.21468 • Published 26 days ago • 25