ABCDEFGHIJKLMNOPQRSTUVWXYZ
1
pretrainlinkPretrain dataNoteApprove
2
ViT (Vision Transformer) bản basehttps://huggingface.co/google/vit-base-patch16-224Image netAccepted
3
ViT/base pretrained trên tập Imagenet theo paper DeIT: Training data-efficient image transformers & distillation through attentionhttps://dl.fbaipublicfiles.com/deit/deit_base_patch16_224-b5f2ef4d.pthImage netAccepted
4
Text image super resolution : https://github.com/mjq11302010044/Real-CE/tree/mainhttps://drive.google.com/file/d/1wga0xFdBSkAt_Pif3wPMG4tnHA9wQ7wD/view?usp=sharingImage netsuper resolution problemAccepted
5
backbone VGG19 được train trên tập IMAGENET 1K với nhiệm vụ phân loạihttps://download.pytorch.org/models/vgg19_bn-c79401a0.pthImage netAccepted
6
ABINet: Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition. Using MJSynth and SynthText two text recognition datasets for training, and evaluating on IIIT, SVT, IC03, IC13, IC15, SVTP, CUTE datasetshttps://paddleocr.bj.bcebos.com/rec_r45_abinet_train.tarpretrain trên synthtext và MjsynthDữ liệu syntheticAccepted
7
VGG19https://pytorch.org/vision/main/models/generated/torchvision.models.vgg19_bn.htmlImage netAccepted
8
Vgg19https://pytorch.org/vision/stable/models/generated/torchvision.models.vgg19_bn.html#torchvision.models.VGG19_BN_WeightsImage netAccepted
9
ViT/Base được train trên tập Imagenet theo paper DeIT: Training data-efficient image transformers & distillation through attentionhttps://dl.fbaipublicfiles.com/deit/deit_base_patch16_224-b5f2ef4d.pthImage netAccepted
10
Model nhận diện chữ của Clova AI Research nổi tiếng vào 2019https://drive.google.com/file/d/1b59rXuGGmKne1AuHnkgDzoYgKeETNMv9/view?usp=sharingPretrain MJSynth (MJ)[1], SynthText (ST)Dữ liệu syntheticAccepted
11
Pretrain CLIP dùng làm backbonehttps://huggingface.co/timm/convnext_large_mlp.clip_laion2b_soup_ft_in12k_in1k_384Image netAccepted
12
vgg pretrained với Imagenet Datasethttps://pytorch.org/vision/stable/models/vgg.htmlImage netAccepted
13
ABINet https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/doc/doc_en/algorithm_rec_abinet_en.mdpretrain trên synthtext và MjsynthDữ liệu syntheticAccepted
14
Mô hình đa ngôn ngữ XLM Roberta bản basehttps://huggingface.co/xlm-roberta-baseImage netLanguage modelAccepted
15
ViT/small pretrained trên tập Imagenet theo paper DeIT: Training data-efficient image transformers & distillation through attentionhttps://dl.fbaipublicfiles.com/deit/deit_small_patch16_224-cd65a155.pthImage netAccepted
16
Text image super resolution :https://github.com/csxmli2016/textbsrhttps://github.com/csxmli2016/textbsr/releases/download/0.2.0/bsrgan_text_256.pthImage netsuper resolution problemAccepted
17
Reciprocal Feature Learning via Explicit and Implicit Tasks in Scene Text Recognition. Using MJSynth and SynthText two text recognition datasets for training, and evaluating on IIIT, SVT, IC03, IC13, IC15, SVTP, CUTE datasets.https://paddleocr.bj.bcebos.com/contribution/rec_resnet_rfl_att_train.tarpretrain trên synthtext và MjsynthDữ liệu syntheticAccepted
18
ResNethttps://pytorch.org/vision/stable/models/resnet.htmlImage netAccepted
19
RESNET50https://pytorch.org/vision/master/models/generated/torchvision.models.resnet50.htmlImage netAccepted
20
PaddleOCRhttps://github.com/PaddlePaddle/PaddleOCRpretrain trên synthtext và MjsynthDữ liệu syntheticAccepted
21
ViT/Small được train trên tập Imagenet theo paper DeIT: Training data-efficient image transformers & distillation through attentionhttps://dl.fbaipublicfiles.com/deit/deit_small_patch16_224-cd65a155.pthImagenetAccepted
22
pretrain clip dùng làm backbonehttps://huggingface.co/timm/convnext_large_mlp.clip_laion2b_soup_ft_in12k_in1k_320Image netAccepted
23
Resnet pretrained với Imagenet DatasetImage netAccepted
24
SVTRhttps://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/doc/doc_en/algorithm_rec_svtr_en.mdpretrain trên synthtext và MjsynthDữ liệu syntheticAccepted
25
Mô hình pretrained tiếng anh MATRNhttps://www.dropbox.com/s/pjcarm73cqwbxh4/best-train-matrn.pth?dl=0Bộ dữ liệu synthetic: Synthtext, Mjsynth, wikitextDữ liệu syntheticAccepted
26
From Two to One: A New Scene Text Recognizer with Visual Language Modeling Network. Using MJSynth and SynthText two text recognition datasets for training, and evaluating on IIIT, SVT, IC13, IC15, SVTP, CUTE datasets. https://paddleocr.bj.bcebos.com/VisionLAN/rec_r45_visionlan_train.tarpretrain trên synthtext và MjsynthDữ liệu syntheticAccepted
27
ViTSTR là mô hình một giai đoạn đơn giản sử dụng Vision Transformer (ViT) được đào tạo trước để thực hiện Nhận dạng văn bản cảnh (ViTSTR). Nó có độ chính xác tương đương với các mô hình STR hiện đại mặc dù nó sử dụng số lượng tham số và FLOPS ít hơn đáng kể. ViTSTR cũng nhanh do tính toán song song vốn có của kiến ​​trúc ViT.https://github.com/roatienza/deep-text-recognition-benchmarksynthetic training datasets MJSynth
(MJ) and SynthText
Dữ liệu syntheticAccepted
28
YOLOhttps://github.com/ultralytics/ultralyticsImage netAccepted
29
ViT/Base train trên tập dữ liệu tiếng anh theo bài ViTSTR: Vision Transformer for Fast and Efficient Scene Text Recognitionhttps://github.com/roatienza/deep-text-recognition-benchmark/releases/download/v0.1.0/vitstr_base_patch16_224_aug.pthsynthetic training datasets MJSynth
(MJ) and SynthText
Dữ liệu syntheticAccepted
30
Swin Transformer (large-sized model)https://huggingface.co/microsoft/swin-base-patch4-window12-384-in22kImage netAccepted
31
ViT/Small train trên tập dữ liệu tiếng anh theo bài ViTSTR: Vision Transformer for Fast and Efficient Scene Text Recognitionhttps://github.com/roatienza/deep-text-recognition-benchmark/releases/download/v0.1.0/vitstr_small_patch16_224_aug.pthsynthetic training datasets MJSynth
(MJ) and SynthText
Dữ liệu syntheticAccepted
32
SVTR: Scene Text Recognition with a Single Visual Model (SVTR Large)https://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/rec_svtr_large_none_ctc_en_train.tarPretrain on image netAccepted
33
BEiT (base-sized model, fine-tuned on ImageNet-22k)https://huggingface.co/microsoft/beit-base-patch16-224-pt22k-ft22kImage netAccepted
34
pretrain backbonehttps://huggingface.co/timm/mobilenetv3_large_100.ra_in1kImage net Accepted
35
YOLOS (base-sized) modelhttps://huggingface.co/hustvl/yolos-basePretrain Imagenet
Finetune: COCO detection
Accepted
36
ABI nethttps://paddleocr.bj.bcebos.com/rec_r45_abinet_train.tarsynthetic training datasets MJSynth
(MJ) and SynthText
Dữ liệu syntheticAccepted
37
SVTRhttps://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/rec_svtr_large_none_ctc_en_train.tarsynthetic training datasets MJSynth
(MJ) and SynthText
Dữ liệu syntheticAccepted
38
pretrain backbone tổng hợp tại thư viện timmhttps://huggingface.co/timmImage netAccepted
39
SRNhttps://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/doc/doc_en/algorithm_rec_srn_en.mdpretrain trên synthtext và MjsynthDữ liệu syntheticAccepted
40
VGG Modelhttps://pytorch.org/vision/main/models/vgg.htmlImage netAccepted
41
Vision Transformer (base-sized model)https://huggingface.co/google/vit-base-patch16-224Image netAccepted
42
pretrain VIT dùng làm backbonetimm/vit_large_patch14_clip_224.openai_ft_in12k_in1kImage netAccepted
43
Efficientnet pretrained với Imagenet Datasethttps://pytorch.org/vision/stable/models/efficientnet.htmlImage netAccepted
44
ResNethttps://paperswithcode.com/method/resnetImagenetAccepted
45
pretrain backbonehttps://huggingface.co/timm/resnet50.a1_in1kImage netAccepted
46
Vit-Transformer pretrain với cifar, imagenet datasethttps://github.com/google-research/vision_transformerCifar, imagenetAccepted
47
VGG19 bnhttps://pytorch.org/vision/main/models/generated/torchvision.models.vgg19_bn.htmlImage netAccepted
48
Mô hình pretrained tiếng anh ABINet++https://drive.google.com/file/d/1p6Pw053fFtwmOWd7Qiw3w4qYKf13-bDg/view?usp=share_linkDữ liệu pretrain này huấn luyện trên synthtext và MjtextSử dụng synthetic textAccepted
49
Các mô hình pretrained tiếng anh của MMOCR như: abinet, satrn, sar, master....https://github.com/open-mmlab/mmocrCác model pretrain được huấn luyện trên các bộ dataset liên quan đến tác vụ OCR tuỳ weight sẽ chỉ dùng synthetic data hoặc data thu thập thuần)Được sử dụng pretrain của
- ABInet
- SATRN
- SVTR
- NRTR
- MASTER
- ASTER
- CRNN
Accepted
50
SVTR: Scene Text Recognition with a Single Visual Model (SVTR Tiny). https://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/rec_svtr_tiny_none_ctc_en_train.tarTrain trên dữ liệu syntheticAccepted
51
Mô hình STR parseqhttps://github.com/baudm/parseqsynthetic training datasets MJSynth
(MJ) [30] and SynthText,
Kết hợp với nhiều bộ data text recognition khác COCO Text, UberTextm RCTW17,ART,MLT19,…
Sử dụng dữ liệu ảnh text không phải synthetic trong quá trình huấn luyện: COCO text, Uber Text,...Rejected
52
Parseqhttps://github.com/baudm/parseqsynthetic training datasets MJSynth
(MJ) [30] and SynthText,
Kết hợp với nhiều bộ data text recognition khác COCO Text, UberTextm RCTW17,ART,MLT19,…
Sử dụng dữ liệu ảnh text không phải synthetic trong quá trình huấn luyện: COCO text, Uber Text,...Rejected
53
nó là pretrained cho model parseq được huấn luyện trên tập dữ liệu tiếng anh cho bài toán scene text do tác giả parseq thực nghiệm để đánh giá các mô hình trong paper parseqhttps://github.com/baudm/parseq/releases/download/v1.0.0/parseq-bb5792a6.ptsynthetic training datasets MJSynth
(MJ) [30] and SynthText,
Kết hợp với nhiều bộ data text recognition khác COCO Text, UberTextm RCTW17,ART,MLT19,…
Sử dụng dữ liệu ảnh text không phải synthetic trong quá trình huấn luyện: COCO text, Uber Text,...Rejected
54
Pretrained của mô hình Parseqhttps://github.com/baudm/parseq/releases/download/v1.0.0/parseq-bb5792a6.ptsynthetic training datasets MJSynth
(MJ) [30] and SynthText,
Kết hợp với nhiều bộ data text recognition khác COCO Text, UberTextm RCTW17,ART,MLT19,…
Sử dụng dữ liệu ảnh text không phải synthetic trong quá trình huấn luyện: COCO text, Uber Text,...Rejected
55
là với một tập. Mô hình là với một tập hợp các mô hình tự hồi quy (AR), họ có thể thống nhất các phương pháp giải mã STR hiện tại (AR nhận biết theo ngữ cảnh và không phải AR không theo ngữ cảnh) và mô hình sàng lọc hai chiều (cloze). Với tham số hóa bộ giải mã chính xác, nó có thể được huấn luyện bằng Mô hình ngôn ngữ hoán vị để cho phép suy luận về các vị trí đầu ra tùy ý cho các tập hợp con tùy ý của ngữ cảnh đầu vào. Đặc điểm của phương pháp này tạo ra một mô hình STR thống nhất—PARSeq—có khả năng suy luận không ngữ cảnh và nhận biết ngữ cảnh, cũng như sàng lọc dự đoán lặp lại bằng cách sử dụng ngữ cảnh hai chiều mà không yêu cầu mô hình ngôn ngữ độc lập.p hợp các mô hình tự hồi quy (AR), chúng tôi có thể thống nhất các phương pháp giải mã STR hiện tại (AR nhận biết theo ngữ cảnh và không phải AR không theo ngữ cảnh) và mô hình sàng lọc hai chiều (cloze):https://github.com/baudm/parseqsynthetic training datasets MJSynth
(MJ) [30] and SynthText,
Kết hợp với nhiều bộ data text recognition khác COCO Text, UberTextm RCTW17,ART,MLT19,…
Sử dụng dữ liệu ảnh text không phải synthetic trong quá trình huấn luyện: COCO text, Uber Text,...Rejected
56
The TrOCR model is an encoder-decoder model, consisting of an image Transformer as encoder, and a text Transformer as decoder. The image encoder was initialized from the weights of BEiT, while the text decoder was initialized from the weights of RoBERTa.https://huggingface.co/microsoft/trocr-base-printedFinetune on IAM,SROIE
Pretrain: Dữ liệu dạng văn bản lấy từ trên mạng( có chứa bộ dataset IIIT-HWS là chữ viết tay) với khá nhiều synthetic data
Có sử dụng IIIT-HWS pretrain là bộ dữ liệu chữ viết tay Rejected
57
Parseq-tinyhttps://github.com/baudm/parseq/releases/tag/v1.0.0synthetic training datasets MJSynth
(MJ) [30] and SynthText,
Kết hợp với nhiều bộ data text recognition khác COCO Text, UberTextm RCTW17,ART,MLT19,…
Sử dụng dữ liệu ảnh text không phải synthetic trong quá trình huấn luyện: COCO text, Uber Text,...Rejected
58
Mô hình CRNN kết hợp vgg19 và transformerhttps://vocr.vn/data/vietocr/config/vgg-transformer.ymlTrain trên 10M ảnh chữ trên tác vụ text recognitionPretrain trên bộ data chữ tiếng ViệtRejected
59
VietOCR - mô hình kết hợp giữa mô hình CNN và Transformerhttps://github.com/pbcquoc/vietocrTrain trên 10M ảnh chữ trên tác vụ text recognitionPretrain trên bộ data chữ tiếng ViệtRejected
60
nó là pretrained cho model abinet được huấn luyện trên tập dữ liệu tiếng anh cho bài toán scene text do tác giả parseq thực nghiệm để đánh giá các mô hình trong paper parseqhttps://github.com/baudm/parseq/releases/download/v1.0.0/abinet-1d1e373e.ptsynthetic training datasets MJSynth
(MJ) [30] and SynthText,
Kết hợp với nhiều bộ data text recognition khác COCO Text, UberTextm RCTW17,ART,MLT19,…
Sử dụng dữ liệu ảnh text không phải synthetic trong quá trình huấn luyện: COCO text, Uber Text,...Rejected
61
Mô hình pre-trained tiếng anh của Parseqhttps://github.com/baudm/parseq/releases/download/v1.0.0/parseq-bb5792a6.ptsynthetic training datasets MJSynth
(MJ) [30] and SynthText,
Kết hợp với nhiều bộ data text recognition khác COCO Text, UberTextm RCTW17,ART,MLT19,…
Sử dụng dữ liệu ảnh text không phải synthetic trong quá trình huấn luyện: COCO text, Uber Text,...Rejected
62
TrOCR: Transformer-based Optical Character Recognition with Pre-trained Modelshttps://github.com/microsoft/unilm/tree/master/trocrKết hợp synthetic vs collected dataCác bản pretrain đã được train trên dữ liệu text không phải syntheticRejected
63
Pretrained của mô hình ABInethttps://github.com/baudm/parseq/releases/download/v1.0.0/abinet-1d1e373e.ptsynthetic training datasets MJSynth
(MJ) [30] and SynthText,
Kết hợp với nhiều bộ data text recognition khác COCO Text, UberTextm RCTW17,ART,MLT19,…
Sử dụng dữ liệu ảnh text không phải synthetic trong quá trình huấn luyện: COCO text, Uber Text,...Rejected
64
vietocr là mô hình cài đặt mô hình Transformer OCR nhận dạng chữ viết tay, chữ đánh máy cho Tiếng Việt. Kiến trúc mô hình là sự kết hợp tuyệt vời giữ mô hình CNN và Transformer (là mô hình nền tảng của BERT khá nổi tiếng).https://github.com/pbcquoc/vietocrTrain trên 10M ảnh chữ trên tác vụ text recognitionPretrain trên bộ data chữ tiếng ViệtRejected
65
Model OCR transformer finetune trên chữ viết tay tiếng anh của Microsofthttps://huggingface.co/microsoft/trocr-base-handwrittenĐã được finetune trên bộ chữ tiếng AnhCác bản pretrain đã được train trên dữ liệu chữ viết tayRejected
66
Parseqhttps://github.com/baudm/parseq/releases/tag/v1.0.0synthetic training datasets MJSynth
(MJ) [30] and SynthText,
Kết hợp với nhiều bộ data text recognition khác COCO Text, UberTextm RCTW17,ART,MLT19,…
Sử dụng dữ liệu ảnh text không phải synthetic trong quá trình huấn luyện: COCO text, Uber Text,...Rejected
67
nó là pretrained cho model vitstr được huấn luyện trên tập dữ liệu tiếng anh cho bài toán scene text do tác giả parseq thực nghiệm để đánh giá các mô hình trong paper parseqhttps://github.com/baudm/parseq/releases/download/v1.0.0/vitstr-26d0fcf4.ptsynthetic training datasets MJSynth
(MJ) [30] and SynthText,
Kết hợp với nhiều bộ data text recognition khác COCO Text, UberTextm RCTW17,ART,MLT19,…
Sử dụng dữ liệu ảnh text không phải synthetic trong quá trình huấn luyện: COCO text, Uber Text,...Rejected
68
Pretrained của mô hình TRBAhttps://github.com/baudm/parseq/releases/download/v1.0.0/trba-cfaed284.ptsynthetic training datasets MJSynth
(MJ) [30] and SynthText,
Kết hợp với nhiều bộ data text recognition khác COCO Text, UberTextm RCTW17,ART,MLT19,…
Sử dụng dữ liệu ảnh text không phải synthetic trong quá trình huấn luyện: COCO text, Uber Text,...Rejected
69
parseq_small_patch16_224https://github.com/baudm/parseq/releases/tag/v1.0.0synthetic training datasets MJSynth
(MJ) [30] and SynthText,
Kết hợp với nhiều bộ data text recognition khác COCO Text, UberTextm RCTW17,ART,MLT19,…
Sử dụng dữ liệu ảnh text không phải synthetic trong quá trình huấn luyện: COCO text, Uber Text,...Rejected
70
Pretrained của mô hình ViSTRhttps://github.com/baudm/parseq/releases/download/v1.0.0/vitstr-26d0fcf4.ptsynthetic training datasets MJSynth
(MJ) [30] and SynthText,
Kết hợp với nhiều bộ data text recognition khác COCO Text, UberTextm RCTW17,ART,MLT19,…
Sử dụng dữ liệu ảnh text không phải synthetic trong quá trình huấn luyện: COCO text, Uber Text,...Rejected
71
Pretrained của mô hình CRNNhttps://github.com/baudm/parseq/releases/download/v1.0.0/crnn-679d0e31.ptsynthetic training datasets MJSynth
(MJ) [30] and SynthText,
Kết hợp với nhiều bộ data text recognition khác COCO Text, UberTextm RCTW17,ART,MLT19,…
Sử dụng dữ liệu ảnh text không phải synthetic trong quá trình huấn luyện: COCO text, Uber Text,...Rejected
72
Backbone gồm resnet, transformer kết hợp với position attentionhttps://awscv-public-data.s3.us-west-2.amazonaws.com/semimtr/semimtr_vision_model_real_l_and_u.pthKhông tra được dữ liệu pretrainRejected
73
Một biến thể của khối decoder trong mô hình transformerhttps://awscv-public-data.s3.us-west-2.amazonaws.com/semimtr/abinet_language_model.pthKhông tra được dữ liệu pretrainRejected
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100