Bài toán nhận dạng chứng mình thư

Machine Learning

Chào các bạn, nguyên văn của chuyên gia computer vision FPT có đoạn viết cho bài toán chứng minh thư: 😀

“1. Cropper

Tác vụ này xác định 4 góc của thẻ CMND và sau đó cắt về dạng ảnh chữ nhật. Ý nghĩa chính của tác vụ là phục vụ cho việc Detector liền kề sau đó dễ dàng hơn.

Các mô hình phát hiện đối tượng (object detection) phổ biến hiện nay chỉ trả về 2 góc (trái trên phải dưới, hoặc tâm box kèm giá trị chiều ngang dọc) giúp ta định hình một box hình chữ nhật. Chúng tôi sử dụng một mẹo nhỏ bằng cách coi mỗi góc của CMND là một đối tượng và sau đó phát hiện 4 góc này. Tiếp theo đó bằng cách áp dụng một vài phép biến đổi hình học cơ bản để cắt về dạng ảnh chữ nhật.

Mô hình phát hiện mà nhóm nghiên cứu đang sử dụng là bộ phát hiện đơn pha: SSD (SSD: Single Shot MultiBox Detector), với bộ trích xuất đặc trưng là MobileNet v2 (MobileNetV2: Inverted Residuals và Linear Bottlenecks).

SSD cung cấp cho nhóm nghiên cứu tốc độ truy xuất nhanh, trong khi MobileNet v2 giảm số lượng tính toán và bộ nhớ sử dụng nhưng vẫn duy trì được độ chính xác tốt.”

Mình nghĩ là họ muốn detect chính xác 4 điểm giống như regression, tuy vậy mình đang không hiểu cái mẹo nhỏ của họ ở đây cụ thể là gì? Họ coi mỗi góc là một object??? Nghĩa là thế nào? SSD dùng ở đây là để detect vùng chứng minh thư theo hộp chữ nhật chứ làm sao detect 4 điểm?
Các bạn có ý kiến gì không? (Phạm Công Dân)

Tham khảo:

Phạm Hữu Quanghttps://khurramjaved96.github.io/RecursiveCNN.pdf
Chắc là cái này rồi

Leave a Reply

Your email address will not be published. Required fields are marked *