Bản thử nghiệm đầu tiên, ưu tiên an toàn dữ liệu: mô hình gần như không phá phần văn bản vốn đã đúng (keep ≈ 1.0, over ≈ 0). Giảm bịa nội dung (hallucination) trên bộ kiểm thử khó là trọng tâm của các bản kế tiếp.
CHỈ SỐ ĐÁNH GIÁ KỸ THUẬT · THEO LOẠI THỰC THỂ
COMPOSITE · ĐIỂM TỔNG CẤP MODEL
0.6894
Điểm tổng hợp chung cho cả ba loại thực thể.
date · ngày tháng
162
mẫu vàng (gold)
doc · mã văn bản
190
mẫu vàng (gold)
money · số tiền
356
mẫu vàng (gold)
Precision · Recall · F1↑ càng cao càng tốt
P R F1
Hành vi sửa lỗikeep ↑ · fix ↑ · over ↓ · hall ↓
keep fix over hall
keepGiữ đúng nội dung chuẩn ↑
hallBịa / đổi sai nội dung ↓
fixKhôi phục thực thể bị lỗi
P · R · F1Precision / Recall / F1 khi sửa
overTự ý sửa sai phần đúng ↓
compositeĐiểm tổng hợp cấp model
THAY ĐỔI CHÍNH
+Giữ nguyên ~100% nội dung vốn đã chính xác — gần như không sửa hỏng phần đúng
+Tỉ lệ tự ý sửa sai (over) ≈ 0 trên cả ba loại thực thể
+Kiểm định riêng theo từng loại: ngày tháng (date), mã văn bản (doc), số tiền (money)
KẾT QUẢ TRÊN MẪU KHÓ
Bản án — cụm tố tụngĐẠT
ĐẦU VÀOHoi dong xet xu so tham tuyen phat bi caoKẾT QUẢHội đồng xét xử sơ thẩm tuyên phạt bị cáo
Tiêu ngữ + số hiệuĐẠT
ĐẦU VÀOQuyet dinh so 1l2/QD-UBND ngay 0l/6/2O25KẾT QUẢQuyết định số 112/QĐ-UBND ngày 01/6/2025
↳Khôi phục chữ số OCR đọc nhầm (l→1, O→0)
Chống hallucinationĐẠT
ĐẦU VÀOCac ben thoa thuan nhu sau:KẾT QUẢCác bên thỏa thuận như sau: