Page 326 - SDMD CNKT va CNTT trong tien trinh CNH_HDH DBSCL
P. 326
Hình 16.1. Luồng xử lý chung của các thuật toán máy học (Akerkar, 2019)
Bước 1: Thu thập dữ liệu: Dùng các cơ sở hạ tầng Công nghệ thông tin
để thu thập dữ liệu phù hợp nhất có thể đưa vào bộ dữ liệu dùng cho quá trình
huấn luyện và kiểm tra, đánh giá độ hiệu quả của mô hình.
Bước 2: Chuẩn bị dữ liệu: Bước chuẩn bị dữ liệu sẽ giúp cho quá trình
huấn luyện đạt hiệu quả tốt. Các quá trình tiền xử lý và làm sạch có thể tương
đối phức tạp, nhưng nói chung nhằm mục đích giải quyết vấn đề dữ liệu còn
thiếu và sửa các sai sót khác trong dữ liệu.
Bước 3: Chia dữ liệu: Tách dữ liệu ban đầu thành các tập con, bao gồm
bộ dữ liệu huấn luyện (training set) dùng cho huấn luyện mô hình và bộ dữ
liệu kiểm tra (test/validation set) để đánh giá độ hiệu quả của mô hình so với
dữ liệu mới.
Bước 4: Huấn luyện mô hình: Sử dụng tập dữ liệu huấn luyện để cho
phép thuật toán nhận ra những khuôn mẫu trong bộ dữ liệu đó.
Bước 5: Kiểm tra đánh giá độ hiệu quả của mô hình: Đánh giá hiệu
suất của mô hình trên các bộ dữ liệu kiểm tra - đây là tập dữ liệu chưa được
nhìn thấy trong quá trình huấn luyện để xem mức độ hoạt động hiệu quả của
mô hình.
Bước 6: Sử dụng mô hình: Sau quá trình đánh giá kỹ lưỡng, có sự so
sánh độ hiệu quả, chúng ta thường sẽ chọn mô hình phù hợp để triển khai.
Bước 7: Thu thập dữ liệu mới và lặp lại. Sau một quá trình sử dụng, có
thể mô hình sẽ “lỗi thời” không còn cho những dự đoán chính xác, thêm nữa
chúng ta đã có thêm nhiều dữ liệu trong quá trình sử dụng. Chúng ta lặp lại
quy trình từ bước 1 để từng bước cải thiện độ hiệu quả của mô hình.
312