Page 328 - SDMD CNKT va CNTT trong tien trinh CNH_HDH DBSCL
P. 328
học cá thể hóa, việc phân tích dữ liệu metagenomic để có thể đưa ra phương
pháp điều trị phù hợp cho từng bệnh nhân là vô cùng cần thiết.
Hình 16.2. Tiến trình “định lượng Metagenomic” trong ruột người
(Nguồn: Tài và ctv., 2020)
Hình 16.2 mô tả một ví dụ về việc xử lý dữ liệu metagenomic phân tích
các thành phần vi khuẩn có trong ruột người, để thu được dữ liệu cho phân
tích, kho dữ liệu này cần phải trải qua nhiều giai đoạn xử lý. Như mô tả của
Tài và ctv. (2020) dữ liệu từ các mẫu phân của bệnh nhân, sau đó đem đi phân
tích giải trình tự vật liệu di truyền (deoxyribonucleic acid - DNA). Kết quả
giải trình tự này sẽ được tham chiếu đến bộ gene đã được công bố để tìm ra
những đoạn DNA này thuộc những loài nào, kết quả sau khi tham chiếu sẽ có
được một bảng gọi là “Bộ đếm gen” (gene counts). Căn cứ vào bộ đếm gen
này, chúng ta sẽ có được kết quả tham chiếu về các loài vi khuẩn đã biết và
thông qua tính toán sẽ biết được các tỷ lệ phân bố (anbudance) các thành phần
vi khuẩn trong cơ thể của chính bệnh nhân. Độ phong phú tương đối như một
độ đo đa dạng sinh học và cho biết độ phổ biến hay độ nguy hiểm của một
loài si với các loài khác.
16.2.2 Các giải pháp Tăng cường dữ liệu (data augmentation)
Trong các bài toán học sâu, dữ liệu đóng một vai trò vô cùng quan trọng,
ảnh hưởng trực tiếp đến chất lượng mô hình. Tuy nhiên, dữ liệu thực tế chúng
ta thu thập được cho các nghiên cứu là khó khăn. Một thử thách khác là dữ
liệu thu thập thường mất cân bằng giữa các lớp, việc thiếu hay mất cân bằng
dữ liệu sẽ rất khó để huấn luyện ra một mô hình có kết quả dự đoán tốt và
314