Tên đề tài luận án tiến sĩ:

PHÁT HIỆN MỘT SỐ SỰ KIỆN BẤT THƯỜNG DỰA TRÊN HÌNH ẢNH SỬ DỤNG MÔ HÌNH PHÂN CẤP

Chuyên ngành: Kỹ thuật Máy tính

Mã số:  9.48.01.06

Họ và tên NCS: Vũ Hoài Nam

Người hướng dẫn khoa học:

  1. PGS.TS. Phạm Văn Cường


Cơ sở đào tạo: Học viện Công nghệ Bưu chính Viễn thông

Những đóng góp chính

  • Đóng góp thứ nhất, nghiên cứu sinh xây dựng hai bộ dữ liệu làm tiêu chuẩn đánh giá các mô hình nhận dạng sự kiện bất thường. Cụ thể, bộ dữ liệu LandslidePTIT được xây dựng cho bài toán phát hiện sạt lở trên đường vùng núi sau các trận mưa lũ lớn. Bộ dữ liệu bao gồm 2963 ảnh chứa các loại sạt lở khác nhau như đất, đá, bùn, đường bị sụt lún. Ảnh trong 115 bộ dữ liệu, sau đó, được đưa vào các hiệu ứng để mô phỏng lại các điều kiện thời tiết sau mưa lũ như sương mù, mưa nhỏ. Bộ dữ liệu thứ hai là bộ dữ liệu FirePTIT bao gồm các video chứa lửa trong các khung hình phục vụ cho việc đánh giá các mô hình phát hiện lửa từ ảnh và video. Bộ dữ liệu bao gồm 1032 video được thu thập trực tiếp từ hệ thống giám sát bằng camera giám sát. Độ dài video thay đổi từ 16 giây đến hơn 15 phút, chứa các đối tượng lửa ở các kích thước, vị trí, và màu sắc khác nhau. Ngoài ra, các video cũng chứa các đối tượng có thể gây cảnh báo giả, là các đối tượng có hình dạng, màu sắc giống lửa nhưng không phải lửa, như nhà cửa, xe cộ, người đi bộ. Đây là một trong những bộ dữ liệu đầy đủ nhất được công bố cho bài toán nhận dạng lửa theo những so sánh đánh giá trong chương 3.
  • Đóng góp thứ hai, Dựa trên những phân tích đánh giá đặc điểm của các sự kiện bất thường tĩnh, luận án đề xuất một mô hình mạng phân cấp cho phép nhận dạng các sự kiện bất thường tĩnh. Do đặc thù sự kiện bất thường tĩnh không có yếu tố chuyển động, nên toàn bộ quá trình phát hiện, nhận dạng đều được xử lý lên một ảnh đơn. Mô hình đề xuất cải thiện hiệu năng và tốc độ xử lý so với các kỹ thuật khác cho bài toán nhận dạng bất thường tĩnh. Các kết quả thực nghiệm với mô hình phân cấp cho hai bài toán nhận dạng, phát hiện hố sụt và sạt lở chứng minh sự hiệu quả của mô hình đề xuất. Đóng góp này của luận án được công bố tại công trình [CT1], [CT2], [CT3], [CT4]. Nội dung chi tiết của đóng góp được trình bày tại Chương 2 của luận án. Các mô hình được đề xuất tại đóng góp này là tiền đề để xây dựng mô hình phân cấp cho bài toán nhận dạng bất thường động được trình bày trong Chương 3 của luận án.
  • Đóng góp thứ ba, đề xuất một mô hình mạng phân cấp cho các đối tượng chuyển động dựa trên mô hình phân cấp cho nhận dạng đối tượng bất thường tĩnh ở trong đóng góp thứ 2, kết hợp thêm mô hình có khả năng trích xuất đặc trưng thời gian để đảm bảo tính thống nhất và mô tả đúng bản chất của đối tượng. Mô hình đề xuất có khả năng trích xuất đặc trưng không gian và thời gian cùng lúc cho nhận dạng chính xác đối tượng bất thường. Mô hình đề xuất cho độ chính xác cao hơn với tỉ lệ cảnh báo giả thấp, tốc độ xử lý nhanh hơn so với các mô hình khác. Độ chính xác của mô hình cao hơn xuất phát từ các chặng của mô hình phân cấp đã loại bỏ đi phần lớn các đối tượng không liên quan ở nền (background), và bộ trích xuất đặc trưng thời gian mô hình hóa được đối tượng chuyển động trong video. Tốc độ xử lý nhanh hơn xuất phát từ việc các hình ảnh đối tượng đi tới các mô hình học máy là hình 116 ảnh đã được cắt ra từ ảnh gốc với kích thước nhỏ. Đóng góp này của luận án được công bố tại [CT5], [CT6]. Nội dung chi tiết của đóng góp được trình bày tại Chương 3 của luận án.


Hướng phát triển nghiên cứu trong tương lai

  1. Một số chủ đề tiềm năng có thể được mở rộng từ các nghiên cứu trong luận án này, sử dụng mô hình phân cấp, các sự kiện bất thường của người có thể được nghiên cứu trong ngữ cảnh phối hợp hoạt động của camera và cảm biến đeo. Khi đó mô hình kết hợp nguồn dữ liệu sẽ được đặt trong bối cảnh của mô hình phân cấp, nâng cao hiệu quả nhận dạng.
  2. Mô hình mạng phân cấp có thể kết hợp với ngữ cảnh để nâng cấp các bộ lọc yếu.
  3. Nghiên cứu các phương pháp học máy mới để giải quyết bài toán ít dữ liệu như few shot learning và sinh dữ liệu.