trong Data Mining and Business Intelligence…Data Mining and Business Intelligence…(Entire Site)

Tìm kiếm

BIS » Data Mining and Business Intelligence » Data Mining and Business Intelligence » Vấn đề xử lý bất thường (outlier) trong dữ liệu

*
*
*

gmail.com

Trong quá trình thu thập,phân tí;ch dữ liệu, ta thường gặp các quan sát mà giá trị của nó rất khác biệtso với giá trị của các quan sát khác, đây gọi là các bất thường (hay ngoại lai– Outlier).

Outlierlà gì?

Outlier là các giá trị cực(extreme values) so với các giá trị khác được quan sát trong cùng một điều kiện.Outlier có thể là một giá trị đơn lẻ, nhưng cũng có thể là giá trị từ hai haynhiều biến số. (Outliers are observations that have extreme values relative toother observations observed under the same conditions. Observations may beoutliers because of a single large or small value of one variable or because ofan unusual combination of values of two or more variables)

Vấn đề ở đây là thế nàolà “giá trị cực” hay outlier? Đây là câu hỏi khó trả lời và thường phụ thuộcvào yêu cầu phân tí;ch của bài toán đặt ra.

Bạn đang xem: Outlier là gì

*

Phát hiện outlier có rất nhiều ýnghĩa và ứng dụng trong rất nhiều lĩnh vực như phát hiện gian lận trong giao dịchtài chí;nh, viễn thông…; phân tí;ch hành vi khách hàng, người tiêu dùng; phát hiệnbệnh tật (các bất thường thường được quan tâm trong y học vì có khả năng bị bệnhcao);…

Mộtsố cách phát hiện bất thường

Có rất nhiều cách để pháthiện bất thường trong dữ liệu tùy thuộc vào dữ liệu nguồn, yêu cầu phân tí;ch củabài toán đặt ra hay kinh nghiệm của người phân tí;ch.

Dựavào phân phối chuẩn (nếu dữ liệu tuân theo luật phân phối chuẩn):

Ta biết rằng nếu biến sốX tuân theo luật phân phối chuẩn với trung bình m và độ lệch chuẩn s thì 99%các giá trị của X phải nằm trong khoảng m – 3*s đến m + 3*s. Do đó, nếu có xinào có giá trị nằm ngoài khoảng này thì có thể nghi ngờ là outlier

Dựavào đồ thị (histogram, scatter, Plot box…)

Dựavào các kỹ thuật phân cụm (clustering technique)

Dựavào phương pháp mật độ (Density-based Approaches)

Khiphát hiện các outlier trong dữ liệu thìxử lý như thế nào?

Có rất nhiều cách để xửlý outlier khi phát hiện, mỗi cách có ưu và nhược điểm riêng. Việc chọn cáchnào tùy thuộc vào yêu cầu phân tí;ch dữ liệu của bài toán đặt ra.

Sau đây là một số cách xửlý outliers:

·Deleterows containing outlier: Xóa dòng dữ liệu chứa outlier ra khỏidữ liệu phân tí;ch. Việc này sẽ làm mất một số thông tin trên các cột khác nếucác cột này cần cho phân tí;ch.

Xem thêm: Oops Là Gì – Những Gì S S S Viết Tắt Của

·Changevalue to mean: Các giá trị outlier sẽ được thay bằng giátrị trung bình

·Changevalue to null: Xóa giá trị oulier đặt lại là null(empty)

·Change value to specific value: Đổioutlier thành một giá trị cụ thể (do người phân tí;ch, chuyên gia đề xuất)

Giớithiệu công cụ xử lý outlier

Phần này giới thiếu côngcụ Data mining của Microsoft add-ins trong Excel để phát hiện và xử lý outlierrất nhanh chóng và thuận tiện.

Xem thêm: Thuế Trước Bạ Là Gì, Trước Bạ Nghĩa Là Gì

Sau khi cài Data Mining Add-ins – Excel, vào menu Clean Data=> Outliers

*

Chọnvùng dữ liệu, và chọn cột cần phát hiện outlier

*

Trongví; dụ này chọn cột thu nhập hằng tháng (Yearly Income) cần phân tí;ch

*

Chọn cách thức xử lý khiphát hiện outlier. Ở đây chọn là thay thế outlier bằng giá trị trung bình

*

Trong ví; dụ này tất cả nhữngngười có thu nhập hằng tháng trên 150000 được xem là các outliers và được thaythế bằng giá trị trung bình thu nhập của các quan sát khác.

Chọn thêm cột mới vào dữliệu nguồn (worksheet đang làm việc), copy dữ liệu đã xử lý outlier ra sheetkhác hoặc thay thế trực tiếp lên dữ liệu đang thao tác (không nên chọn vì sẽ mấtdữ liệu gốc). Trong ví; dụ này chọn thêm cột mới

Chuyên mục: Hỏi Đáp

.tags a {
color: #fff;
background: #909295;
padding: 3px 10px;
border-radius: 10px;
font-size: 13px;
line-height: 30px;
white-space: nowrap;
}
.tags a:hover { background: #818182; }

#footer {font-size: 14px;background: #ffffff;padding: 10px;text-align: center;}
#footer a {color: #2c2b2b;margin-right: 10px;}