Data Warehouse và các hệ thông OLAP được xây dựng theo mô hình dữ liệu đa chiều (multi-dimensional model)

Kiến trúc khối (cube) OLAP

Dữ liệu trong kho dữ liệu được thể hiện dưới dạng đa chiều (Multi Dimension) gọi là khối (cube). Mỗi chiều mô tả một đặc trưng nào đó của dữ liệu. (Nếu số chiều dữ liệu lớn hơn 3, gọi là Hyper Cube)

*

1. Chiều (Dimension) và Độ đo (Measure)Dimension: cung cấp các thông tin, ngữ cảnh cho bảng fact (Muốn truy cập số liệu data warehouse đều phải thông qua chúng).Quy mô nhỏ hơn Fact.Các dạng lưu trữ bảng dimension (Dim Types):Type 0: Retain OriginalType 1: OverwriteType 2: Add new row Type 3: Add new attributeType 4: Add history tableType 6: HybridMeasure: Là đại lượng có thể tính toán được trên các thuộc tính của fact table.Đây là mục tiêu của OLAP và phải xác định trước khi tiến hành phân tích.Ví dụ như tổng tiền bán hàng của một chi nhánh, doanh thu của từng mặt hàng theo quí,…

Ví dụ: với Data Cube bán hàng thì chiều hàng hóa (Product) mô tả chi tiết về hàng hóa, chiều thời gian (time) mô tả về thời gian bán hàng, và các độ đo (Số lượng, Doanh thu,…)

*

2. Cây phân cấp và số liệu tổng hợp

Mức độ chi tiết của các tiêu chí thể hiện cho người dùng được gọi là mức dữ liệu (data granularity), được quyết định bằng việc kết hợp các mức dữ liệu của từng cắt lớp.

Bạn đang xem: Olap là gì

*

Ví dụ: Người dùng có thể lựa chọn mức độ chi tiết của số liệu:

Chiều hàng hoá(Product), có các mức: sản phẩm, loại sản phẩm, công nghiệpChiều thị trường, có các mức: khu vực, quốc gia, thành phố, địa điểmChiều thời gian, có các mức: năm, quý, tháng, tuần, ngày

*

Số liệu tổng hợp: Việc tổng hợp số liệu xảy ra khi người dùng thay đổi mức chi tiết của dữ liệu lấy ra từ cube, bằng cách duyệt qua cây phân cấp của cắt lớp.

Ví dụ: Nếu cắt lớp Thời gian sử dụng ở mức quý thay vì mức ngày thì doanh số của quý sẽ được tổng hợp bằng phép cộng. Tương tự, dữ liệu ở mức Tất cả được tổng hợp bằng giá trị dữ liệu của tất cả các ngày.

Các qui luật tổng hợp số liệu, xem ở đây.

Mô hình thiết kế DW

1. OLAP kiểu quan hệ (Relational OLAP ~ ROLAP)Dùng câu lệnh SQL để thực hiện các tính năng của OLAP2. OLAP kiểu đa chiều (Multi-dimensional OLAP ~ MOLAP)Lưu trữ dữ liệu dưới dạng file có cấu trúc đặc thù (mảng,…)Thực hiện các tính năng OLAP trên cấu trúc này3. OLAP lai (Hybird OLAP ~ HOLAP = ROLAP + MOLAP)Tận dụng khả năng lưu trữ của OLAP và khả năng xử lý của MOLAP.Ví dụ:Lưu dữ liệu chi tiết (details data) trên CSDL quan hệ.Dữ liệu tổng hợp được lưu trên không gian MOLAP

ROLAPMOLAPHOLAPLữu trữ dữ liệu cơ sở

Lưu trữ dữ liệu tổng hợp

Hiệu suất truy vấn

Không gian lữu trữ

Chi phí bảo trì

Bảng quan hệKhốiBảng quan hệ
Bảng quan hệKhốiKhối
ChậmNhanhTrung bình
NhỏLớnTrung bình
ThấpCaoTrung bình

Các dạng lược đồ dữ liệu đa chiều

1. Lược đồ hình sao (Star Schema)

Bao gồm:

Bảng sự kiện (fact): theo dõi biến động dữ liệuCác bảng chiều (dimension): mô tả các đặc trưng các chiều như thời gian, hàng hoá,…

*

Khoá thay thế (Surrogate Key – SK):Là khoá chính bảng chiều(dimension) thường có giá trị là kiểu số.Thường được hệ thống DW sinh ra (duy nhất) bằng các luồng ETLĐược sử dụng trong nội DW.Khoá tự nhiên (Natural Key – NK):Là khoá chính của dữ liệu trong các hệ thống nghiệp vụ.

Xem thêm: Steam Là Gì – Steam Thực Chất Là 1

*

2. Lược đồ bông tuyết (Snowflake Schema)

Giảm dư thừa dữ liệu bằng cách chuẩn hoá các bảng dimension.Một thực thể dimension có phân cấp >> được phân thành nhiều bảng dữ liệu khác nhau (mỗi bảng một cấp).

*

3. Lược đồ ánh sao (Starflake Schema)

Là sự kết hợp giữa lược đồ hình sao và bông tuyết.Một số dimension được chuẩn hoá, một số khác thì không.Phân cấp của Snowflake Schema được chuẩn hoá (normalize).

*

Lược đồ ánh sao được chuẩn hoá để xoá bỏ dư thừa trong các bảng chiều. Các phân cấp chiều dùng chung được đặt trong outriggers.

*

4. Lược đồ chòm sao (Constellation Schema)

Các bảng fact dùng chung dimension với nhau

*

Đánh giá: 

Với lược đồ hình sao, phép JOINS được giảm thiều, Thao tác QUERY nhanh hơn, nhưng kích thước bảng Fact lớnVới lược đồ bông tuyết, dữ liệu phân tán, dễ dàng lấy dữ liệu fact-less. Nhiều phép JOINS, thao tác QUERY chậm hơn.

Xem thêm: Công Chứng Là Gì – đặc điểm Của Công Chứng

Lược đồ hình sao tốt hơn, nhưng trong thực tế rất khó để xây dựng ứng dụng với Star Schema.

Chuyên mục: Hỏi Đáp