Tổng quan ETL
Tiến trình ETL hay còn được gọi là tiến trình thu thập và tích hợp dữ liệu (Data Acquisition and Integration).
Bạn đang xem: Etl là gì
Extract (Data Acquisition): truy cập hệ thống nguồn để trích xuất dữ liệu. Dữ liệu được sinh ra từ quá trình này gọi là dữ liệu nguồn (Source Data).Transform (Data Integration): kiểm tra, làm sạch, điều chỉnh phù hợp các yêu cầu của DW. Dữ liệu được tạo ra bảo quá trình này gọi là dữ liệu tải (Load Data).Load (Data Integration): cập nhật DW với dữ liệu được cung cấp từ Load Data.
Data Mapping
Data Mapping giúp xác định dữ liệu nguồn (vị trí location, trạng thái state, thời gian timing,…) đáp ứng các yêu cầu dữ liệu của một DW. Các phép biến đổi các thiết để tạo ra các thành phần dữ liệu trong DW cũng được thể hiện trong bản đồ dữ liệu này. Data Mapping có thể được thể hiện ở dạng bảng tính, biểu đồ hoặc văn bản.
Data Mapping dạng đơn giản
Business Rule
Qui tắc nghiệp vụ được sử dụng để tạo ra các quy tắc kiểm chứng chất lượng dữu liệu (Data Quality validations) của dữ liệu và các luồng của nó trong DW (luồng ETL, luồng Aggregation). Vì vậy, bất kỳ thành phần dữ liệu nào trong DW phải duy trì hành xử nhất quán; và nếu có thể ảnh hưởng đễn chất lượng nhận thức của DW, phải đưa vào danh sách Business Rules.
Xem thêm: Landscape Là Gì – định Nghĩa, Ví Dụ, Giải Thích
Ví dụ:
Kiến trúc ETL
Extract-Transform-Load
Trong ứng dụng ETL, data được lấy từ hệ thống hoạt động Operational System. Dữ liệu trích xuất Extracted Data được nắm bắt trên nền tảng đươc điều khiển bởi ứng dụng ETL. Tiến trình nắm bắt dữ liệu trên nền tảng này được gọi là Staging. Nền tảng này được gọi là Staging Platform hoặc Staging Environment. Tại thời điểm này, Staged Data ở dạng thô raw, giống thể thức và trạng thái của nó trong ứng dụng hoạt đông. Trước quá trình Transform, Staged Data được gọi là Source Data.
Ứng dụng Transform thực thi các phiến biến đổi dữ liệu cần thiết trên Source Data để làm nó phù hợp với các qui tắc, bố cục và định dạng trong DW. Transformed Data vẫn được được nắm bắt trong Staging Platform. Tuy nhiên, sau khi Transform, Staged Data được gọi là Load Data.
Ứng dụng Load là cầu nối khoảng cách giãu ETL/Staging Platform và DW Platform. Ứng dụng Load đọc Load Data và thực thi các bước INSERT, UPDATE, DELETE trên DW. Khi ứng dụng Load thành công, ETL hoàn thành.
Extract-Load-Transform
Sự khác biệt giữa ứng dụng ETL và ELT là nền tảng plaform mà ứng dụng thực thi chức năng của nó.
Xem thêm: Level Là Gì
Ứng dụng ELT sử dụng nền tảng ELT như một nền tảng tạm thời để kết nối tới nền tảng DW RDBMS. Nền tảng ELT trích xuất dữ liệu hoạt động, tải trực tiếp vào các Staging Table trên nền tảng DW RDBMS. Tất cả chức năng Transform được thực hiện trên nền tảng này. Cuối cùng, DW được tải từ bên trong nền tảng DW RDBMS.
Nguyên lý thiết kế ETL
Process principles:
One Thing at a TimeKnow when to BeginKnow when to EndLarge to Medium to SmallStage Data IntegrityKnow what you have
Stage principles:
Chuyên mục: Hỏi Đáp