Airflow, một nền tảng nguồn mở, được sử dụng để sắp xếp các luồng công việc dưới dạng biểu đồ chu kỳ theo hướng (DAG) của các tác vụ theo cách lập trình. Một lịch trình luồng không khí được sử dụng để lên lịch các quy trình công việc và đường ống xử lý dữ liệu. Giao diện người dùng Airflow cho phép dễ dàng hình dung các đường ống chạy trong môi trường sản xuất, giám sát tiến trình của quy trình công việc và xử lý sự cố khi cần. Các tiện ích dòng lệnh phong phú được sử dụng để thực hiện các ca phẫu thuật phức tạp trên DAG.

Bạn đang xem: Airflow là gì

Trong blog này, hãy thảo luận về lập lịch và thực hiện các công việc Talend với Airflow.

Điều kiện tiên quyết

Luồng khí 1.7 trở lên Python 2.7 Studio mở Talend (Tích hợp dữ liệu lớn hoặc dữ liệu)

Ca sử dụng

Lập lịch và thực hiện các công việc Talend ETL với Airflow.

Tóm tắc

Tác giả Talend việc làm Lịch trình công việc Talend Giám sát quy trình công việc trong Web UI

Mô tả công việc

Việc làm Talend ETL được tạo bởi:

Tham gia application_id từ applicant_loan_info và loan_info như thể hiện trong sơ đồ dưới đây:

*
*

Đang tải dữ liệu trùng khớp vào  loan_application_analysis bảng. Áp dụng một bộ lọc trên LoanDecisionType lĩnh vực trong  các  loan_application_analysis bảng để cô lập các giá trị như Approvedbị từ chối , và bị thu hồi . Áp dụng một bộ lọc khác trên các giá trị được tách riêng ở trên để tách riêng LoanType thành Cá nhân , Tự động , Tín dụngNhà .

Công việc Talend đã tạo được xây dựng và di chuyển đến vị trí máy chủ. Một DAG có tên  Loan_Application_Analysis.py được tạo với đường dẫn tương ứng của các tập lệnh để thực thi luồng theo yêu cầu.

Tạo thư mục DAG và khởi động lại máy chủ web luồng không khí

Sau khi cài đặt Airflow, hãy thực hiện như sau:

Tạo thư mục DAG ( / home / ubfox / airflow / dags ) trong đường dẫn Airflow. Di chuyển tất cả các  .py tập tin vào thư mục DAG. Khởi động lại máy chủ web Airflow bằng mã dưới đây để xem DAG này trong danh sách UI: Loginto the AIRFLOW_HOME path– eg.(/home/ubuntu/airflow) To restart webserver —> airflow webserver To restart scheduler —> airflow scheduler

Sau khi khởi động lại máy chủ web, tất cả .py các tệp hoặc DAG trong thư mục sẽ được tham chiếu và tải vào danh sách DAG UI web.

Lập kế hoạch công việc

Các công việc Talend đã tạo có thể được lên lịch bằng cách sử dụng bộ lập lịch Airflow. Để biết mã, xem phần  Tài liệu tham khảo .

Lưu ý : Công việc có thể được kích hoạt thủ công bằng cách nhấp vào  nút Run bên dưới  cột Liên kết như hình dưới đây:

*

Cả hai công việc được lên lịch tự động và được kích hoạt thủ công có thể được xem trong giao diện người dùng như sau:

*

Giám sát công việc

Khi thực hiện các công việc, các quy trình ngược dòng hoặc xuôi dòng sẽ được bắt đầu như được tạo trong DAG. Khi nhấp vào một DAG cụ thể, trạng thái tương ứng như thành công, thất bại, thử lại, xếp hàng, v.v. của công việc có thể được hình dung theo các cách khác nhau trong giao diện người dùng.

Xem thêm: Nghĩa của từ cross over là gì

Xem biểu đồ

Các trạng thái của các công việc được thể hiện dưới dạng đồ họa như dưới đây:

*

Chế độ xem cây

Các trạng thái của các công việc cùng với ngày thực hiện của các công việc được thể hiện dưới dạng cây như dưới đây:

*

Xem Gannt

Các trạng thái của các công việc cùng với ngày thực hiện của các công việc được thể hiện theo định dạng Gannt như dưới đây:

*

Xem thời lượng tác vụ

Khi nhấp vào tab Thời lượng tác vụ , bạn có thể xem thời lượng tác vụ của toàn bộ quá trình hoặc DAG theo định dạng đồ họa như dưới đây:

*

Xem trường hợp nhiệm vụ

Bằng cách nhấp vào Duyệt  >  Trường hợp tác vụ , bạn có thể xem các trường hợp mà các tác vụ đang chạy, như được hiển thị bên dưới:

*

Xem công việc

Bằng cách nhấp vào Duyệt  >  Công việc , bạn có thể xem chi tiết như thời gian bắt đầu, thời gian kết thúc và người thực hiện công việc, như được hiển thị trong sơ đồ bên dưới:

*

Xem nhật ký

Bằng cách nhấp vào Duyệt  >  ViewLog , bạn có thể xem chi tiết của nhật ký, như được hiển thị trong sơ đồ bên dưới:

*

Hồ sơ dữ liệu

Airflow cung cấp giao diện truy vấn SQL đơn giản để truy vấn dữ liệu và giao diện người dùng biểu đồ để trực quan hóa các tác vụ.

Để cấu hình dữ liệu của bạn, nhấp vào Quản trị viên  >  Kết nối để chọn loại kết nối cơ sở dữ liệu, như được hiển thị trong sơ đồ bên dưới:

*

Truy vấn Ad Hoc

Để viết và truy vấn dữ liệu, nhấp vào Hồ sơ dữ liệu  >  Truy vấn quảng cáo .

*

Biểu đồ

Các loại trực quan hóa khác nhau có thể được tạo cho thời gian tác vụ và trạng thái nhiệm vụ bằng biểu đồ.

Để tạo các biểu đồ như thanh, đường, khu vực, v.v. cho một DAG cụ thể bằng truy vấn SQL, nhấp vào Cấu hình dữ liệu  > Biểu đồ  >  DAG_id , như được hiển thị trong sơ đồ bên dưới:

*

Tất cả các DAG được biểu thị bằng đồ họa, như thể hiện trong sơ đồ dưới đây:

*

thông báo có email

Thông báo qua email như email_on_failure, email_on_successvà  email_on_retries có thể được đặt để biết trạng thái công việc.

Để bật thông báo, hãy thực hiện như sau:

Định cấu hình cài đặt trong  airflow.cfg tệp trong  airflow_home đường dẫn, như hiển thị bên dưới:

*

Đặt lại cài đặt email của bạn thành cài đặt Gmail >  allow_less safe_appsON  để nhận thông báo qua email từ Airflow.

Lưu ý : Bạn có thể nhận được authentication_error nếu cài đặt email không được cấu hình đúng. Để khắc phục sự cố này, hãy chấp nhận thiết bị đăng nhập làm thiết bị của chúng tôi trong thiết bị Gmail xem xétCó Đó là Tôi .

Một email thất bại công việc được hiển thị dưới đây:

*

Khi nhấp vào Liên kết trong email, bạn sẽ được chuyển hướng đến trang Nhật ký.

Xem thêm: Chủ đề 6: Cụm động Từ đi Với Look Into Nghĩa Là Gì

Phần kết luận

Trong blog này, chúng tôi đã thảo luận về tác giả, lập lịch và giám sát quy trình công việc từ giao diện người dùng web, cũng như kích hoạt các công việc Talend trực tiếp từ giao diện người dùng web theo yêu cầu bằng cách sử dụng bash toán tử. Bạn cũng có thể chuyển dữ liệu từ cơ sở dữ liệu này sang cơ sở dữ liệu khác bằng  generic_transfer toán tử.

Tài liệu tham khảo

Mã trong GitHub

Chuyên mục: Hỏi Đáp