Airflow, một nền tảng nguồn mở, được sử dụng để sắp xếp các luồng công việc dưới dạng biểu đồ chu kỳ theo hướng (DAG) của các tác vụ theo cách lập trình. Một lịch trình luồng không khí được sử dụng để lên lịch các quy trình công việc và đường ống xử lý dữ liệu. Giao diện người dùng Airflow cho phép dễ dàng hình dung các đường ống chạy trong môi trường sản xuất, giám sát tiến trình của quy trình công việc và xử lý sự cố khi cần. Các tiện ích dòng lệnh phong phú được sử dụng để thực hiện các ca phẫu thuật phức tạp trên DAG.
Bạn đang xem: Airflow là gì
Trong blog này, hãy thảo luận về lập lịch và thực hiện các công việc Talend với Airflow.
Điều kiện tiên quyết
Luồng khí 1.7 trở lên Python 2.7 Studio mở Talend (Tích hợp dữ liệu lớn hoặc dữ liệu)
Ca sử dụng
Lập lịch và thực hiện các công việc Talend ETL với Airflow.
Tóm tắc
Tác giả Talend việc làm Lịch trình công việc Talend Giám sát quy trình công việc trong Web UI
Mô tả công việc
Việc làm Talend ETL được tạo bởi:
Tham gia application_id từ applicant_loan_info và loan_info như thể hiện trong sơ đồ dưới đây:
Đang tải dữ liệu trùng khớp vào loan_application_analysis bảng. Áp dụng một bộ lọc trên LoanDecisionType lĩnh vực trong các loan_application_analysis bảng để cô lập các giá trị như Approved , bị từ chối , và bị thu hồi . Áp dụng một bộ lọc khác trên các giá trị được tách riêng ở trên để tách riêng LoanType thành Cá nhân , Tự động , Tín dụng và Nhà .
Công việc Talend đã tạo được xây dựng và di chuyển đến vị trí máy chủ. Một DAG có tên Loan_Application_Analysis.py được tạo với đường dẫn tương ứng của các tập lệnh để thực thi luồng theo yêu cầu.
Tạo thư mục DAG và khởi động lại máy chủ web luồng không khí
Sau khi cài đặt Airflow, hãy thực hiện như sau:
Tạo thư mục DAG ( / home / ubfox / airflow / dags ) trong đường dẫn Airflow. Di chuyển tất cả các .py tập tin vào thư mục DAG. Khởi động lại máy chủ web Airflow bằng mã dưới đây để xem DAG này trong danh sách UI: Loginto the AIRFLOW_HOME path– eg.(/home/ubuntu/airflow) To restart webserver —> airflow webserver To restart scheduler —> airflow scheduler
Sau khi khởi động lại máy chủ web, tất cả .py các tệp hoặc DAG trong thư mục sẽ được tham chiếu và tải vào danh sách DAG UI web.
Lập kế hoạch công việc
Các công việc Talend đã tạo có thể được lên lịch bằng cách sử dụng bộ lập lịch Airflow. Để biết mã, xem phần Tài liệu tham khảo .
Lưu ý : Công việc có thể được kích hoạt thủ công bằng cách nhấp vào nút Run bên dưới cột Liên kết như hình dưới đây:
Cả hai công việc được lên lịch tự động và được kích hoạt thủ công có thể được xem trong giao diện người dùng như sau:
Giám sát công việc
Khi thực hiện các công việc, các quy trình ngược dòng hoặc xuôi dòng sẽ được bắt đầu như được tạo trong DAG. Khi nhấp vào một DAG cụ thể, trạng thái tương ứng như thành công, thất bại, thử lại, xếp hàng, v.v. của công việc có thể được hình dung theo các cách khác nhau trong giao diện người dùng.
Xem thêm: Nghĩa của từ cross over là gì
Xem biểu đồ
Các trạng thái của các công việc được thể hiện dưới dạng đồ họa như dưới đây:
Chế độ xem cây
Các trạng thái của các công việc cùng với ngày thực hiện của các công việc được thể hiện dưới dạng cây như dưới đây:
Xem Gannt
Các trạng thái của các công việc cùng với ngày thực hiện của các công việc được thể hiện theo định dạng Gannt như dưới đây:
Xem thời lượng tác vụ
Khi nhấp vào tab Thời lượng tác vụ , bạn có thể xem thời lượng tác vụ của toàn bộ quá trình hoặc DAG theo định dạng đồ họa như dưới đây:
Xem trường hợp nhiệm vụ
Bằng cách nhấp vào Duyệt > Trường hợp tác vụ , bạn có thể xem các trường hợp mà các tác vụ đang chạy, như được hiển thị bên dưới:
Xem công việc
Bằng cách nhấp vào Duyệt > Công việc , bạn có thể xem chi tiết như thời gian bắt đầu, thời gian kết thúc và người thực hiện công việc, như được hiển thị trong sơ đồ bên dưới:
Xem nhật ký
Bằng cách nhấp vào Duyệt > ViewLog , bạn có thể xem chi tiết của nhật ký, như được hiển thị trong sơ đồ bên dưới:
Hồ sơ dữ liệu
Airflow cung cấp giao diện truy vấn SQL đơn giản để truy vấn dữ liệu và giao diện người dùng biểu đồ để trực quan hóa các tác vụ.
Để cấu hình dữ liệu của bạn, nhấp vào Quản trị viên > Kết nối để chọn loại kết nối cơ sở dữ liệu, như được hiển thị trong sơ đồ bên dưới:
Truy vấn Ad Hoc
Để viết và truy vấn dữ liệu, nhấp vào Hồ sơ dữ liệu > Truy vấn quảng cáo .
Biểu đồ
Các loại trực quan hóa khác nhau có thể được tạo cho thời gian tác vụ và trạng thái nhiệm vụ bằng biểu đồ.
Để tạo các biểu đồ như thanh, đường, khu vực, v.v. cho một DAG cụ thể bằng truy vấn SQL, nhấp vào Cấu hình dữ liệu > Biểu đồ > DAG_id , như được hiển thị trong sơ đồ bên dưới:
Tất cả các DAG được biểu thị bằng đồ họa, như thể hiện trong sơ đồ dưới đây:
thông báo có email
Thông báo qua email như email_on_failure, email_on_successvà email_on_retries có thể được đặt để biết trạng thái công việc.
Để bật thông báo, hãy thực hiện như sau:
Định cấu hình cài đặt trong airflow.cfg tệp trong airflow_home đường dẫn, như hiển thị bên dưới:
Đặt lại cài đặt email của bạn thành cài đặt Gmail > allow_less safe_apps > ON để nhận thông báo qua email từ Airflow.
Lưu ý : Bạn có thể nhận được authentication_error nếu cài đặt email không được cấu hình đúng. Để khắc phục sự cố này, hãy chấp nhận thiết bị đăng nhập làm thiết bị của chúng tôi trong thiết bị Gmail xem xét là Có Đó là Tôi .
Một email thất bại công việc được hiển thị dưới đây:
Khi nhấp vào Liên kết trong email, bạn sẽ được chuyển hướng đến trang Nhật ký.
Xem thêm: Chủ đề 6: Cụm động Từ đi Với Look Into Nghĩa Là Gì
Phần kết luận
Trong blog này, chúng tôi đã thảo luận về tác giả, lập lịch và giám sát quy trình công việc từ giao diện người dùng web, cũng như kích hoạt các công việc Talend trực tiếp từ giao diện người dùng web theo yêu cầu bằng cách sử dụng bash toán tử. Bạn cũng có thể chuyển dữ liệu từ cơ sở dữ liệu này sang cơ sở dữ liệu khác bằng generic_transfer toán tử.
Tài liệu tham khảo
Mã trong GitHub
Chuyên mục: Hỏi Đáp