Trong bài viết trước đây, ITNavi đã chia sẻ cho bạn đọc về Big Data, đây là một kho dữ liệu khổng lồ được sử dụng cho rất nhiều lĩnh vực trong cuộc sống. Tiếp theo, hãy cùng chúng tôi tìm hiểu về Hadoop một trong những công nghệ nền tảng, cốt lõi chuyên dụng cho mục đích lưu trữ cũng như truy cập dữ liệu. Nếu bạn đang cần tìm hiểu Hadoop là gì cũng như cách thức hoạt động của Hadoop thì không nên bỏ qua bài viết mà chúng tôi chia sẻ sau đây. 

Bạn đang xem: Hadoop là gì

Mục Lục

1 Định nghĩa Hadoop là gì?4 Hadoop giải quyết vấn đề gì và hướng giải quyết như thế nào?5 Các giai đoạn hoạt động của Hadoop?

Định nghĩa Hadoop là gì?

Trước khi đi sâu vào tìm hiểu khái niệm về Hadoop thì cùng tìm hiểu một chút về lịch sử Hadoop hình thành nhé. 

Khái quát về lịch sử hình thành

Hadoop được phát hành chính thức vào năm 2005 bởi tập đoàn Apache Software. Apache Software là một trong những tổ chức phi lợi nhuận chuyên dụng trong việc sản xuất các phần mềm cũng như các mã nguồn mở từ đó hỗ trợ cho các nền tảng khác trên Internet.

*
*
*
*
*

Hadoop hoạt động ra sao?

Các giai đoạn hoạt động của Hadoop?

Giai đoạn 1

Các user hoặc ứng dụng đều sẽ submit được một công việc lên Hadoop (hadoop job client) để có thể đề xuất các yêu cầu xử lý thông tin cơ bản như: 

Nơi lưu các dữ liệu input, output trên hệ thống các dữ liệu thuộc dạng phân tán. Hầu hết, các java class theo kiểu định dạng jar đều sẽ chứa những dòng lệnh có khả năng thực thi thông qua các hàm map và reduce. Những thiết bị cụ thể hoặc liên quan đến các job đều thông qua những thông số truyền vào.

Giai đoạn 2

Giai đoạn 3

TaskTrackers được nằm trên các node sẽ tiến hành thực thi cho các tác vụ MapReduce để có thể trả về được những kết quả thuộc dạng output đã được lưu trữ ngay trong hệ thống file. 

Khi thực hiện chạy Hadoop thì cũng đồng nghĩa là bạn đang chạy các tập trình nền hoặc những chương trình thuộc dạng thường trú khác ngay trên các máy chủ khác nhau nằm trên mạng của bạn.

Xem thêm: Spam Là Gì – Và Những điều Cần Biết Về Spam

Xem thêm: Melatonin Là Gì – Cấu Tạo Và Chức Năng Của Tuyến Tùng

Các trình nền này thường sẽ có những vai trò cụ thể nên những chỉ số tồn tại trên máy chủ có thể tồn tại ở nhiều máy chủ khác nhau. 

Một số daemon khác bao gồm:

NameNodeDataNodeSecondaryNameNodeJobTrackerTaskTracker

Tổng kết

Chắc rằng với những kiến thức hữu ích ở phía trên thì bạn đọc đã hiểu rõ hơn Hadoop là gì? Hiện nay, nhu cầu lưu trữ dữ liệu của các doanh nghiệp ngày càng cao. Chính vì vậy, nguồn nhân lực thành thạo nền tảng này cũng đang là nhu cầu tuyển dụng mà rất nhiều công ty hướng đến. Nếu như bạn đam mê với nền tảng này thì đừng quên thử sức nhé. Chúc bạn sớm thành công!

Chuyên mục: Hỏi Đáp