Hadoop là một apache là một phần quan trọng khi lưu trữ, quản lý dữ liệu. Hãy cùng với tenten.vn tìm hiểu về apache này thật chi tiết trong bài viết dưới đây.
Contents
Hadoop được hiểu là một Apache framework. Tức là đây là mã nguồn mở cho phép phát triển các ứng dụng phân tán.
Với chức năng chủ yếu của apache này chính là để lưu trữ và quản lý các tập dữ liệu khổng lồ.
Hadoop với mô hình MapReduce. Tức là ứng dụng sẽ được chia nhỏ ra thành nhiều phân đoạn khác nhau. Những phân đoạn này sẽ được sắp xếp chạy song song trên nhiều node khác nhau.

Hadoop thường được viết nhiều nhất là bằng ngôn ngữ lập trình Java. Song song với đó thì nó vẫn sử dụng cơ chế streaming để hỗ trợ các ngôn ngữ khác như là C++, Python, Perl.
Cấu trúc đặc trưng của bộ phận này chính là cấu trúc liên kết master-slave. Trong cấu trúc này sẽ có một node master và nhiều node slave.
Như vậy, có thể suy ra rằng kiến trúc gồm có ba lớp đơn giản như sau:
HDFS là thuật ngữ dùng để chỉ hệ thống file phân tán siêu lớn. Bởi hệ thống này cần phải cung cấp khả năng lưu trữ dữ liệu khổng lồ.

Song song với đó và tính năng tối ưu hoá việc sử dụng băng thông giữa các node với nhau. Điểm đặc biệt của hệ thống HDFS chính là khả năng chạy trên một cluster lớn với hàng chục ngàn node.
Chính hệ thống này trong đó cho phép người dùng truy xuất nhiều ổ đĩa trong khi thực tế chỉ cần 1 ổ đĩa mà thôi. Người dùng hầu như không bị giới hạn về dung lượng, khi mà thêm càng nhiều node thì lại nhận được càng nhiều dung lượng.
Lưu ý là NameNode trong hệ thống Hadoop Distributed File System chạy trên máy chủ Master mà thôi. Đây là bộ phận có tác vụ quản lý Namespace, điều chỉnh truy cập tệp của client mượt mà nhất.
Trong khi đó thì DataNode chạy trên các nút Slave dùng để lưu trữ các business data thực tế. Tức là kiến trúc Master-slave mà chúng ta thường thấy.
Song song với đó, một tập tin với định dạng hệ thống Hadoop Distributed File System được chia thành nhiều block. Và những block với kích thước 64MB được lưu trữ trong một tập các DataNodes
Map-Reduce trong hệ thống chính là một framework. Chức năng của Map-Reduce chính là dùng để viết các ứng dụng xử lý song song dữ liệu với dung lượng lớn.
Bộ phận này cũng sẽ có khả năng chịu lỗi cao xuyên suốt hàng ngàn cluster(cụm) máy tính mà không bị ngưng bất ngờ.
2 chức năng chính đó là Map và Reduce của Map-Reduce hadoop là gì, và được thực hiện với nguyên lý như nào?
YARN là viết tắt của thuật nhữ Yet-Another-Resource-Negotiator. YARN chính là một framework, với công dụng để hỗ trợ phát triển ứng dụng phân tán.
YARN cũng là bộ phận cung cấp daemons và APIs cần thiết cho việc phát triển ứng dụng phân tán. Song song với đó, framework này cũng đảm nhiệm vai trò xử lý và lập lịch sử dụng tài nguyên tính toán (CPU hay memory).
Hai trình quản lý ResourceManager và NodeManage cũng xuất hiện trong bộ YARN này với nguyên lý hoạt động như sau:

Hình ảnh Hadoop là gì 2
Khi sử dụng hadoop, chúng ta sẽ được nhận thêm những lợi ích tuyệt vời như là:
Trân đây là toàn bộ thông tin về Hadoop. Khi đã biết hadoop là gì, chức năng cũng như cấu trúc của nó, bạn chắc chắn đã biết mình nên cần hadoop apache khi nào.
Hãy ứng dụng hệ thống tuyệt vời này vào việc lưu trữ dữ liệu khổng lồ của bạn càng sớm càng tốt! Liên hệ đến tenten.vn để được tư vấn!
DỊCH VỤ CLOUD SERVER TỐC ĐỘ XỬ LÝ VƯỢT TRỘI
| Hướng dẫn sử dụng Hadoop | Mapreduce là gì |
| Hadoop | Hadoop YARN là gì |
| Spark là gì | HDFS |
| Hadoop Tutorial | Hdfs là gì |
Proxy Web là gì? Khi nào bạn nên chọn VPN hoặc Proxy Web an toàn
Chuyển hosting về TENTEN | Miễn phí chuyển dữ liệu và giảm 50% hoặc x2 thời gian gói Hosting