Hadoop là gì & 4 lợi ích sử sử dụng hadoop apache
22/10/2022 03:06 am | Lượt xem : 5699
Hadoop là một apache là một phần quan trọng khi lưu trữ, quản lý dữ liệu. Hãy cùng với tenten.vn tìm hiểu về apache này thật chi tiết trong bài viết dưới đây.
Contents
Khám phá thuật ngữ Hadoop là gì?
Hadoop được hiểu là một Apache framework. Tức là đây là mã nguồn mở cho phép phát triển các ứng dụng phân tán.
Chức năng của hadoop là gì?
Với chức năng chủ yếu của apache này chính là để lưu trữ và quản lý các tập dữ liệu khổng lồ.
Mô hình của Apache framework Hadoop?
Hadoop với mô hình MapReduce. Tức là ứng dụng sẽ được chia nhỏ ra thành nhiều phân đoạn khác nhau. Những phân đoạn này sẽ được sắp xếp chạy song song trên nhiều node khác nhau.
Hadoop thường được viết nhiều nhất là bằng ngôn ngữ lập trình Java. Song song với đó thì nó vẫn sử dụng cơ chế streaming để hỗ trợ các ngôn ngữ khác như là C++, Python, Perl.
Kiến trúc của Hadoop như thế nào?
Cấu trúc đặc trưng của bộ phận này chính là cấu trúc liên kết master-slave. Trong cấu trúc này sẽ có một node master và nhiều node slave.
- Node master có chức năng là gán một tác vụ cho các node slave khác nhau và quản lý tài nguyên.
- Các node slave có vai trò là máy tính thực tế không quá mạnh lắvà dùng để lưu trữ dữ liệu thực trong khi trên master chúng ta có metadata.
Như vậy, có thể suy ra rằng kiến trúc gồm có ba lớp đơn giản như sau:
- HDFS (Hadoop Distributed File System)
- Map-Reduce
- Yarn
HDFS (Hadoop Distributed File System) là gì?
HDFS là thuật ngữ dùng để chỉ hệ thống file phân tán siêu lớn. Bởi hệ thống này cần phải cung cấp khả năng lưu trữ dữ liệu khổng lồ.
Song song với đó và tính năng tối ưu hoá việc sử dụng băng thông giữa các node với nhau. Điểm đặc biệt của hệ thống HDFS chính là khả năng chạy trên một cluster lớn với hàng chục ngàn node.
Chính hệ thống này trong đó cho phép người dùng truy xuất nhiều ổ đĩa trong khi thực tế chỉ cần 1 ổ đĩa mà thôi. Người dùng hầu như không bị giới hạn về dung lượng, khi mà thêm càng nhiều node thì lại nhận được càng nhiều dung lượng.
Lưu ý là NameNode trong hệ thống Hadoop Distributed File System chạy trên máy chủ Master mà thôi. Đây là bộ phận có tác vụ quản lý Namespace, điều chỉnh truy cập tệp của client mượt mà nhất.
Trong khi đó thì DataNode chạy trên các nút Slave dùng để lưu trữ các business data thực tế. Tức là kiến trúc Master-slave mà chúng ta thường thấy.
Song song với đó, một tập tin với định dạng hệ thống Hadoop Distributed File System được chia thành nhiều block. Và những block với kích thước 64MB được lưu trữ trong một tập các DataNodes
Map-Reduce là gì
Map-Reduce trong hệ thống chính là một framework. Chức năng của Map-Reduce chính là dùng để viết các ứng dụng xử lý song song dữ liệu với dung lượng lớn.
Bộ phận này cũng sẽ có khả năng chịu lỗi cao xuyên suốt hàng ngàn cluster(cụm) máy tính mà không bị ngưng bất ngờ.
2 chức năng chính đó là Map và Reduce của Map-Reduce hadoop là gì, và được thực hiện với nguyên lý như nào?
- Map: được thực hiện đầu tiên với có chức năng tải, phân tích dữ liệu đầu vào. Sau đó Map sẽ được chuyển đổi thành tập dữ liệu theo cặp key/value cho chúng ta
- Reduce: có chức năng nhận kết quả đầu ra từ tác vụ Map xuất ra. Sau đó, Reduce sẽ kết hợp dữ liệu lại với nhau thành tập dữ liệu nhỏ hơn nhé.
Yarn trong hadoop apache
YARN là viết tắt của thuật nhữ Yet-Another-Resource-Negotiator. YARN chính là một framework, với công dụng để hỗ trợ phát triển ứng dụng phân tán.
YARN cũng là bộ phận cung cấp daemons và APIs cần thiết cho việc phát triển ứng dụng phân tán. Song song với đó, framework này cũng đảm nhiệm vai trò xử lý và lập lịch sử dụng tài nguyên tính toán (CPU hay memory).
Hai trình quản lý ResourceManager và NodeManage cũng xuất hiện trong bộ YARN này với nguyên lý hoạt động như sau:
- ResourceManager: dùng để điều tiết, quản lý toàn bộ tài nguyên tính toán của cluster.
- NodeManger: đảm nhiệm vai trò gGiám sát việc sử dụng tài nguyên như là là CPU, memory, disk, network,… của container và báo cáo với ResourceManger một cách chính xác, kịp thời
Ưu điểm của người dùng khi sử dụng
Khi sử dụng hadoop, chúng ta sẽ được nhận thêm những lợi ích tuyệt vời như là:
- Hadoop cho phép người dùng thêm node mới và thay đổi chúng khi muốn lưu trữ nhiều dữ liệu hơn
- Đặc biệt, bạn không cần phần cứng đặc biệt để chạy Hadoop. Tức là sẽ tiết kiệm được một khoản chi phí kha khá và thời gian chăm sóc, theo dõi cả bộ cứng nữa.
- Hadoop rất “đa zi năng”, nó đáp ứng tốt được được tiêu chí xử lý dữ liệu có cấu trúc và không cấu trúc rất tuyệt vời.
- Đặc biệt, khi 1 node lỗi, thì nó sẽ tự động chuyển sang node khác, không làm gián đoạn hoạt động lưu trữ của cả hệ thống. Chúng ta có thể sửa chữa sau đó mà không ảnh hưởng đến các bộ phận khác
Kết luận
Trân đây là toàn bộ thông tin về Hadoop. Khi đã biết hadoop là gì, chức năng cũng như cấu trúc của nó, bạn chắc chắn đã biết mình nên cần hadoop apache khi nào.
Hãy ứng dụng hệ thống tuyệt vời này vào việc lưu trữ dữ liệu khổng lồ của bạn càng sớm càng tốt! Liên hệ đến tenten.vn để được tư vấn!
DỊCH VỤ CLOUD SERVER TỐC ĐỘ XỬ LÝ VƯỢT TRỘI
Các tìm kiếm liên quan đến chủ đề “hadoop là gì”
Hướng dẫn sử dụng Hadoop | Mapreduce là gì |
Hadoop | Hadoop YARN là gì |
Spark là gì | HDFS |
Hadoop Tutorial | Hdfs là gì |
Bài viết liên quan
Proxy Web là gì? Khi nào bạn nên chọn VPN hoặc Proxy Web an toàn
Chuyển hosting về TENTEN | Miễn phí chuyển dữ liệu và giảm 50% hoặc x2 thời gian gói Hosting