Như chúng ta đã biết, dữ liệu là tất cả mọi thứ trong thế giới công nghệ ngày nay. Hơn nữa, dữ liệu này tiếp tục nhân lên bởi đa tạp mỗi ngày.Trước đó, chúng ta thường nói về kilobyte và megabyte. Nhưng ngày nay, chúng ta đang nói về terabyte. Dữ liệu là vô nghĩa cho đến khi nó biến thành thông tin và kiến thức hữu ích có thể hỗ trợ ban quản lý trong việc ra quyết định.
Các công cụ phân tích được sử dụng rộng rãi để phân tích dữ liệu ở dạng có ý nghĩa giữa các tập hợp khối lượng dữ liệu lớn. Hiện nay trên thị trường, có rất nhiều công cụ phát triển mỗi ngày để phân tích dữ liệu dưới mọi hình thức để trích xuất giá trị từ dữ liệu có sẵn. Công cụ này giúp giảm chi phí và thời gian của bất kỳ công ty nào vì dữ liệu trong quá khứ có thể được sử dụng để đưa ra càng nhiều quyết định càng tốt trong các tình huống quan trọng. Đây là điều bắt buộc đối với tất cả các công ty vì năng suất mà nó mang lại với chi phí tối thiểu. Vì hầu hết các công cụ là nguồn mở, người dùng có thể tải xuống miễn phí, triển khai thay đổi các mô-đun theo yêu cầu của tổ chức.
Hadoop
Apache Hadoop là một khung phần mềm được sử dụng cho hệ thống tệp phân cụm và xử lý dữ liệu lớn. Nó xử lý các bộ dữ liệu của dữ liệu lớn bằng mô hình lập trình MapReduce. Nó có thể được mở rộng từ một đến nhiều máy trong mọi môi trường. Đây là một trong những công cụ được sử dụng phổ biến nhất trong xử lý dữ liệu lớn ở nhiều công ty để trích xuất dữ liệu; các yêu cầu phần cứng ít hơn do việc xử lý dữ liệu hầu hết được thực hiện trên đám mây.
Đây là công cụ dữ liệu lớn nhất. Trên thực tế, hơn một nửa trong số 50 công ty Fortune sử dụng Hadoop. Một số tên tuổi lớn bao gồm các dịch vụ Web của Amazon, Hortonworks, IBM, Intel, Microsoft, Facebook, v.v.
Có rất nhiều tính năng được liên kết với Hadoop; Một vài tính năng chính sẽ được liệt kê ở đây.
HDFS
Đây là một trong những hệ thống tệp phân tán chạy trên bất kỳ phần cứng nào nhưng cho hiệu năng và thông lượng cao bằng cách sử dụng thuật toán MapReduce. Hệ thống tệp Hadoop (HDFS) lưu trữ dữ liệu trên nhiều máy bằng cách sao chép dữ liệu trong tất cả các máy chủ khác, trong trường hợp nếu có bất kỳ dữ liệu nào bị lỗi trong các máy chủ chính. Nó chứa hai nút:
- Namenode
- Datanode.
Các tính năng của HDFS
- Chịu Lỗi tốt
- Độ tin cậy cao
- Ứng dụng cao
- Khả năng mở rộng
- Lưu trữ phân tán.
MapReduce
Nó chứa hai nhiệm vụ: map và reduce. map lấy một tập hợp dữ liệu và thay đổi nó thành tập dữ liệu trong đó các phần tử được chia thành các cặp Khóa-Giá trị. Sau đó, tác vụ reduce sẽ lấy đầu vào từ map và chia các bộ dữ liệu đó thành các bộ và map nhỏ hơn.
Map – Splitting and Mapping Reduce – Shuffling and Reducing
Các tính năng của MapReduce
- Xử lý cục bộ
- Xây dựng sẵn
- Ngôn ngữ độc lập
- MapReduce execution framework
- Truyền thông liên tiến trình.
CDH
CDH nhằm mục đích triển khai cấp doanh nghiệp công nghệ. Đây hoàn toàn là nguồn mở và có một bản phân phối nền tảng miễn phí bao gồm Apache Hadoop, Apache Spark, Apache Impala và nhiều hơn nữa.
CDH cho phép bạn thu thập, xử lý, quản trị, quản lý, khám phá, mô hình hóa và phân phối dữ liệu không giới hạn.
Ưu điểm :
- Phân phối toàn diện
- Cloudera Manager quản lý cụm Hadoop rất tốt.
- Thực hiện dễ dàng.
- Quản trị ít phức tạp.
- An ninh và quản trị cao
Nhược điểm :
- Rất ít tính năng UI phức tạp như biểu đồ trên dịch vụ CM.
- Nhiều cách tiếp cận được đề nghị cho cài đặt âm thanh khó hiểu.
Tuy nhiên, giá license trên cơ sở mỗi node là khá đắt.
Giá cả: CDH là phiên bản phần mềm miễn phí của Cloudera. Tuy nhiên, nếu bạn muốn biết chi phí của cụm Hadoop thì chi phí cho mỗi node là khoảng $ 1000 đến $ 2000 mỗi terabyte.
ApacheSpark
Đây là một khung điện toán mã nguồn mở và thiết kế cụm. Nó được thiết kế để kết hợp nhanh và hoạt động dựa trên khái niệm MapReduce. Nó có tính toán cụm bộ nhớ giúp tăng tốc độ xử lý của ứng dụng.
Các tính năng của Apache Spark
- Tốc độ
- Phân tích nâng cao
- Xử lý nhanh
- In-Memory Computing
- Tái sử dụng
- Chịu Lỗi
- Hỗ trợ đa ngôn ngữ như Java, R, Scala và Python.
Apache Storm
Đây là một hệ thống tính toán thời gian thực phân tán thời gian thực miễn phí và nguồn mở được viết bằng Java và Clojure. Nó đang dẫn đến phân tích dữ liệu thời gian thực.
Đặc điểm của Apache Storm
- Mạnh mẽ & thân thiện
- Xử lý thời gian thực
- Chịu Lỗi
- Linh hoạt
- Đáng tin cậy
- Operational Intelligence
Cassandra
Apache Cassandra miễn phí và DBMS NoMS phân tán mã nguồn mở được xây dựng để quản lý khối lượng dữ liệu khổng lồ trải rộng trên nhiều máy chủ hàng hóa, mang lại tính sẵn sàng cao. Nó sử dụng CQL (Ngôn ngữ cấu trúc Cassandra) để tương tác với cơ sở dữ liệu.
Một số công ty cao cấp sử dụng Cassandra bao gồm Accdvisor, American Express, Facebook, General Electric, Honeywell, Yahoo, v.v.
Ưu điểm :
- Không có điểm duy nhất của lỗi.
- Xử lý dữ liệu lớn rất nhanh.
- Lưu trữ cấu trúc log
- Nhân rộng tự động
- Khả năng mở rộng tuyến tính
- Kiến trúc vòng đơn giản
Nhược điểm :
- Yêu cầu một số nỗ lực thêm trong xử lý sự cố và bảo trì.
- Phân cụm có thể đã được cải thiện.
- Tính năng khóa cấp dòng không có.
MongoDB
MongoDB là một cơ sở dữ liệu tài liệu cung cấp hiệu suất cao, tính sẵn sàng cao và khả năng mở rộng dễ dàng. Nó là một hệ thống cơ sở dữ liệu định hướng tài liệu đa nền tảng được phân loại là cơ sở dữ liệu NoQuery, giúp thu hẹp khoảng cách giữa các hệ thống RDBMS khóa-giá trị và truyền thống. MongoDB là một ứng cử viên tương đối mới trong vòng tròn lưu trữ dữ liệu so với người khổng lồ như Oracle và IBM DB2, nhưng nó đã thu hút sự chú ý lớn với kho lưu trữ khóa phân tán, khả năng tính toán MapReduce và các tính năng NoQuery định hướng tài liệu. Do các tính năng của nó, MongoDB là cơ sở dữ liệu để xử lý Dữ liệu lớn.
MongoDB là một sản phẩm NoQuery và đang trở nên rất phổ biến trong cộng đồng nhà phát triển. Điều này là do MongoDB kết hợp hoàn hảo với các ngôn ngữ lập trình như JavaScript, Ruby và Python; sự pha trộn liền mạch này truyền tải tốc độ mã hóa cao. Tính năng này cùng với sự đơn giản của nó, đã khiến MongoDB trở nên rất phổ biến trong một khoảng thời gian ngắn gần đây.
MongoDB là một nền tảng linh hoạt có thể tạo ra một sự thay thế phù hợp cho RDBMS. Hadoop không thể thay thế RDBMS mà thay vào đó bổ sung nó bằng cách giúp lưu trữ dữ liệu.
Một số khách hàng lớn sử dụng MongoDB bao gồm Facebook, eBay, MetLife, Google, v.v.
Ưu điểm:
- Dễ học.
- Cung cấp hỗ trợ cho nhiều công nghệ và nền tảng.
- Ít có trục trặc trong cài đặt và bảo trì.
- Đáng tin cậy và chi phí thấp.
Nhược điểm:
- Phân tích hạn chế.
- Chậm cho một số trường hợp sử dụng.
Nguồn :Tổng hợp từ Internet.