Data Hub – trung tâm dữ liệu là gì?
Data Hub – trung tâm dữ liệu là một kiến trúc lưu trữ hiện đại, lấy dữ liệu làm trung tâm, giúp các doanh nghiệp hợp nhất và chia sẻ dữ liệu để cung cấp năng lượng phân tích và khối lượng công việc AI. Nếu bạn vẫn đang truy cập dữ liệu bằng các kết nối điểm-điểm tới các silo độc lập, việc chuyển đổi cơ sở hạ tầng của bạn thành một Data Hub – trung tâm dữ liệu sẽ hợp lý hóa đáng kể luồng dữ liệu trong tổ chức của bạn.
Cách các Data Hub – trung tâm dữ liệu có thể hợp nhất các Kho Dữ Liệu (Data Warehouse)
Đối với các doanh nghiệp ngày nay, dữ liệu là nguồn nhiên liệu thúc đẩy sự đổi mới và sáng tạo. Tuy nhiên, hầu hết dữ liệu được lưu trữ trong các silo – bị phân mảnh và nằm ngoài tầm với của các ứng dụng phân tích và AI . Một số dữ liệu được lưu trữ trong Kho Dữ Liệu (Data Warehouse) và một số bị mất trong các Hồ dữ liệu (Data Lake). Sự thống nhất dữ liệu bị phá vỡ và tốc độ của dữ liệu bị tê liệt. Vậy tại sao các hệ thống lưu trữ lại khó thống nhất dữ liệu trên một nền tảng duy nhất? Vấn đề là mỗi ứng dụng có các yêu cầu khác nhau đối với dữ liệu của nó — do đó, sự gia tăng của các silo dữ liệu.
Trung tâm dữ liệu sẽ là nơi dành riêng cho dữ liệu cốt lõi trong doanh nghiệp. Nó tập trung dữ liệu quan trọng của doanh nghiệp trên các ứng dụng và cho phép chia sẻ dữ liệu liền mạch giữa các điểm cuối đa dạng, đồng thời là nguồn dữ liệu đáng tin cậy chính cho sáng kiến quản trị dữ liệu. Trung tâm dữ liệu cung cấp dữ liệu tổng thể cho các ứng dụng và quy trình của doanh nghiệp. Chúng cũng được sử dụng để kết nối các ứng dụng kinh doanh với các cấu trúc phân tích như kho dữ liệu và hồ dữ liệu.
Vì sao bạn cần quan tâm đến Data Hub – trung tâm dữ liệu trong doanh nghiệp ?
Trong suốt những năm 1990 và thập kỷ đầu tiên của thế kỷ này, nhiều nỗ lực quản lý dữ liệu đã được hướng vào việc loại bỏ các kho chứa dữ liệu bằng các kiến trúc và công nghệ để lưu trữ dữ liệu và quản lý dữ liệu tổng thể. Trong vài năm qua, chúng ta đã tạo ra các kho chứa dữ liệu mới với việc áp dụng các Hồ dữ liệu (Data Lake), NoSQL và công nghệ dữ liệu lớn.
Có vẻ như vấn đề của các silo dữ liệu tiếp tục quay trở lại. Và lần này chúng ta cần tiếp cận vấn đề theo cách khác. Khi lưu trữ dữ liệu là cốt lõi của kiến trúc dữ liệu, chúng ta đã giải quyết vấn đề tích hợp bằng cách xây dựng một mô hình dữ liệu duy nhất để phù hợp với tất cả dữ liệu nhằm mục đích chia sẻ trong toàn doanh nghiệp. Sau đó, chúng ta chuyển dữ liệu từ các nguồn sang mô hình dữ liệu đó thông qua xử lý ETL.
Các Kho Dữ Liệu (Data Warehouse) kết quả được đặc trưng bởi dữ liệu có độ trễ cao với khả năng thích ứng và tính nhanh nhẹn hạn chế. Khi thế giới dữ liệu tiếp tục phát triển với các xu hướng như dữ liệu lớn, NoSQL, phân tích tự phục vụ và khoa học dữ liệu, giới hạn của các kho kế thừa đã được khuếch đại.
Kiến trúc Hồ dữ liệu (Data Lake) xuất hiện để đáp ứng với các giới hạn của kiến trúc Kho Dữ Liệu (Data Warehouse), với các khả năng mới để xử lý dữ liệu không có cấu trúc và dữ liệu có cấu trúc khác nhau và tăng đáng kể về khả năng mở rộng và độ đàn hồi. Khả năng xử lý và lưu trữ khối lượng dữ liệu đặc biệt lớn và nhập dữ liệu ở tốc độ cao tỏ ra có giá trị đối với các nỗ lực phân tích và khoa học dữ liệu nâng cao.
Nhưng với những khả năng mới, các Hồ dữ liệu (Data Lake) cũng mang lại những thách thức mới bao gồm quản trị, bảo mật và quản lý rủi ro trở thành đầm lầy dữ liệu. Trong nhiều trường hợp, Hồ dữ liệu (Data Lake) trở thành một silo dữ liệu khác, tồn tại song song nhưng bị ngắt kết nối khỏi Kho Dữ Liệu (Data Warehouse), Kho Dữ Liệu (Data Warehouse) hoạt động và Kho Dữ Liệu (Data Warehouse) chính.
Giải quyết vấn đề một lần nữa, chúng ta cần làm theo cách khác. MarkLogic, Cloudera, SAP, Informatica, PureStorage và các nhà cung cấp khác đang giới thiệu các phiên bản đầu tiên của công nghệ Data Hub – trung tâm dữ liệu với các biến thể về giải pháp.
Chúng ta có quyền tin rằng mọi giải pháp Data Hub – trung tâm dữ liệu đều phải nâng cao khả năng quản lý dữ liệu nhanh chóng và dữ liệu thời gian thực. Chúng phải hỗ trợ dữ liệu thuộc tất cả các loại – quan hệ, NoSQL, không gian địa lý, v.v.
Chúng phải tập trung vào việc hài hòa dữ liệu mà không tạo ra các bản sao dữ liệu thừa và không cần thiết. Chúng phải (cùng với danh mục dữ liệu ) giải quyết những thách thức trong việc tìm kiếm dữ liệu phù hợp một cách nhanh chóng. Và chúng phải hỗ trợ nhiều trường hợp sử dụng khác nhau, từ báo cáo đơn giản đến khoa học dữ liệu, trí tuệ nhân tạo và Máy học .
Data Hub – trung tâm dữ liệu không chỉ là một biến thể khác về việc hợp nhất dữ liệu. Một Data Hub – trung tâm dữ liệu mạnh mẽ sẽ bao gồm các tính năng để lưu trữ dữ liệu, hài hòa, lập chỉ mục, xử lý, quản trị, siêu dữ liệu, tìm kiếm và thăm dò.
Dữ liệu từ nhiều nguồn — cả hoạt động và phân tích — được thu thập thông qua các giao diện sao chép và / hoặc xuất bản và đăng ký. Nhân rộng sử dụng tính năng thu thập dữ liệu đã thay đổi (CDC) để liên tục đưa vào trung tâm tại hoặc gần thời gian thực khi các thay đổi đối với nguồn dữ liệu xảy ra. Xuất bản và đăng ký cho phép trung tâm đăng ký các tin nhắn được xuất bản bởi các nguồn dữ liệu khi dữ liệu thay đổi xảy ra.
Hình 1 – Kiến trúc Tham chiếu Data Hub – trung tâm dữ liệu
Các Data Hub – trung tâm dữ liệu đang nổi lên như là thế hệ kiến trúc dữ liệu tiếp theo – thế hệ thứ 3 phát triển tự nhiên từ các Kho Dữ Liệu (Data Warehouse) và Hồ dữ liệu (Data Lake) tiền nhiệm. Để tìm được vị trí của mình trong kiến trúc quản lý dữ liệu hiện đại, các Data Hub – trung tâm dữ liệu phải tự phân biệt với Kho Dữ Liệu (Data Warehouse) , ảo hóa dữ liệu và Hồ dữ liệu (Data Lake) với mục tiêu bổ sung và làm phong phú các công nghệ đó.
Khác biệt giữa Data Hub, Data Warehouse và Data Lake
Kho dữ liệu và hồ dữ liệu là điểm cuối để thu thập dữ liệu tồn tại để hỗ trợ phân tích của doanh nghiệp trong khi các trung tâm dữ liệu đóng vai trò là điểm hòa giải và chia sẻ dữ liệu. Họ không chỉ tập trung vào phân tích sử dụng dữ liệu.
Trong một số trường hợp, kho dữ liệu và hồ dữ liệu cung cấp các biện pháp kiểm soát quản trị, nhưng chỉ theo cách phản ứng trong khi các trung tâm dữ liệu chủ động áp dụng quản trị đối với dữ liệu chảy qua cơ sở hạ tầng.
Kho dữ liệu, hồ dữ liệu và trung tâm dữ liệu không phải là những lựa chọn thay thế có thể hoán đổi cho nhau. Tuy nhiên, chúng bổ sung cho nhau và cùng nhau chúng có thể hỗ trợ các sáng kiến dựa trên dữ liệu và chuyển đổi kỹ thuật số. Bảng dưới đây tóm tắt những điểm giống và khác nhau của chúng:
Trung tâm dữ liệu – Data Hub |
Kho dữ liệu – Data Warehouse |
Hồ dữ liệu – Data Lake |
|
Sử dụng chính |
Quy trình hoạt động | Phân tích và báo cáo | Phân tích, báo cáo và Học máy |
Hình dạng dữ liệu |
Có cấu trúc | Có cấu trúc | Có cấu trúc & Không có cấu trúc |
Quản trị dữ liệu |
Trụ cột chính cho tất cả các quy tắc thực thi quản trị dữ liệu | Quản trị sau thực tế vì nó sử dụng dữ liệu hoạt động hiện có | Phương pháp tiếp cận dữ liệu “sử dụng với rủi ro của riêng bạn”. Bị quản lý nhẹ. |
Chất lượng dữ liệu |
Chất lượng rất cao | Chất lượng cao | Chất lượng trung bình / thấp |
Tích hợp với Ứng dụng doanh nghiệp |
Tích hợp theo thời gian thực hai hướng với các quy trình kinh doanh hiện có thông qua API. | ETL hoặc ELT đơn hướng ở chế độ hàng loạt. Dữ liệu đã chuyển đổi và đã làm sạch được làm mới với tần suất thấp (hàng giờ, hàng ngày hoặc hàng tuần) | ETL hoặc ELT đơn hướng ở chế độ hàng loạt. Dữ liệu được đổ mà không có sự kiểm soát vào hồ với giả định người tiêu dùng sẽ làm sạch trong tương lai. |
Tương tác của người dùng doanh nghiệp |
Có thể là nguồn chính tạo ra các phần tử dữ liệu chính như dữ liệu chủ và dữ liệu tham chiếu. Cung cấp các giao diện thân thiện với người dùng để tạo dữ liệu, quản lý và tìm kiếm dữ liệu. | Cung cấp quyền truy cập chỉ đọc vào dữ liệu tổng hợp và đối chiếu thông qua báo cáo, trang tổng quan phân tích hoặc truy vấn đặc biệt. | Yêu cầu làm sạch / chuẩn bị dữ liệu trước khi tiêu thụ. Quyền truy cập vào người dùng doanh nghiệp chủ yếu được cung cấp thông qua báo cáo, trang tổng quan hoặc truy vấn đặc biệt. Được sử dụng để tạo tập dữ liệu Machine Learning. |
Quy trình hoạt động của doanh nghiệp |
Kho lưu trữ chính cho dữ liệu đáng tin cậy được hiển thị trong các quy trình kinh doanh. Có thể là người chỉ đạo chính của các quy trình kinh doanh của doanh nghiệp. |
Chủ yếu phục vụ các quy trình phân tích. | Chủ yếu phục vụ các quy trình Học máy. |
Lợi ích của Data Hub – Data Hub – trung tâm dữ liệu
Các lợi ích chung của Data Hub – trung tâm dữ liệu bao gồm :
- Hợp nhất các silo thành một giao diện thống nhất duy nhất cho tất cả dữ liệu của bạn
- Đường ống dẫn dữ liệu tốc độ cao, thông lượng cao và hiệu suất cao
- Khả năng hiển thị và khả năng truy cập trên tất cả dữ liệu
- Giao diện quản lý lưu trữ dữ liệu thống nhất
- Các trung tâm dữ liệu được cung cấp bởi cơ sở dữ liệu đa mô hình bên dưới (mà các hồ dữ liệu và cơ sở dữ liệu ảo không có), mang lại cho chúng khả năng phục vụ như một hệ thống chân lý với tất cả các bảo mật doanh nghiệp cần thiết bao gồm bảo mật dữ liệu (kiểm soát truy cập), dữ liệu tính khả dụng (HA / DR) và khả năng toàn vẹn dữ liệu (giao dịch phân tán)
- Các trung tâm dữ liệu có các công cụ để quản lý dữ liệu (làm giàu, làm chủ, hài hòa) và chúng hỗ trợ quá trình hài hòa tiến bộ, kết quả của việc này được duy trì trong cơ sở dữ liệu.
- Trung tâm dữ liệu hỗ trợ các ứng dụng hoạt động và giao dịch, một thứ mà các hồ dữ liệu không được thiết kế . Và trong khi cơ sở dữ liệu ảo có thể hỗ trợ các giao dịch, tải được điều chỉnh bởi hiệu suất của các hệ thống cơ sở dữ liệu cơ bản
Với những ưu điểm này, trung tâm dữ liệu có thể hoạt động như một sự bổ sung mạnh mẽ cho các hồ dữ liệu và ảo hóa dữ liệu bằng cách cung cấp một lớp dữ liệu giao dịch được quản lý.
Các Trường hợp Sử dụng Tốt nhất cho Trung tâm Dữ liệu là gì?
Dưới đây là một số dấu hiệu cho thấy trung tâm dữ liệu là một lựa chọn tốt cho kiến trúc của bạn:
- Khi bạn muốn tích hợp dữ liệu đa mô hình – Các trung tâm dữ liệu rất giỏi trong việc tích hợp dữ liệu đa cấu trúc, thay đổi. Chúng lý tưởng nếu bạn muốn theo dõi dữ liệu của mình đến từ đâu và áp đặt một mô hình dữ liệu bảo mật duy nhất, dễ quản lý. Chúng cũng cung cấp khả năng quản lý tích hợp để làm phong phú, hài hòa và tổng thể dữ liệu (bao gồm cả loại bỏ trùng lặp)
- Khi doanh nghiệp cần một dịch vụ dữ liệu nhanh – Các trung tâm dữ liệu cung cấp sự linh hoạt cả về khả năng nhận dữ liệu và cũng nhanh chóng nhận được giá trị. Chúng không chỉ đơn thuần là hộp cát phân tích. Một trung tâm dữ liệu chứa đầy dữ liệu được quản lý tốt có thể bắt đầu mang lại giá trị kinh doanh với các dịch vụ dữ liệu sau vài tuần
- Khi bạn cần các chế độ xem hoạt động, theo thời gian thực – Các trung tâm dữ liệu đang hoạt động và giao dịch, cung cấp các chế độ xem thời gian thực và hoạt động như một nguồn sự thật duy nhất. Điều này làm cho chúng trở thành một lựa chọn tốt khi nhóm phân tích của bạn cần phân tích hoạt động, theo thời gian thực, không phải snapshot nhanh lịch sử.
- Khi bạn cần một nền tảng ổn định và điểm tích hợp đáng tin cậy – Các trung tâm dữ liệu được hỗ trợ bởi cơ sở dữ liệu. Chúng hoạt động độc lập với các hệ thống khác và do đó không bị ràng buộc bởi các ràng buộc về mạng hoặc cơ sở hạ tầng của các hệ thống khác. Và, chúng duy trì dữ liệu, cung cấp HA / DR, tính nhất quán trong giao dịch, bảo mật doanh nghiệp và tất cả các khả năng khác cần thiết để hoạt động như một nền tảng ổn định
-
Tích hợp Các software của bên thứ ba nhanh chóng. Trong nhiều tổ chức hiện đại, các thành phần (ứng dụng) công nghệ đang trở thành hàng hóa dùng một lần – ra vào môi trường mà không có kế hoạch hoặc đánh giá tác động nào. Các thành phần của bên thứ ba đang trở thành trụ cột để hỗ trợ hoạt động kinh doanh. Nhân viên CNTT được thử thách để triển khai chúng một cách nhanh chóng, tích hợp chúng vào các mô hình dữ liệu doanh nghiệp và đảm bảo luồng thông tin không có ma sát đồng thời duy trì tính toàn vẹn và bảo mật của dữ liệu. Trung tâm dữ liệu vượt trội trước thách thức tích hợp của bên thứ ba. Chúng cho phép các ứng dụng của bên thứ ba được tích hợp (cả ở cấp độ dữ liệu và quy trình làm việc), nhưng vẫn được kiểm soát về các chính sách truy cập và lưu giữ dữ liệu.
Nguồn : SmartIndustry.Vn