Tích hợp dữ liệu là gì ?
Tích hợp dữ liệu là quá trình truy xuất dữ liệu từ nhiều hệ thống nguồn và kết hợp nó theo cách nó có thể mang lại thông tin phù hợp, toàn diện, hiện tại và chính xác cho báo cáo và phân tích kinh doanh. Tích hợp dữ liệu là một thách thức lớn vì Số lượng nguồn và loại dữ liệu tiếp tục phát triển và dữ liệu thường tự chủ và có thể ở nhiều định dạng khác nhau.
Tích hợp dữ liệu có cần thiết không?
Thị trường tích hợp dữ liệu dự kiến sẽ tăng từ 6,44 tỷ USD năm 2017 lên 12,24 tỷ USD vào năm 2022 , với tỷ lệ tăng trưởng hàng năm (CAGR) là 13,7%. Yếu tố chính thúc đẩy thị trường này là nhu cầu cao về các công cụ có thể kết hợp nhiều nguồn dữ liệu không đồng nhất, cho phép người dùng có được cái nhìn tổng hợp về dữ liệu và rút ra những hiểu biết kinh doanh có giá trị.
Tầm quan trọng ngày càng tăng của phân tích dữ liệu và ứng dụng BI trong việc đưa ra quyết định kinh doanh chiến lược đã làm cho vai trò tích hợp dữ liệu trở nên quan trọng. Từ việc thu thập dữ liệu, chuyển đổi nó thành những hiểu biết hữu ích và cung cấp nó cho người dùng đòi hỏi các công cụ tích hợp dữ liệu hiệu quả.
ETL là gì ?
ETL là một loại tích hợp dữ liệu đề cập đến ba bước (trích xuất, chuyển đổi, tải) : Extract, load, transform (ELT) được sử dụng để trộn dữ liệu từ nhiều nguồn. Nó thường được sử dụng để xây dựng một kho dữ liệu . Trong quá trình này, dữ liệu được lấy (trích xuất) từ một hệ thống nguồn, được chuyển đổi (chuyển đổi) thành định dạng có thể được phân tích và lưu trữ (được tải) vào kho dữ liệu hoặc hệ thống khác.
Extract, load, transform (ELT) là một cách tiếp cận thay thế nhưng có liên quan được thiết kế để đẩy quá trình xử lý xuống cơ sở dữ liệu để cải thiện hiệu suất.
ETL trở nên phổ biến vào những năm 1970 khi các tổ chức bắt đầu sử dụng nhiều kho dữ liệu hoặc cơ sở dữ liệu để lưu trữ các loại thông tin kinh doanh khác nhau. Nhu cầu tích hợp dữ liệu được lan truyền trên các cơ sở dữ liệu này tăng lên nhanh chóng. ETL trở thành phương pháp tiêu chuẩn để lấy dữ liệu từ các nguồn khác nhau và chuyển đổi nó trước khi tải nó vào nguồn đích hoặc đích.
Vào cuối những năm 1980 và đầu những năm 1990, kho dữ liệu đã xuất hiện. Một loại cơ sở dữ liệu riêng biệt, kho dữ liệu cung cấp quyền truy cập tích hợp vào dữ liệu từ nhiều hệ thống – máy tính lớn, máy tính mini, máy tính cá nhân và bảng tính. Nhưng các bộ phận khác nhau thường chọn các công cụ ETL khác nhau để sử dụng với các kho dữ liệu khác nhau. Cùng với việc sáp nhập và mua lại, nhiều tổ chức đã kết hợp với một số giải pháp ETL khác nhau không được tích hợp.
Tại sao ETL lại quan trọng ?
Các doanh nghiệp đã dựa vào quy trình ETL trong nhiều năm để có được cái nhìn tổng hợp về dữ liệu thúc đẩy các quyết định kinh doanh tốt hơn. Ngày nay, phương pháp tích hợp dữ liệu từ nhiều hệ thống và nguồn này vẫn là một thành phần cốt lõi của hộp công cụ tích hợp dữ liệu của một tổ chức.
ETL được sử dụng để di chuyển và chuyển đổi dữ liệu từ nhiều nguồn khác nhau và tải nó vào các mục tiêu khác nhau, như Hadoop.
- Khi được sử dụng với kho dữ liệu doanh nghiệp (dữ liệu ở phần còn lại), ETL cung cấp bối cảnh lịch sử sâu sắc cho doanh nghiệp.
- Bằng cách cung cấp một cái nhìn tổng hợp, ETL giúp người dùng doanh nghiệp dễ dàng phân tích và báo cáo về dữ liệu liên quan đến các sáng kiến của họ.
- ETL có thể cải thiện năng suất của các chuyên gia dữ liệu vì nó mã hóa và tái sử dụng các quy trình di chuyển dữ liệu mà không yêu cầu các kỹ năng kỹ thuật để viết mã hoặc tập lệnh.
- ETL đã phát triển theo thời gian để hỗ trợ các yêu cầu tích hợp mới nổi cho những thứ như truyền dữ liệu.
- Các tổ chức cần cả ETL và ELT để mang dữ liệu lại với nhau, duy trì độ chính xác và cung cấp audit thường được yêu cầu cho việc lưu trữ dữ liệu, báo cáo và phân tích .
Ứng dụng ETL trong công nghiệp và ngành sản xuất
Hầu hết mọi người đều quen thuộc với Công nghiệp 4.0, Sản xuất thông minh và Internet vạn vật công nghiệp (IIoT), các thuật ngữ được sử dụng để mô tả những thay đổi to lớn trong công nghệ vận hành (OT). Chúng đã được đưa vào bởi sự đột biến của các công nghệ cơ bản bao gồm đám mây, Dữ liệu lớn, cảm biến thông minh, máy tính trạng thái đơn bảng, mạng không dây, phân tích, nền tảng phát triển ứng dụng và thiết bị di động.
Một số công nghệ này không phải là mới, nhưng việc giảm giá gần đây và cải thiện dễ sử dụng đã làm tăng mức sử dụng của chúng. Những công nghệ này đang được kết hợp với OT truyền thống như hệ thống điều khiển và hệ thống thực thi sản xuất (MES) để cải thiện hoạt động và chức năng kinh doanh của các công ty công nghiệp bằng cách cung cấp thêm dữ liệu – và công cụ để tận dụng dữ liệu đó. Phần mềm ETL có thể giúp cải thiện việc thu thập dữ liệu cho các ứng dụng OT và ngành sản xuất, nhưng có những thách thức lớn với việc tích hợp dữ liệu mà các công ty cần phải vượt qua.
Nhiều trong số các công nghệ này lần đầu tiên được phát triển cho các bộ phận công nghệ thông tin (CNTT) để tương tác với các ngành kinh doanh khác. Với số lượng lớn dữ liệu trong sản xuất và nhu cầu cải thiện hoạt động, các công cụ này đang được CNTT đánh giá và áp dụng. Tuy nhiên, các nhóm OT đang tìm cách tận dụng dữ liệu công nghiệp phải đối mặt với những thách thức độc đáo xung quanh việc tích hợp dữ liệu, điều này đã làm tăng nỗ lực cần thiết để triển khai các hệ thống như vậy. Tuy nhiên sẽ có những thách thức lớn với việc tích hợp dữ liệu mà các công ty cần phải vượt qua.
Khó khăn tích hợp dữ liệu đối với ngành công nghiệp và sản xuất
Dữ liệu OT không phải được lưu trữ tất cả trong cơ sở dữ liệu như các giao dịch đang chờ được trích xuất. Thay vào đó, nó có sẵn trong thời gian thực từ các bộ điều khiển logic lập trình (PLC), bộ điều khiển máy, điều khiển giám sát và thu thập dữ liệu (SCADA) và / hoặc cơ sở dữ liệu chuỗi thời gian trong toàn bộ nhà máy. Thay vì trích xuất dữ liệu từ một số ít cơ sở dữ liệu lớn, dữ liệu phải được thu thập từ hàng trăm thiết bị và hệ thống.
Hệ thống xử lý giao dịch lưu trữ các bản ghi đầy đủ cho mỗi giao dịch, nhưng trong các nhà máy, dữ liệu xử lý không được ghi lại dưới dạng các giao dịch. Một nhà sản xuất riêng biệt có khối lượng lớn không thể lưu trữ bộ dữ liệu hoàn chỉnh cho từng thành phần xuất phát. Một nhà sản xuất hàng loạt thường cần lưu trữ nhiều hơn một giá trị mỗi lô. Dữ liệu công nghiệp cũng phải được thu thập ở tốc độ cao để bắt các dị thường và phải được lưu trữ ở các mức khác nhau dựa trên trường hợp sử dụng, điều này làm cho việc trích xuất trở nên phức tạp hơn.
Khó khăn khi chuyển đổi dữ liệu công nghiệp
Chuyển đổi dữ liệu trên dữ liệu OT đòi hỏi nhiều điều kiện hơn là chuyển đổi thông thường. Lưu trữ dữ liệu OT thường xảy ra định kỳ, mỗi giây, phút hoặc giờ. Dữ liệu được lưu trữ có thể là một giá trị thực như số lượng được tạo ra hoặc có thể là các tính toán thống kê của dữ liệu thô như giá trị nhiệt độ trung bình, tối thiểu và tối đa được kiểm tra mỗi giây, nhưng được ghi lại mỗi giờ.
Các điểm dữ liệu PLC thường có địa chỉ hoặc tên và giá trị. Tuy nhiên, các điểm dữ liệu này chỉ cung cấp chế độ xem hoặc điều khiển tập trung vào dữ liệu. Không có mô tả, đơn vị đo lường, phạm vi hoạt động hoặc thông tin đặc tả khác. Điều này tạo ra những thách thức khi dữ liệu công nghiệp được sử dụng bên ngoài môi trường điều khiển để bảo trì máy, tối ưu hóa quy trình, chất lượng và truy xuất nguồn gốc. Trong các trường hợp này, dữ liệu phải được phân tích và căn chỉnh bằng máy để bảo trì máy, theo quy trình tối ưu hóa quy trình và theo sản phẩm để đảm bảo chất lượng và truy xuất nguồn gốc. Dữ liệu cần thiết thường có sẵn, nhưng phải tương quan và đôi khi được chuyển sang định dạng có thể sử dụng.
Các nhà máy điển hình cũng có máy móc từ nhiều nhà cung cấp và thiết bị khác nhau được mua trong một khoảng thời gian rộng. Sự đa dạng trong máy móc này dẫn đến rất nhiều dữ liệu có sẵn. Một số điểm dữ liệu có thể có tên khác nhau trong khi những điểm khác có thể có các đơn vị đo khác nhau hoặc các phép đo khác nhau. Để phân tích, xu hướng hoặc bất kỳ loại phân tích dữ liệu nào là có thể, các điểm dữ liệu phải được chuẩn hóa, chuẩn hóa và trong một số trường hợp, được tính toán dựa trên các biện pháp thành phần.
Dữ liệu phân tích nói chung không quan trọng bằng dữ liệu kiểm soát; các công ty sử dụng các cảm biến chi phí thấp hơn để thu thập dữ liệu cho phân tích không quan trọng. Tuy nhiên, các cảm biến này có thể bị hỏng hoặc trôi nên việc có các cảm biến dự phòng với xác thực dữ liệu ngoài là rất quan trọng để đảm bảo dữ liệu tốt được lưu trữ.
Làm thế nào để chọn công cụ tích hợp dữ liệu phù hợp?
Đây không phải là một nhiệm vụ dễ dàng để đi và tìm công cụ tốt nhất hiện có.
Mục tiêu là biến dữ liệu thành thông tin và thông tin có hữu ích.
Khi bạn tìm ra nhu cầu của bạn là gì và dự án nào bạn muốn bắt đầu, bạn có thể bắt đầu thực hiện nghiên cứu của riêng mình bằng cách sử dụng các công cụ tích hợp dữ liệu (ETL) hoặc hỏi xung quanh những gì người khác đang sử dụng, họ sẽ sử dụng những gì, v.v.
Những điều cần xem xét trong khi chọn một công cụ ETL:
- Giá: một số công cụ ETL là miễn phí, nhưng có chi phí ẩn và chi phí thực tế . Giá cả khác nhau tùy theo cách sử dụng. Bạn càng chi nhiều tiền, đơn giá càng thấp. Vì vậy, hầu hết các nhà cung cấp có giá phù hợp, rất ít có giá tiêu chuẩn trên tất cả các tập quán / khối lượng. Điểm mấu chốt ở đây là phải biết giới hạn của bạn.
- Khả năng mở rộng: khi nguồn dữ liệu, khối lượng và độ phức tạp khác tăng lên, việc nhân rộng và quản lý quy trình ETL trở nên ngày càng khó khăn. Các công cụ ETL, đặc biệt là các công cụ ETL dựa trên đám mây, loại bỏ trở ngại này khi chúng mở rộng khi nhu cầu của bạn tăng lên.
- Nguồn dữ liệu: khả năng kết nối với các nguồn mà bạn cần bây giờ và có khả năng có thể muốn. Hãy nghĩ về nó như một khoản đầu tư trong hành trình dữ liệu của bạn.
- Tính đơn giản: người dùng cuối phải có thể dành thêm một chút thời gian để tìm hiểu cách của họ xung quanh các giao diện điểm và nhấp trong công cụ ETL để họ là những người chính phụ trách công cụ. Với các công cụ ETL dựa trên đám mây, một công cụ có thể được sử dụng để quản lý toàn bộ quá trình, giảm các lớp phụ thuộc thêm.
- Thời gian thực : xây dựng quy trình ETL thời gian thực theo cách thủ công là một thách thức. Với các công cụ ETL xử lý việc này cho bạn, việc có dữ liệu thời gian thực trong tầm tay bạn, từ các nguồn trong toàn tổ chức, trở nên dễ dàng hơn rất nhiều.
- Bảo trì : thay vì nhóm phát triển của bạn liên tục sửa lỗi và lỗi, sử dụng các công cụ ETL có nghĩa là bảo trì được xử lý tự động, vì các bản vá và cập nhật lan truyền liền mạch và tự động.
- Bảo mật : công cụ ETL được chọn phải có các tiêu chuẩn bảo mật cao và đảm bảo rằng bạn ở bên phải tuân thủ.
Có rất nhiều công cụ ETL có sẵn , mỗi công cụ đều có những ưu điểm và nhược điểm riêng. Đạt được sự hiểu biết về những khác biệt này có thể giúp bạn chọn công cụ ETL tốt nhất cho nhu cầu của bạn.
nguồn : SAS , Etlworks.