Cách tốt nhất để nhớ, hoặc trình bày đó là dùng hình ảnh. Images Speak Louder Than Words

Có rất nhiều định nghĩa cũng như tài liệu nói về sự khác nhau giữa datalake và datawarehouse. Hy vọng hình ảnh dứoi đây sẽ giúp bạn hiểu về sự khác nhau giữa datalake và datawarehouse.

  1. Sự khác nhau đầu tiên đó là về cấu trúc dữ liệu, với datalake thì dữ liệu là unstructure, nhưng với warehouse thì dữ liệu là có cấu trúc và là dữ liệu quan hệ.

  2. Đôi tượng làm việc với dữ liệu thì datalake sẽ là Data Analysis, Data Sientists. Với datawarehouse là những dữ liệu đã được refine (xử lý), như vậy đã có thể phục vụ tôt cho business.

  3. Về độ lớn lưu trữ dữ liệu thì datalake sẽ được thiết kế để lưu trữ dữ liệu với quy mô rất lớn, trong khi đó datawarehouse thì có quy mô nhỏ hơn.

datalake_datawarehouse

Refer: Internet