با بیان ساده، مفهوم دریاچه داده را میتوان اینگونه توضیح داد که اگر انبار داده را مشابه یک بطری آب تصفیهشده، بستهبندی شده و آماده مصرف در نظر بگیریم، دریاچه داده (همانند نام آن) دریاچهای است که آب از منابع مختلف ( آب باران، چشمهها، رودها یا منابع دیگر) در آن سرازیر شده و افراد میتوانند از آب دریاچه برای شنا، آشامیدن یا حتی نمونهبرداری! استفاده کنند.
به گزارش ایسنا، امروزه دادهها بسیار سریع در حال شکلگیری هستندف دادههایی که توسط وبسایتها، صفحات شبکههای اجتماعی و غیره ایجاد می شوند. کارشناسان بر این عقیده هستند که رشد حجم بالای دادهها باعث شده تا مدلهای ذخیرهسازی و تحلیلهای مبتنی بر رایانههای منفرد، پاسخگوی آنها نباشند. از سوی دیگر عوامل متعددی باعث شده تا مدل انبار داده سنتی به صورت جدی به چالش کشیده شود.
در این راستا مفاهیم دریاچه داده و دریاچه اطلاعات امنیتی تخصصی و نسبتاً جدید هستند؛ یک دریاچه داده یک مخزن طراحیشده برای ذخیره مقادیر زیادی از دادهها در شکل بومی است. بر اساس اطلاعات سایت پلیس فتا، این دادهها میتوانند ساختار بندی شده، نیمه ساختار یافته یا بدون ساختار و شامل جداول، فایلهای متنی، لاگ سیستم و بیشتر باشند.
این واژه توسط جیمز دیکسون، CTO، یک شرکت نرمافزاری هوش تجاری، به کار گرفته شد و هدف از آن ایجاد یک مخزن بزرگ است که مقادیر گستردهای از دادهها را می توان در آن ریخت. کاربران کسبوکار تماماً میتوانند وارد دریاچه دادهها شوند و نوع اطلاعاتی که برای کاربرد آنها نیاز دارند را دریافت کنند. این مفهوم با انفجار دادههای ماشینی و کاهش سریع هزینه ذخیرهسازی به محبوبیت رسید.
در صورتیکه بخواهیم تفاوتهای رویکرد دریاچه داده و انبار داده در تحلیل دادهها را بیان کنیم، میتوانیم با توجه به آنچه که در برخی از سایتهای تخصصی این حوزه در تعریف این مفهوم مطرح شده، به موارد زیر به عنوان تفاوتهای اساسی اشاره کنیم:
دادهها کاملاً در دریاچه داده قرار میگیرند و از هیچ دادهای صرفنظر نمیشود. این رویکرد برخلاف رویکرد انبار داده در ذخیرهسازی و پالایش دادههاست که در آن تنها اطلاعاتی در انبار داده قرار میگیرد که بتواند در تحلیلها مورد استفاده قرار گیرد.
دادههای پایینترین سطوح (مثلاً توضیحات یک فرد در یک مقاله یا یک وب سایت) بدون تغییر یا با حداقل تغییرات به دریاچه داده منتقل میشوند که این مهم، برخلاف رویکرد انبار داده است که تبدیل و تغییر (Transformation) یکی از پیشفرضهای اساسی و اولیه ورود اطلاعات به آن محسوب میشود.
بر این اساس در مثال قبل ممکن است برای ذخیرهسازی توضیحات یک فرد در یک مقاله یا وبسایت با مدل انبار داده تنها به استخراج کلید واژهها از توضیحات و ذخیرهسازی آن در یک جدول بانک اطلاعاتی بسنده کرد. در دریاچه داده توضیحات فرد، نحوه پیمایش یک سایت توسط کاربر و اطلاعات سنسورهایی که توسط دستگاهها تولید شده است، بدون توجه به منبع و ساختار ذخیره میشوند.
این رویکرد ذخیرهسازی دادهها که در آن داده، بدون توجه به ساختار و منبع ذخیره میشود، اصطلاحاً «خواندن با ساختار» (Schema On Read) نامیده میشود. این رویکردی متفاوت از ذخیرهسازی دادهها در انبار داده است که در آن، ابتدا ساختاری که دادهها باید در آن قرار گیرد طراحی میشود و سپس داده ها در ساختار قرار میگیرند که به آن نوشتن با ساختار (Schema On Write) گفته میشود.
نزدیک به ۸۰ درصد از استفادهکنندگان از اطلاعات در بیشتر سازمانها، استفادهکنندگان عملیاتی محسوب میشوند. نیاز این دسته از کاربران این است که گزارشها و شاخصهای مورد نیاز خود را مشاهده کنند. این موارد معمولاً دارای ساختاری از پیش تعریفشده هستند و رویکرد انبار داده به دلیل ساختیافته بودن اطلاعات، برای این دسته از کاربران قابل درک و استفاده است.
درصد کمی از کاربران سازمانها نیازمند تحلیلهای عمیق و پیچیده بر روی دادهها هستند. دانشمندان و تحلیلگران داده (Data Scientists) جزو این دسته از کاربران قرار میگیرند. این گروه از کاربران، از انواع دادههای ساختیافته یا ساختنیافته و ابزارهای تجزیه و تحلیل پیشرفته بر روی دادهها مانند دادهکاوی، متنکاوی، تحلیل آماری، مدلهای پیشبینیکننده، تحلیل جریان پیمایش یک سایت و روشهای مشابه استفاده میکنند.
اما معمولا ۱۰ درصد از کاربران یک سازمان نیاز به تجزیه و تحلیل عمیق دادهها پیدا میکنند. این دسته از کاربران میتوانند از انبار داده برای تجزیه و تحلیلهای مورد نیاز خود استفاده کنند اما گاهی اوقات، نیاز به دسترسی به منبع اصلی داده مورد نیاز است و کاربران ناچارند به دادهها در سیستمهای تولیدکننده آن مراجعه کنند.
با توجه به اینکه در فرآیند تحلیلهای پیشرفته، تحلیلگر از قبل، درباره اینکه چه ویژگیها یا دادههایی موردنیاز هستند و از کدامیک باید صرفنظر شود آگاه نیست، رویکرد خواندن با ساختار (Schema On Read) و عدم حذف یا تبدیل اطلاعات بهتر میتواند به نیاز تحلیلیِ این دسته از کاربران پاسخ دهد.
در هر حال تفاوتهای کلیدی بین دریاچههای داده و انبارهای داده وجود دارد که به طور سنتی برای تحلیل دادهها مورد استفاده قرار گرفتهاند. اول، انبارهای داده برای دادههای ساختار یافته طراحی شدهاند. یک واقعیت اینکه دریاچههای داده یک طرح را به دادهها تحمیل نمیکنند. در عوض، زمانی که دادهها خوانده شده و یا از دریاچه دادهها بیرون کشیده میشوند، طرح مورد استفاده قرار میگیرد. در نهایت، دریاچههای داده در محبوبیت با افزایش دادههای دانشمندان، که تمایل به کار بیشتر در یک تبلیغ دارند، نسبت به تحلیلگران کسب و کار قبلی، رشد کردهاند.