دریاچه داده چیست؟
امروزه انواع جدیدی از دادهها با رشد سرسامآوری در حال شکلگیری هستند. دادههایی که توسط وبسایتهای سازمانها، صفحات شبکههای اجتماعی، سنسورها و دستگاههای متصل به وب، اطلاعات مسیرهای حرکتی با دستگاههای GPS و بهطور عمومی اینترنت اشیاء و شبکههای اجتماعی یا سازوکارهای نظیر آنها ایجاد می شوند، این پرسش را به وجود آوردهاند که آیا اساساً استفاده از فناوری «انبار داده» به منظور ذخیره و تحلیل این اطلاعات از اثربخشی ِ لازم برخوردارند یا خیر.
یکی از موضوعاتی که در تحلیل انواع جدید دادهها اهمیت دارد، حجم بالایی از دادههاست که با سرعتی سرسامآور رشد میکنند و مدلهای ذخیرهسازی و تحلیلهای مبتنی بر رایانههای منفرد، پاسخگوی آنها نیستند. از طرفی توسعه پلتفرمهای مختلف ذخیرهسازی دادهها مانند فایل سیستمهای توزیعشده در دادههای بزرگ (مانند Hadoop) یا سیستمهای ذخیره سازی ابری (مانند Amazon S۳) که انواع مختلفی از دادههای ساخت یافته یا غیر ساختیافته را در خود ذخیره میکنند و لزوم تحلیل دقیق و سریع آنها، مدل انبار داده سنتی را به صورت جدی به چالش کشیده است.
مفهوم دریاچه داده (Data lake) در پاسخگویی به نیاز مذکور به تدریج توسعه پیدا کرده است. به منظور تشریح این مفهوم از تمثیلی استفاده میکنیم که جیمز دیکسون (James Dixon) مدیر ارشد فناوری پنتاهو (Pentaho) برای اولین بار به کار برد. اگر انبار داده را مشابه یک بطری آب تصفیهشده، بستهبندی شده و آماده مصرف در نظر بگیریم دریاچه داده (همانند نام آن) دریاچهای است که آب از منابع مختلف ( آب باران، چشمه ها، رودها یا منابع دیگر) در آن سرازیر شده و افراد میتوانند از آب دریاچه برای شنا، آشامیدن یا حتی نمونهبرداری! استفاده کنند. در صورتیکه بخواهیم تفاوتهای رویکرد دریاچه داده و انبار داده در تحلیل دادهها را بیان کنیم، میتوانیم به موارد زیر به عنوان تفاوتهای اساسی اشاره کنیم:
دادهها کاملاً در دریاچه داده قرار میگیرند و از هیچ دادهای صرفنظر نمیشود. این رویکرد برخلاف رویکرد انبار داده در ذخیرهسازی و پالایش دادهها است که در آن تنها اطلاعاتی در انبار داده قرار میگیرد که بتواند در تحلیلها مورد استفاده قرار گیرد.
دادههای پایینترین سطوح (مثلاً توضیحات یک فرد در یک مقاله یا یک وبسایت) بدون تغییر یا با حداقل تغییرات به دریاچه داده منتقل میشوند که این مهم، برخلاف رویکرد انبار داده است که تبدیل و تغییر (Transformation) یکی از پیشفرضهای اساسی و اولیه ورود اطلاعات به آن محسوب میشود. در مثال قبل ممکن است برای ذخیرهسازی توضیحات یک فرد در یک مقاله یا وبسایت با مدل انبار داده تنها به استخراج کلید واژهها از توضیحات و ذخیرهسازی آن در یک جدول بانک اطلاعاتی بسنده کرد.
در دریاچه داده توضیحات فرد، نحوه پیمایش یک سایت توسط کاربر و اطلاعات سنسورهایی که توسط دستگاهها تولید شده است، بدون توجه به منبع و ساختار ذخیره میشوند. این رویکرد ذخیرهسازی دادهها که در آن داده، بدون توجه به ساختار و منبع ذخیره میشود را اصطلاحاً «خواندن با ساختار» (Schema On Read) نامیده میشود. این رویکردی متفاوت از ذخیرهسازی دادهها در انبار داده است که در آن، ابتدا ساختاری که دادهها باید در آن قرار گیرد طراحی میشود و سپس داده ها در ساختار قرار میگیرند که به آن نوشتن با ساختار (Schema On Write) گفته میشود.
در بیشتر سازمانها، نزدیک به ۸۰% از استفادهکنندگان از اطلاعات، استفادهکنندگان عملیاتی محسوب میشوند. نیاز این دسته از کاربران این است که گزارشها و شاخصهای مورد نیاز خود را مشاهده کنند. این موارد معمولاً دارای ساختاری از پیش تعریفشده هستند و رویکرد انبار داده به دلیل ساختیافته بودن اطلاعات، برای این دسته از کاربران قابل درک و استفاده است.
معمولا ۱۰% از کاربران یک سازمان نیاز به تجزیه و تحلیل عمیق دادهها پیدا میکنند. این دسته از کاربران میتوانند از انبار داده برای تجزیه و تحلیلهای مورد نیاز خود استفاده کنند اما گاهی اوقات، نیاز به دسترسی به منبع اصلی داده مورد نیاز است و کاربران ناچارند به دادهها در سیستمهای تولیدکننده آن مراجعه کنند. درصد کمی از کاربران سازمانها نیازمند تحلیلهای عمیق و پیچیده بر روی دادهها هستند.
دانشمندان و تحلیلگران داده (Data Scientists) جزو این دسته از کاربران قرار میگیرند. این گروه از کاربران، از انواع دادههای ساختیافته یا ساختنیافته و ابزارهای تجزیه و تحلیل پیشرفته بر روی دادهها مانند دادهکاوی، متنکاوی، تحلیل آماری، مدلهای پیشبینیکننده، تحلیل جریان پیمایش یک سایت و روشهای مشابهاستفاده میکنند. با توجه به اینکه در فرآیند تحلیلهای پیشرفته، تحلیلگر از قبل، درباره اینکه چه ویژگیها یا دادههایی موردنیاز هستند و از کدامیک باید صرفنظر شود آگاه نیست، رویکرد خواندن با ساختار (Schema On Read) و عدم حذف یا تبدیل اطلاعات بهتر میتواند به نیاز تحلیلیِ این دسته از کاربران پاسخ دهد. جالب است بدانید با استفاده از رویکرد دریاچه داده میتوان به نیازهای هر سه دسته از این کاربران به شکل مناسبی پاسخ داد.
تفاوت دیگر دو رویکرد در نحوه مواجهه با تغییر است. در رویکرد انبار داده باید با توجه به تحلیلهای مورد نیاز، ساختارهای مرتبط در انبار داده طراحی شده باشد تا امکان ذخیرهسازی اطلاعات در ساختار مربوطه فراهم شود و پس از آن، فرایند تکمیل اطلاعات در انبار داده (شامل خواندن، تبدیل و بارگذاری) آن را برای تحلیل در اختیار استفادهکننده قرار میدهد. با توجه به اینکه این فرایند معمولاً طولانی است، در سالهای اخیر مفهوم Self Service BI و در اختیار قرار دادن امکاناتی که کاربران خود بتوانند راساً فعالیت یکپارچهسازی و تحلیل اطلاعات را به انجام برسانند، مورد توجه قرار گرفتهاند و بعضی از ابزارهای تجاری موجود در بازار نیز به این سمت حرکت کردهاند.
اما در رویکرد دریاچه داده، دادهها به صورت خام در فرمتهای اولیه نگهداری میشوند و ابزارهایی در اختیار کاربران قرار داده میشود که بتوانند دادهها را با همین شکل موردارزیابی و تحلیل قرار دهند. گاهی اوقات این ارزیابیها مشخص میکنند که چه بخشی از دادهها، از ارزش لازم برای تحلیلهای کاملتر برخوردارند و در ادامه ممکن است برای این بخش از دادهها، ساختار مورد نیاز را طراحی کنند (انبار داده). در غیر اینصورت از هدر رفتن زمان زیادی از تیم تحلیل داده به منظور ساخت انبار داده بر روی دادههایی که واجد ارزش نیستند جلوگیری شود.
کاربرانی که دادهها را از طریق دریاچه داده مورد استفاده قرار میدهند، به اطلاعات خام دسترسی دارند و از آنجا که هیچیک از فرایندهای پرهزینه و زمانبر تبدیل، پاکسازی و ساختاردهی روی دادهها انجام نمیشود، میتوان سریعتر و کمهزینهتر فعالیت تحلیل دادهها را آغاز کرد. اما باید به این نکته توجه داشت که این روش برای کاربران تحلیلگر کسبوکار قابل پیادهسازی نیست و این دسته از کاربران که بیشتر با گزارش و شاخص سروکار دارند، نیاز دارند که دادهها در یک فرایند منسجم تبدیل، پاکسازی و ساختاردهی شده و در قالب گزارشها و شاخصها در اختیارشان قرار گیرد. در حقیقت، در دریاچه داده، هزینههای پاکسازی و ساختاردهی به دادهها کاهش می یابد، با این وجود هزینههای تحلیل دادهها افزایش یافته و بر پیچیدگی تحلیل داده افزوده میشود.
با توجه به توضیحات بالا، خوب است نگاهی به طرحواره معماری پیاده سازی دریاچه داده داشته باشیم.
در طرح معماری بالا در پایینترین سطح، منابع داده شامل سیستمهای تولیدکننده داده قرار دارند. دادههای تمامی این منابع، در لایه میانی (سیستم دادهای سازمان) قرار داده میشوند. سیستم دادهای شامل بانکهای اطلاعاتی رابطهای، انبارهای داده، و اجزای سیستم مدیریت داده (برای نمونه مبتنی بر Hadoop) است. در لایه برنامههای کاربردی، سیستمهای اطلاعاتی سازمانی، سیستمهای تحلیلگر اطلاعات و سایر سیستمهای استفادهکننده از داده قرار دارند. شاید تنها نکتهی مبهم در این طرح، بخش سیستم مدیریت داده مبتنی بر Hadoop باشد که با نگاهی دقیقتر به جزییات این سیستم و اجزای آن درک بهتری از مفهوم دریاچه داده و نحوه برخورد با چالشهای ذخیرهسازی و تحلیل آن به دست خواهیم آورد.
نمودار بالا اجزای کلی این سیستم را نمایش می دهد. در نمودار بعدی به جزئیات ابزارها و فناوریهایی اشاره شده است که در هر یک از بخشهای اشاره شده در طرح بالا مورد استفاده قرار میگیرد. این ابزارها و فناوریها در مقالات بعدی به شکل دقیقتری توصیف خواهند شد.
تفاوت دو رویکرد انبار داده و دریاچه داده در تحلیل اطلاعات را میتوان در جدول زیر خلاصه کرد:
نتیجهگیری
موضوعات مربوط به دادهها و تحلیل آنها در راستای ارتقاء عملکرد سازمان بسیار مورد توجه واقع شدهاند. با اضافه شدن ابعادی مانند حجم بالای دادهها، تنوع و سرعت افزایش آنها و مطرح شدن تحلیلهای پیشرفته بر مبنای بزرگ داده (BIG Data Analytics) رویکردهای جدید تجزیه و تحلیل دادهها، ابزارها و فناوریهای جدیدی را به وجود آوردند. استفاده مناسب از هر یک از این فناوریها نیازمند توجه به رویکردهایی است که هر کدام از این مفاهیم بر مبنای آن شکل گرفتهاند. به موازات این موضوع، انطباق مناسب این رویکردها با نیازمندیهای سازمان میتواند موجب انتخاب فناوریهایی شود که به شکلی بهینه، نیازهای تحلیلی سازمان را مرتفع میسازند. دانستن رویکردهای انبار داده یا دریاچه داده در موضوع تحلیل دادهها میتواند به مدیران ارشد اطلاعاتی سازمانها در انتخاب مدل مناسب برای حل این موضوع و تحلیل دقیقتر داده ها کمک کند.