عنوان مقاله
نقش طراحی پایگاه دادههای توزیع شده و Grid Database Design
نوع فایل |
تعداد صفحات |
---|---|
ورد – Word |
۵۸ صفحه |
پیش نمایش مقاله
سیستم مدیریت پایگاه دادههای توزیع شده
سیستمهای توزیع شده
پایگاه داده توزیع شده
پایگاه دادههای همگن
پایگاه دادههای ناهمگن
مزایا و معایب پایگاه دادههای توزیع شده
نسخه سازی دادهها
نسخه سازی کامل
نسخه سازی جزئی
نامرئی بودن در پایگاه داده توزیع شده
نامرئی سازی شبکه
نامرئی سازی تراکنش
نامرئی سازی کارایی
نامرئی سازی سیستم مدیریت پایگاه دادهها
مشکلات سیستم های پایگاه داده توزیع
جمعبندی و نتیجهگیری
پایگاه دادهها در محیط GRID
تاریخچه محیط GRID
GRID
اصول ساخت GRID
GLOBUS
کابردهای GRID
جمعبندی و نتیجهگیری
ترکیب سیستمهای پایگاه داده توزیعشده با تکنولوژی GRID
قرار دادن پایگاههای داده در معماری گرید
دادگان
پرس و جو
تراکنشها
بارگذاری با حجم زیاد
اخطار
زمان بندی
مجتمع کردن پایگاههای داده در گرید
پرس وجو
تراکنشها
بارگذاری حجیم داده
اخطار
دادگان
زمان بندی
ابزاری برای دسترسی به پایگاه داده
معماری OGSA-DAI
جمعبندی و نتیجهگیری
منابع و مراجع
نیاز به مجتمعسازی پایگاههای داده و تکنولوژی پایگاهدادهها در گرید کاملا محسوس است، زیرا که همانند نیاز به پشتیبانی پایگاه داده برنامههای علمی و تجاری میباشد. تلاشهای قابل توجهی برای توصیف نیازمندیها، پروتکلها و پیاده سازی میانافزار برای دسترسی به پایگاهدادهها در محیط گرید صورت گرفته است. اگرچه سیستمهای مدیریت پایگاهدادهها (DBMS) به عنوان وسیلهای مفید برای مدیریت متادیتا و دادهها و منابع و غیره معرفی شدهاند ولی در برنامههای کاربردی که بر روی گرید اجرا میشوند حضور پایگاه دادهها کمرنگ است. امروزه برنامههای کاربردی گرید هنوز از فایلها برای پردازش و ذخیره دادهها استفاده میکنند و نمیتوانند از مزایا و قدرت پایگاه دادهها بهره ببرند.
کلمات کلیدی: پایگاه داده توزیع شده، محیط Grid، پایگاه دادههای Grid،مدیریت پایگاه دادهها، تکرار دادهها
۱٫ مقدمه
در کاربردهایی مانند نظارت بر شبکه، مدیریت دادههای مخابراتی، نظارت بر جریان انتخابهای کاربران در وب و شبکههای حسگر، دادهها به شکل پیوسته و جریانی و نه به صورت مجموعه دادههای محدود و ذخیره شده، ظاهر میشوند. همچنین پرسوجوهای کاربران بر خلاف سیستمهای مدیریت پایگاه دادهی رایج، به صورت پیوسته و با اجرای طولانی و اهداف نظارتی خواهد بود. به دلیل مناسب نبودن مدلها و سیستمهای مدیریت پایگاه داده رایج برای کاربردهای مرتبط با جریان داده، در گذشته برای این کاربردها سیستمهای خاص منظوره تهیه میشد. با گسترش روزافزون این کاربردها در دنیای مدرن امروزی، در سالهای اخیر، روشها و سیستمهایی عمومی و همه منظوره برای این کاربردها تدوین شد که به دلیل داشتن اختلاف اساسی با پایگاه دادههای رایج، تطبیق و سفارشی کردن کلیهی تکنیکها و روشهای موجود برای پایگاه دادهها را برای این سیستمهای جدید طلب می نمود.
در حال حاضر تحقیقات انجام شده بر روی Grid همانند تحقیقات پایگاه دادههای توزیع شده با تکرار دادهها سر و کار دارند اما از دو نقطه نظر مجزا به موضوع نگاه میکنند.
در این تحقیق سعی شده که هر دو روش را بررسی کرده و نقاط مشترک بین آن دو جهان متفاوت را به دست بیاوریم تا اینکه بتوان کارآترین Data Grid ای که دادههای ذخیره شده در پایگاه دادههای شئگرا مدیریت میکند، داشته باشیم. همانگونه که گفته شده هدف نهایی سیستم مدیریت پایگاه داده شئگرا است که از جمله پایگاه دادههای متداول در آزمایشات HEP میباشد. [۶]
محاسبات گرید عموما تداعیگر محاسباتی با کارایی بسیار بالا هستند که با اتصال چندین پردازشگر و یا کامپیوتر مجزا توسط لینک پر سرعتی برای محاسبه یک برنامه واحد به هم متصل شدهاند. خوشه در ابتدا برای شبکههای محلی در نظر گرفته شده بود ولی سریعا در محلهای پهناور توسعه داده شدند ولی یک گرید از ابتدا برای اتصال منابع محاسباتی در شبکههای گسترده در نظر گرفته شده بود.
زمینه تحقیقاتی گرید به دو محدوده اصلی تقسیم میشود: گرید محاسباتی و Data Grid. از آنجایی که گرید محاسباتی توسعهای از کامپیوترهای خوشهای قبلی است که وظایف محاسباتی بیشتری را توسط منابع توزیعشده انجام میدهند، Data Grid با مدیریت، گمارش و تکرار سیل عظیمی از دادهها سر و کار دارد. اگر چه هنگامی که دادهها در مکان مناسبی قرار گرفتند، وظایف محاسباتی میتوانند در گرید توسط دادههای آماده، اجرا شوند. نیاز به Data Grid از این حقیقت بلند میشود که برنامههای کاربردی علمی همانند تحلیل دادهها در HEP، مدلسازی آب و هوا و مشاهدات زمین دادههای بسیاری دادند و محققان بیشماری در سرتاسر زمین میخواهند به این دادههای دسترسی سریع داشته باشند.
در این تحقیق از نیازهای مشخص آمده شده در [۶]بر روی High Energy Physics به عنوان نمونهای از انجمنهای تحقیقی با دادههای متمرکز، تمرکز شده است.
برنامههای کاربردی علمی دادههای متمرکز از اجتماعی از فایلها برای مرتبسازی دادهها استفاده میکنند. در انجمن HEP نیز دادههای تولید شده توسط ردیابهای عظیم باید در سیستمهای ذخیرهسازی انبوه ماندگار همانند دیسکها و نوارها ذخیره شوند تا برای تحلیل فیزیکی آماده باشند. در بعضی از آزمایشات HEP پایگاههای داده برای ذخیره سازی ترابایتس و یا پتابایتس از دادهها استفاده میشوند. استفاده از پایگاه دادهها هنوز یک بعد یگانه برای Data Grid است. مثلا برای مقایسه در انجمن مدلسازی آب و هوا مجموعهای از فایلها بدون پایگاه داده در فایلهای یکنواخت ذخیره شدهاند. که این نیاز به مدیریت دادههای اضافی همانند کاتالوگی از فایلهای آماده دارد در حالی که در بعضی از آزمایشات فیزیک در انجمن HEP سیستم مدیریت پایگاه دادهها این وظایف را انجام میدهد. اخیرا یکسری از آزمایشات جدید در HEP از سیستمهای مدیریت پایگاه دادههای شئگرا برای مدیریت دادهها استفاده کردهاند.
اخیرا تحقیقات گرید همانند تحقیقات پایگاه دادههای توزیعشده ولی از منظری دیگر با مشکل تکرار دادهها سر و کار دارد. از آنجایی که Data Gridها حوزه جدیدی از تحقیقات هستند، در این گزارش لازم دیده شده است که توصیفی مجمل از ویژگیها و نیازمندیهای Data Grid آورده شود، همچنین دقت خاصی به سازگاری دادهها و مسائل ارتباطی داده شده است.
بهینهسازی تکرار دادهها و دسترسی به آنها از طریق شبکه گسترده محلی به طور کافی در تحقیقات پایگاه داده نیامده است. در DBMS تنها یک روش برای دسترسی به دادهها وجود دارد، برای مثال سرور دادهها صفحهها را به کاربر میدهد. اما برای Data Grid یک دسترسی یکتا به این صورت بهینه نیست، همچنین استفاده از ODBMS نیز یکسری محدودیتهایی دارد که در این گزارش به آنها اشاره شده و تعدادی از راه حلهای ممکن نیز جمعآوری شدهاند.
در این گزارش سعی شده است که مدلهای مختلف سازگاری دادهها و تراکنشهای سراسری که با آنها میتوانند همکاری کنند به طور مفصل شرح داده شوند. تراکنشهای سراسری بر روی تراکنشهای تولید شده توسط سیستم مدیریت پایگاه داده در یک سایت محلی ساخته شدهاند. بر خلاف تحقیقات پایگاه دادهها در اینجا جداسازی ارتباط دادهها نیاز است، به ویژه پیامهای کنترل سراسری توسط کتابخانه گذرنده پیام تبادل میشوند نظر به اینکه فایلهای دادهای حقیقی توسط پروتکلهای انتقالدهنده فایل با سرعت بالا منتقل میشوند. یک پروتکل ارتباطی معمولا در ODBMSهای تجاری برای تبادل مقدار کمی از دادهها بین تراکنشهای پایگاه داده استفاده میشود. این مکانیزم ارتباطی برای تراکنشهای نسبتا کوچک بهینه شده است اما برای انتقال فایلهای بزرگ بر بستر WAN با اطلاعات کنترلی کارآ که بین سایتها توزیع شده تبادل میشوند، ممکن است بهینه نشود.
با عنایت به هدف بیان شده ساختار تحقیق به شرح زیر میباشد :
در فصل ۲ به منظور آشنایی و ورود به بحث به معرفی پایگاه دادههای توزیع شده و ویژگیها و نیازمندیهای آنها پرداخته شده است.
در فصل ۳ به معرفی Data Gridو مفاهیم مرتبط با آن به ویژه در انجمن HEP پرداخته شده است. سپس محاسبات و پایگاه دادههای Grid به عنوان یکی از نیازمندیهای محیطهای Grid مطرح شده و ویژگیها و نیازمندیهای آن مورد بررسی قرار گرفته است. در انتهای فصل نیز پروژههای گسترده و فعال در این زمینه معرفی شدهاند.
در فصل ۴ قرار دادن پایگاه دادهها در معماری گرید را به همراه سرویسهای مربوطه بررسی میشود و سپس مجتمعسازی پایگاه دادههای گرید را بررسی کرده و در ادامه به معرفی پروژه OGSA-DAI به عنوان ابزاری برای دسترسی به پایگاه داده پرداخته میشود.
فصل دوم:
سیستم مدیریت پایگاه دادههای توزیع شده
۲٫ سیستم مدیریت پایگاه دادههای توزیع شده
با گسترش روز افزون فنآوری های سختافزاری و نرمافزاری، کامپیوترها و خدمات ارائه شده از طرف آنها به کاربران امروزه محیطهای تجاری نیاز روز افزونی به پایگاه داده توزیع شده و برنامههای کاربردی Client/Server دارند. همانطور که درخواست برای قابلیت اطمینان و در دسترس بودن دادهها بطور پیوسته در حال ترقی و پیشرفت میباشد. سیستمهای پایگاه داده توزیع شده به سبب توزیع دادهها در سایتهای مختلف شبکه، پیشرفت قابل توجهی را در زمینه ارتباط و پردازش دادهها فراهم کردهاند. نه تنها دسترسی به دادهها سریعتر است، بلکه احتمال بروز خطا نیز در این سیستمها کمتر است. این سیستمها کنترل محلی دادهها را برای کاربران فراهم میکنند. گرچه مقداری پیچیدگی برای مدیریت و کنترل سیستمهای پایگاه داده توزیع شده وجود دارد. به عنوان یک مفهوم کلی، دیتابیس مجموعهای از اطلاعات میباشد که در یک مکان مرکزی ذخیره میشوند. پایگاه داده بوسیله سیستم مدیریت پایگاه داده کنترل میشود. تعاملات بین کاربر و سیستم مدیریت پایگاه داده به منظور بکار بردن پایگاه داده و تبدیل دادهها به اطلاعات مفید میباشد بعلاوه پایگاه داده با ارائه سرعت، دقت و در دسترس بدون مزایای زیادی در مقایسه با فایل سیستمهای ساده ارائه میدهد. تمام این جنبههای مفید توسط سیستم مدیریت پایگاه داده اجرا میشود.
در این فصل، در بخش اول به معرفی مفاهیم پایگاه دادههای توزیع شده میپردازیم و در بخشهای دیگر به بررسی اهداف، ویژگیها، و نیازمندیهای این نوع پایگاه داده پرداخته شده است.
۲-۱ سیستمهای توزیع شده
سیستمهای توزیعشده را میتوان گفت که از اتصال کامپیوترهای شخصی که در یک شبکه محلی قرار گرفتهاند، به وجود آمدهاند. تحقیقی که از اواسط دهه ۱۹۷۰ تا اوایل دهه ۱۹۹۰ ادامه داشت یک چارچوب مفهومی و مبنای الگوریتمی را ایجاد کرده که ثابت شده در هر کاری متشکل از دو یا تعداد بیشتری کامپیوتر متصل در یک شبکه (سیار یا ثابت، با سیم یا بیسیم، پراکنده یا فراگیر) هر مقداری را تحمل میکند. این گونه از آگاهیها، نواحی بسیاری که بنیاد محاسبات فراگیر هستند را پوشش میدهد. به همراه این نوع سیستمها مفاهیم زیر نیز مطرح شدهاند:
• ارتباط از راه دور، شامل لایهبندی پروتکلها، صدا زدن رویهها از راه دور، استفاده از اتمامزمان و استفاده از آرگومانهای انتها به انتها در قرار دادن عملیاتها .
• تحملپذیری خطا، شامل تراکنشهای تجزیهناپذیر ، تراکنشهای توزیعی و تودرتو و پروتکل two-phase commit (پروتکلی برای هماهنگی بین تغیرات در منابع بازیافتنی هنگامی که بیش از یک مدیر منبع توسط یک تراکنش استفاده میشود. )
• دسترسی بالا، شامل کنترل المثنی خوشبینانه و بدبینانه، اجرا آینهای و بازیافت خوشبینانه.
• دسترسی به اطلاعات از راه دور، شامل نهانسازی ، حمل تابع، سیستمهای فایلی توزیعشده و پایگاهدادههای توزیعشده.
• امنیت، شامل احراز هویت و خصوصی دو طرفه بر پایه رمزنگاری.
۲-۲ پایگاه داده توزیع شده
بطور کلی پایگاه داده توزیع شده، مجموعه ای از پایگاه داده ها می باشد که می توانند در مکانهای مختلف یک شبکه ذخیره شوند. هر پایگاه داده می تواند سیستم مدیریت و معماری مختلفی را به خدمت بگیرد. هدف سیستمهای مدیریت پایگاه داده توزیع شده کنترل مدیریت پایگاه داده توزیع شده است بطوری که در نظر کاربران یک پایگاه داده مرکزی وجود داشته باشد. بوجود آوردن این دید یکی از مهمترین اهداف این سیستم میباشد. یکی دیگر از اهداف این سیستمها نام گذاری آزاد اشیاء میباشد. به این معنا که کاربران مختلف توانایی دسترسی به یک شیء با نام های مختلف را داشته باشند و یا اشیاء مختلف بتوانند نامهای داخلی یکسان داشته باشند. بنابراین دادن آزادی کامل به کاربران برای نام گذاری اشیاء تا زمانی است که به اشتراک گذاشتن دادهها بدون تداخل همراه باشد.
کنترل همزمانی پی آمد دیگری دراین نوع سیستمها میباشد. کنترل همزمانی وظیفه هماهنگ کردن دسترسی به پایگاه داده را در سیستمهای مدیریت پایگاه داده چند کاربری را داراست. روشهای مختلفی برای ایجاد این همزمانی وجود دارد که برخی نتایج بهتری را در پی دارند.
پایگاه دادههای توزیع شده بر اساس اینکه در سایتهای مختلف مدیریت و معماری پایگاه دادهها چگونه میباشند به دو مدل کلی طبقه بندی میشوند، پایگاه دادههای همگن و نا همگن. که در زیر توضیح مختصری از خصوصیات آن دو آورده شده است.
۲-۲-۱ پایگاه دادههای همگن
در این مدل در تمام سایتها تکنولوژی پایگاه داده یکسان است و داده در نقاط مختلف با یکدیگر سازگارند. در پایگاه دادههای همگن، سخت افزار و نرم افزار مورد استفاده برای پایگاه داده در تمام سایتها مشابه است به همین علت پیاده سازی و مدیریت این نوع پایگاه دادهها ساده تر می باشد. در این پایگاه دادهها، تمام سایتها از همدیگر مطلعند و در همکاری در پردازش درخواستهای کاربر با همدیگر مطابقت دارند.
شرایط زیر برای یک پایگاه داده همگن باید مهیا باشد: سیستم عامل مورد اسستفاده در سایتهای مختلف باید یکسان و یا سازگار با هم باشند. ساختار داده استفاده شده در سایت های مختلف باید یکسان و یا سازگار با هم باشند. برنامه کاربردی پایگاه داده (و یا DBMS) در سایتهای مختلف باید یکسان و یا سازگار با هم باشند.
۲-۲-۲ پایگاه دادههای ناهمگن
سیستمهای پایگاه داده ناهمگن در نقطه مقابل سیستمهای پایگاه داده همگن قرار میگیرند. در این نوع سیستمها سختافزار و نرمافزار و حتی ساختار داده ممکن است در سایتهای مختلف با هم متفاوت و یا ناسازگار باشند. کامپیوترهای متفاوت با سیستم عاملهای مختلف همچنین برنامههای کاربردی پایگاه داده و مدل دادهای نا مشابه، ممکن است در سایتها وجود داشته باشد. به عنوان مثال، ممکن است در یکی از سایتها از مدل جدید پایگاه داده رابطهای استفاده شود در حالی که در مکانی دیگر از مدل مرسوم فایلها و یا مدلهای پایگاه دادهی قدیمی استفاد کند. به طور مشابه در یک سیستم ممکن است از سیستم عامل NT استفاده شود و در دیگری از سیستم عامل یونیکس استفاده شود.
این نوع سیستمها زمانی مورد استفاده قرار میگیرد که سایتهای مستقل از نرم افزار و نرم افزار مخصوص خود استفاده کنند. در این سیستمها تبادلات اطلاعات نیازمند برقرای ارتباط بین سایتهای مختلف و یا DBMS های آنان میباشد. همچنین کاربران این سیستمها باید قادر به درخواست اطلاعات توسط زبان پایگاه داده باشند. معمولا زبان پایگاه داده SQL برای این منظور مورد استفاده قرار میگیرد. در صورتی که سختافزار متفاوت باشد تبادل اطلاعات به علت تغییر طول کلمه و کدینگ مورد استفاده چندان آسان نیست. این نوع سیستمها اغلب از لحاظ تکنیکی و اقتصادی عملی نیستند. در این سیستمها یک کاربر در یک مکان ممکن است بتواند اطلاعات را در نقطهای دیگر بخواند ولی قادر به بروز رسانی آنها نمیباشد. نکته اصلی در ساخت سیستمهای ناهمگن اینست که استانداردهای مشخصی برای پروتکل دروازهها داشته باشیم. ODBC و JDBC از انواع این دروازهها هستند.
در صورتی که از طریق دروازهها به سرور پایگاه دادهها وصل شویم. تفاوتهای دو سرور پایگاه دادهها از دید هم پنهان میشود. از جمله این تفاوتها میتوان فرمت دادهها و قابلیتهای DBMS ها نام برده البته دروازهها به یک مرحله به پردازشها اضافه میکنند. به طور کلی میتوان گفت مدیریت دادههای توزیع شده و مسائلی از قبیل کارایی و پیچیدگی نرمافزاری هزینه بر است.
۲-۳ مزایا و معایب پایگاه دادههای توزیع شده
از جمله مزایای پایگاه دادههای توزیع شده میتوان به موارد زیر اشاره کرد:
توزیع شدگی جغرافیایی : بسیاری از سازمانها مثلا یک بانک از لحاظ جغرافیایی در کشورها و شهرهای بسیاری شعبه دارند. هر شعبه اطلاعات محلی دارد که تنها مربوط به خودش است و یکسری اطلاعات غیر محلی. کاربر میتواند اطلاعات محلی را به سرعت از آن شعبه بگیرد و اطلاعات غیر محلی نیز از شعبههای دیگرگرفته خواهند شد. در اینگونه موارد استفاده از پایگاه داده توزیع شده مفید است.
======