عنوان مقاله

نقش طراحی پایگاه‌ داده‌های توزیع شده و   Grid Database Design

نوع فایل

تعداد صفحات

ورد – Word

۵۸ صفحه

پیش نمایش مقاله

فهرست مطالب
مقدمه
سیستم مدیریت پایگاه داده‌های توزیع شده
سیستم‌های توزیع شده
پایگاه داده توزیع شده
پایگاه‌ داده‌های همگن
پایگاه داده‌های ناهمگن
مزایا و معایب پایگاه داده‌های توزیع شده
نسخه سازی دادهها
نسخه سازی کامل
نسخه سازی جزئی
نامرئی بودن در پایگاه داده توزیع شده
نامرئی سازی شبکه
نامرئی سازی تراکنش
نامرئی سازی کارایی
نامرئی سازی سیستم مدیریت پایگاه داده‌ها
مشکلات سیستم های پایگاه داده توزیع
جمع‌بندی و نتیجه‌گیری
پایگاه داده‌ها در محیط GRID
تاریخچه محیط GRID
GRID
اصول ساخت GRID
GLOBUS
کابردهای GRID
جمع‌بندی و نتیجه‌گیری
ترکیب سیستم‌های پایگاه داده توزیع‌شده با تکنولوژی GRID
قرار دادن پایگاههای داده در معماری گرید
دادگان
پرس و جو
تراکنشها
بارگذاری با حجم زیاد
اخطار
زمان بندی
مجتمع کردن پایگاههای داده در گرید
پرس وجو
تراکنشها
بارگذاری حجیم داده
اخطار
دادگان
زمان بندی
ابزاری برای دسترسی به پایگاه داده
معماری OGSA-DAI
جمع‌بندی و نتیجه‌گیری
منابع و مراجع

 چکیدهدر این گزارش مزایای ترکیب سیستم‌های پایگاه داده‌ و تکنولوژی گرید برای برنامه‌های کاربری که حجم داده‌ای بسیار بالایی دارند بررسی می‌کنیم. علوم امروزی با سیل عظیمی از داده‌ها رو به رو است. پیشرفت‌هایی که در تکنولوژی‌های کامپیوتر و ردیاب‌ها صورت گرفته چندین ترابایت داده تولید می‌کنند. تحلیل تمام این اطلاعات نیازمند منابعی است که هیچ موسسه‌ای به تنهایی نمی‌تواند از عهده هزینه‌های مالی آن برآید. برای پاسخ به این تقاضا بود که محاسبات گرید به عنوان یکی از مهمترین حوزه‌های تحقیقاتی در آمدند. این محاسبات از محاسبات توزیع شده و خوشه‌بندی نیز متفاوت هستند. ما در این تحقیق گرید را به عنوان یک ساختار و مجموعه‌ای از پروتکل‌ها می‌دانیم که استفاده تجمعی از کامپیوترها، شبکه‌ها، پایگاه ‌داده‌ها و ابزارهای علمی که توسط چندین موسسه مدیریت می‌شود، را به یک سازمان مجازی منتسب می‌کند.

نیاز به مجتمع‌سازی پایگاه‌های داده و تکنولوژی پایگاه‌داده‌ها  در گرید کاملا محسوس است، زیرا که همانند نیاز به پشتیبانی پایگاه‌ داده برنامه‌های علمی و تجاری می‌باشد. تلاش‌های قابل‌ توجهی برای توصیف نیازمندی‌ها، پروتکل‌ها و پیاده سازی میان‌افزار برای دسترسی به پایگاه‌داده‌ها در محیط گرید صورت گرفته‌ است. اگرچه سیستم‌های مدیریت پایگاه‌داده‌ها (DBMS) به عنوان وسیله‌ای مفید برای مدیریت متادیتا و داده‌ها و منابع و غیره معرفی شده‌اند ولی در برنامه‌های کاربردی که بر روی گرید اجرا می‌شوند حضور پایگاه داده‌ها کمرنگ است. امروزه برنامه‌های کاربردی گرید هنوز از فایل‌ها برای پردازش و ذخیره داده‌ها استفاده می‌کنند و نمی‌توانند از مزایا و قدرت پایگاه داده‌ها بهره ببرند.

کلمات کلیدی: پایگاه داده توزیع شده، محیط Grid،‌ پایگاه داده‌های Grid،مدیریت پایگاه داده‌ها، تکرار داده‌ها

۱٫ مقدمه
در کاربردهایی مانند نظارت بر شبکه، مدیریت داده‏های مخابراتی، نظارت بر جریان انتخاب‏های کاربران در وب و شبکه‏های حسگر، داده‏ها به شکل پیوسته و جریانی و نه به صورت مجموعه داده‏های محدود و ذخیره شده، ظاهر می‏شوند. همچنین پرس‏وجوهای کاربران بر خلاف سیستم‏های مدیریت پایگاه داده‏ی رایج، به صورت پیوسته و با اجرای طولانی و اهداف نظارتی خواهد بود. به دلیل مناسب نبودن مدل‏ها و سیستم‏های مدیریت پایگاه داده رایج برای کاربردهای مرتبط با جریان داده، در گذشته برای این کاربردها سیستم‏های خاص منظوره تهیه می‏شد. با گسترش روزافزون این کاربردها در دنیای مدرن امروزی، در سال‏های اخیر، روش‏ها و سیستم‏هایی عمومی و همه منظوره برای این کاربردها تدوین شد که به دلیل داشتن اختلاف اساسی با پایگاه داده‏های رایج، تطبیق و سفارشی کردن کلیه‏ی تکنیک‏ها و روش‏های موجود برای پایگاه داده‏ها را برای این سیستم‏های جدید طلب می نمود.
در حال حاضر تحقیقات انجام شده بر روی Grid همانند تحقیقات پایگاه داده‌های توزیع شده با تکرار داده‌ها سر و کار دارند اما از دو نقطه نظر مجزا به موضوع نگاه می‌کنند.
در این تحقیق سعی شده که هر دو روش را بررسی کرده و نقاط مشترک بین آن دو جهان متفاوت را به دست بیاوریم تا اینکه بتوان کارآترین Data Grid ای که داده‌های ذخیره شده در پایگاه داده‌های شئ‌گرا مدیریت می‌کند، داشته باشیم. همان‌گونه که گفته شده هدف نهایی سیستم مدیریت پایگاه داده شئ‌گرا است که از جمله پایگاه داده‌های متداول در آزمایشات HEP می‌باشد. ‎[۶]
محاسبات گرید عموما تداعی‌گر محاسباتی با کارایی بسیار بالا هستند که با اتصال چندین پردازشگر و یا کامپیوتر مجزا توسط لینک پر سرعتی برای محاسبه یک برنامه واحد به هم متصل شده‌اند. خوشه در ابتدا برای شبکه‌های محلی در نظر گرفته شده بود ولی سریعا در محل‌های پهناور توسعه داده شدند ولی یک گرید از ابتدا برای اتصال منابع محاسباتی در شبکه‌های گسترده در نظر گرفته شده بود.
زمینه تحقیقاتی گرید به دو محدوده اصلی تقسیم می‌شود: گرید محاسباتی و Data Grid. از آنجایی که گرید محاسباتی توسعه‌ای از کامپیوترهای خوشه‌ای قبلی است که وظایف محاسباتی بیشتری را توسط منابع توزیع‌شده انجام‌ می‌دهند، Data Grid با مدیریت، گمارش و تکرار سیل عظیمی از داده‌ها سر و کار دارد. اگر چه هنگامی که داده‌ها در مکان مناسبی قرار گرفتند، وظایف محاسباتی می‌توانند در گرید توسط داده‌های آماده، اجرا شوند. نیاز به Data Grid از این حقیقت بلند می‌شود که برنامه‌های کاربردی علمی همانند تحلیل داده‌ها در HEP، مدلسازی آب و هوا و مشاهدات زمین داده‌های بسیاری دادند و محققان بیشماری در سرتاسر زمین می‌خواهند به این داده‌های دسترسی سریع داشته باشند.
در این تحقیق از نیازهای مشخص آمده شده در ‎[۶]بر روی High Energy Physics به عنوان نمونه‌ای از انجمن‌های تحقیقی با داده‌های متمرکز، تمرکز شده است.
برنامه‌های کاربردی علمی داده‌های متمرکز از اجتماعی از فایل‌ها برای مرتب‌سازی داده‌ها استفاده می‌کنند. در انجمن HEP نیز داده‌های تولید شده توسط ردیاب‌های عظیم باید در سیستم‌های ذخیره‌سازی انبوه ماندگار همانند دیسک‌ها و نوارها ذخیره شوند تا برای تحلیل فیزیکی آماده باشند. در بعضی از آزمایشات HEP پایگاه‌های داده برای ذخیره ‌سازی ترابایتس و یا پتابایتس از داده‌ها استفاده می‌شوند. استفاده از پایگاه‌ داده‌ها هنوز یک بعد یگانه برای Data Grid است. مثلا برای مقایسه در انجمن مدلسازی آب و هوا مجموعه‌ای از فایل‌ها بدون پایگاه داده در فایل‌های یکنواخت ذخیره شده‌اند. که این نیاز به مدیریت داده‌های اضافی همانند کاتالوگی از فایل‌های آماده دارد در حالی که در بعضی از آزمایشات فیزیک در انجمن HEP سیستم مدیریت پایگاه داده‌ها این وظایف را انجام می‌دهد. اخیرا یکسری از آزمایشات جدید در HEP از سیستم‌های مدیریت پایگاه داده‌های شئ‌گرا برای مدیریت داده‌ها استفاده کرده‌اند.
اخیرا تحقیقات گرید همانند تحقیقات پایگاه داده‌های توزیع‌شده ولی از منظری دیگر با مشکل تکرار داده‌ها سر و کار دارد. از آنجایی که Data Gridها حوزه جدیدی از تحقیقات هستند، در این گزارش لازم دیده شده است که توصیفی مجمل از ویژگی‌ها و نیازمندی‌های Data Grid آورده شود، همچنین دقت خاصی به سازگاری داده‌ها و مسائل ارتباطی داده شده است.
بهینه‌سازی تکرار داده‌ها و دسترسی به آنها از طریق شبکه گسترده محلی به طور کافی در تحقیقات پایگاه داده نیامده است. در DBMS تنها یک روش برای دسترسی به داده‌ها وجود دارد، برای مثال سرور داده‌ها صفحه‌ها را به کاربر می‌دهد. اما برای Data Grid یک دسترسی یکتا به این صورت بهینه نیست، همچنین استفاده از ODBMS نیز یکسری محدودیت‌هایی دارد که در این گزارش به آنها اشاره شده و تعدادی از راه حل‌های ممکن نیز جمع‌آوری شده‌اند.
در این گزارش سعی شده است که مدل‌های مختلف سازگاری داده‌ها و تراکنش‌های سراسری که با آنها می‌توانند همکاری کنند به طور مفصل شرح داده شوند. تراکنش‌های سراسری بر روی تراکنش‌های تولید شده توسط سیستم مدیریت پایگاه داده در یک سایت محلی ساخته شده‌اند. بر خلاف تحقیقات پایگاه داده‌ها در اینجا جداسازی ارتباط داده‌ها نیاز است، به ویژه پیام‌های کنترل سراسری توسط کتابخانه‌ گذرنده پیام تبادل می‌شوند نظر به اینکه فایل‌های داده‌ای حقیقی توسط پروتکل‌های انتقال‌دهنده فایل با سرعت بالا منتقل می‌شوند. یک پروتکل ارتباطی معمولا در ODBMSهای تجاری برای تبادل مقدار کمی از داده‌ها بین تراکنش‌های پایگاه داده استفاده می‌شود. این مکانیزم ارتباطی برای تراکنش‌های نسبتا کوچک بهینه شده است اما برای انتقال فایل‌های بزرگ بر بستر WAN با اطلاعات کنترلی کارآ که بین سایت‌ها توزیع شده تبادل می‌شوند، ممکن است بهینه نشود.
با عنایت به هدف بیان شده ساختار تحقیق به شرح زیر می‌باشد :
در فصل ۲ به منظور آشنایی و ورود به بحث به معرفی پایگاه داده‌های توزیع شده و ویژگی‌ها و نیازمندی‌های آن‌ها پرداخته‌ شده است.
در فصل ۳ به معرفی Data Gridو مفاهیم مرتبط با آن به وی‍ژه در انجمن HEP پرداخته شده است. سپس محاسبات و پایگاه داده‌های Grid به عنوان یکی از نیازمندی‌های محیط‌های Grid مطرح شده و ویژگی‌ها و نیازمندی‌‌های آن مورد بررسی قرار گرفته است. در انتهای فصل نیز پروژه‌های گسترده و فعال در این زمینه معرفی شده‌اند.
در فصل ۴ قرار دادن پایگاه‌ داده‌ها در معماری گرید را به همراه سرویس‌های مربوطه بررسی می‌شود و سپس مجتمع‌سازی پایگاه داده‌های گرید را بررسی کرده و در ادامه به معرفی پروژه OGSA-DAI به عنوان ابزاری برای دسترسی به پایگاه داده پرداخته می‌شود.

فصل دوم:
سیستم مدیریت پایگاه‌ داده‌های توزیع شده

۲٫ سیستم مدیریت پایگاه داده‌های توزیع شده
با گسترش روز افزون فن‌آوری‌ های سخت‌افزاری و نرم‌افزاری، کامپیوترها و خدمات ارائه شده از طرف آنها به کاربران امروزه محیط‌های تجاری نیاز روز افزونی به پایگاه داده توزیع شده و برنامه‌های کاربردی Client/Server دارند. همانطور که درخواست برای قابلیت اطمینان و در دسترس بودن داده‌ها بطور پیوسته در حال ترقی و پیشرفت می‌باشد. سیستم‌های پایگاه داده توزیع شده به سبب توزیع داده‌ها در سایت‌های مختلف شبکه، پیشرفت قابل توجهی را در زمینه ارتباط و پردازش داده‌ها فراهم کرده‌اند. نه تنها دسترسی به داده‌ها سریعتر است، بلکه احتمال بروز خطا نیز در این سیستم‌ها کمتر است. این سیستم‌ها کنترل محلی داده‌ها را برای کاربران فراهم می‌کنند. گرچه مقداری پیچیدگی برای مدیریت و کنترل سیستم‌های پایگاه داده توزیع شده وجود دارد. به عنوان یک مفهوم کلی، دیتابیس مجموعه‌ای از اطلاعات می‌باشد که در یک مکان مرکزی ذخیره می‌شوند. پایگاه داده بوسیله سیستم مدیریت پایگاه داده کنترل می‌شود. تعاملات بین کاربر و سیستم مدیریت پایگاه داده به منظور بکار بردن پایگاه داده و تبدیل داده‌ها به اطلاعات مفید می‌باشد بعلاوه پایگاه داده با ارائه سرعت، دقت و در دسترس بدون مزایای زیادی در مقایسه با فایل سیستم‌های ساده ارائه می‌دهد. تمام این جنبه‌های مفید توسط سیستم مدیریت پایگاه داده اجرا می‌شود.
در این فصل، در بخش اول به معرفی مفاهیم پایگاه داده‌های توزیع شده می‌پردازیم و در بخش‌های دیگر به بررسی اهداف، ویژگی‌ها، و نیازمندی‌های این نوع پایگاه داده پرداخته شده است.
۲-۱ سیستم‌های توزیع شده
سیستم‌های توزیع‌شده را می‌توان گفت که از اتصال کامپیوترهای شخصی که در یک شبکه‌ محلی قرار گرفته‌اند، به وجود آمده‌اند. تحقیقی که از اواسط دهه ۱۹۷۰ تا اوایل دهه ۱۹۹۰ ادامه داشت یک چارچوب مفهومی و مبنای الگوریتمی را ایجاد کرده که ثابت شده در هر کاری متشکل از دو یا تعداد بیشتری کامپیوتر متصل در یک شبکه (سیار یا ثابت، با سیم یا بی‌سیم، پراکنده یا فراگیر) هر مقداری را تحمل می‌کند. این گونه از آگاهی‌ها، نواحی بسیاری که بنیاد محاسبات فراگیر هستند را پوشش می‌دهد. به همراه این نوع سیستم‌ها مفاهیم زیر نیز مطرح شده‌اند:
• ارتباط از راه دور، شامل لایه‌بندی پروتکل‌ها، صدا زدن رویه‌ها از راه دور، استفاده از اتمام‌زمان و استفاده از آرگومان‌های انتها به انتها در قرار دادن عملیات‌ها .
• تحمل‌پذیری خطا، شامل تراکنش‌های تجزیه‌ناپذیر ، تراکنش‌های توزیعی و تودرتو و پروتکل two-phase commit (پروتکلی برای هماهنگی بین تغیرات در منابع بازیافتنی هنگامی که بیش از یک مدیر منبع توسط یک تراکنش استفاده می‌شود. )
• دسترسی بالا، شامل کنترل المثنی خوش‌بینانه و بدبینانه، اجرا آینه‌ای و بازیافت خوش‌بینانه.
• دسترسی به اطلاعات از راه دور، شامل نهان‌‌سازی ، حمل تابع، سیستم‌های فایلی توزیع‌شده و پایگاه‌داده‌های توزیع‌شده.
• امنیت، شامل احراز هویت و خصوصی دو طرفه بر پایه رمزنگاری.

۲-۲ پایگاه داده توزیع شده
بطور کلی پایگاه داده توزیع شده، مجموعه ای از پایگاه داده ها می باشد که می توانند در مکانهای مختلف یک شبکه ذخیره شوند. هر پایگاه داده می تواند سیستم مدیریت و معماری مختلفی را به خدمت بگیرد. هدف سیستم‌های مدیریت پایگاه داده توزیع شده کنترل مدیریت پایگاه داده توزیع شده است بطوری که در نظر کاربران یک پایگاه داده مرکزی وجود داشته باشد. بوجود آوردن این دید یکی از مهمترین اهداف این سیستم می‌باشد. یکی دیگر از اهداف این سیستم‌ها نام گذاری آزاد اشیاء می‌باشد. به این معنا که کاربران مختلف توانایی دسترسی به یک شیء با نام های مختلف را داشته باشند و یا اشیاء مختلف بتوانند نام‌های داخلی یکسان داشته باشند. بنابراین دادن آزادی کامل به کاربران برای نام گذاری اشیاء تا زمانی است که به اشتراک گذاشتن داده‌ها بدون تداخل همراه باشد.
کنترل همزمانی پی آمد دیگری دراین نوع سیستم‌ها می‌باشد. کنترل همزمانی وظیفه هماهنگ کردن دسترسی به پایگاه داده را در سیستم‌های مدیریت پایگاه داده چند کاربری را داراست. روش‌های مختلفی برای ایجاد این همزمانی وجود دارد که برخی نتایج بهتری را در پی دارند.
پایگاه داده‌های توزیع شده بر اساس اینکه در سایت‌های مختلف مدیریت و معماری پایگاه داده‌ها چگونه می‌باشند به دو مدل کلی طبقه بندی می‌شوند، پایگاه داده‌های همگن و نا همگن. که در زیر توضیح مختصری از خصوصیات آن دو آورده شده است.
۲-۲-۱ پایگاه‌ داده‌های همگن
در این مدل در تمام سایت‌ها تکنولوژی پایگاه داده یکسان است و داده در نقاط مختلف با یکدیگر سازگارند. در پایگاه داده‌های همگن، سخت افزار و نرم افزار مورد استفاده برای پایگاه داده در تمام سایت‌ها مشابه است به همین علت پیاده سازی و مدیریت این نوع پایگاه داده‌ها ساده تر می باشد. در این پایگاه داده‌ها، تمام سایت‌ها از همدیگر مطلعند و در همکاری در پردازش درخواست‌های کاربر با همدیگر مطابقت دارند.
شرایط زیر برای یک پایگاه داده همگن باید مهیا باشد: سیستم عامل مورد اسستفاده در سایت‌های مختلف باید یکسان و یا سازگار با هم باشند. ساختار داده استفاده شده در سایت های مختلف باید یکسان و یا سازگار با هم باشند. برنامه کاربردی پایگاه داده (و یا DBMS) در سایت‌های مختلف باید یکسان و یا سازگار با هم باشند.
۲-۲-۲ پایگاه داده‌های ناهمگن
سیستم‌های پایگاه داده ناهمگن در نقطه مقابل سیستم‌های پایگاه داده همگن قرار می‌گیرند. در این نوع سیستم‌ها سخت‌افزار و نرم‌افزار و حتی ساختار داده ممکن است در سایت‌های مختلف با هم متفاوت و یا ناسازگار باشند. کامپیوترهای متفاوت با سیستم عامل‌های مختلف همچنین برنامه‌های کاربردی پایگاه داده و مدل داده‌ای نا مشابه، ممکن است در سایت‌ها وجود داشته باشد. به عنوان مثال، ممکن است در یکی از سایت‌ها از مدل جدید پایگاه داده رابطه‌ای استفاده شود در حالی که در مکانی دیگر از مدل مرسوم فایل‌ها و یا مدل‌های پایگاه داده‌ی قدیمی استفاد کند. به طور مشابه در یک سیستم ممکن است از سیستم عامل NT استفاده شود و در دیگری از سیستم عامل یونیکس استفاده شود.
این نوع سیستم‌ها زمانی مورد استفاده قرار می‌گیرد که سایت‌های مستقل از نرم افزار و نرم افزار مخصوص خود استفاده کنند. در این سیستم‌ها تبادلات اطلاعات نیازمند برقرای ارتباط بین سایت‌های مختلف و یا DBMS های آنان می‌باشد. همچنین کاربران این سیستم‌ها باید قادر به درخواست اطلاعات توسط زبان پایگاه داده باشند. معمولا زبان پایگاه داده SQL برای این منظور مورد استفاده قرار می‌گیرد. در صورتی که سخت‌افزار متفاوت باشد تبادل اطلاعات به علت تغییر طول کلمه و کدینگ مورد استفاده چندان آسان نیست. این نوع سیستم‌ها اغلب از لحاظ تکنیکی و اقتصادی عملی نیستند. در این سیستم‌ها یک کاربر در یک مکان ممکن است بتواند اطلاعات را در نقطه‌ای دیگر بخواند ولی قادر به بروز رسانی آنها نمی‌باشد. نکته اصلی در ساخت سیستم‌های ناهمگن اینست که استانداردهای مشخصی برای پروتکل دروازه‌ها داشته باشیم. ODBC و JDBC از انواع این دروازه‌ها هستند.
در صورتی که از طریق دروازه‌‌ها به سرور پایگاه ‌داده‌ها وصل شویم. تفاوتهای دو سرور پایگاه داده‌ها از دید هم پنهان می‌شود. از جمله این تفاوت‌ها می‌توان فرمت داده‌ها و قابلیت‌های DBMS ها نام برده البته دروازه‌ها به یک مرحله به پردازش‌ها اضافه می‌کنند. به طور کلی می‌توان گفت مدیریت داده‌های توزیع شده و مسائلی از قبیل کارایی و پیچیدگی نرم‌افزاری هزینه بر است.

۲-۳ مزایا و معایب پایگاه داده‌های توزیع شده
از جمله مزایای پایگاه داده‌های توزیع شده می‌توان به موارد زیر اشاره کرد:
توزیع شدگی جغرافیایی : بسیاری از سازمان‌ها مثلا یک بانک از لحاظ جغرافیایی در کشورها و شهرهای بسیاری شعبه دارند. هر شعبه اطلاعات محلی دارد که تنها مربوط به خودش است و یکسری اطلاعات غیر محلی. کاربر می‌تواند اطلاعات محلی را به سرعت از آن شعبه بگیرد و اطلاعات غیر محلی نیز از شعبه‌های دیگرگرفته خواهند شد. در اینگونه موارد استفاده از پایگاه داده توزیع شده مفید است.

======