خانه تماس با ما

Data Mining

 فرامرز ذبیحیان 

 18 آبان 84

انباره داري / تحليل زنده / داده كاوي

مقدمه

هدف از ارائه اين مقاله آشنايي خواننده با مفاهيم انباره هاي داده (DatawareHouse) و فن آْوري هاي مرتبط مي باشد. انباره هاي داده پايه گذار فن آوري لازم براي ساخت و بهره برداري از برنامه هاي هوشمندي هستند كه بعضا در برخي فيلم هاي تخيلي با آنها آشنا شده ايم. برنامه هايي كه اطلاعات را براي صاحبان خود جمع آوري نموده و پس از تجزيه و تحليل با آنها به مشاوره مي پردازند.

OLTP  چيست؟

فقط در سال 2000 ميزان ظرفيت نصب شده جهت ذخيره سازي اطلاعات از كل ظرفيت موجود در دهه 1990 بيشتر بوده است.

حيات بازرگاني نوين مبتني بر داده هاست. در حال حاضر تقريبا حجم كل اطلاعات در كامپيوترها هر 5 سال دو برابر مي شود و با توجه به سرعت ايجاد برنامه هاي چند رسانه اي و بانكهاي اطلاعاتي پيش بيني مي شود كه شتاب رشد اطلاعات به دو برابر در سال برسد.
توليد كنندگان اين اطلاعات موسسات و شركت هاي جديدي هستند كه امور خود را توسط كامپيوترها هدايت مي كنند. سيستم هاي توليد مكانيزه اي كه داده ها را جمع آوري نموده و به مصرف مي رسانند سيستم هايOLTP  ناميده مي شوند. اين سيستم ها توليد كنندگان واقعي داده ها هستند.
 
 برنامه هاي كاربردي خادم و مخدوم بدو دسته تقسيم مي شوند:
" سيستم هاي پشتيباني تصميم گيري (DSS)
" سيستم هاي پردازش زنده (OnLine)  اطلاعات

اين دو دسته هر يك راه هاي كاملا متفاوتي را جهت حل مسائل تجاري ارائه مي كنند. قبل از آنكه به ارزش انباره هاي داده پي ببريم لازم است تفاونهاي اين دو را بشناسيم.

سيستم هاي OLTP  در كليه خدمات بازرگاني ديده مي شوند از جملع سيستم هاي رزرواسيون، دستگاه هاي فروش ، كنترل انبار، سهام و فروش و ... . اين سيستم ها غالبا به زمان پاسخي بين 1 تا 3 ثانيه در 100 در صد اوقات نياز دارند. تعداد كاربران آنها در ساعات مختلف روز ،  هفته و ماه مي تواند بشدت متغير باشد و درتمامي اين اوقات به همان زمان پاسخ قبلي نياز دارند. در اين گونه سيستم ها معمولا مخدومين بجاي ارتياط با بانكهاي اطلاعاتي(Database Servers) به خادمين تعاملي (Transaction Servers) متصل مي شوند. البته اين گونه ارتباط لازمه دستيابي به سرعت مورد نياز مخدومين (Clients) است.

OLTP  خود نيز به دو نوع عادي (Lite) و قوي (Heavy) تقسيم مي گردد. خادمين عادي قادرند تعامل  را در غالب پردازش هاي ثبت شده در بانك اطلاعاتي (StoredProcedures) به اجرا بگذارند و خادمين قوي از (TP Monitor) براي اجراي دستورات استفاده ميكنند.در OLTP براي دستيابي به سرعت، سربار ارتباطي شبكه ها در حداقل ممكن نگاه داشته مي شود و غالبا ارتباطات در حد انتقال يك دستور ((SQL سيكوئل هستند.
امروزه حتي كوچكترين تجارتها هم قادرند بسرعت پايگاه هاي اطلاعاتي بزرگي يا با جمع آوري اطلاعات صندوق هاي فروش ايجاد كنند چه رسد به وب سرور ها كه مي توانند ظرف مدت بسيار كوتاهي چندين گيگا بايت اطلاعات جمع آوري نمايند.

زماني براي هر كار مكانيزه اي نياز به ميليونها پول و ده ها متخصص بود . اما امروزه هر كسي بسادگي با خريد چند كامپيوتر شخصي و استخدام يك برنامه نويس مي تواند از امكانات رايانه اي بهره مند گردد. بعبارت ديگر دسترسي به خدمات رايانه اي براي ايجاد پايگاه هاي خصوصي از داده ها براي همگان آسانتر شده است.

در مجموع داده هايي كه توسط سيستم هاي OLTP جمع آوري مي شود مستقيما مورد استفاده افراد ايجاد كننده آن قرار دارد. آنها دقيقا مي دانند اين داده ها چيستند و همچنين مي دانند چگونه نياز هاي اطلاعاتي لحظه اي خود را كه بطور روزمره بوجود مي آيد حل كنند.

سوالي كه مطرح است اينست كه اگر كسي خارج از مجموعه OLTP به اين اطلاعات نياز داشته باشد چه بايد كرد. اين افراد از كجا مي دانند چه داده اي  موجود است؟ كجا بايستي آنرا پيدا كرد و چگونه به آن دسترسي پيدا كنند؟ داده ها به چه شكلي (Format)  است ؟ چه معنايي دارد؟ آخرين چيزي كه افراد OLTP  به آن رضايت خواهند داد آنست كه اجازه دهند ديگران به اطلاعات گرانبهاي آنان دسترسي داشته باشند. كساني كه حتي نمي دانند چه مي خواهند، درخواستهاي سيكوئل زمانگيري را بر روي بانكهاي اطلاعاتي اجرا مي كنند كه سرعت و قابليت سيستم توليد كننده داده ها را پايين مي آورد.

در گذشته افراد بيرون از سيستم ، از همكاران MIS  خود مي خواستند با همكاران مشابه خود در سيستم مربوطه تعامل داشته و نهايتا اطلاعات مورد نظر را از سيستم استخراج نمايند. اما امروزه حتي مجموعهMIS  خود هم بدرستي نمي داند چه اطلاعاتي در سازمان موجود است. اطلاعات بشدت توزيع شده و پراكنده است و تقريبا روي هر كامپيوتري بخشي از اطلاعات سازمان وجود دارد.

يكي از ويژگيهاي كامپيوتر هاي شخصي و همچنين معماري خادم/مخدوم  موجب شده است كه افراد اكثرا به اطلاعات سازماني و كاربرد اطلاعات در سازمان علاقه اي نداشته و ترجيح مي دهند اطلاعات را تحت مالكيت شخصي اداره كنند  به اين ترتيب بين اطلاعات سازمان و شخصي (يا واحد هاي متشكله) شكاف وجود خواهد داشت. از طرف ديگر بين داده هاي سيستمي و اطلاعات استخراج شده نيز شكاف ديگري مشاهده مي شود. كساني كه از بيرون به اين اطلاعات نگاه مي كنند افرادي هستند كه بدنبال يافتن طرحها، روالها و تمايلات در داده ها هستند بطوريكه بتوانند تصميمات بهتري بگيرند. تنيدن حصار بدور اطلاعات بمعني تنيدن حصار در برابر تجارت ديگران است و خيلي زود همگان بازنده جنگ اين حصارها خواهند بود.

چگونه اطلاعات را در اختيار داريم اگر بديگران اجازه دسترسي به آنرا بدهيم.
سولات زيادي مطرح هستند كه بايستي پاسخ داده شوند و از آن جمله اند:
چگونه مطمئن شويم كه عملكرد بيروني ها (غريبه ها) عملكرد سيستم ما را كند نمي كند؟
چه اطلاعاتي را بايستي در اختيار بيروني ها قرار دهيم؟
چه اطلاعاتي دروني و شخصي (فقط مربوط به سيستم توليد كننده داده) است؟
چه كسي مالك اطلاعات به اشتراك گذاشته شده است؟
چه كسي اين اطلاعات را بروز ميكند؟
آيا بايستي بگذاريم دسترسي به اطلاعات مستقيم باشد يا آنرا در بانك ديگري كپي كنيم؟
اطلاعات استخراج شده چگونه نگهداري شده و چگونه بروز مي شود؟

براي پاسخ به سوالات فوق بايستي نياز هاي استفاده كنندگان از اين اطلاعات را بشناسيم و تفاوتهاي ميان سيستمهاي پشتيبان تصميم گيري و OLTP را درك كنيم.

چه كساني از اين داده ها استفاده ميكنند؟

بياييد نامي براي اين دسته از افراد انتخاب كنيم. اين افراد مصزف كنندگان اطلاعات هستند( كساني هستند كه تصميمات استراتژيك مي گيرند) فعلا نام اين افراد را شكارچي اطلاعات مي گذاريم چون اين نام معرف  هر كسيست  كه به يكPC دسترسي دارد و نيازمند اطلاعات است. البته بازرگانان و صنعتگران اولين دسته از اين افراد هستند.

يستم پشتيباني تصميم گيري چيست؟

يك سيستم كارآمد، ابزاريست براي تحليل داده ها ، يافتن ارتباط بين داده ها، توليد گزارش هاي كارآمد، دسترسي منعطف به داده ها،  راهكار هاي نمايش اطلاعات در انواع ممكن،   قابليت پاسخ به سوالات اگر ... چه ، چاپ اطلاعات،انتقال داده ها به صفحات گسترده .
در مقايسه با سيستم هاي توليد داده، اين ابزارها از انعطاف بيشتري در زمان پاسخگويي  برخوردار هستند. معمولا كنترل يكپارچگي در آنها رعايت نشده است و قابليت دسترسي همزمان كاربران به آن غالبا محدود است. جستجوي اطلاعات و يا بروز رساني اطلاعات غالبا بمعني پردازش روي تمامي اطلاعات خواهد بود. اين برنامه ها براي غير برنامه نويسان تهيه شده و بيشتر فعاليت ها در آن از طريق نشان بده و كليك كن (Point and Click) انجام مي شود.
 
سيستم هاي اطلاعات مديران اجرايي (Executive Information Systems)

اين دسته از برنامه ها از ابزارهاي DSS  قوي تر، ساده تر و كار آمدتر هستند. همچنين به يك زمينه تجاري خاص نزديكتر و طبيعتا گرانتر هم هستند. البته اختلاف بين DSS  و EIS  بتدريج كم رنگ شده است. ابزارهاي EIS  بتازگي دامنه عمل خو.د را گسترش داده و در سطح سازمان (Enterprise) خود را مطرح كرده اند بطوريكه مديران و تحليلگران نيز از اين ابزار ها استفاده مي كنند

.ابزارهاي DSS/ESS   بطور خلاصه ابزارهاي (OLAP) OnLine Analytical Processing يا ابزارهاي(MDA)  Multidimensional Analysis ناميده مي شوند   و در لايه هاي بالاتر به آنها ابزارهاي داده كاوي (Data Mining) و كارآگاهان شخصي (Intelligent Agent)  گفته مي شود.

مقايسه سيستم هاي DSS  و OLTP

در جدول زير تفاوت هاي دو نوع سيستم DSS و OLTP را مي بينيم:

قابليت نياز بانك اطلاعاتي OLTP نياز بانك اطلاعاتي DSS
چه كسي از آن استفاده مي كند كاركنان سيستم توليد كننده اطلاعات شكارچي اطلاعات
ارزش زماني اطلاعات به مقدار فعلي اطلاعات نياز دارد و گزارش ها قابل باز سازي نيستند به اطلاعات پايدار نياز دارد . اطلاعات هر از گاه به وقت مي شوند. گزارش ها قابل بازسازي هستند
تعداد دسترسي ها به اطلاعات پيوسته در طول روز كاري با نقاط پيك كاري هر از گاه
شكل داده داده خام است. استخراج و تبديلي صورت نگرفته در چندين لايه تبديل صورت گرفته است. استخراج و فشرده سازي داده ها انجام شده
جمع آوري داده ها از يك برنامه از چندين محل داخلي و خارجي
آيا محل توليد داده مشخص است بلي بيشتر داده توسط يك برنامه توليد مي شود خير از برنامه هاي مختلف و بانك هاي اطلاعات  و وب مي آيد
آيا اطلاعات نگارش بندي شده هستند خير. داده ها پيوسته و در يك نگارش هستند بلي هر مجموعه از داده داراي تاريخ برداشت است
نوع دسترسي به داده چندين كاربر اطلاعات را به وقت مي كنند بيشتر اوقات يك كاربر
آيا داده قابل به وقت رساني است مقدار كنوني مدام در حال تغيير است فقط خواندنيست
انعطاف در دسترسي انعطاف ندارد. فقط از طريق برنامه ها ممكن است. منعطف از طريق يك توليد كننده درخواست و OLAP
راندمان سرعت پاسخ بالا مورد نياز است. فعاليت ها همگي مكانيزه و سريع نسبتا كند
نيازهاي اطلاعاتي بخوبي فهميده شده اند ناپايدار و نسبي. به مقدار زيادي كار كشف و تحقيق و جستجوي موضوعي نياز است.
دامنه اطلاعات محدود. آن چيزي كه در بانك موجود است داده ها ممكن است از هر جايي بيايند
 ركورد هاي پردازش شده كمتر از 10 ركورد صدها / هزاران و ميليونها ركورد
 

انباره داده (DatawareHouse)

در محيط خادم/مخدوم انباره داده يعني انباره (Repository)   اطلاعات براي مصرف سيستم هاي پشتيباني تصميم گيري.انباره داده بك مخزن فعال و هوشمند از اطلاعات است كه قادر است اطلاعات را از محيط هاي گوناگون جمع آوري و مديريت كرده و نهايتا پخش نمايد و در صورت لزوم نيز سياست هاي تجاري را روي آنها اجرا نمايد.

عناصر انباره داري

انباره  يك محل است و انباره داري يك فرآيند.

اين فرآيند از عناصر زير تشكيل شده است :

1. مديريت انتشار اطلاعات انباره كه وظيفه نسخه برداري و توزيع اطلاعات را بر روي بانك هاي مختلف (آنگونه كه شكارچي اطلاعات تعريف مي كند) به عهده دارد. شكارچي اطلاعاتي را كه بايستي كپي شود، مبدا و مقصد اطلاعات،  تعداد بوقت رساني ها و تبديلات لازم روي اطلاعات را تعريف مي كند. اصطلاح تازه سازي (Refresh) بمفهوم كپي كامل آخرين وضعيت اطلاعات و اصطلاح بوقت رساني (Update) بمفهوم اعمال آخرين تغييرات بكار گرفته شده اند. همه كارها مي تواند بصورت خودكار و يا دستي انجام پذيرد. اطلاعات ممكن است از بانكهاي رابطه اي و غير رابطه اي تهيه شود. توجه كنيد كه كليه اطلاعات خارجي قبل از ورود به سيستم، تبديل شده و پاك سازي مي شوند.

2. بانك اطلاع رساني يك بانك اطلاعاتي رابطه ايست كه وظيفه سازماندهي و ذخيره نمودن يك نسخه از اطلاعات و همچنين تبديلات و جمع بندي و افزودن ارزش به  اطلاعات حاصله از منابع مختلف و با فرمت هاي مورد نظر بعهده دارد. نگهداري فراداده (اطلاعات در مورد اطلاعات) نيز به عهده اين بانك است . فراداده هاي سيستمي روابط بين جداول و ايندكس ها و غيره را بيان مي كنند و فراداده هاي محتوايي (semantic) ارزش اطلاعات را براي يك شكارچي اطلاعات روشن مي سازند.

3. راهنماي اطلاعات (Informational Directory) تركيبي از يك راهنماي فني و راهنماي تجاري و يك پويشگر اطلاعات است. هدف اصلي اين راهنما كمك به شكارچي براي دانستن محل وجود اطلاعات ،شكل آن و روش دسترسي به آن است

4. پشتيباني ابزارهاي DSS/EIS  از طريق انواع دستورات SQL انجام مي گيرد. بسياري از فروشندگان پروتكل ODBC و سايرين انواع ديگر  پروتكل ها را سرويس مي دهند.
 

سلسله مراتب انباره ها )غرفه هاي داده (DataMarts)(

انواع كوچكتري از انباره هاي داده هستند. در عمل غرفه هاي داده دپارتماني و غرفه هاي داده همراه (mobile)   از ابتدا برنامه ريزي نمي شوند بلكه  ابتدائا بوجود آمده و در صورت موفقيت تكثير شده و در نهايت مدير بانك اطلاعاتي سازمان ممكن است بتواند يك فدراسيون آزاد ار اين غرفه ها تشكيل دهد و نهايتا يك انباره داده را پايه گذاري نمايد.

ابزارهاي DSS/EIS از خواسته ها (Queries) تا تحليل زنده (OLAP) و تا داده كاوي    (DataMining)

ابزارهاي گزارش گيري

ابزارهاي تحليل داده و خواسته پردازها بما اجازه ساختن يك دستور سيكوئل را مي دهند بدون آنكه مجبور باشيم برنامه اي بنويسيم يا سيكوئل ياد بگيريم. با چند نشانه و كليك عبارت هاي سيكوئل مناسب براي گرد آوري اطلاعات و نمايش آن بشكل يك گراف / جدول و يا گزارش آماده مي شود. ابزارهاي برجسته تر در اين زمينه امكان كنترل ميزان نتايج برگشته از يك خواسته را مي دهند و به اين ترتيب مي توان جلوي درخواستهايي را كه ممكن است ميليونها ركورد را برگردانند گرفت. در سال 1998 بيش از 150 نوع از اين ابزارها در بازار وجود داشته است كه Microsoft Access, Oracle Reports, Business Objects از آن جمله اند.

OLAP و اطلاعات چند بعدي

به ساختار OLAP مثل يك مكعب روبيك از داده ها نگاه كنيد كه مي توانيد آنرا در جهات مختلف بچرخانيد تا بتوانيد سناريو هاي "قبلا چه شده" و "چه مي شد اگر ..." را بررسي كنيد.



اين ابزارها ديدگاههاي چند بعدي از داده ها را توسط بانكهاي اطلاعاتي دو بعدي (و يا بانكهاي خاص چند بعدي) توليد كرده و در اختيارما مي گذارند. توان دسترسي چند بعدي به داده ها در OLAP قدرت فرموله كردن خواسته هاي پيچيده تر را بما مي دهد.

براي سادگي فرض كنيد OLAP يك صفحه گسترده با چند محور است (در صفحات گسترده  متعارف فقط دو محور افقي با اختصار A, B, C, … و عمودي با ايندكس هاي 1و2و3,…  داريم) در اين صورت مثلا مي توانيم اطلاعات فروش يك سازمان را از ديدگاه هاي منطقه فروش،  تاريخ، مشتري، فروشگاه،  قيمت و ميزان فروش بررسي كنيم. و پاسخ سولاتي نظير ميزان فروش به ازائ يك محصول و فروشگاه در يك ماه مشخص را خواهيم داشت.
 

مدل چند بعدي OLAP طريقه نمايش دادن داده ها را در مقايسه با بانك هاي اطلاعاتي رابطه اي تسهيل مي كند.ROLAP با ايجاد يك لايه محافط روي يك بانك اطلاعاتي رابطه اي سرويس فوق را ارائه ميدهد. از ديدگاه فني OLAP فقط راهي براي ذخيره سازي و محاسبه اطلاعات چند بعدي براي پاسخوگويي به سناريوهاي كاربر است. يك خادم OLAP، داده ها را از پيش روي چندين محور جمع مي زند. توجه كنيد كه اطلاعات قبل از وارد شدن به OLAP بايستي پاك سازي شوند . غالبا OLAP داده ها را از يك انباره داده استخراج مي كند.

ابزارهاي OLAP را به چند دسته تقسيم مي كنند:

OLAP رو ميزي:

ابزارهاي ساده و مستقل كه روي كامپيوتر هاي شخصي نصب شده و مكعب هاي كوچكي مي سازند و آنها را نيز بر روي سيستم به شكل فايل ذخيره مي كنند. بيشتر اين ابزارها با صفحات گسترده اي نظير Excel كار مي كنند.به اين ترتيب كساني كه در سفر هستند قادر به استفاده از اين دسته از محصولات هستند.(در حال حاضر Web OLAP در حال جايگزين كردن اين محصولات است)

MOLAP چند بعدي

بجاي  ذخيره كردن اطلاعات در ركورد هاي كليد دار،  اين دسته از ابزارهاي بانكهاي اطلاعاتي خاصي را براي خود طراحي كرده اند بطوريكه داده ها را به شكل آرايه هاي مرتب شده بر اساس ابعاد داده ذخيره مي كنند (HyperCubes) در حال حاضر نيز دو استاندارد براي اين تيپ ابزار وجود دارد. سرعت اين ابزار بالا ولي سايز بانك اطلاعاتي آن نسبتا كوچك است.

OLAP رابطه اي (ROLAP)

اين ابزار ها با ايجاد يك بستر روي بانكهاي رابطه اي اطلاعات را ذخيره و بازيابي مي كنند. بطوريكه اساس بهينه سازي برخي بانكهاي اطلاعاتي رابطه اي مانند  Red Brick, MicreoStrategyبر همين اساس استوار است.
اندازه بانك اطلاعاتي اين ابزار قابل توجه مي باشد.

Hybrid OLAP (HOLAP)

در اينجا منظور از hybrid تركيبي از ROLAP  و MDBMS (طرح شده در MOLAP) است
ابزار داراي بانك اطلاعاتي بزرگ و رادمان بالاتر نسبت به ROLAP مي باشد.

استانداردهاي OLAP

جامعه OLAP با دو استاندارد مواجه است، از يك طرف گروه OLAP با استاندارد MD-API و از طرف ديگر Microsoft با استاندارد OLE DB for OLAP (Tensor) اولي از حمايت Oracle  و دومي از حمايت فروشندگان كوچكتري برخوردار است كه اميدوارند فروش MS-SQL7 برنامه هاي آنان را در ابعاد فروش ويندوز مطرح كند.

داده كاوي(Data Mining)

ابزارهاي داده كاوي با جستجوي حجم عظيم داده هاي ما مي توانند تكه طلاي كوچكي را كه در گوشه اي پنهان شده بيابند.

بازگشت هزينه صرف شده در اين ابزارها غالبا بسيار سريع است. مثلا در بررسي داده هاي يك واحد ار يك فروشگاه متوجه شدند كه ميزان سرقت حين فروش از باتريها و فيلمها و قلم هاي با قيمت متوسط ماهانه حدود 60000 دلار براي فروشگاه هزينه داشته است كه به اين ترتيب با جابجاكردن اقلام و قرار دادن در قسمتهاي با ديد بهتر سالانه حدود 700000 دلار صرفه جويي بدنبال داشته است.

ابزارهاي داده كاوي بدنبال طرحها و گروه بندي هايي  در داده ها مي گردد كه ممكن است از ديد ما پنهان مانده باشد.. ابزار تقريبا از كاربر هيچ كمكي نمي گيرد. بر خلاف ابزارهاي OLAP كه استفاده كنندگان راهنما و سازمان دهنده اطلاعات هستند در داده كاوي اين ابزار است كه استفاده كننده را هدايت مي كند. ابزار فرض مي كند كه شما خود نيز دقيقا نمي دانيد كه چه مي خواهيد. بيشتر اين ابزار ها از روش هاي جستجوي زير استفاده ميكنند:
1- ارتباطات كه اصطلاحا تحليل سبد بازار خوانده مي شود. ابزار  بدنبال اثبات اين موضوع است كه وجود چيزي بمعني وجود چيز ديگريست. مثلا بيشتر خريداران لوازم غواصي به تعطيلات تابستاني در استراليا مي روند. يا مصرف كننده يك كالاي مشخص مصرف كرده خريدار كا لاي ديگري نيز هست.

2- ارتباطات متوالي ابزار بدنبال روابط متوالي بين موضوعات مي گردد مثلا وقتي قيمت طلا 10 درصد بالا مي رود يك هفته بعد قيمت سهام 15 درصد پايين مي آيد.

3- دسته بندي بدنبال دسته بندي و طبقه بندي سطح بالاي اطلاعات هستند. مثلا 70 درصد راي دهندگاني كه تصميم نگرفته اند به كه راي دهند درآمدي بالاي 60000 دلار دارند بين 40 تا 50  سال سن دارند و در منطقه X اقامت دارند.

اگر اطلاعات جدول زير در يك گراف دو بعدي به تصوير در آيد متوجه مي شويم كه بنظر مي رسيد افراد بين 23 تا 29 به مكزيك و بين 30 تا 51 به كانادا سفر مي كنند

سن مشتري كشوري كه به آن سفر كرده 
23 مكزيك 
45 كانادا 
32 كانادا 
47 كانادا 
46 كانادا 
34 كانادا 
51 كانادا 
28 مكزيك 
49 كانادا 
29 مكزيك 
26 مكزيك 
31 كانادا 

يك نكته جالب ديگر كه بسادگي قابل ديدن نيست آنستكه افراد بين 35 تا 44 اصلا سفر نمي كنند بعبارت ديگر دو دسته آدم به كانادا سفر مي كنند آنها كه بين 30 تا 34 و آنها كه بين 45 تا 51 سال سن دارند. گروه بندي در اين مجموعه اطلاعات كوچك و دو بعدي بسادگي قابل رويت است . چنانچه ابعاد اطلاعات و حجم آن افزايش يابد موضوع به سادگي گذشته نخواهد بود. گفتني است  تعداد نمونه ها، تعداد ستونهاي اطلاعاتي و مقاديري كه هر يك از ستونها مي گيرند در سرعت پردازش داده كاوي موثر هستند. مثلا براي پردازش 1000000 نمونه با 200 ستون اطلاعاتي كه هر يك مي توانند 25 مقدار مختلف به خود بگيرند  به حدود 2 ساعت وقت نيازاست .
اين ابزار ها در زمينه هاي مختلف كاربرد يافته اند.از جمله محققين بهداشت براي كشف ميزان موفقيت جراحيها . بانكها براي ارزيابي اعتبار مشتريان،  بورس بازان براي تشخيص جابجايي قيمتهاي سهام و تشخيص طرحهاي تجاري ، شركتهاي بيمه براي تشخيص ريسك مشتريان و رفتارهايشان و هتل ها براي تشخيص مشتريان بازگشتي خود از آن استفاده ميكنند. همانطوريكه بنظر مي آيد ابزارهاي داده كاوي از مجمئعه ابزارهاي  يك رده بالاتر هستند كه استفاده هاي قابل توجهي براي آنها در صنعت قابل تصور است.

برخي از انواع تجاري اين ابزار عبارتند از :
Intelligent Miner, Darwin, MineSet, KnowledgeStudio, DataMind, Clementine
, …

كارآگاهان شخصي

اين مامورين برنامه هاي قابل حملي هستند كه با اتصال به انباره هاي داده اطلاعات مورد نياز را استخراح كرده و به كارفرمايان خود اطلاع مي دهند. در حال حاضر اين ابزارها بر اساس قوانين تعريف شده از طرف كارفرماي خود به جستجوي تغييرات در اطلاعات رفته و در صورت مشاهده تغيير پيغام مناسب را مي دهند.

هنوز كار هاي زيادي در اين قسمت بايستي صورت پذيرد كه از آن جمله اند :
درك داده ها بر اساس دانش درون ابزار (هوشمند شدن)، درك علائق كارفرما و جستجو دربانكهاي اطلاعاتي مختلف براي اعلام تغييرات به كارفرما.
 برنامه هاي كاريابي روي اينترنت با توجه به رزومه كاربر و  يا برنامه هاي همسر يابي با توجه به مشخصات. برنامه هايي كه تغييرات را در سايتهاي Microsoft  و ساير شركتها اعلام مي كنند و  .... مثالهاي ساده اي از اين نوع برنامه ها هستند.


منابع و مآخذ :

Client/Server Survival Guide by Robert Orfali, Dan Harkey, Jeri Edwards
Microsoft Visual Studio .Net Documentation

 

 
اين مقاله را ارزيابي كنيد
 
 
ارزيابي: 
Empty StarEmpty StarEmpty StarEmpty StarEmpty Star
شمار آراء: 0
 
 
 
حق برداشت محفوظ می باشد