تعریف داده کاوی:

عبارت داده کاوی مترادف با یکی از عبارت های استخراج دانش، برداشت اطلاعات، وارسی داده ها و حتی لایروبی کردن داده هاست که در حقیقت کشف دانش در پایگاه داده ها (KDD ) را توصیف می کند. بنابراین ایده ای که مبنای داده کاوی است یک فرآیند با اهمیت از شناخت الگوهای بالقوه مفید، تازه و در نهایت قابل درک در داده هاست. واژه کشف دانش در پایگاه داده ها در اوایل دهه ۸۰ در مراجعه به مفهوم کلی، گسترده، سطح بالا و به دنبال جستجوی دانش در اطلاعات شکل گرفته است. داده کاوی کاربرد سطح بالای فنون و ابزار بکار برده شده برای معرفی و تحلیل داده ها ی تصمیم گیرندگان است. اصطلاح داده کاوی را آمار شناسان، تحلیل گران داده ها و انجمن سیستم های اطلاعات مدیریت به کار برده اند، در حالی که پژوهشگران یادگیری ماشین و هوش مصنوعی از KDD (اکتشاف علوم) بیشتر استفاده می کنند. برنامه های کاربردی داده کاوی می توانند ازپارامتر‌های متنوعی برای رسیدگی به داده ها استفاده کنند. برخی از این پارامتر ها برای رسیدگی به داده ها بشرح زیر می باشند:

· ترکیبیات: نمونه هایی که در آنها یک رویداد به رویداد دیگری وابسته است، همچون خرید یک خودکار و خرید کاغذ.

· تحلیل ترتیب یا روش: نمونه هایی که در آنها انجام یک رویداد منجر به رویداد دیگری میشود، همچون تولد یک نوزاد و خرید مایحتاج مورد نیاز او.

· طبقه بندی: شناسایی نمونه های جدید، مثل تطابق بین لوله های خریداری شده و درپوش های پلاستیکی آنها.

· دسته بندی: یافتن و مستند سازی بصری گروههایی از حقایق ناشناخته ی قبلی، مثل موقعیت جغرافیایی و نشان های تبلیغاتی.

· پیش بینی: کشف و یافتن نمونه هایی که بتوان از آنها پیش‌بینی های منطقی بعمل آورد، مثلا افرادی که در یک کلوپ ورزشی سرمایه گذاری می کنند ممکن است در کلاسها و برنامه های ورزشی شرکت کنند.

برنامه های کاربردی داده کاوی در مقایسه با سایر برنامه های کاربردی تحلیل داده همچون Structured Query که در اکثر بانکهای اطلاعاتی تجاری بکار میرود، یا نسبت به نرم افزارهای آماری، تفاوتهای قابل ملاحظه ای دارد. در دسترسی بر پایه ی اثبات، جایی که کاربر یک فرضیه را بسط میدهد و سپس داده ها را از جهت پوشش یا عدم پوشش فرضیه مورد آزمون قرار می دهد، ابزارهای تحلیلی بسیار ساده تری مورد استفاده قرار می گیرند; مثلا کاربر ممکن است فرض کند مشتری خریدار یک چکش، ممکن است نیازمند یک جعبه ابزار صنعتی نیز باشد. تاثیر این رویکرد میتواند با خلاقیت کاربر در توسعه ی فرضیات مختلف، محدود شود. در واقع داده کاوی یک رویکرد اکتشافی بکار می‌برد که در آن می توان از الگوریتمها برای بررسی و تجزیه‌‌ی چندین رابطه ی داده ای چند بعدی، بصورت همزمان و با شناسایی موارد منحصر بفرد، استفاده کرد. برای مثال یک فروشگاه قطعات سخت افزاری ممکن است قدرت خرید مشتریان خود را با ابزارهایی از قبیل مالکیت خانه، نوع اتومبیلی که سوار می شوند، سن، حرفه، درآمد و یا فاصله ی محل اقامت تا فروشگاه بسنجد. نتیجتا دو مهم در اعمال داده کاوی موفق دخیل هستند:

· فرمولاسیون واضح و مشخص برای حل مساله.

· دسترسی به داده های مناسب و درست.

در بازتاب مفهوم سازی عمومی داده کاوی ، برخی مشاهدات انجام شده، داده کاوی را بعنوان تنها یک مرحله از یک پردازش وسیعتر با نام اکتشافات علوم در پایگاه های داده ای شناخته شده، مورد توجه قرار می دهند.