مقدمه به مدد پیشرفت فنآوری، امکان اندازهگیری و ذخیره اطلاعات بصورت خودکار در حوزههای مختلف علوم فراهم آمده است و از اینرو بشر در حوزههای مختلف علمی غرق دنیای اطلاعات شده و راه برای مدلسازی دقیقتر سیستمهای پیچیده، مبتنی بر اطلاعات بجای بهرهمندی از سیستم خبره مبتنی بر دانش متخصص فراهم آمده است. به عنوان مثال در حوزهی مهندسی خطوط راهآهن، به کمک ماشین اندازهگیری خط، روزانه صدها کیلومتر از نامنظمیهای هندسی خطوط اندازهگیری میشود که مدیریت تعمیر و نگهداری پیشبینانه و تصمیمگیری صحیح و استفاده کارآ و مفید از اطلاعات موجود، مستلزم خودکار کردن پردازش این اطلاعات خام و تبدیل آن به معرفت در قالب به خدمتگیری روشهای نوین دادهکاوی میباشد. دادهکاوی در مقایسه با پرس و جوی ساختاریافته از اطلاعات، این ویژگی را دارد که در دادهکاوی بجای پرسش یک رابطه مشخص، الگوها و روابط ارزشمند بین آنها که از پیش مشخص نیست، از حجم انبوهی از اطلاعات استخراج میشود. دادهکاوی را میتوان یادگیری ماشینی (خودکار) استقرایی قلمداد کرد که به هدفی واقع در یک طیف که مدلسازی مبتنی بر اطلاعات برای پیشبینی در یک سوی آن و مدلسازی مبتنی بر اطلاعات برای توصیف در سوی دیگر آن قرار دارد، انجام میشود. این یادگیری در کشف الگوها و روابط بین آنها تجلی پیدا میکند و آن را میتوان در قالب سه رویکرد طبقهبندی (یادگیری باسرپرست)، خوشه یابی (یادگیری بدون سرپرست) و قواعد انجمنی تقسیمبندی کرد. روش های مختلفی همچون روش های آماری، تصمیمگیری بیزین، شبکه عصبی مصنوعی، استراتژی های تکاملی و استفاده از نظریه مجموعههای فازی را میتوان برای کشف الگو و روابط بین آنها بکار برد و نرمافزارهای متنوعی بر اساس هر کدام از این روشها توسعه داده شده است. |