數據挖掘在質量管理系統中的應用實例 |
發布時間: 2012/9/6 17:34:24 |
信息化管理不僅是企業,也是任意一個政府部門適應未來發展的必由之路,質量監管部門在企業數目不斷增加,產品數據飛速增長的現實面前,傳統的數據管理手段顯得捉襟見肘。因此,將信息技術與企業質量管理(尤其是全面質量管理階段)有機的結合起來,對于適應我國經濟社會發展具有十分重要的意義。數據挖掘技術為作為一種先進的、極具價值的數據分析工具,為質監部門實現全面質量監控管理提供了全新的科學手段。
1 數據挖掘簡介 1.1 數據挖掘的基本步驟 數據挖掘指的是從大型數據庫或數據倉庫中提取人們感興趣的知識,這些知識是隱含的、事先未知的潛在有用信息。數據挖掘一般包括6個步驟,依次是定義問題、準備數據、瀏覽數據、生成模型、瀏覽和驗證模型、部署更新模型,如圖1所示。 圖1 數據挖掘步驟 (1)定義問題 清晰地定義出業務問題,確定數據挖掘的目的。 (2)準備數據 數據準備包括:選擇數據——在大型數據庫和數據倉庫目標中提取數據挖掘的目標數據集;數據預處理——進行數據再加工,包括檢查數據的完整性及數據的一致性、去噪聲,填補丟失的域,刪除無效數據等。 (3)瀏覽數據 數據挖掘過程的第3步就是瀏覽已準備的數據,以便在創建模型時作出正確的決策。瀏覽技術包括計算最大值和最小值,計算平均偏差和標準偏差,以及查看數據的分布。瀏覽完數據之后,便可確定數據集是否包含缺陷數據,然后制訂糾正這些問題的策略。 (4)生成模型 根據數據功能的類型和和數據的特點選擇相應的算法,在凈化和轉換過的數據集上進行數據挖掘,生成模型。 (5)瀏覽和驗證模型 對數據挖掘的獲得的模型進行解釋和評價,轉換成為能夠最終被用戶理解的知識。 (6)部署和更新模型 將性能最佳的模型部署到生產環境,更新模型是部署策略的一部分。 1.2 SQL Server數據挖掘和DMX Microsoft SQL Server Analysis Services(SSAS)提供了用于數據挖掘的工具,可以借助這些工具標識數據中的規則和模式,從而確定出現問題的原因并預測將來將要出現的問題。Analysis Services可以使用來自關系數據庫和OLAP數據庫的數據集以及可用來調查數據的各種算法。SQL Server提供了各種可用于數據挖掘的環境和工具。 (1)數據挖掘向導 在Business Intelligence Development Studio中,可以從數據挖掘向導開始創建數據挖掘解決方案。該向導用于指導完成創建數據挖掘結構和初始相關挖掘模型的過程,包括選擇算法類型和數據源以及定義事例表等任務。 在使用數據挖掘向導刨建了挖掘結構和初始挖掘模型后,打開數據挖掘設計器。在該設計器中,可以管理挖掘結構,創建新的挖掘模型,部署、瀏覽、比較和創建基于現有挖掘模塊的預測。 (2)數據挖掘擴展插件(DMX) 在SSAS中可以使用數據挖掘擴展插件(DMX)語言創建和處理數據挖掘模型。通過使用DMX創建新數據挖掘模型的結構,使用DMX語句創建、處理、刪除、復制、瀏覽和預測數據挖掘模型,為這些模型定型并對其進行瀏覽、管理和預測。DMX由數據定義語言(DDL)語句、數據操作語言(DML)語句以及函數和運算符構成。 (3)SQ L Server Management Studio 在創建了挖掘模型并將其部署到服務器上后,即可使用SQL Server Management Studio來執行管理和瀏覽任務,如查看和處理模型,以及創建針對這些模型的預測等。Management Studio也包含一個查詢編輯器,可使用該編輯器來設計和執行數據挖掘擴展插件(DMX)查詢。 (4)Integration Services數據挖掘任務和轉換 SQL Server Integration Services(SSIS)提供了一些工具來自動完成常見的數據挖掘任務,如處理挖掘模型和創建預測查詢等。例如,如果有一個根據潛在客戶的數據集生成的挖掘模型,那么,就可以創建一個Integration Services包,該包可在每次用新客戶更新數據集時,自動更新該模型。并且可以基于該包來創建預測,將潛在客戶分入兩個表。一個表里中包含的是可能的客戶,另一個表中包含的是不可能購買任何產品的客戶。 (5)SSAS的算法 Microsoft決策樹算法是由SSAS提供的分類和回歸算法,用于對離散和連續屬性進行預測性建模。Microsoft Naive Bayes算法是SSAS提供的一種分類算法,用于預測性建模。該算法在假定列互不相關的前提下計算輸入列和可預測列之間的條件概率。Microsoft時序算法是SSAS提供的回歸算法,用于創建數據挖掘模型以預測連續列,如預測方案中的產品銷售額。時序模型的預測僅根據算法在創建模型時從原始數據集派生的趨勢,而決策樹類算法依靠給定輸入列來預測可預測列的模型。Microsoft神經網絡算法通過構造多層感知器網絡創建分類和回歸挖掘模型,與Microsoft決策樹算法相類似,當給定可預測屬性的每個狀態時,神經網絡算法可以計算輸入屬性的每個可能狀態的概率。并且可以基于這些概率預測被預測屬性的結果。 本文出自:億恩科技【www.vbseamall.com】 |