- 相關(guān)推薦
數(shù)據(jù)挖掘
數(shù)據(jù)挖掘
數(shù)據(jù)挖掘(數(shù)據(jù)挖掘)
數(shù)據(jù)挖掘(英語:Data mining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機科學(xué)有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。Data mining (the analysis step of the "Knowledge Discovery in Databases" process, or KDD), an interdisciplinary subfield of computer science, is the computational process of discovering pattern...
目錄 概述 使用 成功案例 經(jīng)典算法 收縮展開 概述數(shù)據(jù)挖掘(Data Mining,DM)是目前人工智能和數(shù)據(jù)庫領(lǐng)域研究的熱點問題,所謂數(shù)據(jù)挖掘是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程。數(shù)據(jù)挖掘是一種決策支持過程,它主要基于人工智能、機器學(xué)習(xí)、模式識別、統(tǒng)計學(xué)、數(shù)據(jù)庫、可視化技術(shù)等,高度自動化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場策略,減少風(fēng)險,做出正確的決策。 知識發(fā)現(xiàn)過程由以下三個階段組成:(1)數(shù)據(jù)準備,(2)數(shù)據(jù)挖掘,(3)結(jié)果表達和解釋。數(shù)據(jù)挖掘可以與用戶或知識庫交互。 數(shù)據(jù)挖掘是通過分析每個數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),主要有數(shù)據(jù)準備、規(guī)律尋找和規(guī)律表示3個步驟。數(shù)據(jù)準備是從相關(guān)的數(shù)據(jù)源中選取所需的數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集;規(guī)律尋找是用某種方法將數(shù)據(jù)集所含的規(guī)律找出來;規(guī)律表示是盡可能以用戶可理解的方式(如可視化)將找出的規(guī)律表示出來。 數(shù)據(jù)挖掘的任務(wù)有關(guān)聯(lián)分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析,等等。 并非所有的信息發(fā)現(xiàn)任務(wù)都被視為數(shù)據(jù)挖掘。例如,使用數(shù)據(jù)庫管理系統(tǒng)查找個別的記錄,或通過因特網(wǎng)的搜索引擎查找特定的Web頁面,則是信息檢索(information retrieval)領(lǐng)域的任務(wù)。雖然這些任務(wù)是重要的,可能涉及使用復(fù)雜的算法和數(shù)據(jù)結(jié)構(gòu),但是它們主要依賴傳統(tǒng)的計算機科學(xué)技術(shù)和數(shù)據(jù)的明顯特征來創(chuàng)建索引結(jié)構(gòu),從而有效地組織和檢索信息。盡管如此,數(shù)據(jù)挖掘技術(shù)也已用來增強信息檢索系統(tǒng)的能力。 起源 需要是發(fā)明之母。近年來,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識。獲取的信息和知識可以廣泛用于各種應(yīng)用,包括商務(wù)管理,生產(chǎn)控制,市場分析,工程設(shè)計和科學(xué)探索等。 數(shù)據(jù)挖掘利用了來自如下一些領(lǐng)域的思想:(1) 來自統(tǒng)計學(xué)的抽樣、估計和假設(shè)檢驗,(2)人工智能、模式識別和機器學(xué)習(xí)的搜索算法、建模技術(shù)和學(xué)習(xí)理論。數(shù)據(jù)挖掘也迅速地接納了來自其他領(lǐng)域的思想,這些領(lǐng)域包括最優(yōu)化、進化計算、信息論、信號處理、可視化和信息檢索。一些其他領(lǐng)域也起到重要的支撐作用。特別地,需要數(shù)據(jù)庫系統(tǒng)提供有效的存儲、索引和查詢處理支持。源于高性能(并行)計算的技術(shù)在處理海量數(shù)據(jù)集方面常常是重要的。分布式技術(shù)也能幫助處理海量數(shù)據(jù),并且當數(shù)據(jù)不能集中到一起處理時更是至關(guān)重要。 發(fā)展階段 第一階段:電子郵件階段 這個階段可以認為是從70年代開始,平均的通訊量以每年幾倍的速度增長。 第二階段:信息發(fā)布階段 從1995年起,以Web技術(shù)為代表的信息發(fā)布系統(tǒng),爆炸式地成長起來,成為目前Internet的主要應(yīng)用。中小企業(yè)如何把握好從“粗放型”到“精準型”營銷時代的電子商務(wù)。 第三階段: EC(Electronic Commerce),即電子商務(wù)階段 EC在美國也才剛剛開始,之所以把EC列為一個劃時代的東西,是因為Internet的最終主要商業(yè)用途,就是電子商務(wù)。同時反過來也可以說,若干年后的商業(yè)信息,主要是通過Internet傳遞。Internet即將成為我們這個商業(yè)信息社會的神經(jīng)系統(tǒng)。1997年底在加拿大溫哥華舉行的第五次亞太經(jīng)合組織非正式首腦會議(APEC)上美國總統(tǒng)克林頓提出敦促各國共同促進電子商務(wù)發(fā)展的議案,其引起了全球首腦的關(guān)注,IBM、HP和Sun等國際著名的信息技術(shù)廠商已經(jīng)宣布1998年為電子商務(wù)年。 第四階段:全程電子商務(wù)階段 隨著SaaS(Software as a service)軟件服務(wù)模式的出現(xiàn),軟件紛紛登陸互聯(lián)網(wǎng)[5],延長了電子商務(wù)鏈條,形成了當下最新的“全程電子商務(wù)”概念模式。
使用分析方法: · 分類 (Classification) · 估計(Estimation) · 預(yù)測(Prediction) · 相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules) · 聚類(Clustering) · 描述和可視化(Description and Visualization) · 復(fù)雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像,視頻,音頻等) 方法簡介: ·分類 (Classification) 首先從數(shù)據(jù)中選出已經(jīng)分好類的訓(xùn)練集,在該訓(xùn)練集上運用數(shù)據(jù)挖掘分類的技術(shù),建立分類模型,對于沒有分類的數(shù)據(jù)進行分類。 例子: a. 信用卡申請者,分類為低、中、高風(fēng)險 b. 故障診斷:中國寶鋼集團與上海天律信息技術(shù)有限公司合作,采用數(shù)據(jù)挖掘技術(shù)對鋼材生產(chǎn)的全流程進行質(zhì)量監(jiān)控和分析,構(gòu)建故障地圖,實時分析產(chǎn)品出現(xiàn)瑕疵的原因,有效提高了產(chǎn)品的優(yōu)良率。 注意: 類的個數(shù)是確定的,預(yù)先定義好的 · 估計(Estimation) 估計與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出;分類的類別是確定數(shù)目的,估值的量是不確定的。 例子: a. 根據(jù)購買模式,估計一個家庭的孩子個數(shù) b. 根據(jù)購買模式,估計一個家庭的收入 c. 估計real estate的價值 一般來說,估值可以作為分類的前一步工作。給定一些輸入數(shù)據(jù),通過估值,得到未知的連續(xù)變量的值,然后,根據(jù)預(yù)先設(shè)定的閾值,進行分類。例如:銀行對家庭貸款業(yè)務(wù),運用估值,給各個客戶記分(Score 0~1)。然后,根據(jù)閾值,將貸款級別分類。 · 預(yù)測(Prediction) 通常,預(yù)測是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用于對未知變量的預(yù)言。從這種意義上說,預(yù)言其實沒有必要分為一個單獨的類。預(yù)言其目的是對未來未知變量的預(yù)測,這種預(yù)測是需要時間來驗證的,即必須經(jīng)過一定時間后,才知道預(yù)言準確性是多少。 相關(guān)性分組或關(guān)聯(lián)規(guī)則 (Affinity grouping or association rules) 決定哪些事情將一起發(fā)生。 例子: a. 超市中客戶在購買A的同時,經(jīng)常會購買B,即A => B(關(guān)聯(lián)規(guī)則) b. 客戶在購買A后,隔一段時間,會購買B (序列分析) · 聚類(Clustering) 聚類是對記錄分組,把相似的記錄在一個聚集里。聚類和分類的區(qū)別是聚集不依賴于預(yù)先定義好的類,不需要訓(xùn)練集。 例子: a. 一些特定癥狀的聚集可能預(yù)示了一個特定的疾病 b. 租VCD類型不相似的客戶聚集,可能暗示成員屬于不同的亞文化群 聚集通常作為數(shù)據(jù)挖掘的第一步。例如,"哪一種類的促銷對客戶響應(yīng)最好?",對于這一 類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然后對每個不同的聚集,回答問題,可能效果更好。 · 描述和可視化(Description and Visualization) 是對數(shù)據(jù)挖掘結(jié)果的`表示方式。一般只是指數(shù)據(jù)可視化工具,包含報表工具和商業(yè)智能分析產(chǎn)品(BI)的統(tǒng)稱。譬如通過Yonghong Z-Suite等工具進行數(shù)據(jù)的展現(xiàn),分析,鉆取,將數(shù)據(jù)挖掘的分析結(jié)果更形象,深刻的展現(xiàn)出來。 挖掘分類 以上七種數(shù)據(jù)挖掘的分析方法可以分為兩類:直接數(shù)據(jù)挖掘;間接數(shù)據(jù)挖掘· 直接數(shù)據(jù)挖掘 目標是利用可用的數(shù)據(jù)建立一個模型,這個模型對剩余的數(shù)據(jù),對一個特定的變量(可以理解成數(shù)據(jù)庫中表的屬性,即列)進行描述。 間接數(shù)據(jù)挖掘 目標中沒有選出某一具體的變量,用模型進行描述;而是在所有的變量中建立起某種關(guān)系 。 · 分類、估值、預(yù)言屬于直接數(shù)據(jù)挖掘;后四種屬于間接數(shù)據(jù)挖掘
成功案例數(shù)據(jù)挖掘幫助Credilogros Cía Financiera S.A.改善客戶信用評分 Credilogros Cía Financiera S.A. 是阿根廷第五大信貸公司,資產(chǎn)估計價值為9570萬美元,對于Credilogros而言,重要的是識別與潛在預(yù)先付款客戶相關(guān)的潛在風(fēng)險,以便將承擔的風(fēng)險最小化。 該公司的第一個目標是創(chuàng)建一個與公司核心系統(tǒng)和兩家信用報告公司系統(tǒng)交互的決策引擎來處理信貸申請。同時,Credilogros還在尋找針對它所服務(wù)的低收入客戶群體的自定義風(fēng)險評分工具。除這些之外,其他需求還包括解決方案能在其35個分支辦公地點和200多個相關(guān)的銷售點中的任何一個實時操作,包括零售家電連鎖店和手機銷售公司。 最終Credilogros 選擇了SPSS Inc.的數(shù)據(jù)挖掘軟件PASWModeler,因為它能夠靈活并輕松地整合到 Credilogros 的核心信息系統(tǒng)中。通過實現(xiàn)PASW Modeler,Credilogros將用于處理信用數(shù)據(jù)和提供最終信用評分的時間縮短到了8秒以內(nèi)。這使該組織能夠迅速批準或拒絕信貸請求。該決策引擎還使 Credilogros 能夠最小化每個客戶必須提供的身份證明文檔,在一些特殊情況下,只需提供一份身份證明即可批準信貸。此外,該系統(tǒng)還提供監(jiān)控功能。Credilogros目前平均每月使用PASW Modeler處理35000份申請。僅在實現(xiàn) 3 個月后就幫助Credilogros 將貸款支付失職減少了 20%. 數(shù)據(jù)挖掘幫助DHL實時跟蹤貨箱溫度 DHL是國際快遞和物流行業(yè)的全球市場領(lǐng)先者,它提供快遞、水陸空三路運輸、合同物流解決方案,以及國際郵件服務(wù)。DHL的國際網(wǎng)絡(luò)將超過220個國家及地區(qū)聯(lián)系起來,員工總數(shù)超過28.5萬人。在美國 FDA 要求確保運送過程中藥品裝運的溫度達標這一壓力之下,DHL的醫(yī)藥客戶強烈要求提供更可靠且更實惠的選擇。這就要求DHL在遞送的各個階段都要實時跟蹤集裝箱的溫度。 雖然由記錄器方法生成的信息準確無誤,但是無法實時傳遞數(shù)據(jù),客戶和DHL都無法在發(fā)生溫度偏差時采取任何預(yù)防和糾正措施。因此,DHL的母公司德國郵政世界網(wǎng)(DPWN)通過技術(shù)與創(chuàng)新管理(TIM)集團明確擬定了一個計劃,準備使用RFID技術(shù)在不同時間點全程跟蹤裝運的溫度。通過IBM全球企業(yè)咨詢服務(wù)部繪制決定服務(wù)的關(guān)鍵功能參數(shù)的流程框架。DHL獲得了兩方面的收益:對于最終客戶來說,能夠使醫(yī)藥客戶對運送過程中出現(xiàn)的裝運問題提前做出響應(yīng),并以引人注目的低成本全面切實地增強了運送可靠性。對于DHL來說,提高了客戶滿意度和忠實度;為保持競爭差異奠定堅實的基礎(chǔ);并成為重要的新的收入增長來源。 基本步驟 數(shù)據(jù)挖掘的步驟會隨不同領(lǐng)域的應(yīng)用而有所變化,每一種數(shù)據(jù)挖掘技術(shù)也會有各自的特性和使用步驟,針對不同問題和需求所制定的數(shù)據(jù)挖掘過程也會存在差異。此外,數(shù)據(jù)的完整程度、專業(yè)人員支持的程度等都會對建立數(shù)據(jù)挖掘過程有所影響。這些因素造成了數(shù)據(jù)挖掘在各不同領(lǐng)域中的運用、規(guī)劃,以及流程的差異性,即使同一產(chǎn)業(yè),也會因為分析技術(shù)和專業(yè)知識的涉入程度不同而不同,因此對于數(shù)據(jù)挖掘過程的系統(tǒng)化、標準化就顯得格外重要。如此一來,不僅可以較容易地跨領(lǐng)域應(yīng)用,也可以結(jié)合不同的專業(yè)知識,發(fā)揮數(shù)據(jù)挖掘的真正精神。 數(shù)據(jù)挖掘完整的步驟如下: ① 理解數(shù)據(jù)和數(shù)據(jù)的來源(understanding)。 ② 獲取相關(guān)知識與技術(shù)(acquisition)。 ③ 整合與檢查數(shù)據(jù)(integration and checking)。 ④ 去除錯誤或不一致的數(shù)據(jù)(data cleaning)。 ⑤ 建立模型和假設(shè)(model and hypothesis development)。 ⑥ 實際數(shù)據(jù)挖掘工作(data mining)。 ⑦ 測試和驗證挖掘結(jié)果(testing and verification)。 ⑧ 解釋和應(yīng)用(interpretation and use)。 由上述步驟可看出,數(shù)據(jù)挖掘牽涉了大量的準備工作與規(guī)劃工作,事實上許多專家都認為整套數(shù)據(jù)挖掘的過程中,有80%的時間和精力是花費在數(shù)據(jù)預(yù)處理階段,其中包括數(shù)據(jù)的凈化、數(shù)據(jù)格式轉(zhuǎn)換、變量整合,以及數(shù)據(jù)表的鏈接。可見,在進行數(shù)據(jù)挖掘技術(shù)的分析之前,還有許多準備工作要完成。 行業(yè)應(yīng)用 價格競爭空前激烈,語音業(yè)務(wù)增長趨緩,快速增長的中國移動通信市場正面臨著前所未有的生存壓力。中國電信業(yè)改革的加速推進形成了新的競爭態(tài)勢,移動運營市場的競爭廣度和強度將進一步加大,這特別表現(xiàn)在集團客戶領(lǐng)域。移動信息化和集團客戶已然成為未來各運營商應(yīng)對競爭、獲取持續(xù)增長的新引擎。 隨著國內(nèi)三足鼎立全業(yè)務(wù)競爭態(tài)勢和3G牌照發(fā)放,各運營商為集團客戶提供融合的信息化解決方案將是大勢所趨,而移動信息化將成為全面進入信息化服務(wù)領(lǐng)域的先導(dǎo)力量。傳統(tǒng)移動運營商因此面臨著從傳統(tǒng)個人業(yè)務(wù)轉(zhuǎn)向同時拓展集團客戶信息化業(yè)務(wù)領(lǐng)域的挑戰(zhàn)。如何應(yīng)對來自內(nèi)外部的挑戰(zhàn),迅速以移動信息化業(yè)務(wù)作為融合業(yè)務(wù)的競爭利器之一拓展集團客戶市場,在新興市場中立于不敗之地,是傳統(tǒng)移動運營商需要解決的緊迫問題。 IBM全球企業(yè)咨詢服務(wù)部經(jīng)過研究認為,傳統(tǒng)移動運營商在拓展集團客戶信息化市場的過程中所面臨的外部挑戰(zhàn)主要來自三個方面,即市場需求不成熟,技術(shù)與業(yè)務(wù)融合,全業(yè)務(wù)的競爭。同時,運營商在自身發(fā)展上也存在諸多問題,例如目標市場細分不清晰,信息化需求挖掘與評估不足;產(chǎn)品規(guī)劃和管理難以滿足客戶信息化需求;渠道較為單一,無法有效覆蓋客戶;對合作伙伴吸引力較弱,尚未形成共贏的價值鏈;在運營管理層面,業(yè)務(wù)流程、銷售團隊能力以及IT支撐上都不適應(yīng)集團信息化業(yè)務(wù)的發(fā)展。 從目前網(wǎng)絡(luò)招聘的信息來看,大小公司對數(shù)據(jù)挖掘的需求有50多個方面(來源見參考資料): 1、數(shù)據(jù)統(tǒng)計分析 2、預(yù)測預(yù)警模型 3、數(shù)據(jù)信息闡釋 4、數(shù)據(jù)采集評估 5、數(shù)據(jù)加工倉庫 6、品類數(shù)據(jù)分析 7、銷售數(shù)據(jù)分析 8、網(wǎng)絡(luò)數(shù)據(jù)分析 9、流量數(shù)據(jù)分析 10、交易數(shù)據(jù)分析 11、媒體數(shù)據(jù)分析 12、情報數(shù)據(jù)分析 13、金融產(chǎn)品設(shè)計 14、日常數(shù)據(jù)分析 15、總裁萬事通 16、數(shù)據(jù)變化趨勢 17、預(yù)測預(yù)警模型 18、運營數(shù)據(jù)分析 19、商業(yè)機遇挖掘 20、風(fēng)險數(shù)據(jù)分析 21、缺陷信息挖掘 22、決策數(shù)據(jù)支持 23、運營優(yōu)化與成本控制 24、質(zhì)量控制與預(yù)測預(yù)警 25、系統(tǒng)工程數(shù)學(xué)技術(shù) 26、用戶行為分析/客戶需求模型 27、產(chǎn)品銷售預(yù)測(熱銷特征) 28、商場整體利潤最大化系統(tǒng)設(shè)計 29、市場數(shù)據(jù)分析 30、綜合數(shù)據(jù)關(guān)聯(lián)系統(tǒng)設(shè)計 31、行業(yè)/企業(yè)指標設(shè)計 32、企業(yè)發(fā)展關(guān)鍵點分析 33、資金鏈管理設(shè)計與風(fēng)險控制 34、用戶需求挖掘 35、產(chǎn)品數(shù)據(jù)分析 36、銷售數(shù)據(jù)分析 37、異常數(shù)據(jù)分析 38、數(shù)學(xué)規(guī)劃與數(shù)學(xué)方案 39、數(shù)據(jù)實驗?zāi)M 40、數(shù)學(xué)建模與分析 41、呼叫中心數(shù)據(jù)分析 42、貿(mào)易/進出口數(shù)據(jù)分析 43、海量數(shù)據(jù)分析系統(tǒng)設(shè)計、關(guān)鍵技術(shù)研究 44、數(shù)據(jù)清洗、分析、建模、調(diào)試、優(yōu)化 45、數(shù)據(jù)挖掘算法的分析研究、建模、實驗?zāi)M 46、組織機構(gòu)運營監(jiān)測、評估、預(yù)測預(yù)警 47、經(jīng)濟數(shù)據(jù)分析、預(yù)測、預(yù)警 48、金融數(shù)據(jù)分析、預(yù)測、預(yù)警 49、科研數(shù)學(xué)建模與數(shù)據(jù)分析:社會科學(xué),自然科學(xué),醫(yī)藥,農(nóng)學(xué),計算機,工程,信息,軍事,圖書情報等 50、數(shù)據(jù)指標開發(fā)、分析與管理 51、產(chǎn)品數(shù)據(jù)挖掘與分析 52、商業(yè)數(shù)學(xué)與數(shù)據(jù)技術(shù) 53、故障預(yù)測預(yù)警技術(shù) 54、數(shù)據(jù)自動分析技術(shù) 55、泛工具分析 56、互譯 57、指數(shù)化 其中,互譯與指數(shù)化是數(shù)據(jù)挖掘除計算機技術(shù)之外最核心的兩大技術(shù)。
經(jīng)典算法1. C4.5:是機器學(xué)習(xí)算法中的一種分類決策樹算法,其核心算法是ID3算法。 2. K-means算法:是一種聚類算法。 3.SVM:一種監(jiān)督式學(xué)習(xí)的方法,廣泛運用于統(tǒng)計分類以及回歸分析中 4.Apriori :是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法。 5.EM:最大期望值法。 6.pagerank:是google算法的重要內(nèi)容。 7. Adaboost:是一種迭代算法,其核心思想是針對同一個訓(xùn)練集訓(xùn)練不同的分類器然后把弱分類器集合起來,構(gòu)成一個更強的最終分類器。 8.KNN:是一個理論上比較成熟的的方法,也是最簡單的機器學(xué)習(xí)方法之一。 9.Naive Bayes:在眾多分類方法中,應(yīng)用最廣泛的有決策樹模型和樸素貝葉斯(Naive Bayes) 10.Cart:分類與回歸樹,在分類樹下面有兩個關(guān)鍵的思想,第一個是關(guān)于遞歸地劃分自變量空間的想法,第二個是用驗證數(shù)據(jù)進行減枝。 關(guān)聯(lián)規(guī)則規(guī)則定義 在描述有關(guān)關(guān)聯(lián)規(guī)則的一些細節(jié)之前,我們先來看一個有趣的故事: "尿布與啤酒"的故事。 在一家超市里,有一個有趣的現(xiàn)象:尿布和啤酒赫然擺在一起出售。但是這個奇怪的舉措?yún)s使尿布和啤酒的銷量雙雙增加了。這不是一個笑話,而是發(fā)生在美國沃爾瑪連鎖店超市的真實案例,并一直為商家所津津樂道。沃爾瑪擁有世界上最大的數(shù)據(jù)倉庫系統(tǒng),為了能夠準確了解顧客在其門店的購買習(xí)慣,沃爾瑪對其顧客的購物行為進行購物籃分析,想知道顧客經(jīng)常一起購買的商品有哪些。沃爾瑪數(shù)據(jù)倉庫里集中了其各門店的詳細原始交易數(shù)據(jù)。在這些原始交易數(shù)據(jù)的基礎(chǔ)上,沃爾瑪利用數(shù)據(jù)挖掘方法對這些數(shù)據(jù)進行分析和挖掘。一個意外的發(fā)現(xiàn)是:"跟尿布一起購買最多的商品竟是啤酒!經(jīng)過大量實際調(diào)查和分析,揭示了一個隱藏在"尿布與啤酒"背后的美國人的一種行為模式:在美國,一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時也為自己買一些啤酒。產(chǎn)生這一現(xiàn)象的原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們在買尿布后又隨手帶回了他們喜歡的啤酒。 按常規(guī)思維,尿布與啤酒風(fēng)馬牛不相及,若不是借助數(shù)據(jù)挖掘技術(shù)對大量交易數(shù)據(jù)進行挖掘分析,沃爾瑪是不可能發(fā)現(xiàn)數(shù)據(jù)內(nèi)在這一有價值的規(guī)律的。 數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。Agrawal等于1993年首先提出了挖掘顧客交易數(shù)據(jù)庫中項集間的關(guān)聯(lián)規(guī)則問題,以后諸多的研究人員對關(guān)聯(lián)規(guī)則的挖掘問題進行了大量的研究。他們的工作包括對原有的算法進行優(yōu)化,如引入隨機采樣、并行的思想等,以提高算法挖掘規(guī)則的效率;對關(guān)聯(lián)規(guī)則的應(yīng)用進行推廣。關(guān)聯(lián)規(guī)則挖掘在數(shù)據(jù)挖掘中是一個重要的課題,最近幾年已被業(yè)界所廣泛研究。
【數(shù)據(jù)挖掘】相關(guān)文章:
數(shù)據(jù)挖掘論文04-29
淺談數(shù)據(jù)挖掘05-02
數(shù)據(jù)挖掘挖出效益05-02
論數(shù)據(jù)倉庫和數(shù)據(jù)挖掘04-28
數(shù)據(jù)挖掘中抽樣技術(shù)的應(yīng)用04-29
數(shù)據(jù)挖掘的發(fā)展和應(yīng)用綜述04-30