數據挖掘

數據挖掘概述
　　數據挖掘（Data Mining，DM）又稱數據庫中的知識發現（Knowledge Discover in Database，KDD），是目前人工智能和數據庫領域研究的熱點問題，所謂數據挖掘是指從數據庫的大量數據中揭示出隱含的、先前未知的並有潛在價值的信息的非平凡過程。數據挖掘是一種決策支持過程，它主要基於人工智能、機器學習、模式識別、統計學、數據庫、可視化技術等，高度自動化地分析企業的數據，做出歸納性的推理，從中挖掘出潛在的模式，幫助決策者調整市場策略，減少風險，做出正確的決策。
數據挖掘的定義

　　1.技術上的定義及含義
　　數據挖掘（Data Mining）就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中，提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。這個定義包括好幾層含義：數據源必須是真實的、大量的、含噪聲的；發現的是用戶感興趣的知識；發現的知識要可接受、可理解、可運用；並不要求發現放之四海皆準的知識，僅支持特定的發現問題。
　　與數據挖掘相近的同義詞有數據融合、人工智能、商務智能、模式識別、機器學習、知識發現、數據分析和決策支持等。
　　----何爲知識?從廣義上理解，數據、信息也是知識的表現形式，但是人們更把概念、規則、模式、規律和約束等看作知識。人們把數據看作是形成知識的源泉，好像從礦石中採礦或淘金一樣。原始數據可以是結構化的，如關系數據庫中的數據；也可以是半結構化的，如文本、圖形和圖像數據；甚至是分布在網絡上的異構型數據。發現知識的方法可以是數學的，也可以是非數學的；可以是演繹的，也可以是歸納的。發現的知識可以被用於信息管理，查詢優化，決策支持和過程控制等，還可以用於數據自身的維護。因此，數據挖掘是一門交叉學科，它把人們對數據的應用從低層次的簡單查詢，提升到從數據中挖掘知識，提供決策支持。在這種需求牽引下，匯聚了不同領域的研究者，尤其是數據庫技術、人工智能技術、數理統計、可視化技術、並行計算等方面的學者和工程技術人員，投身到數據挖掘這一新興的研究領域，形成新的技術熱點。
　　這裏所說的知識發現，不是要求發現放之四海而皆準的真理，也不是要去發現嶄新的自然科學定理和純數學公式，更不是什么機器定理證明。實際上，所有發現的知識都是相對的，是有特定前提和約束條件，面向特定領域的，同時還要能夠易於被用戶理解。最好能用自然語言表達所發現的結果。

　　2.商業角度的定義
　　數據挖掘是一種新的商業信息處理技術，其主要特點是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理，從中提取輔助商業決策的關鍵性數據。
　　簡而言之，數據挖掘其實是一類深層次的數據分析方法。數據分析本身已經有很多年的歷史，只不過在過去數據收集和分析的目的是用於科學研究，另外，由於當時計算能力的限制，對大數據量進行分析的復雜數據分析方法受到很大限制。現在，由於各行業業務自動化的實現，商業領域產生了大量的業務數據，這些數據不再是爲了分析的目的而收集的，而是由於純機會的（Opportunistic）商業運作而產生。分析這些數據也不再是單純爲了研究的需要，更主要是爲商業決策提供真正有價值的信息，進而獲得利潤。但所有企業面臨的一個共同問題是：企業數據量非常大，而其中真正有價值的信息卻很少，因此從大量的數據中經過深層分析，獲得有利於商業運作、提高競爭力的信息，就像從礦石中淘金一樣，數據挖掘也因此而得名。
　　因此，數據挖掘可以描述爲：按企業既定業務目標，對大量的企業數據進行探索和分析，揭示隱藏的、未知的或驗證已知的規律性，並進一步將其模型化的先進有效的方法。
數據挖掘常用的方法
　　利用數據挖掘進行數據分析常用的方法主要有分類、回歸分析、聚類、關聯規則、特徵、變化和偏差分析、Web頁挖掘等，它們分別從不同的角度對數據進行挖掘。
　　①分類。分類是找出數據庫中一組數據對象的共同特點並按照分類模式將其劃分爲不同的類，其目的是通過分類模型，將數據庫中的數據項映射到某個給定的類別。它可以應用到客戶的分類、客戶的屬性和特徵分析、客戶滿意度分析、客戶的購买趨勢預測等，如一個汽車零售商將客戶按照對汽車的喜好劃分成不同的類，這樣營銷人員就可以將新型汽車的廣告手冊直接郵寄到有這種喜好的客戶手中，從而大大增加了商業機會。
　　②回歸分析。回歸分析方法反映的是事務數據庫中屬性值在時間上的特徵，產生一個將數據項映射到一個實值預測變量的函數，發現變量或屬性間的依賴關系，其主要研究問題包括數據序列的趨勢特徵、數據序列的預測以及數據間的相關關系等。它可以應用到市場營銷的各個方面，如客戶尋求、保持和預防客戶流失活動、產品生命周期分析、銷售趨勢預測及有針對性的促銷活動等。
　　③聚類。聚類分析是把一組數據按照相似性和差異性分爲幾個類別，其目的是使得屬於同一類別的數據間的相似性盡可能大，不同類別中的數據間的相似性盡可能小。它可以應用到客戶羣體的分類、客戶背景分析、客戶購买趨勢預測、市場的細分等。
　　④關聯規則。關聯規則是描述數據庫中數據項之間所存在的關系的規則，即根據一個事務中某些項的出現可導出另一些項在同一事務中也出現，即隱藏在數據間的關聯或相互關系。在客戶關系管理中，通過對企業的客戶數據庫裏的大量數據進行挖掘，可以從大量的記錄中發現有趣的關聯關系，找出影響市場營銷效果的關鍵因素，爲產品定位、定價與定制客戶羣，客戶尋求、細分與保持，市場營銷與推銷，營銷風險評估和詐騙預測等決策支持提供參考依據。
　　⑤特徵。特徵分析是從數據庫中的一組數據中提取出關於這些數據的特徵式，這些特徵式表達了該數據集的總體特徵。如營銷人員通過對客戶流失因素的特徵提取，可以得到導致客戶流失的一系列原因和主要特徵，利用這些特徵可以有效地預防客戶的流失。
　　⑥變化和偏差分析。偏差包括很大一類潛在有趣的知識，如分類中的反常實例，模式的例外，觀察結果對期望的偏差等，其目的是尋找觀察結果與參照量之間有意義的差別。在企業危機管理及其預警中，管理者更感興趣的是那些意外規則。意外規則的挖掘可以應用到各種異常信息的發現、分析、識別、評價和預警等方面。
　　⑦Web頁挖掘。隨着Inter net的迅速發展及Web 的全球普及，使得Web上的信息量無比豐富，通過對Web的挖掘，可以利用Web 的海量數據進行分析，收集政治、經濟、政策、科技、金融、各種市場、競爭對手、供求信息、客戶等有關的信息，集中精力分析和處理那些對企業有重大或潛在重大影響的外部環境信息和內部經營信息，並根據分析結果找出企業管理過程中出現的各種問題和可能引起危機的先兆，對這些信息進行分析和處理，以便識別、分析、評價和管理危機。
數據挖掘的功能
　　數據挖掘通過預測未來趨勢及行爲，做出前攝的、基於知識的決策。數據挖掘的目標是從數據庫中發現隱含的、有意義的知識，主要有以下五類功能。
　　1、自動預測趨勢和行爲
　　數據挖掘自動在大型數據庫中尋找預測性信息，以往需要進行大量手工分析的問題如今可以迅速直接由數據本身得出結論。一個典型的例子是市場預測問題，數據挖掘使用過去有關促銷的數據來尋找未來投資中回報最大的用戶，其它可預測的問題包括預報破產以及認定對指定事件最可能作出反應的羣體。
　　2、關聯分析
　　數據關聯是數據庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之間存在某種規律性，就稱爲關聯。關聯可分爲簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出數據庫中隱藏的關聯網。有時並不知道數據庫中數據的關聯函數，即使知道也是不確定的，因此關聯分析生成的規則帶有可信度。
　　3、聚類
　　數據庫中的記錄可被化分爲一系列有意義的子集，即聚類。聚類增強了人們對客觀現實的認識，是概念描述和偏差分析的先決條件。聚類技術主要包括傳統的模式識別方法和數學分類學。80年代初，Mchalski提出了概念聚類技術牞其要點是，在劃分對象時不僅考慮對象之間的距離，還要求劃分出的類具有某種內涵描述，從而避免了傳統技術的某些片面性。
　　4、概念描述
　　概念描述就是對某類對象的內涵進行描述，並概括這類對象的有關特徵。概念描述分爲特徵性描述和區別性描述，前者描述某類對象的共同特徵，後者描述不同類對象之間的區別。生成一個類的特徵性描述只涉及該類對象中所有對象的共性。生成區別性描述的方法很多，如決策樹方法、遺傳算法等。
　　5、偏差檢測
　　數據庫中的數據常有一些異常記錄，從數據庫中檢測這些偏差很有意義。偏差包括很多潛在的知識，如分類中的反常實例、不滿足規則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是，尋找觀測結果與參照值之間有意義的差別。
數據挖掘常用技術
　　1、人工神經網絡
　　2、決策樹
　　3、遺傳算法
　　4、近鄰算法
　　5、規則推導
數據挖掘的流程
　　1、數據挖掘環境
　　數據挖掘是指一個完整的過程,該過程從大型數據庫中挖掘先前未知的,有效的,可實用的信息,並使用這些信息做出決策或豐富知識.　　數據挖掘環境可示意如下圖:
數據挖掘環境框圖.gif
　　2、數據挖掘過程圖
　　下圖描述了數據挖掘的基本過程和主要步驟
　　
　　數據挖掘的基本過程和主要步驟
　　3、數據挖掘過程工作量
　　在數據挖掘中被研究的業務對象是整個過程的基礎,它驅動了整個數據挖掘過程,也是檢驗最後結果和指引分析人員完成數據挖掘的依據和顧問.圖2各步驟是按一定順序完成的,當然整個過程中還會存在步驟間的反饋.數據挖掘的過程並不是自動的,絕大多數的工作需要人工完成.圖3給出了各步驟在整個過程中的工作量之比.可以看到,60%的時間用在數據準備上,這說明了數據挖掘對數據的嚴格要求,而後挖掘工作僅佔總工作量的10%.
　　
　　圖3數據挖掘過程工作量比例
　　4、數據挖掘過程簡介
　　過程中各步驟的大體內容如下:
　　(1). 確定業務對象
　　清晰地定義出業務問題,認清數據挖掘的目的是數據挖掘的重要一步.挖掘的最後結構是不可預測的,但要探索的問題應是有預見的,爲了數據挖掘而數據挖掘則帶有盲目性,是不會成功的.
　　(2). 數據準備
　　1)、數據的選擇
　　搜索所有與業務對象有關的內部和外部數據信息,並從中選擇出適用於數據挖掘應用的數據.
　　2)、數據的預處理
　　研究數據的質量,爲進一步的分析作準備.並確定將要進行的挖掘操作的類型.
　　3)、數據的轉換
　　將數據轉換成一個分析模型.這個分析模型是針對挖掘算法建立的.建立一個真正適合挖掘算法的分析模型是數據挖掘成功的關鍵.
　　(3). 數據挖掘
　　對所得到的經過轉換的數據進行挖掘.除了完善從選擇合適的挖掘算法外,其余一切工作都能自動地完成.
　　(4). 結果分析
　　解釋並評估結果.其使用的分析方法一般應作數據挖掘操作而定,通常會用到可視化技術.
　　(5). 知識的同化
　　將分析所得到的知識集成到業務信息系統的組織結構中去.
　　5、數據挖掘需要的人員
　　數據挖掘過程的分步實現,不同的步會需要是有不同專長的人員,他們大體可以分爲三類.
　　業務分析人員:要求精通業務,能夠解釋業務對象,並根據各業務對象確定出用於數據定義和挖掘算法的業務需求.
　　數據分析人員:精通數據分析技術,並對統計學有較熟練的掌握,有能力把業務需求轉化爲數據挖掘的各步操作,並爲每步操作選擇合適的技術.
　　數據管理人員:精通數據管理技術,並從數據庫或數據倉庫中收集數據.
　　從上可見,數據挖掘是一個多種專家合作的過程,也是一個在資金上和技術上高投入的過程.這一過程要反復進行牞在反復過程中，不斷地趨近事物的本質，不斷地優先問題的解決方案。數據重組和細分添加和拆分記錄選取數據樣本可視化數據探索聚類分析神經網絡、決策樹數理統計、時間序列結論綜合解釋評價數據知識數據取樣數據探索數據調整模型化評價。
數據挖掘與傳統分析方法的區別
　　數據挖掘與傳統的數據分析(如查詢、報表、聯機應用分析)的本質區別是數據挖掘是在沒有明確假設的前提下去挖掘信息、發現知識.數據挖掘所得到的信息應具有先未知,有效和可實用三個特徵.
　　先前未知的信息是指該信息是預先未曾預料到的,既數據挖掘是要發現那些不能靠直覺發現的信息或知識,甚至是違背直覺的信息或知識,挖掘出的信息越是出乎意料,就可能越有價值.在商業應用中最典型的例子就是一家連鎖店通過數據挖掘發現了小孩尿布和啤酒之間有着驚人的聯系.
數據挖掘和數據倉庫
　　大部分情況下，數據挖掘都要先把數據從數據倉庫中拿到數據挖掘庫或數據集市中（見圖1）。從數據倉庫中直接得到進行數據挖掘的數據有許多好處。就如我們後面會講到的，數據倉庫的數據清理和數據挖掘的數據清理差不多，如果數據在導入數據倉庫時已經清理過，那很可能在做數據挖掘時就沒必要在清理一次了，而且所有的數據不一致的問題都已經被你解決了。
　　
　　數據挖掘庫可能是你的數據倉庫的一個邏輯上的子集，而不一定非得是物理上單獨的數據庫。但如果你的數據倉庫的計算資源已經很緊張，那你最好還是建立一個單獨的數據挖掘庫。
　　當然爲了數據挖掘你也不必非得建立一個數據倉庫，數據倉庫不是必需的。建立一個巨大的數據倉庫，把各個不同源的數據統一在一起，解決所有的數據衝突問題，然後把所有的數據導到一個數據倉庫內，是一項巨大的工程，可能要用幾年的時間花上百萬的錢才能完成。只是爲了數據挖掘，你可以把一個或幾個事務數據庫導到一個只讀的數據庫中，就把它當作數據集市，然後在他上面進行數據挖掘。
　　
數據挖掘和在线分析處理（OLAP）
　　一個經常問的問題是，數據挖掘和OLAP到底有何不同。下面將會解釋，他們是完全不同的工具，基於的技術也大相徑庭。
　　OLAP是決策支持領域的一部分。傳統的查詢和報表工具是告訴你數據庫中都有什么（what happened），OLAP則更進一步告訴你下一步會怎么樣（What next）、和如果我採取這樣的措施又會怎么樣（What if）。用戶首先建立一個假設，然後用OLAP檢索數據庫來驗證這個假設是否正確。比如，一個分析師想找到什么原因導致了貸款拖欠，他可能先做一個初始的假定，認爲低收入的人信用度也低，然後用OLAP來驗證他這個假設。如果這個假設沒有被證實，他可能去察看那些高負債的账戶，如果還不行，他也許要把收入和負債一起考慮，一直進行下去，直到找到他想要的結果或放棄。
　　也就是說，OLAP分析師是建立一系列的假設，然後通過OLAP來證實或推翻這些假設來最終得到自己的結論。OLAP分析過程在本質上是一個演繹推理的過程。但是如果分析的變量達到幾十或上百個，那么再用OLAP手動分析驗證這些假設將是一件非常困難和痛苦的事情。
　　數據挖掘與OLAP不同的地方是，數據挖掘不是用於驗證某個假定的模式（模型）的正確性，而是在數據庫中自己尋找模型。他在本質上是一個歸納的過程。比如，一個用數據挖掘工具的分析師想找到引起貸款拖欠的風險因素。數據挖掘工具可能幫他找到高負債和低收入是引起這個問題的因素，甚至還可能發現一些分析師從來沒有想過或試過的其他因素，比如年齡。
　　數據挖掘和OLAP具有一定的互補性。在利用數據挖掘出來的結論採取行動之前，你也許要驗證一下如果採取這樣的行動會給公司帶來什么樣的影響，那么OLAP工具能回答你的這些問題。
　　而且在知識發現的早期階段，OLAP工具還有其他一些用途。可以幫你探索數據，找到哪些是對一個問題比較重要的變量，發現異常數據和互相影響的變量。這都能幫你更好的理解你的數據，加快知識發現的過程。
數據挖掘，機器學習和統計
　　數據挖掘利用了人工智能（AI）和統計分析的進步所帶來的好處。這兩門學科都致力於模式發現和預測。
　　數據挖掘不是爲了替代傳統的統計分析技術。相反，他是統計分析方法學的延伸和擴展。大多數的統計分析技術都基於完善的數學理論和高超的技巧，預測的準確度還是令人滿意的，但對使用者的要求很高。而隨着計算機計算能力的不斷增強，我們有可能利用計算機強大的計算能力只通過相對簡單和固定的方法完成同樣的功能。
　　一些新興的技術同樣在知識發現領域取得了很好的效果，如神經元網絡和決策樹，在足夠多的數據和計算能力下，他們幾乎不用人的關照自動就能完成許多有價值的功能。
　　數據挖掘就是利用了統計和人工智能技術的應用程序，他把這些高深復雜的技術封裝起來，使人們不用自己掌握這些技術也能完成同樣的功能，並且更專注於自己所要解決的問題。
軟硬件發展對數據挖掘的影響
　　使數據挖掘這件事情成爲可能的關鍵一點是計算機性能價格比的巨大進步。在過去的幾年裏磁盤存儲器的價格幾乎降低了99%，這在很大程度上改變了企業界對數據收集和存儲的態度。如果每兆的價格是￥10，那存放1TB的價格是￥10,000,000，但當每兆的價格降爲1毛錢時，存儲同樣的數據只有￥100,000！
　　計算機計算能力價格的降低同樣非常顯著。每一代芯片的誕生都會把CPU的計算能力提高一大步。內存RAM也同樣降價迅速，幾年之內每兆內存的價格由幾百塊錢降到現在只要幾塊錢。通常PC都有64M內存，工作站達到了256M，擁有上G內存的服務器已經不是什么新鮮事了。
　　在單個CPU計算能力大幅提升的同時，基於多個CPU的並行系統也取得了很大的進步。目前幾乎所有的服務器都支持多個CPU，這些SMP服務器簇甚至能讓成百上千個CPU同時工作。
　　基於並行系統的數據庫管理系統也給數據挖掘技術的應用帶來了便利。如果你有一個龐大而復雜的數據挖掘問題要求通過訪問數據庫取得數據，那么效率最高的辦法就是利用一個本地的並行數據庫。
　　所有這些都爲數據挖掘的實施掃清了道路，隨着時間的延續，我們相信這條道路會越來越平坦。
數據挖掘應用
　　1、數據挖掘解決的典型商業問題
　　需要強調的是，數據挖掘技術從一开始就是面向應用的。目前，在很多領域，數據挖掘(data mining)都是一個很時髦的詞，尤其是在如銀行、電信、保險、交通、零售（如超級市場）等商業領域。數據挖掘所能解決的典型商業問題包括：數據庫營銷（Database Marketing）、客戶羣體劃分（Customer Segmentation & Classification）、背景分析（Profile Analysis）、交叉銷售（Cross-selling）等市場分析行爲，以及客戶流失性分析(Churn Analysis)、客戶信用記分(Credit Scoring)、欺詐發現(Fraud Detection)等等。
　　2、數據挖掘在市場營銷的應用
　　數據挖掘技術在企業市場營銷中得到了比較普遍的應用，它是以市場營銷學的市場細分原理爲基礎，其基本假定是“消費者過去的行爲是其今後消費傾向的最好說明”。
　　通過收集、加工和處理涉及消費者消費行爲的大量信息，確定特定消費羣體或個體的興趣、消費習慣、消費傾向和消費需求，進而推斷出相應消費羣體或個體下一步的消費行爲，然後以此爲基礎，對所識別出來的消費羣體進行特定內容的定向營銷，這與傳統的不區分消費者對象特徵的大規模營銷手段相比，大大節省了營銷成本，提高了營銷效果，從而爲企業帶來更多的利潤。
　　商業消費信息來自市場中的各種渠道。例如，每當我們用信用卡消費時，商業企業就可以在信用卡結算過程收集商業消費信息，記錄下我們進行消費的時間、地點、感興趣的商品或服務、愿意接收的價格水平和支付能力等數據；當我們在申辦信用卡、辦理汽車駕駛執照、填寫商品保修單等其他需要填寫表格的場合時，我們的個人信息就存入了相應的業務數據庫；企業除了自行收集相關業務信息之外，甚至可以從其他公司或機構購买此類信息爲自己所用。
　　這些來自各種渠道的數據信息被組合，應用超級計算機、並行處理、神經元網絡、模型化算法和其他信息處理技術手段進行處理，從中得到商家用於向特定消費羣體或個體進行定向營銷的決策信息。這種數據信息是如何應用的呢？舉一個簡單的例子，當銀行通過對業務數據進行挖掘後，發現一個銀行帳戶持有者突然要求申請雙人聯合帳戶時，並且確認該消費者是第一次申請聯合帳戶，銀行會推斷該用戶可能要結婚了，它就會向該用戶定向推銷用於購买房屋、支付子女學費等長期投資業務，銀行甚至可能將該信息賣給專營婚慶商品和服務的公司。數據挖掘構築競爭優勢。
　　在市場經濟比較發達的國家和地區，許多公司都开始在原有信息系統的基礎上通過數據挖掘對業務信息進行深加工，以構築自己的競爭優勢，擴大自己的營業額。美國運通公司(American Express)有一個用於記錄信用卡業務的數據庫，數據量達到54億字符，並仍在隨着業務進展不斷更新。運通公司通過對這些數據進行挖掘，制定了“關聯結算(Relation ship Billing)優惠”的促銷策略，即如果一個顧客在一個商店用運通卡購买一套時裝，那么在同一個商店再买一雙鞋，就可以得到比較大的折扣，這樣既可以增加商店的銷售量，也可以增加運通卡在該商店的使用率。再如，居住在倫敦的持卡消費者如果最近剛剛乘英國航空公司的航班去過巴黎，那么他可能會得到一個周末前往紐約的機票打折優惠卡。
　　基於數據挖掘的營銷，常常可以向消費者發出與其以前的消費行爲相關的推銷材料。卡夫(Kraft)食品公司建立了一個擁有3000萬客戶資料的數據庫，數據庫是通過收集對公司發出的優惠券等其他促銷手段作出積極反應的客戶和銷售記錄而建立起來的，卡夫公司通過數據挖掘了解特定客戶的興趣和口味，並以此爲基礎向他們發送特定產品的優惠券，並爲他們推薦符合客戶口味和健康狀況的卡夫產品食譜。美國的讀者文摘(Reader's Digest)出版公司運行着一個積累了40年的業務數據庫，其中容納有遍布全球的一億多個訂戶的資料，數據庫每天24小時連續運行，保證數據不斷得到實時的更新，正是基於對客戶資料數據庫進行數據挖掘的優勢，使讀者文摘出版公司能夠從通俗雜志擴展到專業雜志、書刊和聲像制品的出版和發行業務，極大地擴展了自己的業務。
　　基於數據挖掘的營銷對我國當前的市場競爭中也很具有啓發意義，我們經常可以看到繁華商業街上一些廠商對來往行人不分對象地散發大量商品宣傳廣告，其結果是不需要的人隨手丟棄資料，而需要的人並不一定能夠得到。如果搞家電維修服務的公司向在商店中剛剛購买家電的消費者郵寄維修服務廣告，賣特效藥品的廠商向醫院特定門診就醫的病人郵寄廣告，肯定會比漫無目的的營銷效果要好得多。
數據挖掘在企業危機管理中的應用
　　危機管理是管理領域新出現的一個熱點研究領域，它是以市場競爭中危機的出現爲研究起點，分析企業危機產生的原因和過程，研究企業預防危機、應付危機、解決危機的手段和策略，以增強企業的免疫力、應變力和競爭力，使管理者能夠及時準確地獲取所需要的信息，迅速捕捉到企業可能發生危機的一切可能事件和先兆，進而採取有效的規避措施，在危機發生之前對其進行控制，趨利避害，從而使企業能夠適應迅速變化的市場環境，保持長久的競爭優勢。但是由於危機產生的原因復雜，種類繁多，許多因素難以量化，而且危機管理中帶有大量不確定因素的半結構化問題和非結構化問題，很多因素由於沒有歷史數據和相應的統計資料，很難進行科學地計算和評估，因此需要應用其它技術和方法來加強企業的危機管理工作。
　　隨着計算機技術、網絡技術、通訊技術、Inter net 技術的迅速發展和電子商務、辦公自動化、管理信息系統、Inter net 的普及等，企業業務操作流程日益自動化，企業經營過程中產生了大量的數據，這些數據和由此產生的信息是企業的寶貴財富，它如實地記錄着企業經營的本質狀況。但是面對如此大量的數據，傳統的數據分析方法，如數據檢索、統計分析等只能獲得數據的表層信息，不能獲得其內在的、深層次的信息，管理者面臨着數據豐富而知識貧乏的困境。如何從這些數據中挖掘出對企業經營決策有用的知識是非常重要的，數據挖掘便是爲適應這種需要應運而生的。
　　數據挖掘是一種新的信息處理技術，其主要特點是對企業數據庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理，從中提取輔助經營決策的關鍵性數據，它在企業危機管理中得到了比較普遍的應用，具體可以應用到以下幾個方面。
　　 1.利用Web頁挖掘搜集外部環境信息
　　信息是危機管理的關鍵因素。在危機管理過程中，可以利用Web 頁挖掘技術對企業外部環境信息進行收集、整理和分析，盡可能地收集政治、經濟、政策、科技、金融、各種市場、競爭對手、供求信息、消費者等與企業發展有關的信息，集中精力分析處理那些對企業發展有重大或潛在重大影響的外部環境信息，抓住轉瞬即逝的市場機遇，獲得企業危機的先兆信息，採取有效措施規避危機，促使企業健康、持續地發展。
　　 2.利用數據挖掘分析企業經營信息
　　利用數據挖掘技術、數據倉庫技術和聯機分析技術，管理者能夠充分利用企業數據倉庫中的海量數據進行分析，並根據分析結果找出企業經營過程中出現的各種問題和可能引起危機的先兆，如經營不善、觀念滯後、產品失敗、战略決策失誤、財務危機等內部因素引起企業人、財、物、產、供、銷的相對和諧平衡體遭到重大破壞，對企業的生存、發展構成嚴重威脅的信息，及時做出正確的決策，調整經營战略，以適應不斷變化的市場需求。
　　 3.利用數據挖掘識別、分析和預防危機
　　危機管理的精髓在於預防。利用數據挖掘技術對企業經營的各方面的風險、威脅和危險進行識別和分析，如產品質量和責任、環境、健康和人身安全、財務、營銷、自然災害、經營欺詐、人員及計算機故障等，對每一種風險進行分類，並決定如何管理各類風險；準確地預測企業所面臨的各種風險，並對每一種風險、威脅和危險的大小及發生概率進行評價，建立各類風險管理的優先次序，以有限的資源、時間和資金來管理最嚴重的一種或某幾類風險；制定危機管理的策略和方法，擬定危機應急計劃和危機管理隊伍，做好危機預防工作。
　　 4.利用數據挖掘技術改善客戶關系管理
　　客戶滿意度歷來就是衡量一個企業服務質量好壞的重要尺度，特別是當客戶的反饋意見具有廣泛效應的時候更是如此。目前很多企業利用營銷中心、新聞組、 BBS以及呼叫中心等收集客戶的投訴和意見，並對這些投訴和意見進行分析，以發現客戶關系管理中存在的問題，如果有足夠多的客戶都在抱怨同一個問題，管理者就有理由對其展开調查，爲企業及時捕捉到發生危機的一切可能事件和先兆，從而挽救客戶關系，避免經營危機。
　　 5.利用數據挖掘進行信用風險分析和欺詐甄別
　　客戶信用風險分析和欺詐行爲預測對企業的財務安全是非常重要的，使用企業信息系統中數據庫的數據，利用數據挖掘中的變化和偏差分析技術進行客戶信用風險分析和欺詐行爲預測，分析這些風險爲什么會發生？哪些因素會導致這些風險？這些風險主要來自於何處？如何預測到可能發生的風險？採取何種措施減少風險的發生？通過評價這些風險的嚴重性、發生的可能性及控制這些風險的成本，匯總對各種風險的評價結果，進而建立一套信用風險管理的战略和監督體系，設計並完善信用風險管理能力，準確、及時地對各種信用風險進行監視、評價、預警和管理，進而採取有效的規避和監督措施，在信用風險發生之前對其進行預警和控制，趨利避害，做好信用風險的防範工作。
　　6.利用數據挖掘控制危機
　　危機一旦爆發，來勢迅猛，損失嚴重，因此危機發生以後，要採取有力的措施控制危機，管理者可以利用先進的信息技術如基於Web 的挖掘技術、各種搜索引擎工具、E－mail自動處理工具、基於人工智能的信息內容的自動分類、聚類以及基於深層次自然語言理解的知識檢索、問答式知識檢索系統等快速地獲取危機管理所需要的各種信息，以便向客戶、社區、新聞界發布有關的危機管理信息，並在各種媒體尤其是公司的網站上公布企業的詳細風險防御和危機管理計劃，使全體員工能夠及時獲取危機管理信息及危機最新的進展情況。這樣企業的高層管理人員、公關人員、危機管理人員和全體員工就能隨時有準備地應付任何復雜情況和危急形勢的壓力，對出現的危機立即做出反應，使危機的損失降到最低。
　　危機就是危險和機遇，企業的每一次危機既包含了導致失敗的根源，又蕴藏着成功的種子，發現、培育，進而收獲潛在的成功機會，就是危機管理的精髓；而錯誤地估計形勢，並令事態進一步惡化，則是不良危機管理的典型特徵。企業應加強危機管理工作，利用先進的數據挖掘技術加強企業的危機管理工作，以便準確及時地獲取所需要的危機信息，迅速捕捉到企業可能發生危機的一切事件和徵兆，進而採取有效的規避措施，在危機發生之前對其進行控制，趨利避害，從而使企業能夠適應迅速變化的市場環境，保持長久的競爭優勢，實現可持續發展战略。