前言
在大數(shù)據(jù)時代,數(shù)據(jù)的來源有很多,但是我們不能直接拿來就用,我們需要深度挖掘數(shù)據(jù)潛在的價值和意義,下面是我在之前的學(xué)習(xí)中總結(jié)的一些概念和方法,現(xiàn)在分享給大家,供大家參考,如有不全之處,希望大家不吝賜教。
數(shù)據(jù)挖掘的含義
數(shù)據(jù)挖掘(Data mining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機科學(xué)有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標(biāo)。
數(shù)據(jù)挖掘是一種從大量數(shù)據(jù)中發(fā)現(xiàn)信息的過程,其大量依賴自動算法的特質(zhì),使得用戶難以對數(shù)據(jù)和算法過程本身直觀地進行理解、探索和優(yōu)化。近年來,隨著可視化領(lǐng)域的蓬勃發(fā)展,有很多工作開始探究如何使用可視化方法輔助數(shù)據(jù)挖掘過程,使用戶更加直觀地理解數(shù)據(jù),并對數(shù)據(jù)和算法和進行探索。
數(shù)據(jù)挖掘(data mining)又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD),是指從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中挖掘出有趣知識的過程。近年來為了推動數(shù)據(jù)挖掘在實際中的應(yīng)用,許多研究者對數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu)做了大量的研究工作. 一個結(jié)構(gòu)合理的數(shù)據(jù)挖掘系統(tǒng)應(yīng)該具有以下幾個特點:1)系統(tǒng)功能和輔助工具的完備性;2)系統(tǒng)的可擴展性;3)支持多種數(shù)據(jù)源;4)對大數(shù)據(jù)量的處理能力;5)良好的用戶界面和結(jié)果展示能力。當(dāng)前出現(xiàn)的數(shù)據(jù)挖掘系統(tǒng)主要包括集中式的和分布式的數(shù)據(jù)挖掘系統(tǒng),而每種系統(tǒng)的具體結(jié)構(gòu)及其各個組成部分卻有多種不同的實現(xiàn)技術(shù)和實現(xiàn)方式。
數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘是通過仔細(xì)分析大量數(shù)據(jù)來揭示有意義的新的關(guān)系、趨勢和模式的過程+其出現(xiàn)于20世紀(jì)80年代后期,是數(shù)據(jù)庫研究中一個很有應(yīng)用價值的新領(lǐng)域,是一門交叉性學(xué)科,融合了人工智能、數(shù)據(jù)庫技術(shù)、模式識別、機器學(xué)習(xí)、統(tǒng)計學(xué)和數(shù)據(jù)可視化等多個領(lǐng)域的理論和技術(shù)!數(shù)據(jù)挖掘作為一種技術(shù),它的生命周期正處于溝坎(chasm)階段,需要時間和精力去研究、開發(fā)和逐步成熟,并最終為人們所接受。由于數(shù)據(jù)挖掘是數(shù)據(jù)庫中知識發(fā)現(xiàn)(knowledge discovery in databases,KDD)的核心步驟(如圖1所示),發(fā)現(xiàn)了隱藏的模式,所以從模式處理的角度,許多人認(rèn)為兩者是等同的。

數(shù)據(jù)挖掘綜述
數(shù)據(jù)挖掘的任務(wù)就是發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式!其可以發(fā)現(xiàn)的模式一般分為兩大類:描述型(descriptive)模式和預(yù)測型(predictive)模式,描述型模式是對當(dāng)前數(shù)據(jù)中存在的事實做規(guī)范描述,刻畫當(dāng)前數(shù)據(jù)的一般特性;預(yù)測型模式則是以時間為關(guān)鍵參數(shù),對于時間序列型數(shù)據(jù),根據(jù)其歷史和當(dāng)前的值去預(yù)測其未來的值。

聚類分析
聚類分析(Cluster Analysis)是研究“物以類聚”的一種多元統(tǒng)計方法。
聚類(簇):數(shù)據(jù)對象的集合
在同一個聚類(簇)中的對象彼此相似,不同簇中的對象相異。
將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程。聚類是一種沒有指導(dǎo)的學(xué)習(xí):沒有預(yù)定義的編號。
聚類分析的數(shù)據(jù)挖掘功能
作為一個獨立的工具來獲得數(shù)據(jù)分布的情況,作為其他算法(如:特征和分類)的預(yù)處理步驟。
聚類分析的基本思想是認(rèn)為我們所研究的樣本或指標(biāo)(變量)之間存在著程度不同的相似性(親疏關(guān)系)。于是根據(jù)一批樣本的多個觀測指標(biāo),具體找出一些彼此之間相似程度較大的樣本(或指標(biāo))聚合為一類,把另外一些彼此之間相似程度較大的樣本(或指標(biāo))又聚合為另一類,關(guān)系密切的聚合到一個小的分類單位,關(guān)系疏遠(yuǎn)的聚合到一個大的分類單位,直到把所有樣本(或指標(biāo))都聚合完畢,把不同的類型一一劃分出來,形成一個由小到大的分類系統(tǒng)。最后把整個分類系統(tǒng)畫成一張譜系圖,用它把所有樣本(或指標(biāo))間的親疏關(guān)系表示出來。這種方法是最常用的、最基本的一種,稱為系統(tǒng)聚類分析。
歡迎關(guān)注公眾號,訪問更多精彩:數(shù)據(jù)之魅。