深入講解數(shù)據(jù)挖掘中的“數(shù)據(jù)歸約技術(shù)”

字號:

一、數(shù)據(jù)歸約基本知識:
    對于小型或中型數(shù)據(jù)集,一般的數(shù)據(jù)預(yù)處理步驟已經(jīng)足夠。但對真正大型數(shù)據(jù)集來講,在應(yīng)用數(shù)據(jù)挖掘技術(shù)以前,更可能采取一個中間的、額外的步驟-數(shù)據(jù)歸約。本步驟中簡化數(shù)據(jù)的主題是維歸約,主要問題是是否可在沒有犧牲成果質(zhì)量的前提下,丟棄這些已準(zhǔn)備和預(yù)處理的數(shù)據(jù),能否在適量的時間和空間里檢查已準(zhǔn)備的數(shù)據(jù)和已建立的子集。
    對數(shù)據(jù)的描述,特征的挑選,歸約或轉(zhuǎn)換是決定數(shù)據(jù)挖掘方案質(zhì)量的最重要問題。在實(shí)踐中,特征的數(shù)量可達(dá)到數(shù)百,如果我們只需要上百條樣本用于分析,就需要進(jìn)行維歸約,以挖掘出可靠的模型;另一方面,高維度引起的數(shù)據(jù)超負(fù),會使一些數(shù)據(jù)挖掘算法不實(shí)用,的方法也就是進(jìn)行維歸約。預(yù)處理數(shù)據(jù)集的3個主要維度通常以平面文件的形式出現(xiàn):列(特征),行(樣本)和特征的值,數(shù)據(jù)歸約過程也就是三個基本操作:刪除列,刪除行,減少列中的值。
    在進(jìn)行數(shù)據(jù)挖掘準(zhǔn)備時進(jìn)行標(biāo)準(zhǔn)數(shù)據(jù)歸約操作,我們需要知道從這些操作中我們會得到和失去什么,全面的比較和分析涉及到如下幾個方面的參數(shù):
    (1)計算時間:較簡單的數(shù)據(jù),即經(jīng)過數(shù)據(jù)歸約后的結(jié)果,可減少數(shù)據(jù)挖掘消耗的時間。
    (2)預(yù)測/描述精度:估量了數(shù)據(jù)歸納和概括為模型的好壞。
    (3)數(shù)據(jù)挖掘模型的描述:簡單的描述通常來自數(shù)據(jù)歸約,這樣模型能得到更好理解。
    數(shù)據(jù)歸約算法特征:
    (1)可測性
    (2)可識別性
    (3)單調(diào)性
    (4)一致性
    (5)收益增減
    (6)中斷性
    (7)優(yōu)先權(quán)
    二、數(shù)據(jù)歸約方法:
    1、特征歸約:
    用相應(yīng)特征檢索數(shù)據(jù)通常不只為數(shù)據(jù)挖掘目的而收集,單獨(dú)處理相關(guān)特征可以更有效,我們希望選擇與數(shù)據(jù)挖掘應(yīng)用相關(guān)的數(shù)據(jù),以達(dá)到用最小的測量和處理量獲得的性能。特征歸約處理的效果:
    (1)更少的數(shù)據(jù),提高挖掘效率
    (2)更高的數(shù)據(jù)挖掘處理精度
    (3)簡單的數(shù)據(jù)挖掘處理結(jié)果
    (4)更少的特征。
    和生成歸約后的特征集有關(guān)的標(biāo)準(zhǔn)任務(wù)有兩個:
    (1)特征選擇:基于應(yīng)用領(lǐng)域的知識和挖掘目標(biāo),分析者可以選擇初始數(shù)據(jù)集中的一個特征子集。特征排列算法,最小子集算法
    (2)特征構(gòu)成:特征構(gòu)成依賴于應(yīng)用知識。
    特征選擇的目標(biāo)是要找出特征的一個子集,此子集在數(shù)據(jù)挖掘的性能上比得上整個特征集。特征選擇的一種可行技術(shù)是基于平均值和方差的比較,此方法的主要缺點(diǎn)是特征的分布未知。方法的近似:
    (1)只對有前景的特征子集進(jìn)行檢查
    (2)用計算簡單的距離度量替換誤差度量
    (3)只根據(jù)大量數(shù)據(jù)的子集選擇特征。
    特征歸約處理期望達(dá)到的效果:
    (1)提高模型生成過程和所得模型本身的性能
    (2)在不降低模型質(zhì)量的情況下減少模型維度
    (3)幫助用戶可視化有更少維數(shù)的可能結(jié)果,改進(jìn)決策。
    2、主成分分析:
    主成分分析是大型數(shù)據(jù)集歸約的一種統(tǒng)計方法。是將以向量樣本表示的初始數(shù)據(jù)集轉(zhuǎn)換為一個新的導(dǎo)出維度的向量樣本集,轉(zhuǎn)換的目標(biāo)是將不同樣本中的信息集中在較小的維度中。
    一個n維向量樣本集X={x1,x2,x3,…,xm},轉(zhuǎn)換為另一個相同維度的集Y={y1,y2,…,ym}
    Y把大部分信息內(nèi)容存在前幾個維中,可以讓我們以低信息損失講數(shù)據(jù)集減小到較小的維度。
    Y=A*X
    3、值歸約:
    特征離散化技術(shù):減少已知特征的離散值數(shù)目,將連續(xù)型特征的值離散化,使之成為少量的區(qū)間,每個區(qū)間映射到一個離散符號。這樣就簡化了數(shù)據(jù)描述并易于理解數(shù)據(jù)和最終數(shù)據(jù)挖掘的結(jié)果。
    (1)分割點(diǎn)選擇
    (2)怎樣選擇區(qū)間描述
    幾種自動離散化技術(shù):
    (1)特征離散化
    ChiMerge算法:
    a.對已知特別數(shù)據(jù)進(jìn)行升序排列
    b.定義初始區(qū)間,使特征的每個值都在一個單獨(dú)的區(qū)間內(nèi)
    c.重復(fù)進(jìn)行直到任何兩個相臨區(qū)間的X2都不小于閾值。
    4、案例歸約:
    初始數(shù)據(jù)集中和最關(guān)鍵的維度數(shù)就是案例或樣本的數(shù)目。在案例規(guī)約之前,我們消除了異常點(diǎn),有時也需要消除有丟失值的樣本。取樣誤差是固有的。
    取樣方法分類:
    (1)普通用途取樣
    a.系統(tǒng)化取樣
    b.隨機(jī)取樣:不回放/回放
    基本形式有增量取樣,平均取樣,
    c.分層取樣
    d.逆取樣
    (2)特殊用途取樣