人工神經(jīng)網(wǎng)絡(luò)是一種仿照氮吹儀價(jià)格生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu) 而建 立的非 線形 預(yù)測 模型,是數(shù) 據(jù)挖 掘中 比較常用的模型與算法。有關(guān)人工神經(jīng)網(wǎng)絡(luò)的概念、特征、拓?fù)浣Y(jié)構(gòu)以及加權(quán)參數(shù)的確定學(xué) 習(xí)方法,我們已在第九章作了較詳細(xì)的論述。這 里只 是給 出在使 用人 工神經(jīng) 網(wǎng)絡(luò) 時(shí)需 要注 意的幾點(diǎn)事項(xiàng): 第一,神經(jīng)網(wǎng)絡(luò)很難解釋。目前還沒有能對神經(jīng)網(wǎng)絡(luò)做出顯而易見解釋的方法學(xué),因?yàn)? 在數(shù)據(jù)的分析處理方面,神經(jīng)元網(wǎng)絡(luò)和統(tǒng)計(jì) 方法在 本質(zhì) 上有 很多差 別。神經(jīng) 網(wǎng)絡(luò) 的參 數(shù)要 比統(tǒng)計(jì)方法多很多。這么多參數(shù)通過各種各樣的 組合 方式來 影響 輸出 結(jié)果,以至 于很 難對 一個(gè)神經(jīng)網(wǎng)絡(luò)表示的模型做出直觀的解釋。實(shí)際 上神經(jīng) 網(wǎng)絡(luò) 也正 是當(dāng)作“黑盒”來 用的,不 348 第十章 數(shù)據(jù)挖掘與Agent技術(shù) 用去管“盒子”里面是什么,只管用就行了。在大部分情況下,這種限制條件是可以接受的。 第二,神經(jīng)網(wǎng)絡(luò)會學(xué)習(xí)過度。在訓(xùn)練神經(jīng)網(wǎng) 絡(luò)時(shí) 一定 要恰當(dāng) 的使 用一些 能嚴(yán) 格衡 量神 經(jīng)網(wǎng)絡(luò)的方法,如測試集方法和交叉驗(yàn)證法等。這
主要是由于神經(jīng)網(wǎng)絡(luò)太靈活、可變參數(shù)太 多,如果給足夠的時(shí)間,它幾乎可以“記住”任何事情。 第三,除非問題非常簡單,訓(xùn)練一個(gè)神經(jīng) 網(wǎng)絡(luò)可 能需 要相當(dāng) 長的 時(shí)間 才能完 成。當(dāng)然, 一旦神經(jīng)網(wǎng)絡(luò)建立好了,在運(yùn)行它做某些預(yù)測時(shí)速度還是很快的。 第四,建立神經(jīng)網(wǎng)絡(luò)需要做的數(shù)據(jù)準(zhǔn)備 工作量 很大。 有些人 可能 會對神 經(jīng)網(wǎng) 絡(luò)存 在一 些錯(cuò)誤認(rèn)識,認(rèn)為不管用什么數(shù)據(jù),神經(jīng)網(wǎng)絡(luò)都能很好的工作并做出準(zhǔn)確的預(yù)測。這種認(rèn)識 是很不正確的。要想得到準(zhǔn)確度高的模型,必須認(rèn)真地對數(shù)據(jù)進(jìn)行清洗、整理、轉(zhuǎn)換、選擇等 工作,對任何數(shù)據(jù)挖掘技術(shù)都是這樣,神經(jīng)網(wǎng)絡(luò)尤其注重這一點(diǎn)。比如神經(jīng)網(wǎng)絡(luò)要求所有的 輸入變量只能是0~1(或-1~+1)之間的數(shù)值型實(shí)數(shù),因 此,對 文本型 數(shù)據(jù),必須先做 必要 的映射變換處理之后,才能用作為神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)。 2. 決策樹 決策樹是一種展示類似“在什么條件下會 得到 什么 值”這類 規(guī)則 的方法。 比如,在 貸款 申請中,要對申請的風(fēng)險(xiǎn)大小做出判斷,圖10.1 所示
是為 了解決 這個(gè) 問題而 建立 的一 棵決 策樹,從中可以看到?jīng)Q策樹的基本組成部分包括決策節(jié)點(diǎn)、分支和葉子節(jié)點(diǎn)。 圖10.1 一棵簡單的決策樹 決策樹中最上面的節(jié)點(diǎn) 稱為 根 節(jié)點(diǎn),是 整個(gè) 決 策樹 的開 始。本 例中 根節(jié) 點(diǎn) 是“收 入 > ¥40000”,對此問題的不同回答產(chǎn)生了“是”和“否”兩個(gè)分支。決策樹 中每個(gè) 節(jié)點(diǎn)的子 節(jié)點(diǎn) 個(gè)數(shù)與決策樹所用的算法有關(guān)。如 CART 算法得到的決 策樹每 個(gè)節(jié)點(diǎn)有 兩個(gè)分支,這 種樹 稱為二叉樹。允許節(jié)點(diǎn)含有多于兩個(gè)子節(jié)點(diǎn)的樹稱為多叉樹。每個(gè)分支所連接的節(jié)點(diǎn)要么 是一個(gè)新的決策節(jié)點(diǎn),要么是樹的葉子節(jié)點(diǎn)。 數(shù)據(jù)挖掘中決策樹是一種經(jīng)常要用到的技術(shù),可以用于對數(shù)據(jù)進(jìn)行分析,同樣也可以用 來對某些事情進(jìn)行 預(yù)測,比 如銀 行 職 員可 以 應(yīng) 用 決 策樹 預(yù) 測 放 貸 的風(fēng) 險(xiǎn)。 常 用的 算 法 有