C1 | 什么是數(shù)據(jù)挖掘?概念是什么? | 哪些操作屬于數(shù)據(jù)挖掘操作,哪些操作不屬于 數(shù)據(jù):海量、多源異構(gòu) 操作:從大量的數(shù)據(jù)中提取出有趣的(重要、隱含、以前未知、潛在有用)模式或知識(shí)。 數(shù)據(jù)分析與數(shù)據(jù)挖掘有區(qū)別 數(shù)據(jù)挖掘AKA知識(shí)發(fā)現(xiàn)KDD | 數(shù)據(jù)挖掘的流程 | 在數(shù)據(jù)管理的視角下,數(shù)據(jù)挖掘的流程是什么?有哪些環(huán)節(jié)?一定要注意是一個(gè)迭代反饋的過(guò)程 ? 數(shù)據(jù)集成 | 不同數(shù)據(jù)源中描述同一條數(shù)據(jù)對(duì)象《變成一個(gè)比較統(tǒng)一的數(shù)據(jù)信息 | 數(shù)據(jù)清理 | 錯(cuò)誤、異常、冗余、缺失 | 進(jìn)入數(shù)據(jù)倉(cāng)庫(kù) | 按主題存儲(chǔ)數(shù)據(jù) | 選擇、變換 | 把數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)變成與數(shù)據(jù)挖掘任務(wù)相關(guān)的數(shù)據(jù)集 選擇:選擇相關(guān)數(shù)據(jù)、屬性特征 變換:格式可能不滿足算法要求、數(shù)據(jù)量綱;特征轉(zhuǎn)換--相乘相除etc… | 得到和任務(wù)相關(guān)的數(shù)據(jù)集,可供我們使用算法 | | 數(shù)據(jù)挖掘 | 設(shè)計(jì)或選擇合適的模型,用于任務(wù)相關(guān)的數(shù)據(jù)上,得到模式 | 知識(shí)評(píng)估 | 若不滿足,考慮到之前所有步驟--哪個(gè)或哪幾個(gè)步驟不合適 |  反復(fù)試驗(yàn)的過(guò)程 | 數(shù)據(jù)挖掘的任務(wù) | 分類回歸 | 利用歷史記錄預(yù)測(cè)未來(lái)的值--預(yù)測(cè)問(wèn)題 | 聚類 | | 相關(guān)性分析與關(guān)聯(lián)分析-關(guān)聯(lián)規(guī)則挖掘 | | 異常檢測(cè) | | 預(yù)測(cè)性任務(wù) | | 描述性任務(wù) | 關(guān)聯(lián)規(guī)則挖掘-物品之間共線關(guān)系 | | |
C2 | 數(shù)據(jù)集的主要特征 | 維度、分辨率、稀疏性 | 識(shí)別數(shù)據(jù)屬性值中的異常的方法 | 畫(huà)圖【箱線圖】、統(tǒng)計(jì)的3σ原則 | 標(biāo)稱【標(biāo)稱屬性中的二分屬性->對(duì)稱二分與不對(duì)稱二分】、序數(shù)、數(shù)值,如何計(jì)算這些數(shù)據(jù)類型的相似度?如果數(shù)據(jù)的屬性是混合類型的數(shù)據(jù)類型的相似度怎么計(jì)算?【核心】 | 數(shù)據(jù)對(duì)象的相似性度量問(wèn)題【兩個(gè)行的相似性】【屬性之間的相似性是兩個(gè)列】 | 相似性和相異性此漲彼消 | | 標(biāo)稱 |  p為屬性個(gè)數(shù),m是兩個(gè)對(duì)象屬性取值相等的個(gè)數(shù),p-m兩個(gè)對(duì)象取值不相等的個(gè)數(shù) | 二分 需要四個(gè)指標(biāo) ?  非對(duì)稱: 取0的可能性更高:盡管差異性很大但是因?yàn)槿?概率高導(dǎo)致差異性不準(zhǔn) ?   | | 序數(shù) | 取值轉(zhuǎn)換為數(shù)值類型--把級(jí)別從低到高排序; 取值按公式轉(zhuǎn)換 ?  | 數(shù)值 | 用距離衡量 ?  常用距離 閔氏距離 |   曼哈頓距離-出租車距離-沿著街道走走折線--高維 ?  上確界距離 | | 文檔 | 余弦相似度 ?  | 混合類型 |  f:每個(gè)屬性 dij(f):在f屬性上的相異度 前面為權(quán)重 | | 屬性之間的相關(guān)性 | 單相關(guān)和復(fù)相關(guān) | | 正相關(guān)和負(fù)相關(guān) | | 線性相關(guān)和非線性相關(guān) | | 不相關(guān)、完全相關(guān)、不完全相關(guān) | |  畫(huà)散點(diǎn)圖 相關(guān)系數(shù) 線性: 協(xié)方差 |  | 皮爾森相關(guān)系數(shù) |  | 等級(jí) |  | 最大信息系數(shù)MIC:用于度量高維數(shù)據(jù)中屬性變量之間強(qiáng)相關(guān)性 ? | | 屬性和屬性間的計(jì)算屬于相關(guān)性分析--方法 | | |
C3 | 數(shù)據(jù)預(yù)處理主要包括哪些步驟? | 數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)約減 ?  | 簡(jiǎn)述數(shù)據(jù)清理的主要任務(wù)、常用方法、流程 | 處理缺失數(shù)據(jù)、平滑噪聲、識(shí)別或移除異常(屬性值的異常)、解決數(shù)據(jù)不一致的問(wèn)題… ? 常用方法 ? 缺失值 | 刪除; 插補(bǔ) ?  | 異常值 |  | 噪音 |    | 不一致 | 實(shí)體識(shí)別技術(shù) | | | 流程 ?  流程:  右側(cè)是數(shù)據(jù)清理的過(guò)程,首先import data導(dǎo)入數(shù)據(jù),集中相關(guān)數(shù)據(jù),處理缺失值,標(biāo)準(zhǔn)化【max-min這種,目標(biāo)是統(tǒng)一特征維度的量綱】、規(guī)范化【變換后吻合一個(gè)分布zscore】,重復(fù)性檢測(cè)、修正錯(cuò)誤與豐富,導(dǎo)出 | 常用離散化方法有哪些?【看下游任務(wù)】 | 無(wú)監(jiān)督 | | 有監(jiān)督--類標(biāo)簽指導(dǎo)下 | 基于熵的方法 |   不斷離散化 | | | 如何識(shí)別冗余屬性? | 通過(guò)相關(guān)性分析發(fā)現(xiàn)冗余屬性 ?  數(shù)值屬性:相關(guān)系數(shù)、協(xié)方差 標(biāo)稱類型:卡方檢驗(yàn) ?   | 常用的約減方法--前三個(gè)對(duì)數(shù)據(jù)量壓縮,PCA是無(wú)監(jiān)督的降維 | 數(shù)據(jù)量的壓縮 | 有參 | 回歸 |  只保留參數(shù)wb,想生成數(shù)據(jù)集的時(shí)候直接在x上隨機(jī)采樣生成y值 | | | | 無(wú)參 | 聚類 | 對(duì)每個(gè)簇抽樣 | 抽樣 |  有放回、無(wú)放回、分層 | | | 維度壓縮 | 無(wú)監(jiān)督pca | 把原始的屬性描述的特征空間映射為正交矩陣空間,盡可能多的保留原始數(shù)據(jù)信息 消除冗余--維度彼此獨(dú)立 pca通過(guò)做正交矩陣分解,得到主成分,選前k個(gè)重要特征作為新的空間中的特征,把所有數(shù)據(jù)對(duì)象由前k個(gè)特征的線性組合表示 | 屬性子集選擇 | Method1:刪除冗余屬性、刪除不重要的…得到子集 Method2:添加最重要的、次重要的…得到子集 ? | Vs | 屬性選擇得到的特征有具體含義,PCA沒(méi)有【黑箱】-可能可以得到非常好的特征提取但是可解釋性差 | ? | | |
olap | 數(shù)倉(cāng)的基本架構(gòu) | | 簡(jiǎn)述數(shù)倉(cāng)的數(shù)據(jù)模型及各模型特點(diǎn) | | 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)的區(qū)別 | | |
關(guān)聯(lián)規(guī)則挖掘 | 方法與評(píng)估指標(biāo) ? | | | | ?兩階段 | 頻繁項(xiàng)集的產(chǎn)生--關(guān)聯(lián)規(guī)則的產(chǎn)生 | 頻繁項(xiàng)集的實(shí)現(xiàn) | 用了性質(zhì)縮小頻繁項(xiàng)集的空間 | 關(guān)聯(lián)規(guī)則挖掘的內(nèi)容 | | 評(píng)估指標(biāo)--常用支持度和置信度,并不一定是一個(gè)有意義的關(guān)聯(lián)規(guī)則, | 提升度 | |
聚類 | 聚類和分類的區(qū)別 | | kmeans和DBSCAN的原理和流程和優(yōu)缺點(diǎn)特點(diǎn),對(duì)kmeans的缺點(diǎn)有哪些辦法可以解決 | k值需要確定 |  設(shè)置不同k值求sse,考慮拐點(diǎn)附近的k值 | 初始聚類中心的選擇 |  第一個(gè)隨機(jī)選,下一個(gè)選離當(dāng)前選擇的最遠(yuǎn)的 | 對(duì)噪聲點(diǎn)和異常敏感【因?yàn)榫得舾小?/p> | 使用k-medoids用真實(shí)數(shù)據(jù)對(duì)象作為中心-復(fù)雜度高-由簇中的數(shù)據(jù)對(duì)象替代;用k中位數(shù) | 球形簇【基于距離】 | | 空簇 | 選sse貢獻(xiàn)最大的點(diǎn)作為簇中心,從簇中選一個(gè)對(duì)sse貢獻(xiàn)最大的點(diǎn), ?  |  | 尺寸:  密度: ? 
非凸: ?  解決: ?  k取較大值分為多個(gè)小簇再合并 |  縱軸:第k個(gè)最近鄰距離的變化范圍 橫軸:數(shù)據(jù)對(duì)象按最近鄰距離編碼 大部分?jǐn)?shù)據(jù)對(duì)象的第k個(gè)最近鄰的變化變化幅度不大,拐點(diǎn)飆升-異常點(diǎn),當(dāng)k取大,距離大 由此判斷k | 聚類的評(píng)估指標(biāo)--有監(jiān)督【和分類一樣】和無(wú)監(jiān)督【規(guī)范化的互信息與輪廓系數(shù)】 |  標(biāo)準(zhǔn)化的互信息-Y是聚類標(biāo)簽,C是真實(shí)標(biāo)簽-I(Y,C)互信息=H(C )-H(Y|C)yc依賴性越高越好  | |
分類 | roc怎么畫(huà) |  tpr是召回率 ?  | 評(píng)估指標(biāo)--精度召回率fscore |  | 決策樹(shù)、貝葉斯、集成 |    貝葉斯:易于實(shí)現(xiàn),結(jié)果比較好,魯棒的 有可能有依賴
集成 ?  對(duì)于不穩(wěn)定的分類器才有提升效果 | 評(píng)估框架--bootstrap cosostation??交叉驗(yàn)證的bootstrap |  二分類問(wèn)題  正事例 ?  | |
異常 | 異常的類型 | | 異常的方法 | | 基于統(tǒng)計(jì)、距離、密度、 | | |