當(dāng)前位置：首頁(yè) > news >正文

如果想看網(wǎng)站的收費(fèi)電影應(yīng)該怎么做惠州關(guān)鍵詞排名提升

news 2025/7/4 21:44:53

如果想看網(wǎng)站的收費(fèi)電影應(yīng)該怎么做,惠州關(guān)鍵詞排名提升,免費(fèi)推廣網(wǎng)站入口2020,專門做財(cái)經(jīng)的網(wǎng)站更加詳細(xì)的只找得到pdf版本填空10分判斷并改錯(cuò)10分計(jì)算8分綜合20分客觀題填空10分判斷并改錯(cuò)10分--錯(cuò)的要改 mooc中的--尤其考試題名詞解釋12分 4個(gè)，每個(gè)3分經(jīng)常碰到的專業(yè)術(shù)語(yǔ) 簡(jiǎn)答題40分 5個(gè)，每道8分綜合畫(huà)roc曲線 …

更加詳細(xì)的只找得到pdf版本?

填空10分
判斷并改錯(cuò)10分
計(jì)算8分
綜合20分

客觀題
填空10分判斷并改錯(cuò)10分--錯(cuò)的要改	mooc中的--尤其考試題
?

名詞解釋12分

4個(gè)，每個(gè)3分

經(jīng)常碰到的專業(yè)術(shù)語(yǔ)

簡(jiǎn)答題40分

5個(gè)，每道8分

綜合

畫(huà)roc曲線
類似于和計(jì)算相關(guān)的題目

什么是數(shù)據(jù)挖掘？概念是什么？

哪些操作屬于數(shù)據(jù)挖掘操作，哪些操作不屬于
數(shù)據(jù)：海量、多源異構(gòu)

操作：從大量的數(shù)據(jù)中提取出有趣的（重要、隱含、以前未知、潛在有用）模式或知識(shí)。

數(shù)據(jù)分析與數(shù)據(jù)挖掘有區(qū)別
數(shù)據(jù)挖掘AKA知識(shí)發(fā)現(xiàn)KDD

數(shù)據(jù)挖掘的流程

在數(shù)據(jù)管理的視角下，數(shù)據(jù)挖掘的流程是什么？有哪些環(huán)節(jié)？一定要注意是一個(gè)迭代反饋的過(guò)程
?

數(shù)據(jù)集成	不同數(shù)據(jù)源中描述同一條數(shù)據(jù)對(duì)象《變成一個(gè)比較統(tǒng)一的數(shù)據(jù)信息
數(shù)據(jù)清理	錯(cuò)誤、異常、冗余、缺失
進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)	按主題存儲(chǔ)數(shù)據(jù)
選擇、變換	把數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)變成與數(shù)據(jù)挖掘任務(wù)相關(guān)的數(shù)據(jù)集選擇：選擇相關(guān)數(shù)據(jù)、屬性特征變換：格式可能不滿足算法要求、數(shù)據(jù)量綱；特征轉(zhuǎn)換--相乘相除etc…
得到和任務(wù)相關(guān)的數(shù)據(jù)集，可供我們使用算法
數(shù)據(jù)挖掘	設(shè)計(jì)或選擇合適的模型，用于任務(wù)相關(guān)的數(shù)據(jù)上，得到模式
知識(shí)評(píng)估	若不滿足，考慮到之前所有步驟--哪個(gè)或哪幾個(gè)步驟不合適

反復(fù)試驗(yàn)的過(guò)程

數(shù)據(jù)挖掘的任務(wù)

分類回歸	利用歷史記錄預(yù)測(cè)未來(lái)的值--預(yù)測(cè)問(wèn)題
聚類
相關(guān)性分析與關(guān)聯(lián)分析-關(guān)聯(lián)規(guī)則挖掘
異常檢測(cè)

預(yù)測(cè)性任務(wù)
描述性任務(wù)	關(guān)聯(lián)規(guī)則挖掘-物品之間共線關(guān)系

數(shù)據(jù)集的主要特征

維度、分辨率、稀疏性

識(shí)別數(shù)據(jù)屬性值中的異常的方法

畫(huà)圖【箱線圖】、統(tǒng)計(jì)的3σ原則

標(biāo)稱【標(biāo)稱屬性中的二分屬性->對(duì)稱二分與不對(duì)稱二分】、序數(shù)、數(shù)值，如何計(jì)算這些數(shù)據(jù)類型的相似度？如果數(shù)據(jù)的屬性是混合類型的數(shù)據(jù)類型的相似度怎么計(jì)算？【核心】

數(shù)據(jù)對(duì)象的相似性度量問(wèn)題【兩個(gè)行的相似性】【屬性之間的相似性是兩個(gè)列】

相似性和相異性此漲彼消

標(biāo)稱

p為屬性個(gè)數(shù)，m是兩個(gè)對(duì)象屬性取值相等的個(gè)數(shù)，p-m兩個(gè)對(duì)象取值不相等的個(gè)數(shù)

二分
需要四個(gè)指標(biāo)
?

非對(duì)稱：
取0的可能性更高：盡管差異性很大但是因?yàn)槿?概率高導(dǎo)致差異性不準(zhǔn)
?

序數(shù)

取值轉(zhuǎn)換為數(shù)值類型--把級(jí)別從低到高排序；
取值按公式轉(zhuǎn)換
?

數(shù)值

用距離衡量
?

常用距離

閔氏距離	曼哈頓距離-出租車距離-沿著街道走走折線--高維 ? 上確界距離

文檔

余弦相似度
?

混合類型

f:每個(gè)屬性
dij(f):在f屬性上的相異度
前面為權(quán)重

屬性之間的相關(guān)性

單相關(guān)和復(fù)相關(guān)
正相關(guān)和負(fù)相關(guān)
線性相關(guān)和非線性相關(guān)
不相關(guān)、完全相關(guān)、不完全相關(guān)

畫(huà)散點(diǎn)圖
相關(guān)系數(shù)

線性：

協(xié)方差

皮爾森相關(guān)系數(shù)

等級(jí)

最大信息系數(shù)MIC：用于度量高維數(shù)據(jù)中屬性變量之間強(qiáng)相關(guān)性
?

屬性和屬性間的計(jì)算屬于相關(guān)性分析--方法

數(shù)據(jù)預(yù)處理主要包括哪些步驟？

數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)約減
?

簡(jiǎn)述數(shù)據(jù)清理的主要任務(wù)、常用方法、流程

處理缺失數(shù)據(jù)、平滑噪聲、識(shí)別或移除異常（屬性值的異常）、解決數(shù)據(jù)不一致的問(wèn)題…
?

常用方法
?

缺失值	刪除；插補(bǔ) ?
異常值
噪音
不一致	實(shí)體識(shí)別技術(shù)

流程
?

流程：

右側(cè)是數(shù)據(jù)清理的過(guò)程，首先import data導(dǎo)入數(shù)據(jù)，集中相關(guān)數(shù)據(jù)，處理缺失值，標(biāo)準(zhǔn)化【max-min這種，目標(biāo)是統(tǒng)一特征維度的量綱】、規(guī)范化【變換后吻合一個(gè)分布zscore】，重復(fù)性檢測(cè)、修正錯(cuò)誤與豐富，導(dǎo)出

常用離散化方法有哪些？【看下游任務(wù)】

無(wú)監(jiān)督

分箱
直方圖
聚類（k-means）

有監(jiān)督--類標(biāo)簽指導(dǎo)下

基于熵的方法

不斷離散化

如何識(shí)別冗余屬性？

通過(guò)相關(guān)性分析發(fā)現(xiàn)冗余屬性
?

數(shù)值屬性：相關(guān)系數(shù)、協(xié)方差
標(biāo)稱類型：卡方檢驗(yàn)
?

常用的約減方法--前三個(gè)對(duì)數(shù)據(jù)量壓縮，PCA是無(wú)監(jiān)督的降維

回歸
聚類
抽樣
PCA

數(shù)據(jù)量的壓縮

有參

回歸

只保留參數(shù)wb，想生成數(shù)據(jù)集的時(shí)候直接在x上隨機(jī)采樣生成y值

無(wú)參

聚類

對(duì)每個(gè)簇抽樣

抽樣

有放回、無(wú)放回、分層

維度壓縮

無(wú)監(jiān)督pca	把原始的屬性描述的特征空間映射為正交矩陣空間，盡可能多的保留原始數(shù)據(jù)信息消除冗余--維度彼此獨(dú)立 pca通過(guò)做正交矩陣分解，得到主成分，選前k個(gè)重要特征作為新的空間中的特征，把所有數(shù)據(jù)對(duì)象由前k個(gè)特征的線性組合表示
屬性子集選擇	Method1:刪除冗余屬性、刪除不重要的…得到子集 Method2:添加最重要的、次重要的…得到子集 ?
Vs	屬性選擇得到的特征有具體含義，PCA沒(méi)有【黑箱】-可能可以得到非常好的特征提取但是可解釋性差

olap

數(shù)倉(cāng)的基本架構(gòu)
簡(jiǎn)述數(shù)倉(cāng)的數(shù)據(jù)模型及各模型特點(diǎn)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)的區(qū)別

關(guān)聯(lián)規(guī)則挖掘

方法與評(píng)估指標(biāo) ?

?兩階段	頻繁項(xiàng)集的產(chǎn)生--關(guān)聯(lián)規(guī)則的產(chǎn)生
頻繁項(xiàng)集的實(shí)現(xiàn)	用了性質(zhì)縮小頻繁項(xiàng)集的空間
關(guān)聯(lián)規(guī)則挖掘的內(nèi)容
評(píng)估指標(biāo)--常用支持度和置信度，并不一定是一個(gè)有意義的關(guān)聯(lián)規(guī)則，	提升度

聚類

聚類和分類的區(qū)別

kmeans和DBSCAN的原理和流程和優(yōu)缺點(diǎn)特點(diǎn)，對(duì)kmeans的缺點(diǎn)有哪些辦法可以解決

k值需要確定	設(shè)置不同k值求sse，考慮拐點(diǎn)附近的k值
初始聚類中心的選擇	第一個(gè)隨機(jī)選，下一個(gè)選離當(dāng)前選擇的最遠(yuǎn)的
對(duì)噪聲點(diǎn)和異常敏感【因?yàn)榫得舾小?/p>	使用k-medoids用真實(shí)數(shù)據(jù)對(duì)象作為中心-復(fù)雜度高-由簇中的數(shù)據(jù)對(duì)象替代；用k中位數(shù)
球形簇【基于距離】
空簇	選sse貢獻(xiàn)最大的點(diǎn)作為簇中心，從簇中選一個(gè)對(duì)sse貢獻(xiàn)最大的點(diǎn)， ?
	尺寸：密度： ? 非凸： ? 解決： ? k取較大值分為多個(gè)小簇再合并

縱軸：第k個(gè)最近鄰距離的變化范圍
橫軸：數(shù)據(jù)對(duì)象按最近鄰距離編碼
大部分?jǐn)?shù)據(jù)對(duì)象的第k個(gè)最近鄰的變化變化幅度不大，拐點(diǎn)飆升-異常點(diǎn)，當(dāng)k取大，距離大
由此判斷k

聚類的評(píng)估指標(biāo)--有監(jiān)督【和分類一樣】和無(wú)監(jiān)督【規(guī)范化的互信息與輪廓系數(shù)】

標(biāo)準(zhǔn)化的互信息-Y是聚類標(biāo)簽，C是真實(shí)標(biāo)簽-I(Y,C)互信息=H(C )-H(Y|C)yc依賴性越高越好

分類

roc怎么畫(huà)	tpr是召回率 ?
評(píng)估指標(biāo)--精度召回率fscore
決策樹(shù)、貝葉斯、集成	貝葉斯：易于實(shí)現(xiàn)，結(jié)果比較好，魯棒的有可能有依賴集成 ? 對(duì)于不穩(wěn)定的分類器才有提升效果
評(píng)估框架--bootstrap cosostation？？交叉驗(yàn)證的bootstrap	二分類問(wèn)題正事例 ?

異常

異常的類型
異常的方法
基于統(tǒng)計(jì)、距離、密度、

查看全文

http://aloenet.com.cn/news/38623.html

国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

如果想看網(wǎng)站的收費(fèi)電影應(yīng)該怎么做惠州關(guān)鍵詞排名提升

相關(guān)文章：