做壞事小視頻網站企業(yè)培訓計劃
場景:假設給你一篇文章。
目標:說白了,就是數學的分類。但是如何實現分類呢。下面將逐步一 一 分析與拆解。先把目標定好了和整體框架定好了。而不是只見樹木而不見森林。
情感分類(好評、差評,中性)
整體框架:
中文分詞:
常見的中文分詞方法:
1、基于詞典的方法:
- 正向最大匹配法:從左到右依次取詞,與詞典進行匹配,找到最長匹配的詞。
- 逆向最大匹配法:從右到左依次取詞,與詞典進行匹配。
2、基于統(tǒng)計的方法:
- 隱馬爾可夫模型(HMM):通過統(tǒng)計詞與詞之間的出現頻率和上下文關系來進行分詞。
- 條件隨機場(CRF):考慮了更復雜的特征和上下文信息。
3、基于機器學習的方法:
- 支持向量機(SVM):將文本轉化為特征向量,通過訓練分類器來進行分詞。
- NB模型、隨機森林模型
4. 基于深度學習的分詞方法(也更先進):近年來,深度學習在NLP領域取得了顯著進展,基于深度學習的分詞方法也逐漸成為研究熱點。這些方法通過神經網絡模型(如循環(huán)神經網絡RNN、長短期記憶網絡LSTM、Transformer等)學習漢字的上下文信息,進而實現分詞。
- 神經網絡方法:如循環(huán)神經網絡(RNN)、長短時記憶網絡(LSTM)、卷積神經網絡(CNN)等,能夠自動學習文本的特征和模式。