国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

當(dāng)前位置: 首頁(yè) > news >正文

最新網(wǎng)站源碼營(yíng)銷網(wǎng)站建設(shè)方案

最新網(wǎng)站源碼,營(yíng)銷網(wǎng)站建設(shè)方案,北湖區(qū)網(wǎng)站建設(shè)公司哪家好,天津城市建設(shè)網(wǎng)站. # 📑前言 本文主要是SpringBoot進(jìn)行自然語(yǔ)言處理,利用Hanlp進(jìn)行文本情感分析,如果有什么需要改進(jìn)的地方還請(qǐng)大佬指出?? 🎬作者簡(jiǎn)介:大家好,我是青衿🥇 ??博客首頁(yè):CSDN主頁(yè)放風(fēng)…

. # 📑前言
本文主要是SpringBoot進(jìn)行自然語(yǔ)言處理,利用Hanlp進(jìn)行文本情感分析,如果有什么需要改進(jìn)的地方還請(qǐng)大佬指出??

🎬作者簡(jiǎn)介:大家好,我是青衿🥇
??博客首頁(yè):CSDN主頁(yè)放風(fēng)講故事
🌄每日一句:努力一點(diǎn),優(yōu)秀一點(diǎn)

在這里插入圖片描述

目錄

文章目錄

  • **目錄**
  • 一、說明
  • 二、自然語(yǔ)言處理簡(jiǎn)介
  • 三、Hanlp文本分類與情感分析基本概念
    • 語(yǔ)料庫(kù)
    • 用Map描述
    • 用文件夾描述
    • 數(shù)據(jù)集實(shí)現(xiàn)
    • 訓(xùn)練
    • 分詞
    • 特征提取
    • 調(diào)參調(diào)參
    • 訓(xùn)練
    • 模型
    • 分類
    • 情感分析
  • 四、具體流程
    • 特征提取
    • 訓(xùn)練
    • 測(cè)試結(jié)果
  • 📑文章末尾


一、說明

自然語(yǔ)言處理已經(jīng)進(jìn)入大模型時(shí)代,然而從業(yè)人員必須了解整個(gè)知識(shí)體系、發(fā)展過程、知識(shí)結(jié)構(gòu),應(yīng)用范圍等一系列知識(shí)。本篇將報(bào)道此類概況。

二、自然語(yǔ)言處理簡(jiǎn)介

自然語(yǔ)言處理,或簡(jiǎn)稱NLP,是處理和轉(zhuǎn)換文本的計(jì)算機(jī)科學(xué)學(xué)科。它由幾個(gè)任務(wù)組成,這些任務(wù)從標(biāo)記化開始,將文本分成單獨(dú)的意義單位,應(yīng)用句法和語(yǔ)義分析來生成抽象的知識(shí)表示,然后再次將該表示轉(zhuǎn)換為文本,用于翻譯、問答或?qū)υ挼饶康摹?br /> 在這里插入圖片描述

三、Hanlp文本分類與情感分析基本概念

語(yǔ)料庫(kù)

本文語(yǔ)料庫(kù)特指文本分類語(yǔ)料庫(kù),對(duì)應(yīng)IDataSet接口。而文本分類語(yǔ)料庫(kù)包含兩個(gè)概念:文檔和類目。一個(gè)文檔只屬于一個(gè)類目,一個(gè)類目可能含有多個(gè)文檔。

用Map描述

這種關(guān)系可以用Java的Map<String, String[]>來描述,其key代表類目,value代表該類目下的所有文檔。用戶可以利用自己的文本讀取模塊構(gòu)造一個(gè)Map<String, String[]>形式的中間語(yǔ)料庫(kù),然后利用IDataSet#add(java.util.Map<java.lang.String,java.lang.String[]>)接口將其加入到訓(xùn)練語(yǔ)料庫(kù)中。

用文件夾描述

這種樹形結(jié)構(gòu)也很適合用文件夾描述,即:

/*** 加載數(shù)據(jù)集** @param folderPath  分類語(yǔ)料的根目錄.目錄必須滿足如下結(jié)構(gòu):<br>*                    根目錄<br>*                    ├── 分類A<br>*                    │   └── 1.txt<br>*                    │   └── 2.txt<br>*                    │   └── 3.txt<br>*                    ├── 分類B<br>*                    │   └── 1.txt<br>*                    │   └── ...<br>*                    └── ...<br>*

每個(gè)分類里面都是一些文本文檔。任何滿足此格式的語(yǔ)料庫(kù)都可以直接加載。

數(shù)據(jù)集實(shí)現(xiàn)

考慮到大規(guī)模訓(xùn)練的時(shí)候,文本數(shù)量達(dá)到千萬級(jí),無法全部加載到內(nèi)存中,所以本系統(tǒng)實(shí)現(xiàn)了基于文件系統(tǒng)的FileDataSet。同時(shí),在服務(wù)器資源許可的情況下,可以使用基于內(nèi)存的MemoryDataSet,提高加載速度。兩者的繼承關(guān)系如下:

訓(xùn)練

訓(xùn)練指的是,利用給定訓(xùn)練集尋找一個(gè)能描述這種語(yǔ)言現(xiàn)象的模型的過程。開發(fā)者只需調(diào)用train接口即可,但在實(shí)現(xiàn)中,有許多細(xì)節(jié)。

分詞

目前,本系統(tǒng)中的分詞器接口一共有兩種實(shí)現(xiàn):

但文本分類是否一定需要分詞?答案是否定的。 ? 我們可以順序選取文中相鄰的兩個(gè)字,作為一個(gè)“詞”(術(shù)語(yǔ)叫bigram)。這兩個(gè)字在數(shù)量很多的時(shí)候可以反映文章的主題(參考清華大學(xué)2016年的一篇論文《Zhipeng Guo, Yu Zhao, Yabin Zheng, Xiance Si, Zhiyuan Liu, Maosong Sun. THUCTC: An Efficient Chinese Text Classifier. 2016》)。這在代碼中對(duì)應(yīng)BigramTokenizer. ? 當(dāng)然,也可以采用傳統(tǒng)的分詞器,如HanLPTokenizer。 ? 另外,用戶也可以通過實(shí)現(xiàn)ITokenizer來實(shí)現(xiàn)自己的分詞器,并通過IDataSet#setTokenizer來使其生效。

特征提取

特征提取指的是從所有詞中,選取最有助于分類決策的詞語(yǔ)。理想狀態(tài)下所有詞語(yǔ)都有助于分類決策,但現(xiàn)實(shí)情況是,如果將所有詞語(yǔ)都納入計(jì)算,則訓(xùn)練速度將非常慢,內(nèi)存開銷非常大且最終模型的體積非常大。
本系統(tǒng)采取的是卡方檢測(cè),通過卡方檢測(cè)去掉卡方值低于一個(gè)閾值的特征,并且限定最終特征數(shù)不超過100萬。

調(diào)參調(diào)參

對(duì)于貝葉斯模型,沒有超參數(shù)需要調(diào)節(jié)。

訓(xùn)練

本系統(tǒng)實(shí)現(xiàn)的訓(xùn)練算法是樸素貝葉斯法,無需用戶關(guān)心內(nèi)部細(xì)節(jié)。另有一個(gè)子項(xiàng)目實(shí)現(xiàn)了支持向量機(jī)文本分類器,可供參考。由于依賴了第三方庫(kù),所以沒有集成在本項(xiàng)目中。

模型

訓(xùn)練之后,我們就得到了一個(gè)模型,可以通過IClassifier#getModel獲取到模型的引用。該接口返回一個(gè)AbstractModel對(duì)象,該對(duì)象實(shí)現(xiàn)了Serializable接口,可以序列化到任何地方以供部署。 ? 反序列化后的模型可以通過如下方式加載并構(gòu)造分類器: ?

NaiveBayesModel model = (NaiveBayesModel) IOUtil.readObjectFrom(MODEL_PATH);
NaiveBayesClassifier naiveBayesClassifier = new NaiveBayesClassifier(model); 

分類

通過加載模型,我們可以得到一個(gè)分類器,利用該分類器,我們就可以進(jìn)行文本分類了。

IClassifier classifier = new NaiveBayesClassifier(model); 

目前分類器接口中與文本分類有關(guān)的接口有如下三種: ?

/*** 預(yù)測(cè)分類** @param text 文本* @return 所有分類對(duì)應(yīng)的分值(或概率, 需要enableProbability)* @throws IllegalArgumentException 參數(shù)錯(cuò)誤* @throws IllegalStateException    未訓(xùn)練模型*/
Map<String, Double> predict(String text) throws IllegalArgumentException, IllegalStateException;/*** 預(yù)測(cè)分類* @param document* @return*/
Map<String, Double> predict(Document document) throws IllegalArgumentException, IllegalStateException;/*** 預(yù)測(cè)分類* @param document* @return* @throws IllegalArgumentException* @throws IllegalStateException*/
double[] categorize(Document document) throws IllegalArgumentException, IllegalStateException;/*** 預(yù)測(cè)最可能的分類* @param document* @return* @throws IllegalArgumentException* @throws IllegalStateException*/
int label(Document document) throws IllegalArgumentException, IllegalStateException;/*** 預(yù)測(cè)最可能的分類* @param text 文本* @return 最可能的分類* @throws IllegalArgumentException* @throws IllegalStateException*/
String classify(String text) throws IllegalArgumentException, IllegalStateException;/*** 預(yù)測(cè)最可能的分類* @param document 一個(gè)結(jié)構(gòu)化的文檔(注意!這是一個(gè)底層數(shù)據(jù)結(jié)構(gòu),請(qǐng)謹(jǐn)慎操作)* @return 最可能的分類* @throws IllegalArgumentException* @throws IllegalStateException*/
String classify(Document document) throws IllegalArgumentException, IllegalStateException; 

classify方法直接返回最可能的類別的String形式,而predict方法返回所有類別的得分(是一個(gè)Map形式,鍵是類目,值是分?jǐn)?shù)或概率),categorize方法返回所有類目的得分(是一個(gè)double數(shù)組,分類得分按照分類名稱的字典序排列),label方法返回最可能類目的字典序。

情感分析

可以利用文本分類在情感極性語(yǔ)料上訓(xùn)練的模型做淺層情感分析。目前公開的情感分析語(yǔ)料庫(kù)有:中文情感挖掘語(yǔ)料-ChnSentiCorp,語(yǔ)料發(fā)布者為譚松波。

接口與文本分類完全一致,請(qǐng)參考com.hankcs.demo.DemoSentimentAnalysis

四、具體流程

特征提取

本系統(tǒng)采取的是卡方檢測(cè),通過卡方檢測(cè)去掉卡方值低于一個(gè)閾值的特征,并且限定最終特征數(shù)不超過100萬。

在這里插入圖片描述

在這里插入圖片描述

訓(xùn)練

在這里插入圖片描述

測(cè)試結(jié)果

在這里插入圖片描述
HanLP Github地址:https://github.com/hankcs/HanLP

HanLP文檔地址:https://hanlp.hankcs.com/docs/api/hanlp/pretrained/index.html

📑文章末尾

在這里插入圖片描述

http://aloenet.com.cn/news/28508.html

相關(guān)文章:

  • 武漢市網(wǎng)站制作寧波seo推廣咨詢
  • 網(wǎng)站制作要多少錢線上營(yíng)銷工具
  • 有域名自己做網(wǎng)站嗎網(wǎng)絡(luò)推廣長(zhǎng)沙網(wǎng)絡(luò)推廣
  • 各省備案網(wǎng)站怎么用模板做網(wǎng)站
  • 手機(jī)網(wǎng)站制作代理公關(guān)公司排名
  • 廣州官網(wǎng)建設(shè)seo搜索優(yōu)化是什么意思
  • 知識(shí)付費(fèi)網(wǎng)站開發(fā)教程百度搜索提交入口
  • 做網(wǎng)站鏈接容易嗎百度手機(jī)瀏覽器下載
  • 網(wǎng)頁(yè)設(shè)計(jì)心得體會(huì)報(bào)告怎么寫怎么理解搜索引擎優(yōu)化
  • 網(wǎng)站制作價(jià)格與售后視頻網(wǎng)站seo怎么做
  • 嘉興做網(wǎng)站建設(shè)的公司哪家好長(zhǎng)沙的seo網(wǎng)絡(luò)公司
  • 新鄉(xiāng)專業(yè)做淘寶網(wǎng)站蘇州seo整站優(yōu)化
  • 網(wǎng)站開發(fā)學(xué)習(xí)網(wǎng)站網(wǎng)站頁(yè)面禁止訪問
  • 廣州短視頻制作公司seo網(wǎng)頁(yè)優(yōu)化服務(wù)
  • 網(wǎng)站ui設(shè)計(jì)要點(diǎn)百度平臺(tái)營(yíng)銷
  • 上海市建設(shè)安裝協(xié)會(huì)網(wǎng)站如何在百度發(fā)布廣告信息
  • logo智能設(shè)計(jì)一鍵生成器無憂seo博客
  • 西安電腦網(wǎng)站建設(shè)aso推廣平臺(tái)
  • 對(duì)網(wǎng)站設(shè)計(jì)的建議網(wǎng)絡(luò)推廣渠道和方式
  • 懷化做網(wǎng)站的公司怎么做關(guān)鍵詞排名靠前
  • 模擬網(wǎng)站建設(shè)對(duì)網(wǎng)絡(luò)營(yíng)銷的認(rèn)識(shí)
  • 網(wǎng)站url改版線下營(yíng)銷方式主要有哪些
  • 做那種網(wǎng)站賺錢廣州代運(yùn)營(yíng)公司有哪些
  • 做視頻網(wǎng)站 視頻放在哪里西安網(wǎng)頁(yè)設(shè)計(jì)
  • 不準(zhǔn)別人網(wǎng)站做反鏈好網(wǎng)站制作公司
  • 織夢(mèng)網(wǎng)站如何做地區(qū)分站青島seo整站優(yōu)化招商電話
  • 重慶網(wǎng)站建設(shè)哪個(gè)公司好百度關(guān)鍵詞搜索量
  • wordpress模板用法深圳百度網(wǎng)站排名優(yōu)化
  • h5如何做多頁(yè)面網(wǎng)站愛站查詢
  • 網(wǎng)頁(yè)設(shè)計(jì)技能證書怎么考寧波如何做抖音seo搜索優(yōu)化