国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

當前位置: 首頁 > news >正文

深圳哪里做網站好廣州番禺發(fā)布網

深圳哪里做網站好,廣州番禺發(fā)布網,抓取網站訪客qq號碼,優(yōu)秀app界面設計模板大家好,我是程序鍋。 最近在modelscope上閑逛的時候,在數據集板塊發(fā)現有一個商品評論情感預測數據集。這個數據集源自一個比賽,它的目的是為了預測電商平臺顧客的評論是好評還是差評。 數據示例如下所示(其中0代表差評&#xff…

大家好,我是程序鍋。

最近在modelscope上閑逛的時候,在數據集板塊發(fā)現有一個商品評論情感預測數據集。這個數據集源自一個比賽,它的目的是為了預測電商平臺顧客的評論是好評還是差評。

數據示例如下所示(其中0代表差評,1代表好評):

這個比賽是2021年7月開始舉辦的。那個時候還沒有ChatGPT,如果需要做商品評論情感預測,是需要分詞、預處理、選擇模型等等一系列機器學習方法。而我最近正好在學習LLaMA-Factory,正好試一試用它來微調大模型,看看最終情感預測結果如何?

好的,首先我們先上結果。

大模型微調+提示工程大模型+提示工程
準確率91.70%79.43%

使用大模型微調相比不微調,提升12.27%

整體技術路線采用:LLaMA-Factory + Lora + Qwen1.5-7B

教程視頻如下:

https://www.bilibili.com/video/BV1siuietEYX/?vd_source=d0aa621a464f99754d7108e57e32eab9

下面我們來看如何微調大模型來做商品評論情感分析。微調過程與傳統(tǒng)深度學習方法類似。無非是準備數據、配環(huán)境、訓練、最后評測。

一、數據準備

采用數據集的來自于modelscope的商品評論情感預測,其中訓練數據集45366條,測試數據集5032條。

下載數據集:

from modelscope.msdatasets import MsDataset
ds_train =  MsDataset.load('DAMO_NLP/jd', subset_name='default', split='train')from modelscope.msdatasets import MsDataset
ds_val =  MsDataset.load('DAMO_NLP/jd', subset_name='default', split='validation')

下載后的數據集無法直接應用到微調,我們還需要結合提示工程,將數據集轉化為大模型微調所需要的格式(即問答對的形式)

數據轉化代碼如下:

import json
from modelscope.msdatasets import MsDataset
from tqdm import *
ds_train =  MsDataset.load('DAMO_NLP/jd', subset_name='default', split='train')
ds_val =  MsDataset.load('DAMO_NLP/jd', subset_name='default', split='validation')
print(len(ds_train["sentence"]))
print(len(ds_val["sentence"]))
outout = []
SYSTEM_PROMPT = "我在做商品評論情感預測,需根據用戶評價判斷是好評還是差評,其中輸出0代表差評,輸出1代表好評,請嚴格保證輸出結果為整數并且只能是0或者1。輸入的用戶評價為:"
for i in tqdm(range(len(ds_val["sentence"]))):sentence = ds_val["sentence"][i]if (ds_val["label"][i] == None or ds_val["sentence"][i] == None ):continuelabel = str(int(ds_val["label"][i]))outout.append({"instruction":SYSTEM_PROMPT+sentence,"input":"","output":label})  
with open("jd_val.json", "w") as json_file:json.dump(outout, json_file,ensure_ascii=False)

二、環(huán)境依賴

  • LLaMA-Factory
  • Qwen1.5-7B

可以自己去安裝部署,我也準備了相應依賴pip list。

具體關于LLaMA-Factory的部署、使用和自定義數據集,可以參考這篇文章:

https://zhuanlan.zhihu.com/p/696631776

三、訓練

整體訓練耗時2.5小時,采用lora的方式,loss圖如下所示:

訓練可以采用web頁面訓練CUDA_VISIBLE_DEVICES=0 llamafactory-cli webui,也可以采用命令行的方式訓練,具體訓練執(zhí)行命令如下所示:

CUDA_VISIBLE_DEVICES=0 llamafactory-cli train \--stage sft \--do_train True \--model_name_or_path /home/guo/hub/Qwen1___5-7B-Chat \ #選擇大模型下載位置--preprocessing_num_workers 16 \--finetuning_type lora \--template qwen \--flash_attn auto \--dataset_dir data \--dataset jd \ #設置為你的數據集--cutoff_len 1024 \--learning_rate 5e-05 \--num_train_epochs 3.0 \--max_samples 100000 \--per_device_train_batch_size 2 \--gradient_accumulation_steps 8 \--lr_scheduler_type cosine \--max_grad_norm 1.0 \--logging_steps 5 \--save_steps 100 \--warmup_steps 0 \--optim adamw_torch \--packing False \--report_to none \--output_dir saves/Qwen1.5-7B-Chat/lora/train_2024-05-23-14-32-35 \--fp16 True \--plot_loss True \--lora_rank 8 \--lora_alpha 16 \--lora_dropout 0 \--lora_target q_proj,v_proj

四、評測

LLaMA-Factory也支持用web界面的方式評估和預測,具體評測使用方式如下所示。

評測結束后,得到一個generated_predictions.jsonl

{"label": "1", "predict": "1"}
{"label": "0", "predict": "0"}
{"label": "1", "predict": "1"}
{"label": "1", "predict": "1"}
{"label": "0", "predict": "0"}
{"label": "1", "predict": "1"}
{"label": "1", "predict": "1"}
{"label": "0", "predict": "0"}
{"label": "0", "predict": "0"}
{"label": "0", "predict": "0"}
{"label": "0", "predict": "0"}
{"label": "0", "predict": "0"}
{"label": "0", "predict": "0"}
{"label": "0", "predict": "0"}
{"label": "0", "predict": "0"}
{"label": "1", "predict": "1"}
...

自己寫一個準確率計算代碼Acc=(TP+TN)/(TP+TN+FP+FN)

五、最后

這是一個大模型微調入門的一個小案例,lora權重、數據集全部開源放到我的github repo。

https://github.com/GuoCoder/ai-app

后續(xù)我還會分享更多關于AI應用的案例。也歡迎大家點贊、收藏、關注我。

http://aloenet.com.cn/news/40191.html

相關文章:

  • 圖書館網站建設教程電商營銷
  • 查網站排名搜索引擎入口google
  • 網站備案必須是企業(yè)嗎外鏈網盤源碼
  • 德州網站優(yōu)化淘寶攝影培訓推薦
  • 珠海做網站方案一元手游平臺app
  • php網站怎么注入網站排名怎么搜索靠前
  • 汽車網站建設方案英語培訓機構
  • 成都做一個小企業(yè)網站需要多少錢2023網站分享
  • 綿陽網站排名網站優(yōu)化推廣費用
  • 專門做任務的網站嗎怎樣創(chuàng)建網站平臺
  • 大鵬網站建設韶關seo
  • wap購物網站源碼公司如何在百度宣傳
  • 佛山建站佛山網頁設計seo是一種利用搜索引擎的
  • 網上做調查問卷的網站最近熱點新聞事件2023
  • bbs網站模板怎么創(chuàng)作自己的網站
  • 云南熱搜科技做網站不給源碼如何做網站seo
  • 濟南建設銀行網站杭州網站定制
  • 業(yè)務外包服務公司朝陽seo排名
  • 最好的javascript視頻seo技巧是什么
  • 網站開發(fā)公司成本是什么愛站權重
  • 國際購物平臺都有哪些重慶百度快速優(yōu)化
  • 安順網站開發(fā)網站推廣公司大家好
  • 成都網站建設小程序整站seo外包
  • 自建個網站怎么做農產品推廣方案
  • 網站做網頁廣告公司經營范圍
  • 做網站入什么科目網絡營銷公司好不好
  • 開發(fā)高端網站開發(fā)哈爾濱企業(yè)網站seo
  • 專業(yè)網站建設詳細方案南陽網站優(yōu)化公司
  • wordpress添加商品蘭州seo推廣
  • 婚紗攝影網站建設網站關鍵詞優(yōu)化建議