国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

當(dāng)前位置: 首頁 > news >正文

鎮(zhèn)江網(wǎng)站建設(shè)yubei021快速建站哪個(gè)平臺(tái)好

鎮(zhèn)江網(wǎng)站建設(shè)yubei021,快速建站哪個(gè)平臺(tái)好,西安企業(yè)網(wǎng)站搭建,團(tuán)隊(duì)做網(wǎng)站分工這是棲落的電影網(wǎng)站地址:https://xxx.xxx 進(jìn)入網(wǎng)頁,顯示: 爬取目標(biāo):電影的名稱、觀影人數(shù)和評(píng)分。 易知本網(wǎng)站的url url "https://xxx.xxx" 本網(wǎng)站會(huì)識(shí)別出headers中的python請(qǐng)求而拒絕訪問,所以需要更改…

這是棲落的電影網(wǎng)站地址:https://xxx.xxx

進(jìn)入網(wǎng)頁,顯示:

?爬取目標(biāo):電影的名稱、觀影人數(shù)和評(píng)分。

易知本網(wǎng)站的url

url = "https://xxx.xxx"

本網(wǎng)站會(huì)識(shí)別出headers中的python請(qǐng)求而拒絕訪問,所以需要更改headers當(dāng)中的信息

user-agent:

?Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/11.0.1587.41

對(duì)應(yīng)的代碼為:

headers = {
? ? "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/11.0.1587.41"
}?

選中目標(biāo)

?利用正則表達(dá)式匹配相應(yīng)的信息。

obj = re.compile(r'<li>.*?標(biāo)志1.*?標(biāo)志2.*?標(biāo)志1.*?標(biāo)志2.*?標(biāo)志1.*?標(biāo)志2.*?</li>',re.S)

紅色的.*?匹配需要的信息,其余的過濾掉多余的信息,各個(gè)標(biāo)志為.*?的左右端的關(guān)鍵信息,r為requests模塊返回的text文本。?

并且我們需要為匹配的信息賦予相應(yīng)的意義,即名、觀影人數(shù)和評(píng)分。

利用(?<別名>)

obj = re.compile(r'<li>.*?標(biāo)志1(?P<name>.*?)標(biāo)志2.*?標(biāo)志1(?P<num>.*?)標(biāo)志2.*?標(biāo)志1<?P<score>.*?)標(biāo)志2.*?</li>',re.S)

把匹配的對(duì)象放入list中以便遍歷。

result = obj.finditer(r)

遍歷且以一定格式輸出。

?for it in result:
? ? print("{:<10s}{:<5s{<5s}".format(it.group("name"),it.group("num"),it.group("score")))

參考代碼:?

import requests
import re#獲取頁面信息
url = "https://xxx.xxx"
headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/11.0.1587.41"
}
r = requests.get(url,headers=headers)
r = r.text
#print(r)
#解析頁面
obj = re.compile(r'<li>.*?<span class="title">(?P<name>.*?)</span>.*?<br>(?P<num>.*?)&nbsp.*?<span class="rating_num" property="v:average">(?P<score>.*?)</li>',re.S)
#匹配
result = obj.finditer(r)
#輸出
for it in result:print("{:<10s}{:<5s{<5s}".format(it.group("name"),it.group("num"),it.group("score")))

輸出結(jié)果:?

小結(jié):?

如何爬取本站?

  1. 確定url
  2. 更改headers
  3. 請(qǐng)求頁面信息
  4. 正則匹配
  5. 輸出

提問 :

re.compile是啥?

compile 函數(shù)用于編譯正則表達(dá)式,生成一個(gè)正則表達(dá)式( Pattern )對(duì)象。

語法格式如下:re.compile(pattern,[flags])

參數(shù):

pattern : 一個(gè)字符串形式的正則表達(dá)式

flags : 可選,表示匹配模式,比如忽略大小寫,多行模式等,具體參數(shù)為:

  • re.I :忽略大小寫
  • re.L :表示特殊字符集 \w, \W, \b, \B, \s, \S 依賴于當(dāng)前環(huán)境
  • re.M :多行模式
  • re.S :即為 . 并且包括換行符在內(nèi)的任意字符(. 不包括換行符)
  • re.U :表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依賴于 Unicode 字符屬性數(shù)據(jù)庫
  • re.X :為了增加可讀性,忽略空格和 # 后面的注釋

?finditer是啥?

finditer 返回一個(gè)可迭代對(duì)象

http://aloenet.com.cn/news/44979.html

相關(guān)文章:

  • 國(guó)外做兼職的網(wǎng)站企業(yè)品牌網(wǎng)站營(yíng)銷
  • wordpress評(píng)論樓廣州百度seo排名
  • 如何給網(wǎng)站做宣傳aso優(yōu)化費(fèi)用
  • 永州做網(wǎng)站費(fèi)用做百度線上推廣
  • 莆田交友網(wǎng)站市場(chǎng)惠州網(wǎng)站建設(shè)方案推廣
  • 東莞專業(yè)網(wǎng)站建設(shè)推廣seo屬于什么
  • 如何簡(jiǎn)述網(wǎng)站建設(shè)流程seo是什么?
  • 網(wǎng)站整體運(yùn)營(yíng)思路競(jìng)價(jià)推廣托管服務(wù)
  • 車輛對(duì)比那個(gè)網(wǎng)站做的好免費(fèi)網(wǎng)絡(luò)推廣的方法
  • 昆明利于優(yōu)化的網(wǎng)站河南自助建站seo公司
  • 佛山營(yíng)銷網(wǎng)站建設(shè)seo快速工具
  • 長(zhǎng)春網(wǎng)站建設(shè)58同城想在百度做推廣怎么做
  • 國(guó)外做家譜的網(wǎng)站開發(fā)小程序
  • 網(wǎng)站建設(shè)要學(xué)會(huì)編程嗎網(wǎng)站的營(yíng)銷推廣方案
  • 國(guó)外網(wǎng)站設(shè)計(jì)網(wǎng)站昆明百度推廣開戶
  • wordpress 網(wǎng)頁目錄下湖南專業(yè)seo公司
  • 小貸網(wǎng)站需要多少錢可以做seo快速排名優(yōu)化方法
  • 做導(dǎo)航網(wǎng)站犯法嗎web網(wǎng)頁制作教程
  • 教師可以做網(wǎng)站嗎最近熱點(diǎn)新聞事件
  • 寧國(guó)做網(wǎng)站優(yōu)化營(yíng)商環(huán)境的措施建議
  • 網(wǎng)站的域名可以修改嗎做營(yíng)銷策劃的公司
  • 網(wǎng)站如何做口碑營(yíng)銷大數(shù)據(jù)
  • 專門做水果的網(wǎng)站重慶seo優(yōu)化效果好
  • wordpress底部插件超級(jí)seo助手
  • 可以免費(fèi)看日本黃片的app做網(wǎng)站上海單個(gè)關(guān)鍵詞優(yōu)化
  • 單頁面網(wǎng)站推廣重慶seo推廣運(yùn)營(yíng)
  • 優(yōu)化網(wǎng)站排名方法教程怎樣自己做網(wǎng)站
  • 武漢++外貿(mào)網(wǎng)站建設(shè)千瓜數(shù)據(jù)
  • 星空無限傳媒官網(wǎng)免費(fèi)下載seo服務(wù)收費(fèi)
  • 化妝品網(wǎng)站系統(tǒng)規(guī)劃58同城安居客