国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

當(dāng)前位置: 首頁 > news >正文

長沙手機(jī)網(wǎng)站開發(fā)百度seo推廣計(jì)劃類型包括

長沙手機(jī)網(wǎng)站開發(fā),百度seo推廣計(jì)劃類型包括,資金盤網(wǎng)站怎么建設(shè),樂陵市住房和城鄉(xiāng)建設(shè)局網(wǎng)站系列文章目錄 01 初始爬蟲 文章目錄 系列文章目錄前言1 爬蟲和Python2 爬蟲的矛盾2.1 爬蟲與反爬2.2 robots核心字段重要規(guī)則說明非標(biāo)準(zhǔn)擴(kuò)展指令協(xié)議生效條件局限性驗(yàn)證工具 2.3 一個(gè)爬蟲demo 3 Web請求與HTTP協(xié)議3.1 一個(gè)web請求的全過程3.2 判斷頁面源代碼位置3.3 HTTP 協(xié)議…

系列文章目錄

01 初始爬蟲


文章目錄

  • 系列文章目錄
  • 前言
  • 1 爬蟲和Python
  • 2 爬蟲的矛盾
    • 2.1 爬蟲與反爬
    • 2.2 robots
      • 核心字段
      • 重要規(guī)則說明
      • 非標(biāo)準(zhǔn)擴(kuò)展指令
      • 協(xié)議生效條件
      • 局限性
      • 驗(yàn)證工具
    • 2.3 一個(gè)爬蟲demo
  • 3 Web請求與HTTP協(xié)議
    • 3.1 一個(gè)web請求的全過程
    • 3.2 判斷頁面源代碼位置
    • 3.3 HTTP 協(xié)議
      • HTTP 請求
      • HTTP 響應(yīng)
    • 3.4 requests 模塊入門
  • 總結(jié)


前言

  • Datawhale是一個(gè)專注于AI與數(shù)據(jù)科學(xué)的開源組織,匯集了眾多領(lǐng)域院校和知名企業(yè)的優(yōu)秀學(xué)習(xí)者,聚合了一群有開源精神和探索精神的團(tuán)隊(duì)成員
  • 零基礎(chǔ)網(wǎng)絡(luò)爬蟲技術(shù)

1 爬蟲和Python

爬蟲就是通過編寫程序來爬取互聯(lián)網(wǎng)上的圖片、音頻、視頻、數(shù)據(jù)等。

  • Python 是一門上手快、語法簡單的編程語言。

2 爬蟲的矛盾

2.1 爬蟲與反爬

  • 首先,爬蟲在法律上不是被禁止的。

  • 爬蟲分為:

    • 善意爬蟲,不破壞被爬取的網(wǎng)站的資源,正常訪問,一般頻率不高,不竊取用戶隱私;
    • 惡意爬蟲,影響?站的正常運(yùn)營如搶票,秒殺,瘋狂請求?站資源造成?站宕機(jī);
  • 因此網(wǎng)站有了反爬機(jī)制,制定相應(yīng)的策略或者技術(shù)手段,防止爬蟲程序進(jìn)行網(wǎng)站數(shù)據(jù)的爬取。

  • 爬蟲程序就有了反反爬策略,制定相關(guān)的策略或者技術(shù)手段,破解網(wǎng)站中具備的反爬機(jī)制。

  • 最后,雙方制定君子協(xié)議: robots 協(xié)議。

  • 根據(jù)協(xié)議,網(wǎng)站管理員可以在網(wǎng)站域名的根目錄下放一個(gè) robots.txt 的文本文件,里面可以指定不同的網(wǎng)絡(luò)爬蟲能訪問的頁面和禁止訪問的頁面。網(wǎng)絡(luò)爬蟲在采集這個(gè)網(wǎng)站之前,首先獲取到這個(gè)文件,然后解析到其中的規(guī)則,最后根據(jù)規(guī)則來采集網(wǎng)站的數(shù)據(jù)。

2.2 robots

  • robots.txt 文件由一組規(guī)則組成,每組規(guī)則以 User-agent 開頭,后接允許或禁止的路徑規(guī)則。

核心字段

  • User-agent :指定規(guī)則適用的爬蟲名稱(如 * 表示所有爬蟲)。
  • Disallow :指定禁止爬蟲訪問的路徑(路徑需為絕對路徑)。
  • Allow :指定允許爬蟲訪問的路徑(某些搜索引擎支持,但非標(biāo)準(zhǔn)協(xié)議的一部分)。
  • Sitemap :告知爬蟲網(wǎng)站的XML站點(diǎn)地圖位置(幫助索引內(nèi)容)。

重要規(guī)則說明

  • 路徑匹配
    • 使用前綴匹配(如 Disallow: /admin 會禁止 /admin/、/admin.php 等)。
    • 支持通配符(如 * 匹配任意字符,$ 匹配路徑結(jié)尾,但需搜索引擎支持)。
  • 大小寫敏感 :路徑區(qū)分大小寫(如 /Images//images/ 是不同的)。
  • 優(yōu)先級Allow 規(guī)則通常優(yōu)先于 Disallow(若同時(shí)存在沖突規(guī)則)。
  • 最長匹配原則 :當(dāng)多條規(guī)則沖突時(shí),選擇最長匹配的路徑規(guī)則。

非標(biāo)準(zhǔn)擴(kuò)展指令

部分搜索引擎支持額外指令(非協(xié)議官方標(biāo)準(zhǔn)):

  • Crawl-Delay :設(shè)置爬蟲抓取間隔(如 Crawl-Delay: 10 表示每10秒請求一次)。
  • Host :指定首選域名(如 Host: www.example.com)。
  • Clean-param :聲明某些參數(shù)不影響頁面內(nèi)容(如 Clean-param: sessionid /index.php)。

協(xié)議生效條件

  • 文件必須位于網(wǎng)站根目錄(如 https://www.example.com/robots.txt)。
  • 文件編碼需為 UTF-8 ,且無BOM頭。
  • 遵循協(xié)議的爬蟲會遵守規(guī)則,但惡意爬蟲可能無視協(xié)議。

局限性

  • 不保證隱私robots.txt 無法阻止直接訪問,敏感內(nèi)容需通過身份驗(yàn)證或其他方式保護(hù)。
  • 動態(tài)URL處理 :無法完全阻止參數(shù)生成的動態(tài)頁面被爬取。
  • 緩存延遲 :爬蟲可能不會實(shí)時(shí)更新規(guī)則,需等待重新抓取。

驗(yàn)證工具

  • Google Search Console、Bing Webmaster Tools 提供 robots.txt 測試功能。
  • 在線工具(如 Robots.txt Checker )可驗(yàn)證規(guī)則是否正確。

2.3 一個(gè)爬蟲demo

  • 獲取百度首頁

請?zhí)砑訄D片描述


3 Web請求與HTTP協(xié)議

3.1 一個(gè)web請求的全過程

![[Pasted image 20250618162214.png]]

3.2 判斷頁面源代碼位置

  • 上面是服務(wù)器渲染,即服務(wù)器直接把數(shù)據(jù)全部寫入到html中。
  • 下面是客戶端渲染,?般是第?次請求服務(wù)器返回?堆HTML框架結(jié)構(gòu)。然后再次請求到真正保存數(shù)據(jù)的服務(wù)器,由這個(gè)服務(wù)器返回?cái)?shù)據(jù),最后在瀏覽器上對數(shù)據(jù)進(jìn)?加載。

![[Pasted image 20250618162420.png]]

3.3 HTTP 協(xié)議

協(xié)議:就是兩個(gè)計(jì)算機(jī)之間為了能夠流暢的進(jìn)?溝通?設(shè)置的?個(gè)君?協(xié)定。

  • 常?的協(xié)議有TCP/IP,SOAP協(xié)議,HTTP協(xié)議,SMTP協(xié)議等等。

HTTP協(xié)議:Hyper Text Transfer Protocol(超?本傳輸協(xié)議)的縮寫,是?于從萬維?(WWW:World Wide Web )服務(wù)器傳輸超?本到本地瀏覽器的傳送協(xié)議。

HTTP 請求

  • 有三塊內(nèi)容:
  1. 請求? -> 請求?式(get/post) 請求url地址 協(xié)議
  2. 請求頭 -> 放?些服務(wù)器要使?的附加信息
  3. 請求體 -> ?般放?些請求參數(shù)

請求?式:

  • GET: 顯示提交

  • POST: 隱示提交

  • 請求頭中最常?的?些重要內(nèi)容(爬?需要):

    • User-Agent:請求載體的身份標(biāo)識(?啥發(fā)送的請求)
    • Referer:防盜鏈(這次請求是從哪個(gè)??來的?反爬會?到)
    • cookie:本地字符串?dāng)?shù)據(jù)信息(?戶登錄信息,反爬的token)

HTTP 響應(yīng)

  • 也有三塊內(nèi)容:
  1. 狀態(tài)? -> 協(xié)議 狀態(tài)碼
  2. 響應(yīng)頭 -> 放?些客戶端要使?的?些附加信息
  3. 響應(yīng)體 -> 服務(wù)器返回的真正客戶端要?的
  • 響應(yīng)頭中?些重要的內(nèi)容:
    • Content-Type:返回內(nèi)容的內(nèi)容類型,比如Content-Type: text/html; charset=utf-8
    • 各種神奇的莫名其妙的字符串(這個(gè)需要經(jīng)驗(yàn)了,?般都是token字樣,防?各種攻擊和反爬)

3.4 requests 模塊入門

  • 常?的抓取??的模塊通常使??個(gè)?urllib還要簡單的第三?模塊requests。

總結(jié)

  • Python爬蟲的入門介紹。
http://aloenet.com.cn/news/46138.html

相關(guān)文章:

  • 建設(shè)網(wǎng)站合同2021百度熱搜年度榜
  • wordpress 中英文網(wǎng)站模板軟文寫手接單平臺
  • 網(wǎng)站安全建設(shè)必要性seo搜索引擎專員
  • 昆山做網(wǎng)站找哪家好線上平臺推廣方式
  • 江蘇建設(shè)局的資質(zhì)辦理網(wǎng)站培訓(xùn)機(jī)構(gòu)最新消息
  • 素材網(wǎng)站建設(shè)需要多少費(fèi)用seo項(xiàng)目
  • win7下用iis搭建網(wǎng)站百度網(wǎng)盤客服電話
  • 上海定制網(wǎng)站建設(shè)費(fèi)用代寫企業(yè)軟文
  • 做盜版網(wǎng)站違法嗎湖南網(wǎng)站設(shè)計(jì)
  • 模板做圖 網(wǎng)站有哪些友情鏈接平臺
  • 做餐飲在環(huán)保局網(wǎng)站備案手機(jī)網(wǎng)頁制作軟件
  • seo網(wǎng)站做推廣的公司輔導(dǎo)班培訓(xùn)機(jī)構(gòu)
  • 相冊管理網(wǎng)站模板外鏈怎么打開
  • 做京東網(wǎng)站的摘要百度seo搜索引擎優(yōu)化方案
  • 找個(gè)公司做網(wǎng)站需要注意什么百家號seo怎么做
  • 163域名注冊屬于seo網(wǎng)站優(yōu)化
  • 企業(yè)營銷網(wǎng)站建設(shè)規(guī)劃百度網(wǎng)站優(yōu)化公司
  • 怎么在網(wǎng)站上做視頻百度電腦版網(wǎng)頁
  • 設(shè)計(jì)一個(gè)網(wǎng)頁的策劃書怎么優(yōu)化網(wǎng)站排名才能起來
  • 做30個(gè)精品網(wǎng)站北京做網(wǎng)站的公司有哪些
  • 網(wǎng)站開發(fā)教育培訓(xùn)百度排名點(diǎn)擊器
  • 假的建設(shè)銀行網(wǎng)站國際時(shí)事新聞2022最新
  • 制作書簽簡單又漂亮seo網(wǎng)站優(yōu)化怎么做
  • 設(shè)計(jì)公司調(diào)研報(bào)告怎么學(xué)seo基礎(chǔ)
  • 做網(wǎng)站開源互聯(lián)網(wǎng)推廣運(yùn)營
  • meetsh網(wǎng)站建設(shè)營銷策劃公司介紹
  • 扒下來的網(wǎng)站怎么做修改seo教學(xué)視頻教程
  • 網(wǎng)站后臺出現(xiàn)亂碼網(wǎng)絡(luò)營銷推廣的方式
  • 網(wǎng)絡(luò)公司的名字優(yōu)化手機(jī)流暢度的軟件
  • 網(wǎng)店代運(yùn)營怎么做廣東seo網(wǎng)站設(shè)計(jì)