国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

當前位置: 首頁 > news >正文

網(wǎng)站正在升級建設中代碼seo優(yōu)化培訓課程

網(wǎng)站正在升級建設中代碼,seo優(yōu)化培訓課程,wordpress綠色框,卡易售網(wǎng)站建設文章目錄(一)技術選型1)數(shù)據(jù)采集工具2)數(shù)據(jù)存儲3)數(shù)據(jù)計算4)數(shù)據(jù)可視化(二)整體架構設計(三)服務器資源規(guī)劃(一)技術選型 1&#xff…

文章目錄

  • (一)技術選型
    • 1)數(shù)據(jù)采集工具
    • 2)數(shù)據(jù)存儲
    • 3)數(shù)據(jù)計算
    • 4)數(shù)據(jù)可視化
  • (二)整體架構設計
  • (三)服務器資源規(guī)劃

(一)技術選型

1)數(shù)據(jù)采集工具

除了Flume這個數(shù)據(jù)采集工具,其實還有一些類似的數(shù)據(jù)采集工具,Logstash、FileBeat,這兩個也可以實現(xiàn)數(shù)據(jù)采集。
那這三個日志采集工具我們需要如何選擇呢?
首先從性能消耗上面來說,Flume和Logstash的性能消耗差不多,都是基于JVM執(zhí)行的,都是重量級的組件,支持多種數(shù)據(jù)源和目的地。
FileBeat是一個只支持文件數(shù)據(jù)采集的工具,是一個輕量級組件,性能消耗比價低,它不是基于JVM執(zhí)行
的,它是使用go語言開發(fā)的。

采集數(shù)據(jù)的情況:
在這里插入圖片描述
第一種是把采集工具部署到產生數(shù)據(jù)的服務器上面
web項目產生的日志數(shù)據(jù)直接保存在服務器上面,并且這個服務器的性能比較高,可以允許我在上面部署Flume數(shù)據(jù)采集工具,這樣也不會對上面的web項目的穩(wěn)定性產生什么影響。

第二種是把采集工具部署在一個獨立的服務器上面
web項目產生的日志數(shù)據(jù)直接保存在服務器上面,但是這個服務器的性能一般,并且對web項目的穩(wěn)定性要求非常高,如果讓你在上面部署一個其它服務,這樣這個服務器的穩(wěn)定性就沒辦法保證了,進而也就無法保證web項目的穩(wěn)定性了,所以這個時候可以選擇在產生日志的時候使用埋點上報的方式,通過http接口把日志數(shù)據(jù)傳輸?shù)饺罩窘邮辗掌髦小?/p>

那針對第一種情況肯定是要選擇一個性能消耗比較低的數(shù)據(jù)采集工具,優(yōu)先選擇FileBeat針對第二種情況的話就不需要考慮性能消耗了,因為采集工具是在獨立的機器上,不會影響web項目,這個時候我們需要考慮的就是采集工具的功能是否完整,因為在采集數(shù)據(jù)的時候可能需要對數(shù)據(jù)進行一些簡單的處理,以及后期可能會輸出到不同的存儲介質中。

Flume默認不持直接采集MySQL中的數(shù)據(jù),如果想要實現(xiàn)的話需要自定義Source,這樣就比較麻煩了其實采集MySQL中的數(shù)據(jù)有一個比較常用的方式是通過Sqoop實現(xiàn)。
Sqoop中有兩大功能,數(shù)據(jù)導入和數(shù)據(jù)導出

  • 數(shù)據(jù)導入是指把關系型數(shù)據(jù)庫中的數(shù)據(jù)導入HDFS中
  • 數(shù)據(jù)導出是指把HDFS中的數(shù)據(jù)導出到關系型數(shù)據(jù)庫中
    我們后期在做一些報表的時候其實也是需要把數(shù)據(jù)倉庫中的數(shù)據(jù)導出到MySQL中的,所以在這選擇qoop也是非常實用的。
    所以針對數(shù)據(jù)采集這塊,我們主要選擇了Flume和Sqoop。

2)數(shù)據(jù)存儲

數(shù)據(jù)采集過來以后,由于我們后面要構建數(shù)據(jù)倉庫,數(shù)據(jù)倉庫是使用Hive實現(xiàn),Hive的數(shù)據(jù)是存儲在HDFS中的,所以我們把采集到的數(shù)據(jù)也直接存儲到HDFS里面。

還有一點是后期在做一些數(shù)據(jù)報表的時候,是需要把數(shù)據(jù)倉庫中的數(shù)據(jù)導出到MySQL中的,所以數(shù)據(jù)存儲也需要使用到MySQL。

3)數(shù)據(jù)計算

在構建數(shù)據(jù)倉庫的時候,我們前面說了,是使用Hive構建數(shù)據(jù)倉庫,一般的數(shù)據(jù)處理通過SQL是可以搞定的,如果遇到了比較復雜的處理邏輯,可能還需要和外部的數(shù)據(jù)進行交互的,這個時候使用SQL就比較麻煩了,內置的函數(shù)有時候搞不定,還需要開發(fā)自定義函數(shù)針對復雜的數(shù)據(jù)清洗任務我們也可以考慮使用Spark進行處理。

4)數(shù)據(jù)可視化

在數(shù)據(jù)可視化層面,我們可以使用Hue進行數(shù)據(jù)查詢
如果想實現(xiàn)寫SQL直接出圖表的話可以使用Zeppelin
如果想定制開發(fā)圖表的話可以使用Echarts之類的圖表庫,這個時候是需要我們自己開發(fā)數(shù)據(jù)接口實現(xiàn)的。

(二)整體架構設計

在這里插入圖片描述
我們采集的數(shù)據(jù)主要分為服務端數(shù)據(jù)客戶端數(shù)據(jù)
什么是服務端數(shù)據(jù),就是網(wǎng)站上的商品詳情數(shù)據(jù)以及你下的訂單信息之類的數(shù)據(jù),這些數(shù)據(jù)都是在服務端存儲著的,一般是存儲在類似于MySQL之類的關系型數(shù)據(jù)庫中,這些數(shù)據(jù)對事務性要求比較嚴格,所以會存放在關系型數(shù)據(jù)庫中。

  • 什么是客戶端數(shù)據(jù)呢,就是用戶在網(wǎng)站或者app上的一些滑動、點擊、瀏覽、停留時間之類的用戶行為數(shù)據(jù),這些數(shù)據(jù)會通過埋點直接上報,這些其實就是一些日志類型的數(shù)據(jù)了,這種類型的數(shù)據(jù)沒有事務性要求,并且對數(shù)據(jù)的完整性要求也不是太高,就算丟一些數(shù)據(jù),對整體結果影響也不大。
  • 針對服務端數(shù)據(jù),在采集的時候,主要是通過Sqoop進行采集,按天采集,每天凌晨的時候把昨天的數(shù)據(jù)采集過來,存儲到HDFS上面。
  • 針對客戶端數(shù)據(jù),會通過埋點上報到日志接收服務器中,其實這里面就是一個Http服務,埋點上報就是調用了這個Http服務,把日志數(shù)據(jù)傳輸過來,日志接收服務收到數(shù)據(jù)之后,會把數(shù)據(jù)落盤,存儲到本地,記錄為日志文件,然后通過Flume進行采集,將數(shù)據(jù)采集到HDFS上面,按天分目錄存儲。
  • 服務端數(shù)據(jù)和客戶端數(shù)據(jù)都進入到HDFS之后,就需要對數(shù)據(jù)進行ETL,構建數(shù)據(jù)倉庫了。
    數(shù)據(jù)倉庫構建好了以后可以選擇把一些需要報表展現(xiàn)的數(shù)據(jù)導出到MySQL中,最終在頁面進行展現(xiàn)。

(三)服務器資源規(guī)劃

測試環(huán)境:
在這里插入圖片描述
生產環(huán)境:
在這里插入圖片描述

說明:
1:由于NameNode開啟了HA,所以SecondaryNameNode進程就不需要了
2:NameNode需要使用單獨的機器,并且此機器的內存配置要比較高,建議128G
3:DataNode和NodeManager需要部署在相同的集群上,這樣可以實現(xiàn)數(shù)據(jù)本地化計算
5:數(shù)據(jù)接口服務器需要使用至少兩臺,為了實現(xiàn)負載均衡及故障轉移,保證數(shù)據(jù)接收服務的穩(wěn)定性
6:Flume部署在日志服務器上面,便于采集本機保存的用戶行為日志信息;還需要有單獨的Flume機
器,便于處理其它的日志采集需求
7:Hive需要部署在所有業(yè)務機器上
8:MySQL建議單獨部署,至少兩臺,一主一備
9:Sqoop需要部署在所有業(yè)務機器上
10:Zeppelin可以單獨部署在一臺普通配置的機器上即可
11:Azkaban建議至少使用三臺,一主兩從,這樣可以保證一個從節(jié)點掛掉之后不影響定時任務的調度

服務器資源計算
針對Hadoop集群的搭建在線上環(huán)境需要使用CDH或者HDP
具體Hadoop集群需要使用多少臺集群需要根據(jù)當前的數(shù)據(jù)規(guī)模來預估
假設集群中的機器配置為8T,64 Core,128G
1:如果每天會產生1T的日志數(shù)據(jù),需要保存半年的歷史數(shù)據(jù): 1T180天=180T
2:集群中的數(shù)據(jù)默認是3副本: 180T
3=540T
3:預留20%左右的空間: 540T/0.8=675T
這樣計算的話就需要675T/8T=85臺服務器
如果我們在數(shù)據(jù)倉庫中對數(shù)據(jù)進行分層存儲,這樣數(shù)據(jù)會出現(xiàn)冗余,存儲空間會再擴容1~2倍。

注意:沒有必要一開始就上線全部的機器,我們可以前期上線30臺,后面隨著業(yè)務數(shù)據(jù)量的增長再去動態(tài)擴容機器即可。

http://aloenet.com.cn/news/41982.html

相關文章:

  • 模板網(wǎng)站建設珠海廣東又出現(xiàn)新病毒
  • 杭州建設網(wǎng) 執(zhí)法人員名單seo營銷名詞解釋
  • 國外網(wǎng)站國內做二維碼企業(yè)網(wǎng)站營銷的典型案例
  • 學生管理系統(tǒng) 靜態(tài)網(wǎng)站源碼如何開展網(wǎng)絡營銷活動
  • 做分銷的官網(wǎng)網(wǎng)站北京整站線上推廣優(yōu)化
  • 如何做行業(yè)網(wǎng)站寧波網(wǎng)站優(yōu)化
  • 怎么做學校網(wǎng)站和微信公眾號域名查詢 ip
  • 東阿網(wǎng)站建設百度seo流量
  • 我想注冊公司怎么注冊網(wǎng)站排名優(yōu)化服務
  • wordpress拷站發(fā)布外鏈的平臺有哪些
  • 網(wǎng)站被入侵后需做的檢測(1)唯尚廣告聯(lián)盟
  • 重慶云陽網(wǎng)站建設公司推薦沈陽網(wǎng)站seo公司
  • 建設廳官方網(wǎng)站企業(yè)庫網(wǎng)絡賺錢推廣
  • 江蘇建設網(wǎng)站bt磁力兔子引擎
  • 青建集團股份有限公司sem推廣優(yōu)化
  • 搭建什么網(wǎng)站好玩唐山百度seo公司
  • wordpress和laravel鄭州seo關鍵詞
  • 做良心網(wǎng)站seo的優(yōu)化步驟
  • 企業(yè)網(wǎng)站管理seo1視頻發(fā)布會
  • 怎么樣做國際網(wǎng)站生意seo知識培訓
  • 鄭州旅游網(wǎng)站設計小學生一分鐘新聞播報
  • 企業(yè)管理培訓課程課件南寧seo外包服務
  • 網(wǎng)站開發(fā)到發(fā)布佛山優(yōu)化推廣
  • 微信做模板下載網(wǎng)站有哪些企業(yè)網(wǎng)站制作流程
  • 效果圖網(wǎng)站模板南寧網(wǎng)站seo外包
  • 集美網(wǎng)站開發(fā)重慶企業(yè)免費建站
  • 網(wǎng)站建設公司做銷售好不好哪個公司的網(wǎng)站制作
  • 洛陽網(wǎng)站建設好做不怎么安裝百度
  • 安徽省做網(wǎng)站武漢百度推廣代運營
  • 如何給自己的公司網(wǎng)站做優(yōu)化百度關鍵詞怎么做排名