當前位置：首頁 > news >正文

網站搭建與網站建設論文收錄網站排名

news 2025/7/7 20:31:56

網站搭建與網站建設,論文收錄網站排名,形容網站做的好的詞語,網站seo優(yōu)化費用【GNN/深度學習】常用的圖數據集（圖結構） 文章目錄【GNN/深度學習】常用的圖數據集（圖結構）1. 介紹2. 圖數據集2.1 Cora2.2 Citeseer2.3 Pubmed2.4 DBLP2.5 ACM2.6 AMAP & AMAC2.7 WIKI2.8 COCS2.9 BAT2.10 EAT2.11 UAT2.12 C…

【GNN/深度學習】常用的圖數據集（圖結構）

文章目錄

【GNN/深度學習】常用的圖數據集（圖結構）
- 1. 介紹
- 2. 圖數據集
- - 2.1 Cora
  - 2.2 Citeseer
  - 2.3 Pubmed
  - 2.4 DBLP
  - 2.5 ACM
  - 2.6 AMAP & AMAC
  - 2.7 WIKI
  - 2.8 COCS
  - 2.9 BAT
  - 2.10 EAT
  - 2.11 UAT
  - 2.12 Corafull
- 3. 如何讀取文件
- 4. 下載鏈接
- 5. 參考

1. 介紹

近年來，深度學習越來越關注圖方向的任務，通過利用圖神經網絡去挖掘現實中各種可以利用圖來表示事物（社交網絡，論文引用網絡，分子結構）等等，來學習更好的表示，去實現下游任務。

圖數據是由一些點和一些線構成的，能表示一些實體之間的關系，圖中的點就是實體，線就是實體間的關系。如下圖，v就是頂點，e是邊，u是整張圖。attrinbutes（feature）是信息的意思，每個點、每條邊、每個圖都是有信息的。

2. 圖數據集

下面我們就來介紹深度學習中常用的圖數據集：Cora、Citeseer(Cite)、Pubmed、DBLP、ACM、AMAP、AMAC、Corafull、WIKI、COCS、BAT、EAT、UAT。

在這里插入圖片描述

每個數據集都包括：

label（圖節(jié)點的真實標簽）
feat（圖節(jié)點的自身屬性）
adj（圖結構對應的鄰接矩陣）

數據集的下載鏈接附在后文。

2.1 Cora

Cora數據集包括2708份科學出版物，分為7類。引文網絡由5429個鏈接組成。數據集中的每個出版物都由一個0/1值的詞向量描述，表示字典中對應的詞是否存在。這本詞典由1433個獨特的單詞組成。

2.2 Citeseer

Citeseer數據集包含3312份科學出版物，分為六類。引文網絡由4732個鏈接組成。數據集中的每個出版物都由一個0/1值的詞向量描述，表示字典中對應的詞是否存在。這部詞典由3703個獨特的單詞組成。

2.3 Pubmed

Pubmed數據集包括Pubmed數據庫中有關糖尿病的19717篇科學論文，分為三類。引文網絡由44338個鏈接組成。數據集中的每個出版物都由字典中的TF/IDF加權詞向量描述，該字典由500個唯一的單詞組成。

2.4 DBLP

DBLP數據集是來自dblp網站的作者網絡。如果是共同作者關系，則兩個作者之間有一條邊。作者將研究內容分為四個方面：數據庫、數據挖掘、機器學習和信息檢索。我們根據每個作者提交的會議來標記他們的研究領域。作者特征是由關鍵字表示的詞袋中的元素。

2.5 ACM

這是來自ACM數據集的論文網絡。如果兩篇論文是同一作者寫的，那么兩篇論文之間就有一條邊。論文特征是關鍵詞的詞袋。我們選取在KDD、SIGMOD、SIGCOMM、MobiCOMM上發(fā)表的論文，按研究領域分為數據庫、無線通信、數據挖掘三類。

2.6 AMAP & AMAC

A-Photo和A-Computers提取自Amazon共購圖，其中節(jié)點表示產品，邊表示兩種產品是否經常共購，特征表示用bag-of-words編碼的產品評論，標簽是預定義的產品類別。

2.7 WIKI

維基百科(WIKI)是由世界各地的志愿者創(chuàng)建和編輯的在線百科全書。該數據集是由整個英文維基百科頁面組成的單詞共現網絡。該數據包含2405個節(jié)點，17981條邊和19個標簽。

2.8 COCS

Coauthor-CS和Coauthor-Physics是基于微軟學術圖的兩個包含合著關系的學術網絡。圖中的節(jié)點表示作者，邊表示合著關系。在每個數據集中，作者根據研究領域分別被分為15類和5類，節(jié)點特征是論文關鍵詞的詞袋表示。

2.9 BAT

數據來自國家民航局(ANAC) 2016年1月至12月。它有131個節(jié)點，1038條邊(直徑為5)。機場活動是由相應年份的降落和起飛總數來衡量的。

2.10 EAT

數據來自歐盟統(tǒng)計局(Eurostat) 2016年1月至11月。它有399個節(jié)點，5995條邊(直徑為5)。機場活動是由相應時期的降落加起飛的總數來衡量的。

2.11 UAT

數據來自美國交通統(tǒng)計局2016年1月至10月。它有1190個節(jié)點，13599條邊(直徑為8)。機場活動是通過相應時期通過機場(到達和離開)的總人數來衡量的。

2.12 Corafull

Corafull數據集包括19793個節(jié)點、每個節(jié)點含有8710維的表示；并含有63421條邊，包含70個類別。

3. 如何讀取文件

解壓之后，放在項目文件下的dataset下，之后便可以利用如下函數進行讀入。

def load_graph_data(dataset_name, show_details=False):"""- Param dataset_name: the name of the datasetshow_details: if show the details of dataset- Return: the features, labels and adj"""load_path = "dataset/" + dataset_name + "/" + dataset_namefeat = np.load(load_path+"_feat.npy", allow_pickle=True)label = np.load(load_path+"_label.npy", allow_pickle=True)adj = np.load(load_path+"_adj.npy", allow_pickle=True)if show_details:print("dataset name:   ", dataset_name)print("feature shape:  ", feat.shape)print("label shape:    ", label.shape)print("adj shape:      ", adj.shape)print("undirected edge num:   ", int(np.nonzero(adj)[0].shape[0]/2))print("category num:          ", max(label)-min(label)+1)print("category distribution: ")for i in range(max(label)+1):print("label", i, end=":")print(len(label[np.where(label == i)]))featur_dim = feat.shape[1]return feat, label, adj