網站搭建與網站建設論文收錄網站排名
【GNN/深度學習】常用的圖數據集(圖結構)
文章目錄
- 【GNN/深度學習】常用的圖數據集(圖結構)
- 1. 介紹
- 2. 圖數據集
- 2.1 Cora
- 2.2 Citeseer
- 2.3 Pubmed
- 2.4 DBLP
- 2.5 ACM
- 2.6 AMAP & AMAC
- 2.7 WIKI
- 2.8 COCS
- 2.9 BAT
- 2.10 EAT
- 2.11 UAT
- 2.12 Corafull
- 3. 如何讀取文件
- 4. 下載鏈接
- 5. 參考
1. 介紹
近年來,深度學習越來越關注圖方向的任務,通過利用圖神經網絡去挖掘現實中各種可以利用圖來表示事物(社交網絡,論文引用網絡,分子結構)等等,來學習更好的表示,去實現下游任務。
- 圖數據是由一些點和一些線構成的,能表示一些實體之間的關系,圖中的點就是實體,線就是實體間的關系。如下圖,v就是頂點,e是邊,u是整張圖。attrinbutes(feature)是信息的意思,每個點、每條邊、每個圖都是有信息的。
2. 圖數據集
下面我們就來介紹深度學習中常用的圖數據集:Cora、Citeseer(Cite)、Pubmed、DBLP、ACM、AMAP、AMAC、Corafull、WIKI、COCS、BAT、EAT、UAT。
每個數據集都包括:
- label(圖節(jié)點的真實標簽)
- feat(圖節(jié)點的自身屬性)
- adj(圖結構對應的鄰接矩陣)
數據集的下載鏈接附在后文。
2.1 Cora
Cora數據集包括2708份科學出版物,分為7類。引文網絡由5429個鏈接組成。數據集中的每個出版物都由一個0/1值的詞向量描述,表示字典中對應的詞是否存在。這本詞典由1433個獨特的單詞組成。
2.2 Citeseer
Citeseer數據集包含3312份科學出版物,分為六類。引文網絡由4732個鏈接組成。數據集中的每個出版物都由一個0/1值的詞向量描述,表示字典中對應的詞是否存在。這部詞典由3703個獨特的單詞組成。
2.3 Pubmed
Pubmed數據集包括Pubmed數據庫中有關糖尿病的19717篇科學論文,分為三類。引文網絡由44338個鏈接組成。數據集中的每個出版物都由字典中的TF/IDF加權詞向量描述,該字典由500個唯一的單詞組成。
2.4 DBLP
DBLP數據集是來自dblp網站的作者網絡。如果是共同作者關系,則兩個作者之間有一條邊。作者將研究內容分為四個方面:數據庫、數據挖掘、機器學習和信息檢索。我們根據每個作者提交的會議來標記他們的研究領域。作者特征是由關鍵字表示的詞袋中的元素。
2.5 ACM
這是來自ACM數據集的論文網絡。如果兩篇論文是同一作者寫的,那么兩篇論文之間就有一條邊。論文特征是關鍵詞的詞袋。我們選取在KDD、SIGMOD、SIGCOMM、MobiCOMM上發(fā)表的論文,按研究領域分為數據庫、無線通信、數據挖掘三類。
2.6 AMAP & AMAC
A-Photo和A-Computers提取自Amazon共購圖,其中節(jié)點表示產品,邊表示兩種產品是否經常共購,特征表示用bag-of-words編碼的產品評論,標簽是預定義的產品類別。
2.7 WIKI
維基百科(WIKI)是由世界各地的志愿者創(chuàng)建和編輯的在線百科全書。該數據集是由整個英文維基百科頁面組成的單詞共現網絡。該數據包含2405個節(jié)點,17981條邊和19個標簽。
2.8 COCS
Coauthor-CS和Coauthor-Physics是基于微軟學術圖的兩個包含合著關系的學術網絡。圖中的節(jié)點表示作者,邊表示合著關系。在每個數據集中,作者根據研究領域分別被分為15類和5類,節(jié)點特征是論文關鍵詞的詞袋表示。
2.9 BAT
數據來自國家民航局(ANAC) 2016年1月至12月。它有131個節(jié)點,1038條邊(直徑為5)。機場活動是由相應年份的降落和起飛總數來衡量的。
2.10 EAT
數據來自歐盟統(tǒng)計局(Eurostat) 2016年1月至11月。它有399個節(jié)點,5995條邊(直徑為5)。機場活動是由相應時期的降落加起飛的總數來衡量的。
2.11 UAT
數據來自美國交通統(tǒng)計局2016年1月至10月。它有1190個節(jié)點,13599條邊(直徑為8)。機場活動是通過相應時期通過機場(到達和離開)的總人數來衡量的。
2.12 Corafull
Corafull數據集包括19793個節(jié)點、每個節(jié)點含有8710維的表示;并含有63421條邊,包含70個類別。
3. 如何讀取文件
解壓之后,放在項目文件下的dataset下,之后便可以利用如下函數進行讀入。
def load_graph_data(dataset_name, show_details=False):"""- Param dataset_name: the name of the datasetshow_details: if show the details of dataset- Return: the features, labels and adj"""load_path = "dataset/" + dataset_name + "/" + dataset_namefeat = np.load(load_path+"_feat.npy", allow_pickle=True)label = np.load(load_path+"_label.npy", allow_pickle=True)adj = np.load(load_path+"_adj.npy", allow_pickle=True)if show_details:print("dataset name: ", dataset_name)print("feature shape: ", feat.shape)print("label shape: ", label.shape)print("adj shape: ", adj.shape)print("undirected edge num: ", int(np.nonzero(adj)[0].shape[0]/2))print("category num: ", max(label)-min(label)+1)print("category distribution: ")for i in range(max(label)+1):print("label", i, end=":")print(len(label[np.where(label == i)]))featur_dim = feat.shape[1]return feat, label, adj
4. 下載鏈接
圖數據集下載鏈接
5. 參考
【1】https://github.com/yueliu1999/DCRN