該系統(tǒng)利用大數(shù)據(jù)統(tǒng)計數(shù)據(jù)的活躍度,將最活躍的數(shù)據(jù)向上遷移至高可用層,同時將最不活躍的數(shù)據(jù)向下遷移至低可用層,另外數(shù)據(jù)的熱度通過統(tǒng)計文件的該寫訪問頻率和I/0特征得出。同時,每個小時的熱度統(tǒng)計數(shù)據(jù),將隨著時間進行定期加權(quán)累計。該權(quán)重隨著時間推移而減小,即熱度統(tǒng)計值周期越新,權(quán)重越高。另外本系統(tǒng)在讀寫數(shù)據(jù)的同時也提取該數(shù)據(jù)的一些特征值,根據(jù)這些特征值利用Tensorflow深度學(xué)習(xí)框架預(yù)測出與之關(guān)聯(lián)的數(shù)據(jù),并且將關(guān)聯(lián)數(shù)據(jù)預(yù)讀入高可用層從而提高系統(tǒng)的存儲效率。對于數(shù)據(jù)的特征值提取,本系統(tǒng)是通過是將數(shù)據(jù)塊的內(nèi)容按照字節(jié)進行大小為N的滑動窗口操作,形成了長度是N的字節(jié)片段序列,每個字節(jié)片段稱為gram,對所有g(shù)ram的出現(xiàn)頻度進行統(tǒng)計,并且按照事先設(shè)定好的閾值進行過濾,形成關(guān)鍵 gram 列表,也就是這個文本的向量特征空間,列表中的每一種 gram 就是一個特征向量維度,該特征向量作為預(yù)測關(guān)聯(lián)數(shù)據(jù)機制中的一個參數(shù)!輸入。本系統(tǒng)預(yù)測關(guān)聯(lián)數(shù)據(jù)機制是通過協(xié)同過濾推薦算法來進行的,計算數(shù)據(jù)之間的相似性需要計算數(shù)據(jù)塊的評分與其他數(shù)據(jù)塊評分的相似度,即評分矩陣中的數(shù)據(jù)評分記錄。每個數(shù)據(jù)對存儲的評分可以看作是一個n維的評分向量。使用評分向量計算目標(biāo)數(shù)據(jù)與其他數(shù)據(jù)之間的相似度sim(i,j),通常計算數(shù)據(jù)相似度的方法有三種:余弦相似度、修正的余弦相似度和皮爾森相關(guān)系數(shù),本系統(tǒng)采用的是皮爾森相關(guān)系數(shù)來計算其相似度。
1.深圳云宣存儲科技有限公司
1.鄧進林 2.劉應(yīng) 3.周金華 4.石強
| |
評價單位: |
|
報告編號: |
高科評字 〔2022〕 第KD001號 |
評價日期: |
2022-01-09 |
評價委員會認為,該項目整體水平達到國內(nèi)領(lǐng)先,取得了一定的社會經(jīng)濟效益致同意通過科技成果評價。