什麽是數據集成?
在企業(yè)大數據項目中有80%的工(gōng)作都和數據集成相(xiàng)關,數據集成是将零散的數據整合在一(yī)起,形成一(yī)個(gè)新的數據集,從(cóng)而為(wèi)企業(yè)提供全面的數據共享。
企業(yè)為(wèi)什麽要進行數據集成?
由于企業(yè)各部門(mén)之間數據不互通(tōng),數據彼此獨立、相(xiàng)互封閉,很難使得數據進行融合與共享,導緻企業(yè)形成“數據孤島”,企業(yè)想要徹底消除數據孤島,需要集成現有數據,實現數據一(yī)體化,充分利用數據資源,為(wèi)企業(yè)提供決策與支持。
您的數據是否遇到(dào)以下(xià)幾種情況
1.缺乏全面的數據梳理,無法準确掌握數據整體狀況。
2.數據來源多(duō)種多(duō)樣、含義、口徑不一(yī),數據質量低(dī)下(xià)。
3.零散數據衆多(duō),無法進行數據整合。
4.缺乏數據共享有效監管,上(shàng)下(xià)遊數據出現不一(yī)緻情況。
吉佳通(tōng)達數據集成技(jì)術(shù)簡介
1.實體對齊
實體對齊是判斷兩個(gè)或者多(duō)個(gè)不同信息來源的實體是否為(wèi)指向真實世界中同一(yī)個(gè)對象,如果找到(dào)多(duō)個(gè)實體表征同一(yī)個(gè)對象,則需要在這些實體之間構建對齊關系,同時對實體包含的信息進行融合和聚集。我們來舉個(gè)簡單的例子,如“王明”一(yī)詞,在不同來源中指向同一(yī)對象,所以在實體對齊的過程中需要将不同來源的實體信息進行對齊融合,以避免“王明”在知識圖譜中重複出現或實體的信息不完整。
2.記錄鏈接
記錄鏈接是在數據集中查找跨越不同數據源,它基于在可用數據集中匹配的單個(gè)标識符的數量來生(shēng)成鏈接。每個(gè)源包含若幹記錄,而記錄包含一(yī)定數量的列。一(yī)般,每個(gè)記錄對應于一(yī)個(gè)實體,而列是标識實體的屬性,例如名字、地址、年(nián)齡和性别。
3.投影、篩選
投影是“選擇”列,篩選是“選擇”行。
篩選是按條件(jiàn),投影是指選擇一(yī)個(gè)屬性的數據,如有一(yī)個(gè)患者表包含屬性:姓名、年(nián)齡、性别,當選擇姓名為(wèi)“王明”的患者,會(huì)選擇出所有患者姓名為(wèi)“王明”的患者。
4.數據集
将篩選之後的數據,融合在一(yī)起,形成新的數據集。
吉佳通(tōng)達數據集成基于領域知識圖譜集成數據,可保證數據概念模式的科學性,實現多(duō)種數據類型的關聯,通(tōng)過對各個(gè)數據源的數據交換格式進行一(yī)一(yī)映射,從(cóng)而實現數據的流通(tōng)與共享。
17743467638
長(cháng)春市(shì)朝陽區衛星路(lù)7440号遠(yuǎn)創國(guó)際A座401室
版權所有©吉林省松訊信息技術有限責任公司
微信咨詢
17743467638
郵箱
jijiatongda@163.com