數據處理方案實現對采集的數據進行大數據環境下(xià)的非結構化數據寬表存儲服務。包含對原始數據庫的管理功能(néng),有效管理源數據,提供源數據的清洗服務,可動态配置不同數據的不同清洗規則,提供去重、去殘、格式轉換等清洗功能(néng)。對清洗後的數據進行分層存儲達到(dào)最大利用價值,對數據提供非結構化的分析服務,包含對關鍵詞提取、自(zì)動摘要提取服務、提供相(xiàng)似性、聚類等大數據算(suàn)法服務,最終将數據整理為(wèi)高(gāo)質量數據,提供數據的多(duō)格式導出。
《數據處理》解決方案主要包含原始數據庫管理、清洗規則管理、清洗庫管理、數據服務管理、數據轉換管理五部分内容。以大數據架構體系為(wèi)核心,涵蓋源數據的全量存儲,對于源數據提供自(zì)定義多(duō)種清洗流程自(zì)由搭配設定,對于清洗後的數據分層存儲,達到(dào)數據逐步處理提純的目的,系統提供結構化與非結構化數據大批量處理服務,包含文檔解析,關鍵詞自(zì)動摘要提取、相(xiàng)似性計算(suàn)等,有效提升數據質量,達到(dào)數據加工(gōng)的目的。