高性能計(jì)算集群(英語(yǔ):High-PerformanceComputingCluster,簡(jiǎn)稱HPCC),也被稱為數(shù)據(jù)分析超級(jí)計(jì)算機(jī),是一個(gè)由律商聯(lián)訊風(fēng)險(xiǎn)解決方案發(fā)展的開放源代碼數(shù)據(jù)密集型計(jì)算系統(tǒng)平臺(tái)。
HPCC(高性能計(jì)算集群)也稱為DAS(數(shù)據(jù)分析超級(jí)計(jì)算機(jī)),是由LexisNexis風(fēng)險(xiǎn)解決方案開發(fā)的開源,數(shù)據(jù)密集型計(jì)算系統(tǒng)平臺(tái)。HPCC平臺(tái)整合了在商品計(jì)算集群上實(shí)現(xiàn)的軟件架構(gòu),為使用大數(shù)據(jù)的應(yīng)用程序提供高性能的數(shù)據(jù)并行處理。HPCC平臺(tái)包括支持并行批處理數(shù)據(jù)處理(Thor)和使用索引數(shù)據(jù)文件(Roxie)的高性能在線查詢應(yīng)用程序的系統(tǒng)配置。HPCC平臺(tái)還包含一個(gè)以數(shù)據(jù)為中心的并行數(shù)據(jù)處理聲明性編程語(yǔ)言ECL。
HPCC系統(tǒng)體系結(jié)構(gòu)包括兩個(gè)不同的集群處理環(huán)境,每個(gè)集群處理環(huán)境都可以獨(dú)立進(jìn)行優(yōu)化,以實(shí)現(xiàn)并行數(shù)據(jù)處理目的。這些平臺(tái)中的第一個(gè)被稱為數(shù)據(jù)精煉廠,其總體目的是用于任何目的的大量的任何類型的原始數(shù)據(jù)的一般處理,但通常用于數(shù)據(jù)清理和衛(wèi)生,提取,轉(zhuǎn)換,原始數(shù)據(jù)的加載處理,記錄鏈接和實(shí)體解析,大規(guī)模特設(shè)的復(fù)雜分析以及創(chuàng)建鍵控?cái)?shù)據(jù)和索引以支持高性能結(jié)構(gòu)化查詢和數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用程序。數(shù)據(jù)精煉廠也被稱為Thor,這個(gè)大錘象征著把大量的原始數(shù)據(jù)壓縮成有用的信息。Thor集群的功能,執(zhí)行環(huán)境,文件系統(tǒng)和功能與Google和Hadoop MapReduce平臺(tái)類似。