PiFlow是一個簡單易用,功能強大的大數據流水線系統,混合型科學大數據流水線系統,包含豐富的處理器組件,提供Shell、DSL、Web配置界面、任務調度、任務監控等功能!
簡單易用
可視化配置流水線
監控流水線
查看流水線日志
檢查點功能
擴展性強:
支持自定義開發數據處理組件
性能優越:
基于分布式計算引擎Spark開發
功能強大:
提供100+的數據處理組件
包括Hadoop 、Spark、MLlib、Hive、Solr、Redis、MemCache、ElasticSearch、JDBC、MongoDB、HTTP、FTP、XML、CSV、JSON等
集成了微生物領域的相關算法
解壓piflow-server-v0.9.tar.gz:
tar -zxvf piflow-server-v0.9.tar.gz
編輯配置文件config.properties
運行、停止、重啟PiFlow Server
start.sh、stop.sh、 restart.sh、 status.sh
測試 PiFlow Server
設置環境變量 PIFLOW_HOME
vim /etc/profile
export PIFLOW_HOME=/yourPiflowPath/bin
export PATH=PATH:PIFLOW_HOME/bin
運行如下命令
piflow flow start example/mockDataFlow.json
piflow flow stop appID
piflow flow info appID
piflow flow log appID
piflow flowGroup start example/mockDataGroup.json
piflow flowGroup stop groupId
piflow flowGroup info groupId
如何配置config.properties
#spark and yarn config
spark.master=yarn
spark.deploy.mode=cluster
#hdfs default file system
fs.defaultFS=hdfs://10.0.86.191:9000
#yarn resourcemanager.hostname
yarn.resourcemanager.hostname=10.0.86.191
#if you want to use hive, set hive metastore uris
#hive.metastore.uris=thrift://10.0.88.71:9083
#show data in log, set 0 if you do not want to show data in logs
data.show=10
#server port
server.port=8002
#h2db port
h2.port=50002