OpenRefine免費版是一款免費開源的全平臺數據清理工具,我們不僅可以通過OpenRefine來對電腦系統里的數據進行整理,同時還可以清理掉那些沒有的數據,幫助你釋放空間。
無論是現今的大數據還是企業內部的小數據,都存在一些普遍的問題,如數據格式不對需要轉換,一個單元格內包含多個含義的內容,包含重復項等等,雖然我們也可以使用excel解決,但是excel天生有諸多限制,比如其為直接對數據進行操作,容易導致誤操作;數據量大會處理緩慢;透視表功能太過簡單;無法進行高級的數據分類分析。而OpenRefine很好的解決了以上問題。
數據清洗Data Cleaning:是嘗試通過移除空的數據行或重復的數據行、過濾數據行、聚集或轉換數據值、分開多值單元等,以半自動化的方式修復錯誤數據的過程。數據清洗是一個反復的過程,不可能在幾天內完成,只有不斷的發現問題,解決問題。對于是否過濾,是否修正一般要求客戶確認。
IDTs:Interactive Data Transformation tools,交互數據轉換工具,它可以對大數據進行快速、廉價的操作,使用單個的集成接口。
OpenRefine就是這樣的IDT工具,可以觀察和操縱數據的工具。它類似于傳統Excel的表格處理軟件,但是工作方式更像是數據庫,以列和字段的方式工作,而不是以單元格的方式工作。這意味著OpenRefine不僅適合對新的行數據進行編碼,而且功能還極為強大。
● OpenRefine前身是谷歌公司(Google) 開發的數據清洗工具GoogleRefine,
隨后于2012年開放源代碼,改為現在的OpenRefine
● 一款基于計算機瀏覽器的數據清洗軟件
● 在數據清洗、數據探索以及數據轉換方面非常有效的一個格式化工具
●它是一個開源的網絡應用,可以在計算機中直接運行,這樣可以避開上傳指
定信息到外部服務器的問題
●它類似于傳統Excel處理軟件,但是工作方式更像是數據庫,以列和字段的
方式工作,而不是以單元格的方式工作