无论是现今的大数据还是企业内部的小数据,都存在一些普遍的问题,如数据格式不对需要转换,一个单元格内包含多个含义的内容,包含重复项等等,虽然我们也可以使用excel解决,但是excel天生有诸多限制,比如其为直接对数据进行操作,容易导致误操作:数据量大会处理缓慢:透视表功能太过简单:无法进行高级的数据分类分析.而OpenRefine很好的解决了以上问题,最重要的一点是它还是免费的!! 确认错误是保证数据质量的第一步,主要包括数据画像和数据清洗. 数据画像 Olson定义为:使用统计方法发现数据的结