一. 概述



  1. 自定义写入文件的名字
  2. 定义写入内容格式
  3. 满足给定条件后更改写入的文件
  4. 更改写入文件时触发的Action






Storm官方有提供了相应的API让我们可以使用。可以通过创建HdfsBolt以及定义相应的规则,即可写入HDFS 。


这里要提一下,如果要打包部署到集群上的话,打包的插件需要使用maven-shade-plugin这个插件,然后使用maven Lifecycle中的package打包。而不是用Maven-assembly-plugin插件进行打包。

因为使用Maven-assembly-plugin的时候,会将所有依赖的包unpack,然后在pack,这样就会出现,同样的文件被覆盖的情况。发布到集群上的时候就会报No FileSystem for scheme: hdfs的错。


  1. // 使用 "|" 来替代 ",",来进行字符分割
  2. RecordFormat format = new DelimitedRecordFormat()
  3. .withFieldDelimiter("|");
  4. // 每输入 1k 后将内容同步到 Hdfs 中
  5. SyncPolicy syncPolicy = new CountSyncPolicy(1000);
  6. // 当文件大小达到 5MB ,转换写入文件,即写入到一个新的文件中
  7. FileRotationPolicy rotationPolicy = new FileSizeRotationPolicy(5.0f, Units.MB);
  8. //当转换写入文件时,生成新文件的名字并使用
  9. FileNameFormat fileNameFormat = new DefaultFileNameFormat()
  10. .withPath("/foo/");
  11. HdfsBolt bolt = new HdfsBolt()
  12. .withFsUrl("hdfs://localhost:9000")
  13. .withFileNameFormat(fileNameFormat)
  14. .withRecordFormat(format)
  15. .withRotationPolicy(rotationPolicy)
  16. .withSyncPolicy(syncPolicy);
  17. //生成该 bolt
  18. topologyBuilder.setBolt("hdfsBolt", bolt, 5).globalGrouping("randomStrSpout");






  1. public interface RecordFormat extends Serializable {
  2. byte[] format(Tuple tuple);
  3. }





  1. public interface FileNameFormat extends Serializable {
  2. void prepare(Map conf, TopologyContext topologyContext);
  3. String getName(long rotation, long timeStamp);
  4. String getPath();
  5. }







同步策略允许你将buffered data缓冲到Hdfs文件中(从而client可以读取数据),通过实现org.apache.storm.hdfs.sync.SyncPolicy接口:

  1. public interface SyncPolicy extends Serializable {
  2. boolean mark(Tuple tuple, long offset);
  3. void reset();
  4. }



  1. public interface FileRotationPolicy extends Serializable {
  2. boolean mark(Tuple tuple, long offset);
  3. void reset();
  4. }


  • 最简单的就是不进行转换的org.apache.storm.hdfs.bolt.rotation.NoRotationPolicy,就是什么也不干。

  • 通过文件大小触发转换的org.apache.storm.hdfs.bolt.rotation.FileSizeRotationPolicy。

  • 通过时间条件来触发转换的org.apache.storm.hdfs.bolt.rotation.TimedRotationPolicy。




  1. public interface RotationAction extends Serializable {
  2. void execute(FileSystem fileSystem, Path filePath) throws IOException;
  3. }




  1. RecordFormat format = new DelimitedRecordFormat().withFieldDelimiter(" ");
  2. // sync the filesystem after every 1k tuples
  3. SyncPolicy syncPolicy = new CountSyncPolicy(1000);
  4. // FileRotationPolicy rotationPolicy = new FileSizeRotationPolicy(1.0f, FileSizeRotationPolicy.Units.KB);
  5. /** rotate file with Date,every month create a new file
  6. * format:yyyymm.txt
  7. */
  8. FileRotationPolicy rotationPolicy = new CountStrRotationPolicy();
  9. FileNameFormat fileNameFormat = new TimesFileNameFormat().withPath("/test/");
  10. RotationAction action = new NewFileAction();
  11. HdfsBolt bolt = new HdfsBolt()
  12. .withFsUrl("hdfs://")
  13. .withFileNameFormat(fileNameFormat)
  14. .withRecordFormat(format)
  15. .withRotationPolicy(rotationPolicy)
  16. .withSyncPolicy(syncPolicy)
  17. .addRotationAction(action);



  1. import org.apache.storm.hdfs.bolt.rotation.FileRotationPolicy;
  2. import org.apache.storm.tuple.Tuple;
  3. import java.text.SimpleDateFormat;
  4. import java.util.Date;
  5. /**
  6. * 计数以改变Hdfs写入文件的位置,当写入10次的时候,则更改写入文件,更改名字取决于 “TimesFileNameFormat”
  7. * 这个类是线程安全
  8. */
  9. public class CountStrRotationPolicy implements FileRotationPolicy {
  10. private SimpleDateFormat df = new SimpleDateFormat("yyyyMM");
  11. private String date = null;
  12. private int count = 0;
  13. public CountStrRotationPolicy(){
  14. this.date = df.format(new Date());
  15. // this.date = df.format(new Date());
  16. }
  17. /**
  18. * Called for every tuple the HdfsBolt executes.
  19. *
  20. * @param tuple The tuple executed.
  21. * @param offset current offset of file being written
  22. * @return true if a file rotation should be performed
  23. */
  24. @Override
  25. public boolean mark(Tuple tuple, long offset) {
  26. count ++;
  27. if(count == 10) {
  28. System.out.print("num :" +count + " ");
  29. count = 0;
  30. return true;
  31. }
  32. else {
  33. return false;
  34. }
  35. }
  36. /**
  37. * Called after the HdfsBolt rotates a file.
  38. */
  39. @Override
  40. public void reset() {
  41. }
  42. @Override
  43. public FileRotationPolicy copy() {
  44. return new CountStrRotationPolicy();
  45. }
  46. }


  1. import org.apache.storm.hdfs.bolt.format.FileNameFormat;
  2. import org.apache.storm.task.TopologyContext;
  3. import java.util.Map;
  4. /**
  5. * 决定重新写入文件时候的名字
  6. * 这里会返回是第几次转换写入文件,将这个第几次做为文件名
  7. */
  8. public class TimesFileNameFormat implements FileNameFormat {
  9. //默认路径
  10. private String path = "/storm";
  11. //默认后缀
  12. private String extension = ".txt";
  13. private Long times = new Long(0);
  14. public TimesFileNameFormat withPath(String path){
  15. this.path = path;
  16. return this;
  17. }
  18. @Override
  19. public void prepare(Map conf, TopologyContext topologyContext) {
  20. }
  21. @Override
  22. public String getName(long rotation, long timeStamp) {
  23. times ++ ;
  24. //返回文件名,文件名为更换写入文件次数
  25. return times.toString() + this.extension;
  26. }
  27. public String getPath(){
  28. return this.path;
  29. }
  30. }


  1. import org.apache.hadoop.fs.FileContext;
  2. import org.apache.hadoop.fs.FileSystem;
  3. import org.apache.hadoop.fs.Path;
  4. import org.apache.storm.hdfs.common.rotation.RotationAction;
  5. import org.slf4j.Logger;
  6. import org.slf4j.LoggerFactory;
  7. import java.io.IOException;
  8. import java.net.URI;
  9. /**
  10. 当转换写入文件时候调用的 hook ,这里仅写入日志。
  11. */
  12. public class NewFileAction implements RotationAction {
  13. private static final Logger LOG = LoggerFactory.getLogger(NewFileAction.class);
  14. @Override
  15. public void execute(FileSystem fileSystem, Path filePath) throws IOException {
  16. LOG.info("Hdfs change the written file!!");
  17. return;
  18. }
  19. }





Mysql 流增量写入 Hdfs(一) --从 mysql 到 kafka

Spark SQL,如何将 DataFrame 转为 json 格式

