更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群

Source Connector

本文将主要介绍负责数据读取的组件SourceReader：

SourceReader

每个SourceReader都在独立的线程中执行，只要我们保证SourceSplitCoordinator分配给不同SourceReader的切片没有交集，在SourceReader的执行周期中，我们就可以不考虑任何有关并发的细节。

SourceReader接口

public interface SourceReader<T, SplitT extends SourceSplit> extends Serializable, AutoCloseable {

  void start();

  void pollNext(SourcePipeline<T> pipeline) throws Exception;

  void addSplits(List<SplitT> splits);

  /**

   * Check source reader has more elements or not.

   */

  boolean hasMoreElements();

  /**

   * There will no more split will send to this source reader.

   * Source reader could be exited after process all assigned split.

   */

  default void notifyNoMoreSplits() {

  }

  /**

   * Process all events which from {@link SourceSplitCoordinator}.

   */

  default void handleSourceEvent(SourceEvent sourceEvent) {

  }

  /**

   * Store the split to the external system to recover when task failed.

   */

  List<SplitT> snapshotState(long checkpointId);

  /**

   * When all tasks finished snapshot, notify checkpoint complete will be invoked.

   */

  default void notifyCheckpointComplete(long checkpointId) throws Exception {

  }

  interface Context {

    TypeInfo<?>[] getTypeInfos();

    String[] getFieldNames();

    int getIndexOfSubtask();

    void sendSplitRequest();

  }

}

构造方法

这里需要完成和数据源访问各种配置的提取，比如数据库库名表名、消息队列cluster和topic、身份认证的配置等等。

示例

public RocketMQSourceReader(BitSailConfiguration readerConfiguration,

                            Context context,

                            Boundedness boundedness) {

  this.readerConfiguration = readerConfiguration;

  this.boundedness = boundedness;

  this.context = context;

  this.assignedRocketMQSplits = Sets.newHashSet();

  this.finishedRocketMQSplits = Sets.newHashSet();

  this.deserializationSchema = new RocketMQDeserializationSchema(

      readerConfiguration,

      context.getTypeInfos(),

      context.getFieldNames());

  this.noMoreSplits = false;

  cluster = readerConfiguration.get(RocketMQSourceOptions.CLUSTER);

  topic = readerConfiguration.get(RocketMQSourceOptions.TOPIC);

  consumerGroup = readerConfiguration.get(RocketMQSourceOptions.CONSUMER_GROUP);

  consumerTag = readerConfiguration.get(RocketMQSourceOptions.CONSUMER_TAG);

  pollBatchSize = readerConfiguration.get(RocketMQSourceOptions.POLL_BATCH_SIZE);

  pollTimeout = readerConfiguration.get(RocketMQSourceOptions.POLL_TIMEOUT);

  commitInCheckpoint = readerConfiguration.get(RocketMQSourceOptions.COMMIT_IN_CHECKPOINT);

  accessKey = readerConfiguration.get(RocketMQSourceOptions.ACCESS_KEY);

  secretKey = readerConfiguration.get(RocketMQSourceOptions.SECRET_KEY);

}

start方法

初始化数据源的访问对象，例如数据库的执行对象、消息队列的consumer对象或者文件系统的连接。

示例

消息队列

public void start() {

  try {

    if (StringUtils.isNotEmpty(accessKey) && StringUtils.isNotEmpty(secretKey)) {

      AclClientRPCHook aclClientRPCHook = new AclClientRPCHook(

          new SessionCredentials(accessKey, secretKey));

      consumer = new DefaultMQPullConsumer(aclClientRPCHook);

    } else {

      consumer = new DefaultMQPullConsumer();

    }

    consumer.setConsumerGroup(consumerGroup);

    consumer.setNamesrvAddr(cluster);

    consumer.setInstanceName(String.format(SOURCE_READER_INSTANCE_NAME_TEMPLATE,

        cluster, topic, consumerGroup, UUID.randomUUID()));

    consumer.setConsumerPullTimeoutMillis(pollTimeout);

    consumer.start();

  } catch (Exception e) {

    throw BitSailException.asBitSailException(RocketMQErrorCode.CONSUMER_CREATE_FAILED, e);

  }

}

数据库

public void start() {

  this.connection = connectionHolder.connect();

  // Construct statement.

  String baseSql = ClickhouseJdbcUtils.getQuerySql(dbName, tableName, columnInfos);

  String querySql = ClickhouseJdbcUtils.decorateSql(baseSql, splitField, filterSql, maxFetchCount, true);

  try {

    this.statement = connection.prepareStatement(querySql);

  } catch (SQLException e) {

    throw new RuntimeException("Failed to prepare statement.", e);

  }

  LOG.info("Task {} started.", subTaskId);

}

FTP

public void start() {

  this.ftpHandler.loginFtpServer();

  if (this.ftpHandler.getFtpConfig().getSkipFirstLine()) {

    this.skipFirstLine = true;

  }

}

addSplits方法

将SourceSplitCoordinator给当前Reader分配的Splits列表添加到自己的处理队列（Queue）或者集合（Set）中。

示例

public void addSplits(List<RocketMQSplit> splits) {

  LOG.info("Subtask {} received {}(s) new splits, splits = {}.",

      context.getIndexOfSubtask(),

      CollectionUtils.size(splits),

      splits);

  assignedRocketMQSplits.addAll(splits);

}

hasMoreElements方法

在无界的流计算场景中，会一直返回true保证Reader线程不被销毁。

在批式场景中，分配给该Reader的切片处理完之后会返回false，表示该Reader生命周期的结束。

public boolean hasMoreElements() {

  if (boundedness == Boundedness.UNBOUNDEDNESS) {

    return true;

  }

  if (noMoreSplits) {

    return CollectionUtils.size(assignedRocketMQSplits) != 0;

  }

  return true;

}

pollNext方法

在addSplits方法添加完成切片处理队列且hasMoreElements返回true时，该方法调用，开发者实现此方法真正和数据交互。

开发者在实现pollNext方法时候需要关注下列问题：

切片数据的读取
- 从构造好的切片中去读取数据。
数据类型的转换
- 将外部数据转换成BitSail的Row类型

示例

以RocketMQSourceReader为例：

从split队列中选取split进行处理，读取其信息，之后需要将读取到的信息转换成BitSail的Row类型，发送给下游处理。

public void pollNext(SourcePipeline<Row> pipeline) throws Exception {

  for (RocketMQSplit rocketmqSplit : assignedRocketMQSplits) {

    MessageQueue messageQueue = rocketmqSplit.getMessageQueue();

    PullResult pullResult = consumer.pull(rocketmqSplit.getMessageQueue(),

        consumerTag,

        rocketmqSplit.getStartOffset(),

        pollBatchSize,

        pollTimeout);

    if (Objects.isNull(pullResult) || CollectionUtils.isEmpty(pullResult.getMsgFoundList())) {

      continue;

    }

    for (MessageExt message : pullResult.getMsgFoundList()) {

      Row deserialize = deserializationSchema.deserialize(message.getBody());

      pipeline.output(deserialize);

      if (rocketmqSplit.getStartOffset() >= rocketmqSplit.getEndOffset()) {

        LOG.info("Subtask {} rocketmq split {} in end of stream.",

            context.getIndexOfSubtask(),

            rocketmqSplit);

        finishedRocketMQSplits.add(rocketmqSplit);

        break;

      }

    }

    rocketmqSplit.setStartOffset(pullResult.getNextBeginOffset());

    if (!commitInCheckpoint) {

      consumer.updateConsumeOffset(messageQueue, pullResult.getMaxOffset());

    }

  }

  assignedRocketMQSplits.removeAll(finishedRocketMQSplits);

}

转换为BitSail Row类型的常用方式

自定义RowDeserializer类

对于不同格式的列应用不同converter，设置到相应Row的Field。

public class ClickhouseRowDeserializer {

  interface FiledConverter {

    Object apply(ResultSet resultSet) throws SQLException;

  }

  private final List<FiledConverter> converters;

  private final int fieldSize;

  public ClickhouseRowDeserializer(TypeInfo<?>[] typeInfos) {

    this.fieldSize = typeInfos.length;

    this.converters = new ArrayList<>();

    for (int i = 0; i < fieldSize; ++i) {

      converters.add(initFieldConverter(i + 1, typeInfos[i]));

    }

  }

  public Row convert(ResultSet resultSet) {

    Row row = new Row(fieldSize);

    try {

      for (int i = 0; i < fieldSize; ++i) {

        row.setField(i, converters.get(i).apply(resultSet));

      }

    } catch (SQLException e) {

      throw BitSailException.asBitSailException(ClickhouseErrorCode.CONVERT_ERROR, e.getCause());

    }

    return row;

  }

  private FiledConverter initFieldConverter(int index, TypeInfo<?> typeInfo) {

    if (!(typeInfo instanceof BasicTypeInfo)) {

      throw BitSailException.asBitSailException(CommonErrorCode.UNSUPPORTED_COLUMN_TYPE, typeInfo.getTypeClass().getName() + " is not supported yet.");

    }

    Class<?> curClass = typeInfo.getTypeClass();

    if (TypeInfos.BYTE_TYPE_INFO.getTypeClass() == curClass) {

      return resultSet -> resultSet.getByte(index);

    }

    if (TypeInfos.SHORT_TYPE_INFO.getTypeClass() == curClass) {

      return resultSet -> resultSet.getShort(index);

    }

    if (TypeInfos.INT_TYPE_INFO.getTypeClass() == curClass) {

      return resultSet -> resultSet.getInt(index);

    }

    if (TypeInfos.LONG_TYPE_INFO.getTypeClass() == curClass) {

      return resultSet -> resultSet.getLong(index);

    }

    if (TypeInfos.BIG_INTEGER_TYPE_INFO.getTypeClass() == curClass) {

      return resultSet -> {

        BigDecimal dec = resultSet.getBigDecimal(index);

        return dec == null ? null : dec.toBigInteger();

      };

    }

    if (TypeInfos.FLOAT_TYPE_INFO.getTypeClass() == curClass) {

      return resultSet -> resultSet.getFloat(index);

    }

    if (TypeInfos.DOUBLE_TYPE_INFO.getTypeClass() == curClass) {

      return resultSet -> resultSet.getDouble(index);

    }

    if (TypeInfos.BIG_DECIMAL_TYPE_INFO.getTypeClass() == curClass) {

      return resultSet -> resultSet.getBigDecimal(index);

    }

    if (TypeInfos.STRING_TYPE_INFO.getTypeClass() == curClass) {

      return resultSet -> resultSet.getString(index);

    }

    if (TypeInfos.SQL_DATE_TYPE_INFO.getTypeClass() == curClass) {

      return resultSet -> resultSet.getDate(index);

    }

    if (TypeInfos.SQL_TIMESTAMP_TYPE_INFO.getTypeClass() == curClass) {

      return resultSet -> resultSet.getTimestamp(index);

    }

    if (TypeInfos.SQL_TIME_TYPE_INFO.getTypeClass() == curClass) {

      return resultSet -> resultSet.getTime(index);

    }

    if (TypeInfos.BOOLEAN_TYPE_INFO.getTypeClass() == curClass) {

      return resultSet -> resultSet.getBoolean(index);

    }

    if (TypeInfos.VOID_TYPE_INFO.getTypeClass() == curClass) {

      return resultSet -> null;

    }

    throw new UnsupportedOperationException("Unsupported data type: " + typeInfo);

  }

}

实现DeserializationSchema接口

相对于实现RowDeserializer，我们更希望大家去实现一个继承DeserializationSchema接口的实现类，将一定类型格式的数据对数据比如JSON、CSV转换为BitSail Row类型。

在具体的应用时，我们可以使用统一的接口创建相应的实现类

public class TextInputFormatDeserializationSchema implements DeserializationSchema<Writable, Row> {

  private BitSailConfiguration deserializationConfiguration;

  private TypeInfo<?>[] typeInfos;

  private String[] fieldNames;

  private transient DeserializationSchema<byte[], Row> deserializationSchema;

  public TextInputFormatDeserializationSchema(BitSailConfiguration deserializationConfiguration,

                                               TypeInfo<?>[] typeInfos,

                                               String[] fieldNames) {

    this.deserializationConfiguration = deserializationConfiguration;

    this.typeInfos = typeInfos;

    this.fieldNames = fieldNames;

    ContentType contentType = ContentType.valueOf(

        deserializationConfiguration.getNecessaryOption(HadoopReaderOptions.CONTENT_TYPE, HadoopErrorCode.REQUIRED_VALUE).toUpperCase());

    switch (contentType) {

      case CSV:

        this.deserializationSchema =

            new CsvDeserializationSchema(deserializationConfiguration, typeInfos, fieldNames);

        break;

      case JSON:

        this.deserializationSchema =

            new JsonDeserializationSchema(deserializationConfiguration, typeInfos, fieldNames);

        break;

      default:

        throw BitSailException.asBitSailException(HadoopErrorCode.UNSUPPORTED_ENCODING, "unsupported parser type: " + contentType);

    }

  }

  @Override

  public Row deserialize(Writable message) {

    return deserializationSchema.deserialize((message.toString()).getBytes());

  }

  @Override

  public boolean isEndOfStream(Row nextElement) {

    return false;

  }

}

也可以自定义当前需要解析类专用的DeserializationSchema：

public class MapredParquetInputFormatDeserializationSchema implements DeserializationSchema<Writable, Row> {

  private final BitSailConfiguration deserializationConfiguration;

  private final transient DateTimeFormatter localDateTimeFormatter;

  private final transient DateTimeFormatter localDateFormatter;

  private final transient DateTimeFormatter localTimeFormatter;

  private final int fieldSize;

  private final TypeInfo<?>[] typeInfos;

  private final String[] fieldNames;

  private final List<DeserializationConverter> converters;

  public MapredParquetInputFormatDeserializationSchema(BitSailConfiguration deserializationConfiguration,

                                  TypeInfo<?>[] typeInfos,

                                  String[] fieldNames) {

    this.deserializationConfiguration = deserializationConfiguration;

    this.typeInfos = typeInfos;

    this.fieldNames = fieldNames;

    this.localDateTimeFormatter = DateTimeFormatter.ofPattern(

        deserializationConfiguration.get(CommonOptions.DateFormatOptions.DATE_TIME_PATTERN));

    this.localDateFormatter = DateTimeFormatter

        .ofPattern(deserializationConfiguration.get(CommonOptions.DateFormatOptions.DATE_PATTERN));

    this.localTimeFormatter = DateTimeFormatter

        .ofPattern(deserializationConfiguration.get(CommonOptions.DateFormatOptions.TIME_PATTERN));

    this.fieldSize = typeInfos.length;

    this.converters = Arrays.stream(typeInfos).map(this::createTypeInfoConverter).collect(Collectors.toList());

  }

  @Override

  public Row deserialize(Writable message) {

    int arity = fieldNames.length;

    Row row = new Row(arity);

    Writable[] writables = ((ArrayWritable) message).get();

    for (int i = 0; i < fieldSize; ++i) {

      row.setField(i, converters.get(i).convert(writables[i].toString()));

    }

    return row;

  }

  @Override

  public boolean isEndOfStream(Row nextElement) {

    return false;

  }

  private interface DeserializationConverter extends Serializable {

    Object convert(String input);

  }

  private DeserializationConverter createTypeInfoConverter(TypeInfo<?> typeInfo) {

    Class<?> typeClass = typeInfo.getTypeClass();

    if (typeClass == TypeInfos.VOID_TYPE_INFO.getTypeClass()) {

      return field -> null;

    }

    if (typeClass == TypeInfos.BOOLEAN_TYPE_INFO.getTypeClass()) {

      return this::convertToBoolean;

    }

    if (typeClass == TypeInfos.INT_TYPE_INFO.getTypeClass()) {

      return this::convertToInt;

    }

    throw BitSailException.asBitSailException(CsvFormatErrorCode.CSV_FORMAT_COVERT_FAILED,

        String.format("Csv format converter not support type info: %s.", typeInfo));

  }

  private boolean convertToBoolean(String field) {

    return Boolean.parseBoolean(field.trim());

  }

  private int convertToInt(String field) {

    return Integer.parseInt(field.trim());

  }

}

snapshotState方法

生成并保存State的快照信息，用于ckeckpoint。

示例

public List<RocketMQSplit> snapshotState(long checkpointId) {

  LOG.info("Subtask {} start snapshotting for checkpoint id = {}.", context.getIndexOfSubtask(), checkpointId);

  if (commitInCheckpoint) {

    for (RocketMQSplit rocketMQSplit : assignedRocketMQSplits) {

      try {

        consumer.updateConsumeOffset(rocketMQSplit.getMessageQueue(), rocketMQSplit.getStartOffset());

        LOG.debug("Subtask {} committed message queue = {} in checkpoint id = {}.", context.getIndexOfSubtask(),

            rocketMQSplit.getMessageQueue(),

            checkpointId);

      } catch (MQClientException e) {

        throw new RuntimeException(e);

      }

    }

  }

  return Lists.newArrayList(assignedRocketMQSplits);

}

hasMoreElements方法

每次调用pollNext方法之前会做sourceReader.hasMoreElements()的判断，当且仅当判断通过，pollNext方法才会被调用。

示例

public boolean hasMoreElements() {

  if (noMoreSplits) {

    return CollectionUtils.size(assignedHadoopSplits) != 0;

  }

  return true;

}

notifyNoMoreSplits方法

当Reader处理完所有切片之后，会调用此方法。

示例

public void notifyNoMoreSplits() {

  LOG.info("Subtask {} received no more split signal.", context.getIndexOfSubtask());

  noMoreSplits = true;

}

【关于BitSail】：

️ Star 不迷路 https://github.com/bytedance/bitsail

提交问题和建议：https://github.com/bytedance/bitsail/issues

贡献代码：https://github.com/bytedance/bitsail/pulls

BitSail官网：https://bytedance.github.io/bitsail/zh/

订阅邮件列表：bitsail+subscribe@googlegroups.com

加入BitSail技术社群

[BitSail] Connector开发详解系列三：SourceReader的更多相关文章

干货 | BitSail Connector 开发详解系列一：Source
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 BitSail 是字节跳动自研的数据集成产品,支持多种异构数据源间的数据同步,并提供离线.实时.全量.增量场景下全 ...
Android高效率编码-第三方SDK详解系列(三)——JPush推送牵扯出来的江湖恩怨，XMPP实现推送，自定义客户端推送
Android高效率编码-第三方SDK详解系列(三)--JPush推送牵扯出来的江湖恩怨,XMPP实现推送,自定义客户端推送很久没有更新第三方SDK这个系列了,所以更新一下这几天工作中使用到的推送, ...
wpf 客户端【JDAgent桌面助手】开发详解（三）瀑布流效果实现与UI虚拟化优化大数据显示
目录区域: 业余开发的wpf 客户端终于完工了..晒晒截图 wpf 客户端[JDAgent桌面助手]开发详解-开篇 wpf 客户端[JDAgent桌面助手]详解(一)主窗口圆形菜单... wpf 客 ...
PayPal 开发详解（三）：在网站上创建【立即付款】按钮
1.使用[商家帐号]登录https://www.sandbox.paypal.com/ 2.点击[用户信息]->[其他选项]->[我保存的按钮] 3.选择[立即购买按钮事例] 4.[第一步 ...
Mybatis源码详解系列(三)--从Mapper接口开始看Mybatis的执行逻辑
简介 Mybatis 是一个持久层框架,它对 JDBC 进行了高级封装,使我们的代码中不会出现任何的 JDBC 代码,另外,它还通过 xml 或注解的方式将 sql 从 DAO/Repository ...
Eureka详解系列(三)--探索Eureka强大的配置体系
简介通过前面的两篇博客,我们知道了:什么是 Eureka?为什么使用 Eureka?如何适用 Eureka?今天,我们开始来研究 Eureka 的源码,先从配置部分的源码开始看,其他部分后面再补充. ...
源码详解系列(七) ------ 全面讲解logback的使用和源码
什么是logback logback 用于日志记录,可以将日志输出到控制台.文件.数据库和邮件等,相比其它所有的日志系统,logback 更快并且更小,包含了许多独特并且有用的特性. logback ...
Java源码详解系列(十二)--Eureka的使用和源码
eureka 是由 Netflix 团队开发的针对中间层服务的负载均衡器,在微服务项目中被广泛使用.相比 SLB.ALB 等负载均衡器,eureka 的服务注册是无状态的,扩展起来非常方便. 在这个系 ...
wpf 客户端【JDAgent桌面助手】开发详解（四） popup控件的win8.0的bug
目录区域: 业余开发的wpf 客户端终于完工了..晒晒截图 wpf 客户端[JDAgent桌面助手]开发详解-开篇 wpf 客户端[JDAgent桌面助手]详解(一)主窗口圆形菜单... wpf 客 ...
Mybatis源码详解系列(四)--你不知道的Mybatis用法和细节
简介这是 Mybatis 系列博客的第四篇,我本来打算详细讲解 mybatis 的配置.映射器.动态 sql 等,但Mybatis官方中文文档对这部分内容的介绍已经足够详细了,有需要的可以直接参考. ...

随机推荐

vue本地能够访问图片，打包项目之后图片无法访问
//template中 <img :src="boxHerf" /> //js let boxHerf = ref('/src/assets/images/contai ...
win10安装WSL2
什么是WSL2 首先我们理解一下什么是WSL Windows Subsystem for Linux(简称WSL)是一个在Windows 10\11上能够运行原生Linux二进制可执行文件(ELF格式 ...
Util应用框架基础(六) - 日志记录(三) - 写入 Seq
本文是Util应用框架日志记录的第三篇,介绍安装和写入 Seq 日志系统的配置方法. 安装 Seq Seq是一个日志管理系统,对结构化日志数据拥有强大的模糊搜索能力. Util应用框架目前主要使用 S ...
金蝶云星空与泛微OA集成的方案落地与实践
打破信息孤岛,泛微OA集成的方案落地与实践在现代企业内部,不同类型的业务系统和泛微OA平台层出不穷.企业需要找到一种高效的方法来整合和协同这些多样化的系统,同时将它们与泛微OA平台融合,以实现资源整 ...
STL常用函数
STL简介 \(STL\)是\(Standard\) \(Template\) \(Library\)的简称,中文名称为标准模板库,从根本上讲, 就是各种\(STL\)容器的集合,容器可以理解为能够实 ...
jdk21的外部函数和内存API（MemorySegment）(官方翻译)
1.jdk21: 引入一个 API,通过该 API,Java 程序可以与 Java 运行时之外的代码和数据进行互操作.通过有效地调用外部函数(即JVM外部的代码)和安全地访问外部内存(即不由JVM ...
serdes 复制时钟
serdes复制时钟一般指的是,将rx lane的CDR 恢复时钟发送给TX/PLL, 这样rx和tx的时钟频偏就一致,在远端环回时经常用到.RX,TX时钟同频后环回数据就可以畅通发出去,否则RX/T ...
hdu 5685
题目:http://acm.hdu.edu.cn/showproblem.php?pid=5685 解题思路:前缀积+费马小定理求逆元. AC代码: 1 #include<iostream> ...
Python 实现HTML 转Word
之前文章分享过如何使用Spire.Doc for Python库将Word文档转为HTML格式,反过来,该库也能实现HTML到Word文档的转换.通过代码进行转换,避免了手动复制粘贴费时间,并且可能会 ...
Spring Boot中设置定时发送邮件任务
1:浅谈发送邮箱: 邮箱验证是一个很常见的功能了,基本上每个网站都会用的到, java也有专门的jar来处理邮件发送等服务 2:学过javaweb大家都对发送邮箱上不是很陌生了吧但之前发送邮箱的步骤 ...

[BitSail] Connector开发详解系列三：SourceReader

Source Connector

SourceReader

SourceReader接口

构造方法

示例

start方法

示例

addSplits方法

示例

hasMoreElements方法

pollNext方法

示例

转换为BitSail Row类型的常用方式

自定义RowDeserializer类

实现DeserializationSchema接口

snapshotState方法

示例

hasMoreElements方法

示例

notifyNoMoreSplits方法

示例

[BitSail] Connector开发详解系列三：SourceReader的更多相关文章

随机推荐

热门专题