当前位置: 首页 > news >正文

Kafka-Connect自带示例

一、上下文

《Kafka-Connect》中已经阐述了Kafka-Connect的理论知识,为了更生动的理解它,我们今天通过官方的一个小例子来感受下它的妙用。

二、创建topic

kafka-topics --create --topic connect-test --bootstrap-server cdh1:9092 --partitions 2 --replication-factor 2

三、编写配置文件

在cdh环境中,这些配置文件所在的目录为:

/opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/etc/kafka/conf.dist/

1、connect-standalone.properties

# 用于建立与Kafka集群的初始连接的主机/端口对列表。以下是cdh中的例子
bootstrap.servers=cdh1:9092,cdh2:9092,cdh3:9092

# 转换器指定Kafka中数据的格式以及如何将其转换为Connect数据。每个Connect用户都需要根据他们希望从Kafka加载或存储数据时使用的格式进行配置
key.converter=org.apache.kafka.connect.json.JsonConverter
value.converter=org.apache.kafka.connect.json.JsonConverter
# 转换器特定的设置可以通过在转换器的设置前加上我们想要应用的转换器来传递
key.converter.schemas.enable=true
value.converter.schemas.enable=true

offset.storage.file.filename=/tmp/connect.offsets
# 刷新速度比正常情况快得多,这对测试/调试很有用
offset.flush.interval.ms=10000

# 设置为用逗号(,)分隔的文件系统路径列表,以启用插件(连接器、转换器、转换)的类加载隔离。该列表应由顶级目录组成,其中包括以下内容的任意组合:
# a) 直接包含带有插件及其依赖项的jar的目录
# b) uber包含插件及其依赖项
# c) 直接包含插件类及其依赖项的包目录结构的目录
# 注意:将遵循符号链接来发现依赖关系或插件。
# Examples: 
# plugin.path=/usr/local/share/java,/usr/local/share/kafka/plugins,/opt/connectors,
#plugin.path=

2、connect-file-source.properties

name=local-file-source
connector.class=FileStreamSource
tasks.max=1
file=/opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/etc/kafka/conf.dist/connect-file-test-data/source.txt
topic=connect-test

3、connect-file-sink.properties

name=local-file-sink
connector.class=FileStreamSink
tasks.max=1
file=/opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/etc/kafka/conf.dist/connect-file-test-data/sink.txt
topics=connect-test

四、运行

cd /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/lib/kafka/bin/
./connect-standalone.sh /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/etc/kafka/conf.dist/connect-standalone.properties /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/etc/kafka/conf.dist/connect-file-source.properties /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567/etc/kafka/conf.dist/connect-file-sink.properties

 启动成功后如图所示:

五、测试

我们项source.txt 中写入一些数据

echo 1 >> source.txt
echo 2 >> source.txt
echo 3 >> source.txt
echo 4 >> source.txt
echo 5 >> source.txt
echo 6 >> source.txt
echo 7 >> source.txt
echo 8 >> source.txt
echo 9 >> source.txt
echo 10 >> source.txt

从结果上看感觉sink.txt中结果是乱序的,这是因为我们创建topic时设置了2个分区,我们用consoumer来看看各个分区的顺序情况:

kafka-console-consumer --topic connect-test --from-beginning --bootstrap-server cdh1:9092,cdh2:9092,cdh3:9092 --partition 0

kafka-console-consumer --topic connect-test --from-beginning --bootstrap-server cdh1:9092,cdh2:9092,cdh3:9092 --partition 1

 

我们再次看sink.txt的结果就可以理解了,kafka只保证了分区有序,如果使用Kafka-Connect时想保证文件的输入和输出是有序的,就需要设定topic为1个分区。

http://www.lryc.cn/news/495920.html

相关文章:

  • Hbase应用案例 随机号码生成
  • 论文阅读——量子退火Experimental signature of programmable quantum annealing
  • (长期更新)《零基础入门 ArcGIS(ArcMap) 》实验二----网络分析(超超超详细!!!)
  • go语言 Pool实现资源池管理数据库连接资源或其他常用需要共享的资源
  • mysql一个事务最少几次IO操作
  • 运输层总结
  • 【嵌套查询】.NET开源 ORM 框架 SqlSugar 系列
  • React 前端框架1
  • 【真正离线安装】Adobe Flash Player 32.0.0.156 插件离线安装包下载(无需联网安装)
  • 数据采集时,不同地区的动态IP数据质量有什么差异?
  • 【Python爬虫五十个小案例】爬取猫眼电影Top100
  • 等保测评和 ISO27001 都是信息保护,区别是什么?
  • Linux系统编程之进程创建
  • JAVA-IO
  • 动态系统特征分析:特征向量、特征值、频率与阻尼比、参与因子计算方法
  • 乐鑫发布 esp-iot-solution v2.0 版本
  • 动态代理如何加强安全性
  • Flutter 之 InheritedWidget
  • AI 助力开发新篇章:云开发 Copilot 深度体验与技术解析
  • MyBatis-Plus介绍及基本使用
  • SpringBoot 整合 Avro 与 Kafka
  • 支持JT1078和GB28181的流媒体服务器-LKM启动配置文件参数说明
  • 什么是隐式类型转换?隐式类型转换可能带来哪些问题? 显式类型转换(如强制类型转换)有哪些风险?
  • 量化交易新利器:阿布量化(AbuQuant)——金融研究者的得力助手
  • UI设计从入门到进阶,全能实战课
  • Uniapp自动调整元素高度
  • 软考高项经验分享:我的备考之路与实战心得
  • 安全关系型数据库查询新选择:Rust 语言的 rust-query 库深度解析
  • 《C++ 模型训练之早停法:有效预防过拟合的关键策略》
  • 5.11【数据库】第一次实验