本文为Apache 已经支持的SftpFile Source Connector使用文档,旨在帮助读者理解如何高效地使用SFTP文件源连接器,以便轻松地使用Apache SeaTunnel集成和管理您的SftpFil数据源。
SftpFile 是指通过 SFTP(Secure File Transfer Protocol)协议进行文件操作的对象或组件。在网络编程和数据集成中,SFTPFile 通常用来表示和操作存储在远程 SFTP 服务器上的文件。SFTP 是一种安全的文件传输协议,基于 SSH(Secure Shell)协议,提供了加密的文件传输和远程文件操作功能。
支持的引擎
Spark
Flink
SeaTunnel Zeta
主要特性
描述
从 SFTP 文件服务器读取数据。
支持的数据源信息
使用 SftpFile 连接器,需要以下依赖项。可以通过 install-plugin.sh 下载,也可以从 Maven 中央仓库获取。
如果你使用的是 Spark/Flink,请确保 Spark/Flink 集群已经集成了 Hadoop。Hadoop 2.x 版本已通过测试。
如果使用 SeaTunnel 引擎,安装 SeaTunnel 引擎时会自动集成 Hadoop JAR 包。可以在 ${SEATUNNEL_HOME}/lib 目录下检查这个 JAR 包是否存在。
为了支持更多的文件类型,我们做了一些妥协,所以在内部访问 Sftp 时我们使用了 HDFS 协议,这个连接器需要一些 Hadoop 依赖项,且仅支持 Hadoop 版2.9.X+ 版本。
数据类型映射
文件没有特定的类型列表,我们可以通过在配置中指定模式来指示要将哪个 SeaTunnel 数据类型转换为相应的数据。
| SeaTunnel 数据类型 |
|---|
| STRING |
| SHORT |
| INT |
| BIGINT |
| BOOLEAN |
| DOUBLE |
| DECIMAL |
| FLOAT |
| DATE |
| TIME |
| TIMESTAMP |
| BYTES |
| ARRAY |
| MAP |
Source选项
| 名称 | 类型 | 必填 | 默认值 | 描述 |
|---|
| host | 字符串 | 是 | - | 目标 SFTP 主机地址 |
| port | 整数 | 是 | - | 目标 SFTP 端口号 |
| user | 字符串 | 是 | - | 目标 SFTP 用户名 |
| password | 字符串 | 是 | - | 目标 SFTP 密码 |
| path | 字符串 | 是 | - | 源文件路径 |
| file_format_type | 字符串 | 是 | - | 请查看下文的 #file_format_type |
| file_filter_pattern | 字符串 | 否 | - | 用于文件过滤的过滤器模式。 |
| delimiter | 字符串 | 否 | |