hive2.1.1 无法识别高版本hive-orc数据 在 利用 distcp 将 原 apahce hadoop 集群 传输数据到 新 cdh6.3.2 集群后在 新 cdh 集群上 使用 hive 建表,结果 无法查询到 表数据提示 ORC split generation failed with exception:ArrayIndexOutOfBoundsException: 7 查询资料发现https://issues.apache.o 2023-07-10 大数据 hive
datax任务主键切分数量分析 在执行 某个离线同步任务时, 数据库告警,发现是datax查询 没有做分页直接告警1select * from table目前对大表 不允许 直接 select 不加 where 条件因此考虑 进行切片datax 在执行任务时,支持对主键做切分 DataX/mysqlreader/doc/mysqlreader.md splitPk 描述:MysqlReader进行数据抽取时,如果指定spli 2023-04-13 大数据 datax
flume启动脚本 自定义flume启停脚本使用 shell 编写一个 flume 启动、停止、重启脚本 执行 方式 : sh 脚本 (start|stop|restart) 注意: 需要将该 脚本 放在 flume 的 bin目录下,即 apache-flume-1.9.0-bin/bin/启动脚本 1234567891011121314151617181920212223242526272829303132333 2022-12-08 flume flume
flume自定义拦截器(Interceptor) 自定义Interceptor是Flume中一个非常有用的功能,它允许用户在Flume中添加自己的拦截器,以实现自定义的日志处理逻辑。 要创建一个自定义的Interceptor,需要实现Flume的Interceptor接口,并实现接口中定义的所有方法。然后,可以在Flume的配置文件中添加该拦截器,并指定它的位置。 拦截器将在Flume中的数据流中执行,并可以对数据进行处理、修改、过滤或转换。拦截 2022-12-08 flume flume
hadoop使用distcp数据迁移 数据迁移 命令 hadoop distcp: hadoop distcp -log ~/distcp_stage.log hdfs://192.168.1.1:9000/user/hive/warehouse/ods hdfs://192.168.1.2:8020/user/hive/warehouse/ 注意事项这里的 source hdfs 和 target hdfs 必须得是 name 2022-12-02 大数据 hdfs 数据迁移
jetbrains-ide使用的vmoptions文件位置 IDE使用了哪个vmoptions文件?IDE依次检查下面各项,若满足,则使用相应的文件 1.环境变量指向的vmoptions文件如果<IDE>_VM_OPTIONS环境变量存在且指向的vmoptions文件也存在, 则使用该文件.其中是jetbrains IDE的代号,比如 IDEA / PYCHARM 等 环境变量里找到 以 _VM_OPTIONS 结尾的环境变量, 如下, 对应的 2022-12-02 环境配置 jetbrains
flume-sink-kafka多分区 问题如果不做任何设置,flume 在写 kafka时只会写到一个分区,由于kafka 的一个分区 对于一个 消费者组来说只能有一个消费者 这样会影响消费速度,所以想flume 在 写 kafka 时就写到多个分区中 解决方法官方文档中说明 flume 写 kafka的分区 是根据 FlumeEvent 的 headers 的key 来判断写入哪个分区的,如果 key 为 null 会随机分区 所以 2022-11-17 flume flume kafka
anaconda配置国内镜像 Anaconda配置国内镜像 查看已有镜像 12345678conda config --show channelschannels: - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/ - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge - 2022-11-15 环境配置 python
List<Integer>添加一个String 利用反射魔法 就可以在 ArrayList 中添加一个 String类型的元素了 12345678910111213141516171819202122232425import java.lang.reflect.InvocationTargetException;import java.lang.reflect.Method;import java.util.ArrayList;import j 2022-08-30 其他
picgo上传图片到github 写博客的时候有很多图片需要插入,这些博客在本地的时候,可以预览到图片,但是因为图片在本地没有上传,所以一发布就看不到图片了。因为博客是部署在 github 上的,所以同样也用 github 来做图床。 PicGo 是一个用于快速上传图片并获取图片 URL 链接的工具,支持多个图床进行使用 下载picgo下载picgo 2.3.0版本 Release 2.3.0 · Molunerfinn/PicG 2022-08-09 环境配置 picgo 图床