核心是应用 pd.Series, 具体操作如下:
import pandas as pddata {years: [2025],week: [{f"week_{i}": i for i in range(3)}]}
df pd.DataFrame(data)
print(df)df pd.concat([df, df[week].apply(pd.Series)], axis1).drop(week, axis1)…
Flume进阶
Flume 事务
事务处理流程如下: Put
doPut:将批数据先写入临时缓冲区putListdoCommit:检查channel内存队列是否足够合并。doRollback:channel内存队列空间不足,回滚数据
Take
doTake:将数据取…
Canal 是阿里巴巴集团提供的一个开源产品,能够通过解析数据库的增量日志,提供增量数据的订阅和消费功能。使用 Canal 模拟成 MySQL 的 Slave,实时接收 MySQL 的增量数据 binlog,然后通过 RESTful API 将数据写入到 Easysearch 中。…