关键词:比特币数据集、地址分类、交易图分析、机器学习、特征工程、图神经网络、链上安全、加密货币欺诈检测
摘要速览
BABD(Bitcoin Address Behavior Dataset)由韩国 KAIST 团队首次构建,核心贡献浓缩为三句话:
- 采集 58.5 万‒68.5 万块高区块,生成 544,462 条高置信度比特币地址标签。
- 提炼 148 维行为特征:统计指标(SI)+局部结构指标(LSI),覆盖 13 类钱包场景。
- 在 XGBoost、LightGBM 等模型上跑出 F1>92% 的 13 分类结果,为链上安全分析提供迄今最全面比特币地址行为数据集。
引言:为什么需要专门研究比特币地址行为?
比特币交易呈指数级增长,也伴随勒索、暗网、洗钱等灰色场景。传统的「图追踪」往往停留在交易所-地址层面,缺乏细粒度标签与可复现的图构建脚本。BABD 通过异构交易图,把「地址-交易-时间」三维信息压缩成可为机器学习直接饮用的数值特征,首次一次性给出 518M 节点、713M 边的全景级图例。
论文架构串讲
1. 相关研究:现有短板
- 标签数量不足:此前最多只分 7 类地址,局限严重。
- 指标零散:币种余额、UTXO 深度零敲碎打,没有体系化分组。
- 不可复现:几乎都不公开边-节点构建细节,学术复现困难。
BABD 将以上三坑一次性补齐。
2. 背景知识
2.1 图模型
比特币天然是有向异构多图:地址 (Ads) 与交易 (Tx) 双节点类型,输入/输出作为关系。作者沿用 Maesa 结构,但把找零输出等价边补上,避免信息泄露。
2.2 地址类型清单
涵盖勒索、暗网市场、P2P 金融、博彩、洗钱、矿池、混币器等 13 个细分场景,远超此前公开方案。
3. 数据收集:百万级地址标签清洗流程
- 范围:区块 585,000-685,000(2019-07-12 至 2021-05-26)。
- 工具:自建脚本调用 Bitcoin Core RPC 与钱包分析 API。
- 标签策略:
1) 公开库(walletexplorer.com)匹配 → 强地址 (SA)
2) 人工交叉验证 → 弱地址 (WA)
3) 最终共获 544K 个高置信标签,可直接用于训练采样。
特征工程:148 维行为向量一次性扫清技术债
3.1 统计指标 (SI) ‒ 41 维
分为四大类,每一类对应比特币 链上活动 的不同切面:
- 纯量指标 (PAI):地址余额、接收/发送总金额、UTXO 数。
- 纯度指标 (PDI):地址交易额分布的基尼系数、出度均衡度。
- 纯时间指标 (PTI):首末交易间隔、交易速率、波动率。
- 组合指标 (CI):PAI+PDI+PTI 二次组合,捕捉多变量耦合。
3.2 局部结构指标 (LSI) ‒ 107 维
核心思想:地址在交易网络中的 拓扑邻里 决定其角色。
- k-hop 子图:实验确定 k=4,可覆盖 80% 的关联地址且不爆 GPU。
结构特征:
- 度数相关 (度关联度、加权度数)
- 中心性 (Betweenness, PageRank, Closeness)
- 全局连通性 (平均路径长度、直径、密度)
- 子图动态演变时间点快照作为补充
代码片段(网络构建与特征提取):
import graph_tool.all as gt
def build_hetero_graph(json_files):
g = gt.Graph(directed=True)
# add vertex property: addr, tx
# add edge property: in/out type
return g并行流水线:8 卡 A100 上可在 12 小时内完成 107 维 LSI 计算,相较 single-process 提升 27 倍。
实验结果:横向对比一览
| 模型 | 准确率 | 精确率 | 召回率 | F1 |
|---|---|---|---|---|
| RF | 95.28% | 95.03% | 95.28% | 95.11% |
| LR | 93.24% | 92.80% | 93.24% | 92.97% |
| XGBoost | 96.71% | 96.46% | 96.71% | 96.57% |
| LightGBM | 96.48% | 96.27% | 96.48% | 96.37% |
| MLP | 94.92% | 94.71% | 94.92% | 94.82% |
亮点:即使只使用 SI(统计特征)仍能跑出 92%+ 均值;加入 LSI 后最高提升 3.5 个百分点,证明子图拓扑信息的增量价值。
讨论与启示
- “看得更细”才有用:普通聚类只能分出交易所 vs 个人,而 13 分类让执法团队精准定位勒索、暗网、混币器。
- 工程可复现:脚本与 API 路径全公开,弥补此前研究「只给结论不给做法」的遗憾。
- 连点成网:不再把地址当孤立节点,而是放到 k-hop 微观网络中观测,大幅提升欺诈样本召回。
对于想复刻的同学,核心三件套:地址标签→k-hop 子图→GHOM 特征。
常见问题 (FAQ)
Q1: 数据集是否免费公开?
A: 论文作者已向 ICWSM 提交快照版本,预计短期内放 GitHub。你也可以按论文步骤自建,确保 100K 区块范围一致即可复现结果。
Q2: 支持比特现金或以太坊吗?
A: 当前仅适配 比特币主网。ETH 的交易模型不同,需要另行设计账户-合约双节点异构图,理论可行但尚未实验。
Q3: Xilinx FPGA 部署可行吗?
A: 论文仅在 CPU/GPU 测试。若将 Graph-tool 子图提取改写为 openCL 内核,运行时间可再降 30% 以上,适合企业级实时风控场景。
Q4: 如何避免标签泄露?
A: 将链上时间戳切成训练/验证/测试三段,确保验证集交易晚于训练集即可。实验显示时间滑窗策略比随机划分获得更真实 ROC。
Q5: 能否直接用于产量预测?
A: 不建议。BABD 侧重细粒度标签而非市场行为,要学价格影响请采用 Order Book 数据或衍生品特征。
Q6: k-hop 选取 4 会不会过度平滑?
A: 作者在 2-6-hop 间网格搜索,4 是性能-算力的折中。需要更高精度,可在 4-hop 后加自适应采样,保留高 PageRank 邻居以减小信息损失。
结语:链上追踪的新起点
BABD 把「标签粒度」「结构视角」「机器学习可用特征」三件事做到极致,不仅补全了比特币生态的风险评估拼图,也为 Litecoin、Dogecoin 等 PoW 资产的仿照提供了可迁移蓝图。下一步,等官方代码公开后,社区可通过 增量训练 持续纳入新区块,长久保持高检出率。