BABD 比特币地址行为数据集：模式分析实战指南

关键词：比特币数据集、地址分类、交易图分析、机器学习、特征工程、图神经网络、链上安全、加密货币欺诈检测

摘要速览

BABD（Bitcoin Address Behavior Dataset）由韩国 KAIST 团队首次构建，核心贡献浓缩为三句话：

采集 58.5 万‒68.5 万块高区块，生成 544,462 条高置信度比特币地址标签。
提炼 148 维行为特征：统计指标（SI）+局部结构指标（LSI），覆盖 13 类钱包场景。
在 XGBoost、LightGBM 等模型上跑出 F1>92% 的 13 分类结果，为链上安全分析提供迄今最全面比特币地址行为数据集。

引言：为什么需要专门研究比特币地址行为？

比特币交易呈指数级增长，也伴随勒索、暗网、洗钱等灰色场景。传统的「图追踪」往往停留在交易所-地址层面，缺乏细粒度标签与可复现的图构建脚本。BABD 通过异构交易图，把「地址-交易-时间」三维信息压缩成可为机器学习直接饮用的数值特征，首次一次性给出 518M 节点、713M 边的全景级图例。

👉 立即查看如何用同类数据集预测潜在欺诈地址

论文架构串讲

1. 相关研究：现有短板

标签数量不足：此前最多只分 7 类地址，局限严重。
指标零散：币种余额、UTXO 深度零敲碎打，没有体系化分组。
不可复现：几乎都不公开边-节点构建细节，学术复现困难。

BABD 将以上三坑一次性补齐。

2. 背景知识

2.1 图模型

比特币天然是有向异构多图：地址 (Ads) 与交易 (Tx) 双节点类型，输入/输出作为关系。作者沿用 Maesa 结构，但把找零输出等价边补上，避免信息泄露。

2.2 地址类型清单

涵盖勒索、暗网市场、P2P 金融、博彩、洗钱、矿池、混币器等 13 个细分场景，远超此前公开方案。

3. 数据收集：百万级地址标签清洗流程

范围：区块 585,000-685,000（2019-07-12 至 2021-05-26）。
工具：自建脚本调用 Bitcoin Core RPC 与钱包分析 API。
标签策略：
1) 公开库（walletexplorer.com）匹配 → 强地址 (SA)
2) 人工交叉验证 → 弱地址 (WA)
3) 最终共获 544K 个高置信标签，可直接用于训练采样。

特征工程：148 维行为向量一次性扫清技术债

3.1 统计指标 (SI) ‒ 41 维

分为四大类，每一类对应比特币 链上活动 的不同切面：

纯量指标 (PAI)：地址余额、接收/发送总金额、UTXO 数。
纯度指标 (PDI)：地址交易额分布的基尼系数、出度均衡度。
纯时间指标 (PTI)：首末交易间隔、交易速率、波动率。
组合指标 (CI)：PAI+PDI+PTI 二次组合，捕捉多变量耦合。

3.2 局部结构指标 (LSI) ‒ 107 维

核心思想：地址在交易网络中的 拓扑邻里 决定其角色。

k-hop 子图：实验确定 k=4，可覆盖 80% 的关联地址且不爆 GPU。
结构特征：
- 度数相关 (度关联度、加权度数)
- 中心性 (Betweenness, PageRank, Closeness)
- 全局连通性 (平均路径长度、直径、密度)
- 子图动态演变时间点快照作为补充

代码片段（网络构建与特征提取）：

import graph_tool.all as gt

def build_hetero_graph(json_files):
    g = gt.Graph(directed=True)
    # add vertex property: addr, tx
    # add edge property: in/out type
    return g

并行流水线：8 卡 A100 上可在 12 小时内完成 107 维 LSI 计算，相较 single-process 提升 27 倍。

实验结果：横向对比一览

模型	准确率	精确率	召回率	F1
RF	95.28%	95.03%	95.28%	95.11%
LR	93.24%	92.80%	93.24%	92.97%
XGBoost	96.71%	96.46%	96.71%	96.57%
LightGBM	96.48%	96.27%	96.48%	96.37%
MLP	94.92%	94.71%	94.92%	94.82%

亮点：即使只使用 SI（统计特征）仍能跑出 92%+ 均值；加入 LSI 后最高提升 3.5 个百分点，证明子图拓扑信息的增量价值。

讨论与启示

“看得更细”才有用：普通聚类只能分出交易所 vs 个人，而 13 分类让执法团队精准定位勒索、暗网、混币器。
工程可复现：脚本与 API 路径全公开，弥补此前研究「只给结论不给做法」的遗憾。
连点成网：不再把地址当孤立节点，而是放到 k-hop 微观网络中观测，大幅提升欺诈样本召回。

对于想复刻的同学，核心三件套：地址标签→k-hop 子图→GHOM 特征。

常见问题 (FAQ)

Q1: 数据集是否免费公开？
A: 论文作者已向 ICWSM 提交快照版本，预计短期内放 GitHub。你也可以按论文步骤自建，确保 100K 区块范围一致即可复现结果。

Q2: 支持比特现金或以太坊吗？
A: 当前仅适配 比特币主网。ETH 的交易模型不同，需要另行设计账户-合约双节点异构图，理论可行但尚未实验。

Q3: Xilinx FPGA 部署可行吗？
A: 论文仅在 CPU/GPU 测试。若将 Graph-tool 子图提取改写为 openCL 内核，运行时间可再降 30% 以上，适合企业级实时风控场景。

Q4: 如何避免标签泄露？
A: 将链上时间戳切成训练/验证/测试三段，确保验证集交易晚于训练集即可。实验显示时间滑窗策略比随机划分获得更真实 ROC。

Q5: 能否直接用于产量预测？
A: 不建议。BABD 侧重细粒度标签而非市场行为，要学价格影响请采用 Order Book 数据或衍生品特征。

Q6: k-hop 选取 4 会不会过度平滑？
A: 作者在 2-6-hop 间网格搜索，4 是性能-算力的折中。需要更高精度，可在 4-hop 后加自适应采样，保留高 PageRank 邻居以减小信息损失。

结语：链上追踪的新起点

BABD 把「标签粒度」「结构视角」「机器学习可用特征」三件事做到极致，不仅补全了比特币生态的风险评估拼图，也为 Litecoin、Dogecoin 等 PoW 资产的仿照提供了可迁移蓝图。下一步，等官方代码公开后，社区可通过 增量训练 持续纳入新区块，长久保持高检出率。

👉 查看实时链上行为热力图，第一时间捕捉异常信号