BABD 比特币地址行为数据集:模式分析实战指南

·

关键词:比特币数据集、地址分类、交易图分析、机器学习、特征工程、图神经网络、链上安全、加密货币欺诈检测

摘要速览

BABD(Bitcoin Address Behavior Dataset)由韩国 KAIST 团队首次构建,核心贡献浓缩为三句话:

  1. 采集 58.5 万‒68.5 万块高区块,生成 544,462 条高置信度比特币地址标签
  2. 提炼 148 维行为特征:统计指标(SI)+局部结构指标(LSI),覆盖 13 类钱包场景。
  3. 在 XGBoost、LightGBM 等模型上跑出 F1>92% 的 13 分类结果,为链上安全分析提供迄今最全面比特币地址行为数据集

引言:为什么需要专门研究比特币地址行为?

比特币交易呈指数级增长,也伴随勒索、暗网、洗钱等灰色场景。传统的「图追踪」往往停留在交易所-地址层面,缺乏细粒度标签与可复现的图构建脚本。BABD 通过异构交易图,把「地址-交易-时间」三维信息压缩成可为机器学习直接饮用的数值特征,首次一次性给出 518M 节点、713M 边的全景级图例

👉 立即查看如何用同类数据集预测潜在欺诈地址


论文架构串讲

1. 相关研究:现有短板

BABD 将以上三坑一次性补齐。

2. 背景知识

2.1 图模型

比特币天然是有向异构多图:地址 (Ads) 与交易 (Tx) 双节点类型,输入/输出作为关系。作者沿用 Maesa 结构,但把找零输出等价边补上,避免信息泄露。

2.2 地址类型清单

涵盖勒索、暗网市场、P2P 金融、博彩、洗钱、矿池、混币器等 13 个细分场景,远超此前公开方案。

3. 数据收集:百万级地址标签清洗流程


特征工程:148 维行为向量一次性扫清技术债

3.1 统计指标 (SI) ‒ 41 维

分为四大类,每一类对应比特币 链上活动 的不同切面:

  1. 纯量指标 (PAI):地址余额、接收/发送总金额、UTXO 数。
  2. 纯度指标 (PDI):地址交易额分布的基尼系数、出度均衡度。
  3. 纯时间指标 (PTI):首末交易间隔、交易速率、波动率。
  4. 组合指标 (CI):PAI+PDI+PTI 二次组合,捕捉多变量耦合。

3.2 局部结构指标 (LSI) ‒ 107 维

核心思想:地址在交易网络中的 拓扑邻里 决定其角色。

代码片段(网络构建与特征提取):

import graph_tool.all as gt

def build_hetero_graph(json_files):
    g = gt.Graph(directed=True)
    # add vertex property: addr, tx
    # add edge property: in/out type
    return g

并行流水线:8 卡 A100 上可在 12 小时内完成 107 维 LSI 计算,相较 single-process 提升 27 倍。


实验结果:横向对比一览

模型准确率精确率召回率F1
RF95.28%95.03%95.28%95.11%
LR93.24%92.80%93.24%92.97%
XGBoost96.71%96.46%96.71%96.57%
LightGBM96.48%96.27%96.48%96.37%
MLP94.92%94.71%94.92%94.82%

亮点:即使只使用 SI(统计特征)仍能跑出 92%+ 均值;加入 LSI 后最高提升 3.5 个百分点,证明子图拓扑信息的增量价值。


讨论与启示

  1. “看得更细”才有用:普通聚类只能分出交易所 vs 个人,而 13 分类让执法团队精准定位勒索、暗网、混币器。
  2. 工程可复现:脚本与 API 路径全公开,弥补此前研究「只给结论不给做法」的遗憾。
  3. 连点成网:不再把地址当孤立节点,而是放到 k-hop 微观网络中观测,大幅提升欺诈样本召回。

对于想复刻的同学,核心三件套:地址标签→k-hop 子图→GHOM 特征


常见问题 (FAQ)

Q1: 数据集是否免费公开?
A: 论文作者已向 ICWSM 提交快照版本,预计短期内放 GitHub。你也可以按论文步骤自建,确保 100K 区块范围一致即可复现结果。

Q2: 支持比特现金或以太坊吗?
A: 当前仅适配 比特币主网。ETH 的交易模型不同,需要另行设计账户-合约双节点异构图,理论可行但尚未实验。

Q3: Xilinx FPGA 部署可行吗?
A: 论文仅在 CPU/GPU 测试。若将 Graph-tool 子图提取改写为 openCL 内核,运行时间可再降 30% 以上,适合企业级实时风控场景。

Q4: 如何避免标签泄露?
A: 将链上时间戳切成训练/验证/测试三段,确保验证集交易晚于训练集即可。实验显示时间滑窗策略比随机划分获得更真实 ROC。

Q5: 能否直接用于产量预测?
A: 不建议。BABD 侧重细粒度标签而非市场行为,要学价格影响请采用 Order Book 数据或衍生品特征。

Q6: k-hop 选取 4 会不会过度平滑?
A: 作者在 2-6-hop 间网格搜索,4 是性能-算力的折中。需要更高精度,可在 4-hop 后加自适应采样,保留高 PageRank 邻居以减小信息损失。


结语:链上追踪的新起点

BABD 把「标签粒度」「结构视角」「机器学习可用特征」三件事做到极致,不仅补全了比特币生态的风险评估拼图,也为 Litecoin、Dogecoin 等 PoW 资产的仿照提供了可迁移蓝图。下一步,等官方代码公开后,社区可通过 增量训练 持续纳入新区块,长久保持高检出率。

👉 查看实时链上行为热力图,第一时间捕捉异常信号