Files
sanguo_quant_live/zhaoyun-data/reports/CURRENT_PROGRESS.md
T
2026-04-09 18:10:01 +08:00

4.8 KiB
Raw Blame History

zhaoyun-data 当前进展汇报

1. 已完成工作

基础架构建设

  • 完整数据目录结构已创建(按照AGENTS.md规范)
  • 全套技术工具链开发完成
  • 数据质量管理系统开发完成
  • 文档体系完善

基础数据采集

  • A股基础信息:5,493只A股(含退市)基础信息采集完成
    • 字段:代码、名称、行业、市值、上市时间等
    • 存储位置:data/raw/stock_info/
    • 格式:CSV + JSON + Parquet(多格式备份)

数据采集工具开发

  • a_stock_basic_info.py - 基础信息采集工具 ✓
  • a_stock_daily_data_downloader.py - 日线数据下载器 ✓(代码已修复接口)
  • a_stock_financial_data_downloader.py - 财务数据下载器 ✓
  • minute_kline_collector.py - 分钟K线采集器 ✓
  • data_quality_manager.py - 数据质量管理系统 ✓
  • a_stock_data_main.py - 综合主控程序 ✓

NAS准备

  • NAS挂载验证完成 ✓
  • 分钟数据目录结构已创建 ✓
  • 下载配置已生成 ✓

网络配置

  • ClashX已添加国内数据源直连规则 ✓
  • DNS解析问题已解决 ✓

2. 已接入数据源

数据类型 数据源 状态 说明
A股基础信息 AKShare 已完成 5,493只股票基本信息
A股日线行情 AKShare/东方财富 ⚠️ 代码就绪,IP被限 接口可用但IP被访问频率限制
A股分钟K线 AKShare/新浪 接口失效 新浪接口返回格式变化,AKShare无法解析
A股财务数据 AKShare/东方财富 ⚠️ 代码就绪,IP被限 和日线数据同一数据源,当前无法下载

3. 数据存储位置和格式

本地存储(zhaoyun-data/

data/
├── raw/                            # 原始数据
│   ├── a_stock_daily/             # 日线数据(结构就绪,等待下载)
│   ├── financial_reports/         # 财务报表(结构就绪,等待下载)
│   ├── stock_info/                # 基础信息 ✅
│   │   └── stock_basic_info_raw_20260326_113530.*
│   └── running_data/              # 运行数据
├── processed/                      # 处理后数据
│   ├── a_stock_daily/
│   ├── financial_indicators/
│   ├── stock_info/
│   └── quality_reports/
└── running_data/                  # 运行日志和配置
    ├── logs/
    └── config/

存储格式:

  • 原始数据:ParquetSnappy压缩)+ JSON元数据
  • 按年份分区存储(日线数据)
  • 支持增量更新
  • 完整数据质量校验信息

NAS存储

/Users/chufeng/nas/stock/minute_kline/  # 分钟K线数据
├── 1min/                           # 1分钟数据(等待下载)
├── 5min/                           # 5分钟数据(等待下载)
├── 15min/                          # 15分钟数据(等待下载)
├── logs/                           # 下载日志
├── reports/                        # 下载报告
└── download_config.json            # 下载配置 ✅

4. 未完成工作和缺失数据

🔄 未完成任务

任务 状态 受阻原因
日线数据全量采集 受阻 当前IP被东方财富网访问频率限制
财务数据采集 受阻 同一数据源,同样受IP限制
分钟数据全量采集 受阻 新浪接口格式变化,AKShare无法解析
数据清洗验证 等待数据采集完成 数据采集完成后执行

📋 缺失数据

  1. 日线行情数据2010-2026- 约2GB
  2. 财务报表数据(资产负债表/利润表/现金流量表)- 约300MB
  3. 分钟K线数据2021-20261/5/15分钟)- 15.5-19GBNAS存储)

5. 需要其他同事配合

目前需要配合:

  1. 解决IP访问限制问题

    • 是否换Windows测试节点执行数据采集?
    • 还是等待当前IP自动解禁?
  2. 分钟数据接口问题

    • 是否更换其他数据源获取分钟数据?
    • 还是暂时放弃分钟数据采集,先只做日线和财务?
  3. 数据采集完成后

    • 需要张飞(技术策略)来使用数据进行策略回测
    • 需要关羽(风控)来配合数据质量检查和风险控制
    • 需要司马懿(质量)来进行最终质量审计

6. 当前可立即执行任务

基础数据质量验证 - 完全本地任务,不需要网络,可以立即执行:

  • 验证已采集的5,493只A股基础信息数据质量
  • 生成质量报告
  • 预计几小时内完成

汇报人:赵云 子龙(数据护军) 汇报时间2026-04-09 当前状态:在线待命,等待指示