# 📊 A股本地数据仓库 ## 📋 数据概况 ### 基础信息数据 - **数据来源**: AKShare (免费开源) - **股票数量**: 5,493只A股 - **时间范围**: 2010年至今 - **创建时间**: 2026-03-26 20:02:10 ### 存储结构 ``` data/ ├── raw/ # 原始数据 │ ├── a_stock_daily/ # A股日线行情数据(待下载) │ │ ├── 2010/ # 按年分区 │ │ ├── 2011/ │ │ └── ... │ ├── financial_reports/ # 财报数据(待下载) │ ├── stock_info/ # 股票基础信息 │ └── data_sources/ # 数据源配置 ├── processed/ # 处理后数据 │ ├── a_stock_daily/ # 清洗后的日线数据 │ ├── financial_indicators/ # 财务指标计算数据 │ ├── stock_info/ # 标准化股票信息 │ └── quality_reports/ # 数据质量报告 └── running_data/ # 运行数据 ├── update_logs/ # 更新日志 └── config/ # 运行配置 ``` ### 数据结构 #### 基础信息数据字段 - **symbol**: 股票代码 - **name**: 股票名称 - **industry**: 所属行业 - **market**: 市场类型 - **list_date**: 上市日期 - **total_market_cap**: 总市值 - **circulating_market_cap**: 流通市值 #### 日线数据字段 - **date**: 交易日期 - **open/high/low/close**: 开高低收价格 - **volume**: 成交量 - **amount**: 成交额 - **adj_factor**: 复权因子 ### 🚀 使用说明 #### 1. 数据访问 ```python import pandas as pd # 读取基础信息 basic_info = pd.read_csv("raw/stock_info/stock_basic_info_raw_*.csv") # 读取日线数据(按年分区) daily_2024 = pd.read_parquet("raw/a_stock_daily/2024/*.parquet") ``` #### 2. 数据更新 ```bash # 运行日线数据下载 python3 scripts/data_acquisition/a_stock_daily_data.py ``` ### 📊 数据质量 #### 完整性检查 - 交易日连续性 - 价格数据完整性 - 成交量一致性 #### 准确性验证 - 价格逻辑检查 - 数据格式统一 - 异常值检测 ### 🔧 技术架构 #### 数据采集 - 使用AKShare开源库 - 批量并行下载 - 自动错误重试 #### 数据处理 - Parquet列式存储 - Snappy压缩 - 时间分区索引 --- **数据维护**: 赵云(数据工程将军) **最后更新**: 2026-03-26 20:02:10