98 lines
2.4 KiB
Markdown
98 lines
2.4 KiB
Markdown
# 📊 A股本地数据仓库
|
|
|
|
## 📋 数据概况
|
|
|
|
### 基础信息数据
|
|
- **数据来源**: AKShare (免费开源)
|
|
- **股票数量**: 5,493只A股
|
|
- **时间范围**: 2010年至今
|
|
- **创建时间**: 2026-03-26 20:02:10
|
|
|
|
### 存储结构
|
|
|
|
```
|
|
data/
|
|
├── raw/ # 原始数据
|
|
│ ├── a_stock_daily/ # A股日线行情数据(待下载)
|
|
│ │ ├── 2010/ # 按年分区
|
|
│ │ ├── 2011/
|
|
│ │ └── ...
|
|
│ ├── financial_reports/ # 财报数据(待下载)
|
|
│ ├── stock_info/ # 股票基础信息
|
|
│ └── data_sources/ # 数据源配置
|
|
├── processed/ # 处理后数据
|
|
│ ├── a_stock_daily/ # 清洗后的日线数据
|
|
│ ├── financial_indicators/ # 财务指标计算数据
|
|
│ ├── stock_info/ # 标准化股票信息
|
|
│ └── quality_reports/ # 数据质量报告
|
|
└── running_data/ # 运行数据
|
|
├── update_logs/ # 更新日志
|
|
└── config/ # 运行配置
|
|
```
|
|
|
|
### 数据结构
|
|
|
|
#### 基础信息数据字段
|
|
- **symbol**: 股票代码
|
|
- **name**: 股票名称
|
|
- **industry**: 所属行业
|
|
- **market**: 市场类型
|
|
- **list_date**: 上市日期
|
|
- **total_market_cap**: 总市值
|
|
- **circulating_market_cap**: 流通市值
|
|
|
|
#### 日线数据字段
|
|
- **date**: 交易日期
|
|
- **open/high/low/close**: 开高低收价格
|
|
- **volume**: 成交量
|
|
- **amount**: 成交额
|
|
- **adj_factor**: 复权因子
|
|
|
|
### 🚀 使用说明
|
|
|
|
#### 1. 数据访问
|
|
```python
|
|
import pandas as pd
|
|
|
|
# 读取基础信息
|
|
basic_info = pd.read_csv("raw/stock_info/stock_basic_info_raw_*.csv")
|
|
|
|
# 读取日线数据(按年分区)
|
|
daily_2024 = pd.read_parquet("raw/a_stock_daily/2024/*.parquet")
|
|
```
|
|
|
|
#### 2. 数据更新
|
|
```bash
|
|
# 运行日线数据下载
|
|
python3 scripts/data_acquisition/a_stock_daily_data.py
|
|
```
|
|
|
|
### 📊 数据质量
|
|
|
|
#### 完整性检查
|
|
- 交易日连续性
|
|
- 价格数据完整性
|
|
- 成交量一致性
|
|
|
|
#### 准确性验证
|
|
- 价格逻辑检查
|
|
- 数据格式统一
|
|
- 异常值检测
|
|
|
|
### 🔧 技术架构
|
|
|
|
#### 数据采集
|
|
- 使用AKShare开源库
|
|
- 批量并行下载
|
|
- 自动错误重试
|
|
|
|
#### 数据处理
|
|
- Parquet列式存储
|
|
- Snappy压缩
|
|
- 时间分区索引
|
|
|
|
---
|
|
|
|
**数据维护**: 赵云(数据工程将军)
|
|
**最后更新**: 2026-03-26 20:02:10
|