132 lines
4.6 KiB
Markdown
132 lines
4.6 KiB
Markdown
# zhaoyun-data - 赵云数据工程工作区
|
||
|
||
## 🧮 负责人:赵云(数据工程将军)
|
||
**依据**:AGENTS.md角色配置
|
||
**职责**:数据获取、清洗验证、质量检查
|
||
**状态**:按照workflow-rules.md标准结构完成融合
|
||
|
||
## 📁 目录结构(符合workflow-rules.md标准)
|
||
|
||
### research/ - 调研报告目录
|
||
- 数据工程相关调研任务报告
|
||
- 按任务日期和描述组织
|
||
- 当前:暂无调研任务,待诸葛亮军师分配
|
||
|
||
### scripts/ - 数据处理脚本
|
||
- **data_acquisition/** - 数据获取脚本(批量下载器等)
|
||
- **data_cleaning/** - 数据清洗脚本(待补充)
|
||
- **data_validation/** - 数据验证脚本(适配器测试等)
|
||
- **data_quality/** - 质量检查脚本(待补充)
|
||
- **common_tools/** - 通用工具(AKShare-vnPy适配器等)
|
||
|
||
### data/ - 数据存储目录
|
||
- **raw/** - 原始数据(文章链接等)
|
||
- **processed/** - 处理后的数据(聚宽精华文章数据等)
|
||
- **running_data/** - 运行数据(测试数据库等)
|
||
|
||
### reports/ - 报告文档
|
||
- 数据工程工作报告
|
||
- 任务完成报告
|
||
- 技术文档和说明
|
||
|
||
### references/ - 参考资料链接
|
||
- 链接到通用知识库
|
||
- 外部资源参考链接
|
||
- 当前:待补充
|
||
|
||
## ✅ 融合成果总结
|
||
|
||
### 已完成的核心数据工程成果
|
||
|
||
#### 1. 聚宽精华文章数据处理
|
||
- **数据规模**:11篇核心技术文章完整数据
|
||
- **技术深度**:每篇超过500字深度技术分析
|
||
- **存储位置**:`data/processed/jq_essence_articles/`
|
||
|
||
#### 2. 数据获取与处理工具
|
||
- **批量下载器**:`scripts/data_acquisition/batch_downloader.py`
|
||
- **适配器测试**:`scripts/data_validation/test_adapter.py`
|
||
- **数据转换工具**:`scripts/common_tools/akshare_vnpy_adapter.py`
|
||
|
||
#### 3. 数据资源库
|
||
- **原始数据**:聚宽文章链接库(`data/raw/articles_links.csv`)
|
||
- **处理数据**:结构化聚宽文章数据
|
||
- **运行数据**:测试数据库(`data/running_data/database_test.db`)
|
||
|
||
#### 4. 技术文档与报告
|
||
- **实施报告**:数据工程实施详细报告
|
||
- **验证报告**:数据质量验证报告
|
||
- **任务报告**:已完成任务总结报告
|
||
|
||
## 🎯 工作流程(依据workflow-rules.md)
|
||
|
||
### 独立任务流程
|
||
```
|
||
诸葛亮军师分配任务 → 赵云执行 → 成果提交到对应目录 → 诸葛亮审核 → 归档
|
||
```
|
||
|
||
### 协作任务流程
|
||
```
|
||
确定主导将军 → 主导将军建协作目录 → 赵云提交数据工程成果 → 主导将军整合 → 交付
|
||
```
|
||
|
||
### 赵云数据工程流程
|
||
1. **数据获取**:使用`data_acquisition/`脚本获取原始数据
|
||
2. **数据清洗**:使用`data_cleaning/`脚本处理数据质量问题
|
||
3. **数据验证**:使用`data_validation/`脚本验证数据准确性
|
||
4. **质量检查**:使用`data_quality/`脚本监控数据质量
|
||
5. **存储归档**:将数据存储到`data/`相应子目录
|
||
|
||
## 🔧 当前可用资源
|
||
|
||
### 数据资源
|
||
- **聚宽文章库**:11篇核心技术文章完整数据
|
||
- **文章链接库**:完整的聚宽文章索引
|
||
- **测试数据库**:数据工程测试环境
|
||
|
||
### 工具资源
|
||
- **数据获取工具**:支持批量下载和断点续传
|
||
- **数据验证工具**:确保数据质量和一致性
|
||
- **数据转换工具**:支持不同数据源格式统一
|
||
|
||
### 文档资源
|
||
- **技术文档**:详细的数据处理方法说明
|
||
- **工作报告**:完整的任务执行记录
|
||
- **参考指南**:数据工程最佳实践
|
||
|
||
## 📊 质量保证
|
||
|
||
### 数据质量标准
|
||
1. **完整性**:确保数据字段无缺失
|
||
2. **准确性**:验证数据值准确无误
|
||
3. **一致性**:保持数据格式统一
|
||
4. **时效性**:及时更新数据资源
|
||
5. **可靠性**:确保数据来源和处理可追溯
|
||
|
||
### 代码质量标准
|
||
1. **规范标准**:Python代码符合PEP8规范
|
||
2. **文档完整**:关键逻辑有详细注释
|
||
3. **错误处理**:完善的异常处理机制
|
||
4. **可维护性**:清晰的代码结构和模块化设计
|
||
|
||
## 🔄 协作与沟通
|
||
|
||
### 任务接收方式
|
||
- 诸葛亮军师通过`sessions_send`直接分配任务
|
||
- 及时确认任务要求和完成标准
|
||
|
||
### 成果提交方式
|
||
- 独立任务:成果提交到赵云工作区对应目录
|
||
- 协作任务:成果提交到主导将军的协作目录
|
||
- 文档标准:重要文档及时更新,保持同步
|
||
|
||
### 沟通机制
|
||
- 重要事项及时通知相关方
|
||
- 定期更新工作进展状态
|
||
- 使用统一的知识库共享资源
|
||
|
||
---
|
||
|
||
**赵云承诺**:将严格按照AGENTS.md职责和工作流规则,高质量完成数据工程任务,为三国量化项目提供坚实的数据基础!🧮
|
||
|
||
**常山赵子龙,数据工程工作区已按照标准完成融合,随时准备执行任务!** |