Data Management Standard Guide v1.2
본 문서는 일일 20만 건의 대규모 시계열 데이터를 효율적으로 관리하고, AI 에이전트가 데이터의 위치를 수학적으로 즉시 계산할 수 있도록 설계되었습니다.
Global ID Standard
섹션 제목: “Global ID Standard”모든 마이크로서비스와 DB에서 공통으로 사용하는 유일 식별자입니다.
domain_id:<authority>:<country>:<registered_domain>- Example:
gov:sg:ica.gov.sg
- Example:
seed_id:<domain_id>::<content_type>- Example:
gov:sg:ica.gov.sg::news
- Example:
Storage and Partition Standard (Hive-style)
섹션 제목: “Storage and Partition Standard (Hive-style)”모든 시계열 정보는 **폴더 경로(Partition Key)**에만 존재하며, 파일명에는 포함하지 않습니다.
Directory Structure
섹션 제목: “Directory Structure”<Root>/└── country=<ISO2>/ # ISO 2자리 국가 코드 (예: sg) └── category=<Logical>/ # 논리적 분류 (예: news, gov, finance) └── content=<Nature>/ # 콘텐츠 성격 (예: news, policy, faq) └── date=YYYY-MM-DD/ # 데이터 기준 날짜 └── <Fixed_Filename>Data Type Storage
섹션 제목: “Data Type Storage”| 데이터 유형 | 저장소 | 고정 파일명 | 비고 |
|---|---|---|---|
| Research Dataset | GitHub / R2 | raw.json | 불변(Immutable) 데이터 스냅샷 |
| Seed Contract | GitHub | v1.json, v2.json | 수집 규칙 및 법적 승인 문서 |
| Robots Evidence | R2 | robots.txt | 수집 당시의 권한 증거 |
| Sitemap Evidence | R2 | sitemap.xml | 수집 당시의 구조 증거 |
| Homepage Evidence | R2 | index.html | 사이트 분석용 증거 (재배포 금지) |
Data Logic and AI Integration
섹션 제목: “Data Logic and AI Integration”R2 Lifecycle Management
섹션 제목: “R2 Lifecycle Management”artifacts/하위의index.html등은date=파티션을 기준으로 14일 후 자동 삭제 정책을 적용하여 비용을 최적화합니다.
VectorDB Metadata Injection
섹션 제목: “VectorDB Metadata Injection”- 임베딩 시 파일명이 아닌 경로의 파티션 키를 메타데이터로 강제 삽입합니다.
metadata: { "country": "sg", "nature": "news", "date": "2026-01-27" }
Zero-Latency Selection (Layer 2 RAG)
섹션 제목: “Zero-Latency Selection (Layer 2 RAG)”- 에이전트는 중앙 NewsFork에서 전달받은
vector_data를 처리할 때, 상위 파티션(country,content)을 1차 필터로 사용하여 연산량을 줄입니다.