콘텐츠로 이동

Data Management Standard Guide v1.2

본 문서는 일일 20만 건의 대규모 시계열 데이터를 효율적으로 관리하고, AI 에이전트가 데이터의 위치를 수학적으로 즉시 계산할 수 있도록 설계되었습니다.

모든 마이크로서비스와 DB에서 공통으로 사용하는 유일 식별자입니다.

  • domain_id: <authority>:<country>:<registered_domain>
    • Example: gov:sg:ica.gov.sg
  • seed_id: <domain_id>::<content_type>
    • Example: gov:sg:ica.gov.sg::news

Storage and Partition Standard (Hive-style)

섹션 제목: “Storage and Partition Standard (Hive-style)”

모든 시계열 정보는 **폴더 경로(Partition Key)**에만 존재하며, 파일명에는 포함하지 않습니다.

<Root>/
└── country=<ISO2>/ # ISO 2자리 국가 코드 (예: sg)
└── category=<Logical>/ # 논리적 분류 (예: news, gov, finance)
└── content=<Nature>/ # 콘텐츠 성격 (예: news, policy, faq)
└── date=YYYY-MM-DD/ # 데이터 기준 날짜
└── <Fixed_Filename>
데이터 유형저장소고정 파일명비고
Research DatasetGitHub / R2raw.json불변(Immutable) 데이터 스냅샷
Seed ContractGitHubv1.json, v2.json수집 규칙 및 법적 승인 문서
Robots EvidenceR2robots.txt수집 당시의 권한 증거
Sitemap EvidenceR2sitemap.xml수집 당시의 구조 증거
Homepage EvidenceR2index.html사이트 분석용 증거 (재배포 금지)
  • artifacts/ 하위의 index.html 등은 date= 파티션을 기준으로 14일 후 자동 삭제 정책을 적용하여 비용을 최적화합니다.
  • 임베딩 시 파일명이 아닌 경로의 파티션 키를 메타데이터로 강제 삽입합니다.
    • metadata: { "country": "sg", "nature": "news", "date": "2026-01-27" }
  • 에이전트는 중앙 NewsFork에서 전달받은 vector_data를 처리할 때, 상위 파티션(country, content)을 1차 필터로 사용하여 연산량을 줄입니다.