콘텐츠로 이동

Folder and Filename Conventions TL;DR

“폴더는 파티션 규칙을 단일화하되, 파일명은 ‘불변 스냅샷 vs 계약 객체’에 따라 다르게 가져가야 한다.”

  • 폴더 구조 규칙은 Research 방식으로 전면 통일
  • 파일 네이밍까지 전부 날짜 기반으로 통일하면 안 됨
<root>/
└── country=<ISO2>/
└── category=<logical_category>/
└── content=<news|faq|policy|guide>/
└── date=YYYY-MM-DD/
  • GitHub / R2 / 향후 Data Lake 동일
  • key=value 파티션 강제
데이터 유형파일명 규칙저장소
Research DatasetYYYY-MM-DD.jsonGitHub
Seed Contractv1.json, v2.jsonGitHub
robots.txtdate=YYYY-MM-DD/robots.txtR2
sitemap.xmldate=YYYY-MM-DD/sitemap.xmlR2
homepage.htmldate=YYYY-MM-DD/homepage.htmlR2
기사 HTML❌ 저장 금지
<authority>:<country>:<registered_domain>
  • Example: gov:sg:ica.gov.sg, ngo:intl:who.int
<domain_id>::<content_type>
  • Example: gov:sg:ica.gov.sg::news
  • content_type: news, press_release, faq, guide, policy
  • ID는 짧고, 의미 있고, 변하지 않게
  • 버전 / 날짜 / URL은 속성으로 분리
  • ID ↔ 폴더 구조는 항상 역변환 가능