
NAVER
Search/RAG Engineering 체험형 인턴 (8주) — 사내 RAG 검색·지식 베이스 파이프라인 구축
internship
2026-03 - 2026-05
사내 코드·위키 데이터를 수집·정제·임베딩·색인하는 RAG 검색 시스템을 체험형 인턴 8주간 본인 영역으로 구현한 프로젝트 (팀 위계: 멘토·팀 리더·팀 선임 개발자와 협업). 팀원 피드백을 수렴해 Claude Code 스킬로 배포 — 인턴 종료 후 NAVER 팀에서 운영 중이며, 매일 02:00 cron으로 새 데이터 자동 증분 색인됩니다. 760K+ 청크 색인 운영과 검색 품질 정량 평가 방법론 정립에 기여했습니다.
주요 성과:
- ▹RAG 검색 762,800 청크 색인 + 매일 02:00 cron 자동 증분(GitHub Actions workflow_run 체이닝) — 인턴 종료 후 NAVER 팀에서 운영 중
- ▹사내 RAG 시스템을 Claude Code 스킬로 통합 배포(웹 UI + CLI) — 팀원 피드백을 수렴해 플러그인 한 줄 설치 방식 고안, 사용성 극대화
- ▹검색 평가셋(골든셋)을 직접 만들어 16조합 그리드로 평가 — 자체 골든셋(쿼리 변형 100+)의 품질 한계를 확인하고 도메인 지식이 반영된 골든셋이 우수함을 데이터로 입증(도메인 grounding의 중요성 체득). 팀 골든셋 기준 best Hit@5 82.4% · Recall@5 67.4% · MRR 0.711
- ▹스크립트 정제 한계를 LLM 정제로 극복 — Recall@1 30.6%→45.4% 개선 (Recall@5 절반 미달 카테고리는 평가셋 확장 과제로 인계)
- ▹cron 증분 색인에 결정론적 chunk_id를 적용해 임베딩 99%+ 재사용 — 일일 색인 비용·시간 대폭 절감
- ▹BM25/리랭커 업계 통념 2건 정량 재검증 → 도메인 fit 기반 기본값 결정 (silver bullet 없음)
- ▹10개 LLM 정제 모델을 토큰 효율·환각·원문 충실도 3축으로 정량 비교해 최적 정제 모델 선정
기술 스택:
PythonMilvusRAGLLMHyDEBM25Vector SearchElasticsearchGitHub ActionsDockerObservabilityRAGAS