SANGWOO.LOG

#crawling

1개 · 1/1 페이지

🥕

당근마켓 크롤러 개발기: 셀레니움부터 aiohttp까지

프로젝트 개요 이번 프로젝트는 당근마켓에서 특정 키워드와 관련된 게시글을 체계적으로 수집하는 크롤러를 개발하는 것이었습니다. 단순한 데이터 수집을 넘어서, 안정성과 효율성을 모두 갖춘 프로덕션 레벨의 크롤러를 만드는 것이 목표였습니다. 프로젝트 규모 항목 수치 비고 크롤링 대상 지역 12,000개 전국 시/군/구 단위 병렬 워커 수 3-10개 서버 성능에 따라 조정 기본 딜레이 2.5초 봇 탐지 회피 예상 소요 시간 4시간 10워커 기준 개발 과정 타임라인 1. 기본 구조 설계 BaseCrawler 추상 클래스와 Selenium, aiohttp 크롤러 구현체 설계 2. 핵심 기능 구현 크롤러 방식 선택, 데이터 수집, 데이터베이스 저장, JSON 내보내기 기능 구현 3. 진행상황 관리 진행상황 저장/복구, 중단/재시작 기능 구현 4. 트러블슈팅 중단 기능, 진행상황 표기, 딜레이 적용 문제 해결, 403 error 대책 5. 최적화 및 완성 성능 최적화, 사용자 경험 개선, 최종 …

2025.08.19
ssul#python#crawling#selenium

© Powered by moowoo