2023 공부한것들
5. 웹 크롤링과 스크래핑 로드맵
ramona
2023. 8. 7. 20:40
728x90
728x90

- 기본 지식
- HTML/CSS 기초
- Python 기본 문법
- 웹의 동작 원리 (HTTP, HTTPS)
- 라이브러리 및 도구 익히기
- Selenium: 웹 브라우저 자동화 도구 (동적 페이지 크롤링에 유용)
- requests: 웹 페이지의 HTML 코드를 가져오기 위한 라이브러리
- BeautifulSoup4: HTML 및 XML 문서를 파싱하기 위한 라이브러리
- 기본 크롤링 및 스크래핑 실습
- 정적 웹페이지에서 데이터 추출하기
- 동적 웹페이지(예: AJAX, 웹소켓 사용) 크롤링하기
- 로봇 배제 표준 및 이슈 이해
- 크롤링 시 주의할 법적, 윤리적 이슈 알아보기
- robots.txt 파일 해석하기
- 고급 크롤링 및 스크래핑 기법
- 스크롤 다운 페이지 크롤링
- 로그인 필요한 페이지 크롤링
- Scrapy: 대규모 웹 크롤링 프레임워크 익히기
- 웹사이트의 anti-crawling 기법 대응 전략
- 데이터 처리 및 저장
- 데이터 정규화 및 클린징
- 데이터 저장: CSV, JSON, 데이터베이스 등
- 프로젝트 및 실습
- 실제 웹사이트에서 데이터를 크롤링하고, 필요한 정보를 추출하여 저장하는 프로젝트 진행
- 가능하다면, 크롤링한 데이터를 활용한 간단한 데이터 분석이나 시각화 실습도 좋습니다.
- 지속적 학습 및 최신 트렌드 파악
- 웹 크롤링 관련 커뮤니티, 블로그, 포럼 등을 통해 최신 기술과 트렌드를 지속적으로 파악
- 법적, 윤리적 이슈에 대한 최신 정보도 계속 업데이트 해야 함
728x90
300x250