728x90
728x90
  1. 기본 지식
    •  HTML/CSS 기초
    •  Python 기본 문법
    •  웹의 동작 원리 (HTTP, HTTPS)
  2. 라이브러리 및 도구 익히기
    •  Selenium: 웹 브라우저 자동화 도구 (동적 페이지 크롤링에 유용)
    •  requests: 웹 페이지의 HTML 코드를 가져오기 위한 라이브러리
    •  BeautifulSoup4: HTML 및 XML 문서를 파싱하기 위한 라이브러리
  3. 기본 크롤링 및 스크래핑 실습
    •  정적 웹페이지에서 데이터 추출하기
    •  동적 웹페이지(예: AJAX, 웹소켓 사용) 크롤링하기
  4. 로봇 배제 표준 및 이슈 이해
    •  크롤링 시 주의할 법적, 윤리적 이슈 알아보기
    •  robots.txt 파일 해석하기
  5. 고급 크롤링 및 스크래핑 기법
    •  스크롤 다운 페이지 크롤링
    •  로그인 필요한 페이지 크롤링
    •  Scrapy: 대규모 웹 크롤링 프레임워크 익히기
    •  웹사이트의 anti-crawling 기법 대응 전략
  6. 데이터 처리 및 저장
    •  데이터 정규화 및 클린징
    •  데이터 저장: CSV, JSON, 데이터베이스 등
  7. 프로젝트 및 실습
    •  실제 웹사이트에서 데이터를 크롤링하고, 필요한 정보를 추출하여 저장하는 프로젝트 진행
    •  가능하다면, 크롤링한 데이터를 활용한 간단한 데이터 분석이나 시각화 실습도 좋습니다.
  8. 지속적 학습 및 최신 트렌드 파악
    •  웹 크롤링 관련 커뮤니티, 블로그, 포럼 등을 통해 최신 기술과 트렌드를 지속적으로 파악
    •  법적, 윤리적 이슈에 대한 최신 정보도 계속 업데이트 해야 함
    OSINT를 공부하려면 웹 크롤링과 스크래핑을 공부해야 하기에 로드맵을 만들어 보았다.
 
300x250

+ Recent posts