728x90
728x90

 

 

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import collections
import re

chromedriver_path = "/Users/inseoulmate/Downloads/chromedriver-mac-arm64/chromedriver"
service = Service(chromedriver_path)
driver = webdriver.Chrome(service=service)

articles = []
page = 1

while page <= 60:  # Limit data collection to 60 pages
    url = f"<https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100#&date=%2000:00:00&page={page}>"
    driver.get(url)
    wait = WebDriverWait(driver, 30)
    wait.until(EC.presence_of_element_located((By.CLASS_NAME, "sh_text")))
    article_number = (page - 1) * 30 + 1
    news_items = driver.find_elements(By.CLASS_NAME, "sh_text")

    for item in news_items:
        try:
            press = item.find_element(By.CLASS_NAME, "sh_text_press").text
        except:
            press = ""

        try:
            headline = item.find_element(By.CLASS_NAME, "sh_text_headline").text
        except:
            headline = ""

        try:
            preview = item.find_element(By.CLASS_NAME, "sh_text_lede").text
        except:
            preview = ""

        try:
            link = item.find_element(By.CLASS_NAME, "sh_text_headline").get_attribute("href")
        except:
            link = ""

        article = {
            "번호": article_number,
            "언론사": press,
            "기사 제목": headline,
            "미리보기 내용": preview,
            "기사 링크": link
        }
        articles.append(article)
        article_number += 1
    more_button = driver.find_element(By.XPATH, "//a[contains(@class, 'cluster_more_inner')]")
    if "more" in more_button.get_attribute("class"):
        driver.execute_script("arguments[0].click();", more_button)
        page += 1
    else:
   
        break

driver.quit()
text = " ".join([article["기사 제목"] + " " + article["미리보기 내용"] for article in articles])
def extract_keywords(text, num_top_keywords=10):
    words = re.findall(r'\\w+', text.lower())
    counter = collections.Counter(words)
    return counter.most_common(num_top_keywords)
top_keywords = extract_keywords(text, num_top_keywords=10)
print("가장 많이 나온 키워드 Top 10:")
for keyword, count in top_keywords:
    print(f"{keyword}: {count}회")
print("\\n기사 목록:")
for article in articles:
    print(f"{article['번호']}. {article['언론사']} - {article['기사 제목']} ({article['기사 링크']})")
keywords_str = "가장 많이 나온 키워드 Top 10:\\n"
for keyword, count in top_keywords:
    keywords_str += f"{keyword}: {count}회\\n"
with open("top_keywords.txt", "w", encoding="utf-8") as file:
    file.write(keywords_str)
articles_str = "기사 목록:\\n"
for article in articles:
    articles_str += f"{article['번호']}. {article['언론사']} - {article['기사 제목']} ({article['기사 링크']})\\n"
with open("articles_list.txt", "w", encoding="utf-8") as file:
    file.write(articles_str)

코드 전문이다.

지난번에 셀레니움 맛보기로 지니뮤직 순위 스크래핑을 해보았는데, 이번에는 셀레니움가지고 네이버 뉴스를 스크래핑해보았다. 조금 더 기능을 구현하고 싶어서 텍스트 파일로 저장하고 , 가장 많이 나온 키워드들을 찾아 몇 회 나왔는지 정리해보는 과정까지 해보았다

  • WebDriverWait: WebDriverWait 클래스를 이용하여 driver 객체를 최대 30초까지 기다리며, 해당 시간 내에 By.CLASS_NAME 으로 지정된 "sh_text" 클래스가 웹페이지에 나타날 때까지 기다리도록 한다.
  • driver.find_elements: 웹페이지에서 "sh_text" 클래스를 갖는 모든 요소들을 찾습니다. 지니뮤직을 스크래핑 했을때와 비슷하게 By.CLASS_NAME을 사용했다.
  • 반복문을 적용해주었다.
  • article 딕셔너리에 정보들을 추가했고, 이 딕셔너리를 articles 리스트에 추가해주었다. 모든 기사의 정보를 담고 있다.
 💡 헤드라인 더보기 버튼을 클릭하지 않으면 5개까지만 스크랩이 가능했다. 헤드라인 더보기 버튼을 클릭해야 나머지 5개의 기사가 나왔기 때문이다.
  • 헤드라인 더보기" 버튼 클릭: 페이지의 끝까지 스크롤해서 "헤드라인 더보기" 버튼을 찾아야 했다. 있는 경우도 있었고 없는 경우도 있었기 때문이다. 버튼이 존재하면 driver.execute_script 메서드를 사용하여 JavaScript를 실행시켜 버튼을 클릭한다. 이렇게 하여 다음 페이지로 이동하여 뉴스를 추가로 스크래핑 하도록 하였다
  • 페이지 수 카운팅: 스크래핑이 끝난 후 page 변수에 1을 더해서 다음 페이지로 이동하게 해두었다. 정말 많은 페이지가 있었기에 60페이지만 할 수 있도록 하였다. 60장을 모두 스크래핑하면 다음 페이지로 넘어간다.
  • 드라이버를 종료해주었다. 자원을 효율적으로 사용하고 브라우저를 종료해주어야 했기 떄문이다
  • 키워드 분석 및 결과 출력: 모든 기사의 제목과 미리보기 내용을 합쳐서 문자열로 만든 후, extract_keywords 함수를 사용하여 가장 많이 등장하는 단어 10개를 찾아낸다. 정규표현식 **re.findall(r'\\w+', text.lower())**을 사용하여 텍스트 데이터에서 단어만 추출하고, 단어들의 빈도를 세는 데에 **collections.Counter()**를 사용했다.
  • 마지막으로 결과를 텍스트 파일로 저장해주었다. 이때 문자열 형식으로 저장해야 했는데, 파일 인코딩은 “UTF-8”로 해주었다.

텍스트 파일에 잘 저장된 모습이다. 1000개 이상 스크래핑해보았다.

 

오늘자 뉴스에서 제일 많이 나온 단어는 '잼버리' 였다! 잼버리 논란 진짜 많던데... 잘 해결되었으면 좋겠다 !

728x90
300x250

+ Recent posts