CrawlingIndustryReport - GachonCapstoneTeam/TTS_JAVA GitHub Wiki

📄 Crawling - Indusry Report

Industry Report Crawling 네이버 리포트에서 제공하는 산업분석 리포트에 대한 내용을 크롤링 한 것으로, 산업분석 리포트의 화면 구성에 맞춰서 크롤링을 진행하기 위한 코드입니다. BeautifulSoup을 사용하여 크롤링하였으며, 크롤링된 데이터는 mongoDB에 저장됩니다.

✅ 주요 기능 요약

기능	설명
산업분석 리포트 크롤링	네이버 증권 산업분석 리포트의 리스트 페이지를 순회하며 업종명, 제목, 작성일, 요약, PDF 등 주요 정보를 수집
PDF 내용 추출	각 리포트에 포함된 PDF 파일을 다운로드하고 텍스트 내용을 추출하여 저장
HTML 본문 내용 수집	리포트 상세 페이지에서 HTML 형태의 본문 텍스트를 추가로 수집
증권사 필터링	`pdf.SECURITIES_CONFIGS` 목록에 포함된 주요 증권사 리포트만 크롤링 대상에 포함
MongoDB에 저장	크롤링된 모든 데이터를 MongoDB 컬렉션에 저장하여 분석 및 조회에 활용 가능

리포트 크롤링

🔧 주요 로직 설명

전체 리포트 크롤링 및 저장 - fetch_industry_reports()

def fetch_industry_reports(category_name, category_url, pages)

산업분석 리포트를 카테고리별로 수집하여 종목명, 증권사, 업종, 본문 내용 등을 포함한 결과를 리스트 형태로 반환

for page in range(1, pages + 1):
    url = f"{category_url}?&page={page}"
    ...

주어진 페이지 수만큼 반복하여, 각 리포트 리스트 페이지를 순차적으로 요청하고 파싱

 if not table:
            print(f"Table not found for URL: {url}")
            continue

테이블이 없는 경우 해당 페이지는 건너뜀

for row in table.find_all("tr")[2:]:
    ...

헤더를 제외한 요소에서 리포트 정보를 추출

stock_link = cols[0].find("a", class_="stock_item")
            if stock_link:
                item_name = stock_link.text.strip()  # 종목명
                code = stock_link["href"].split("=")[-1]  # 종목 코드
            else:
                item_name = cols[0].text.strip()
                code = None  # 코드 정보 없음

산업분석 리포트는 종목에 따른 리포트가 아니기 때문에 코드가 따로 없음

item_name = cols[0].text.strip() # 여기서 item_name은 업종명이므로 '업종'에 저장
title = cols[1].text.strip()
detail_link = cols[1].find("a")["href"]
detail_url = f"https://finance.naver.com/research/{detail_link}" if not detail_link.startswith(
                "http") else detail_link
company = cols[2].text.strip() # 증권사

리스트를 만드는데 필요한 정보들을 크롤링

pdf_content = "" if pdf_url == "PDF 없음" else pdf.download_and_process_pdf2(pdf_url,company)
report_content = fetch_report_details(detail_url)

PDF URL이 존재할 경우 해당 PDF를 다운로드하여 download_and_process_pdf2함수를 사용하여 텍스트로 변환
HTML 리포트 본문도 함께 수집

reports.append({
                'Category': category_name,
                '종목명': "",  # 산업 분석 리포트는 종목명을 비워둠
                '업종': item_name,  # item_name을 업종으로 저장
                'Title': title,
                '증권사': company,
                'PDF URL': pdf_url,
                '작성일': date,
                'Views': views,
                'Content': report_content,
                'PDF Content': pdf_content,
            })
})

하나의 리포트를 딕셔너리 형태로 구성하고, 전체 리스트에 추가

🔗 관련 레파지토리

TalkStock-BE 프로젝트 메인 레포지토리
crawling.py: 종목분석 리포트 크롤링 코드