본문 바로가기
UiPath

UiPath를 이용한 뉴스 크롤링, 스크랩핑

by Jxdn 2022. 4. 20.
반응형

스크래핑에 대하여 알아보자

스크래핑이란 원하는 데이터를 웹이나 프로그램에서 추출하고 가공하는 기능입니다.

 

 

 

스크래핑에는 2가지 종류가 있는데 바로 Screen Scraping Data Scraping 입니다.

Data Scraping은 엑셀처럼 구획인 나눠져 있는 테이블 형태의 데이터를 가져올 때 사용하며

반환 값은 데이터 테이블 형태로 반환됩니다. 웹크롤링으로 이용하기에 좋습니다.

Screen Scraping은 선택한 영역에서의 데이터를 추출하는 데 사용합니다.

메서드로는 Native, FullText, OCR 3가지가 존재합니다.

OCR은 정확도가 떨어지기 때문에 중요도가 높은 정보를 스크래핑할 때는 사용하지 않는 것을 권합니다.

 

 

 

 

 

 

 

스크래핑으로 뉴스 크롤링하기

 

위의 사회 뉴스면 10개의 뉴스 제목과 URL을 스크래핑 후 엑셀로 저장하는 실습을 진행해보겠습니다.

 

 

1. 데이터 스크래핑을 클릭합니다.

 

2. 아래 화면에서 다음 버튼을 클릭합니다.

 

 

3. 스크래핑할 기사 제목을 선택합니다.

 

 

4. 아니요를 클릭합니다.

(전체 테이블에서 데이터를 추출하면 쓸모없는 정보까지 같이 딸려온다)

 

 

5. 다음을 클릭합니다.

 

6. 두 번 째 크롤링할 기사의 제목을 클릭합니다.

 

 

7. 그럼 규칙성을 이해한 프로그램이 기사 제목만 전체 선택하게 됩니다.

 

 

8. 기사 제목 title이라는 열의 이름으로 가져오고 해당 기사에 걸려있는 URL까지 한꺼번에 가져옵니다.

 

 

 

 

 

9. 완료하면 아래처럼 데이터 스크래핑이 생성됩니다.

 

 

 

10 do 부분을 클릭하고 속성을 보면 데이터 테이블 이름이 newsTitle 인 것을 볼 수 있습니다.

앞서 말했듯이 스크래핑의 결괏값은 데이터 테이블 형태로 반환되는데 지금 newsTitle이라는 이름의 데이터 테이블 형태의 변수에 결과값이 담긴 것입니다.

 

 

 

11. Write CSV라는 액티비티를 사용하여 csv파일로 저장할 수 있습니다.

원하는 경로를 선택하고 아까 반환 값이 저장된 newsTitle이라는 데이터 테이블 형태의 변수 이름을 넣어줍니다.

 

 

 

12. 파일 디버그 후 지정해 놓은 경로에 가면 파일이 있을 것입니다.

클릭해 보면 아까 스크래핑 한 내용이 잘 저장되어있습니다.

 

 

 

 

반응형

댓글