수리통계 분석 코딩 실습

2. 호텔 홈페이지 크롤링 문제 본문

카테고리 없음

2. 호텔 홈페이지 크롤링 문제

얼려먹는 요구르트 2024. 8. 14. 12:11

 

1. 호텔스 컴바인

 

1. 화면 켜짐의 버퍼링

호텔스 컴바인 화면을 키면 [동의합니다] 창이 나오는데, 

이 창의 팝업 끄기가 제대로 될 때가 있고 안될때가 있음 -> 원인을 모르겠음

[1] chromedriver 업데이트의 문제인가 ? -> driver.install() chromedriver.manager를 사용해도 같은 문제 반복

[2] chromedriver 직접 설치 -> 여전히 같은 문제 반복

 

➡️ 다만 알아낸 것은 버퍼가 떴을 때 ctrl + q를 누른 뒤 약간의 시간이 지난 후 다시 돌리면 제대로 정상작동함을 확인함. 

 

2. 주소 검색시 팝업창을 이용한 fake-img 접근

 

팝업창을 띄워 접근을 해야 주소가 올바르게 접속이 되는데, 

이런 접속이 불가능함. 

* javascript를 이용한 팝업 트리거 접속 안됨

* 새로고침을 통한 팝업창 띄우기 안됨

* url이 숨겨있어 검색 후 접속 안됨

 

** 무엇보다 호텔스 컴바인은 홈페이지 접속 조차 불안정함!!!!!!!

 

 

 

 

아고다

 

셀레니움으로 변경은 다 가능하나 검색하기 버튼이 막힘 > 크롬으로 인한 스크래퍼 접속을 막은 건가?

* javascript 안됨

* click 동적으로 action 취하는 것 안됨

* chrome 옵션 변경으로 header, chrome 접속 숨기기 등 안됨

 

 

 

아고다 url을 변경해서 접속할 수 있음 

-> 단 나라의 city, city id 를 다 알아야 접속이 가능함 <- 모든 나라의 아고다만의 key를 알 수 있는 방법이 있을까? 

 

url  기반 크롤링을 위해 [여행인원] [여행장소] [여행시작일] [여행 종료일]을 변경시 바꿔야하는 key와 고유키에 대해 알아보자

key 형식 의미
url https://www.agoda.com/ko-kr/search 홈페이지 주소
city 19041 도시를 나타내는 고유한 식별자
아고다 내의 특정 주소이며, 19041은 서울 의미
checkIn 2024-08-23 체크인 날짜
los 1 숙박일수(여기선 1박)
rooms 2 방 개수
adults 3 성인 인원 수
children 0 어린이 인원 수
cid 1922887 아고다의 제휴 프로그램이나 마케팅 캠페인에서 사용되는 특정 ID
locale ko-kr 언어 및 지역 설정
currency KRW 통화
checkOut 2024-08-24 체크아웃 날짜
textToSearch 강릉 목적지
travellerType 3 여행자 유형
일반적으로 개인, 커플, 가족 등으로 구분
stateCode 11  
currencyId 26 통화의 고유 식별자
languageId 9 언어의 고유 식별자
productType -1 검색 중인 제품 또는 숙박 유형
-1: 유형 분류 없음을 의미
browserFamily Safari 검색 사이트 종류
trafficGroupId 5 트래픽 그룹 ID

* prid, gclid, correlationId, analyticsSessionId, pageTypeId, realLanguageId, origin, tag, whitelabelid, storefrontId, machineName, sessionId, trafficSubGroupId, aid, useFullPageLogin, cttp, isRealUser, mode, cdnDomain, priceCur, familyMode, ds 등은 주로 아고다의 내부 추적, 마케팅, 분석, 사용자 경험 등을 위해 사용되는 다양한 매개변수

 

* url 기반으로 값을 변경해 조회해도 막힘 

url의 변수명 변경을 통한 홈페이지 접속이 불가능함. ( agoda2.ipynb 파일 참조)