일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- rstudio 설치 오류
- 모수추정
- rstudio이전버전 설치
- 대학원연수프로그램
- torch.nn.Linear
- explicit random effect model
- 맵지도시각화
- 이공계 대학원 연수 프로그램
- random effect model
- soa시험예약
- 태블로에러
- 태블로
- 한국캐나다대학원연수
- wishart-gamma
- soa자리선택
- 민원데이터
- soa환불
- 태블로맵지도시각화
- rstudio 이전버전
- 행정동표시
- 태블로행정동
- 천안시 데이터 분석
- 맵지도
- 행정동시각화
- soa날짜
- dependency modeling
- 태블로맵
- iris대학원
- soa시험
- 한-캐대학원
- Today
- Total
수리통계 분석 코딩 실습
2. 호텔 홈페이지 크롤링 문제 본문
1. 호텔스 컴바인
1. 화면 켜짐의 버퍼링
호텔스 컴바인 화면을 키면 [동의합니다] 창이 나오는데,
이 창의 팝업 끄기가 제대로 될 때가 있고 안될때가 있음 -> 원인을 모르겠음
[1] chromedriver 업데이트의 문제인가 ? -> driver.install() chromedriver.manager를 사용해도 같은 문제 반복
[2] chromedriver 직접 설치 -> 여전히 같은 문제 반복
➡️ 다만 알아낸 것은 버퍼가 떴을 때 ctrl + q를 누른 뒤 약간의 시간이 지난 후 다시 돌리면 제대로 정상작동함을 확인함.
2. 주소 검색시 팝업창을 이용한 fake-img 접근
팝업창을 띄워 접근을 해야 주소가 올바르게 접속이 되는데,
이런 접속이 불가능함.
* javascript를 이용한 팝업 트리거 접속 안됨
* 새로고침을 통한 팝업창 띄우기 안됨
* url이 숨겨있어 검색 후 접속 안됨
** 무엇보다 호텔스 컴바인은 홈페이지 접속 조차 불안정함!!!!!!!
아고다
셀레니움으로 변경은 다 가능하나 검색하기 버튼이 막힘 > 크롬으로 인한 스크래퍼 접속을 막은 건가?
* javascript 안됨
* click 동적으로 action 취하는 것 안됨
* chrome 옵션 변경으로 header, chrome 접속 숨기기 등 안됨
아고다 url을 변경해서 접속할 수 있음
-> 단 나라의 city, city id 를 다 알아야 접속이 가능함 <- 모든 나라의 아고다만의 key를 알 수 있는 방법이 있을까?
url 기반 크롤링을 위해 [여행인원] [여행장소] [여행시작일] [여행 종료일]을 변경시 바꿔야하는 key와 고유키에 대해 알아보자
key | 형식 | 의미 |
url | https://www.agoda.com/ko-kr/search | 홈페이지 주소 |
city | 19041 | 도시를 나타내는 고유한 식별자 아고다 내의 특정 주소이며, 19041은 서울 의미 |
checkIn | 2024-08-23 | 체크인 날짜 |
los | 1 | 숙박일수(여기선 1박) |
rooms | 2 | 방 개수 |
adults | 3 | 성인 인원 수 |
children | 0 | 어린이 인원 수 |
cid | 1922887 | 아고다의 제휴 프로그램이나 마케팅 캠페인에서 사용되는 특정 ID |
locale | ko-kr | 언어 및 지역 설정 |
currency | KRW | 통화 |
checkOut | 2024-08-24 | 체크아웃 날짜 |
textToSearch | 강릉 | 목적지 |
travellerType | 3 | 여행자 유형 일반적으로 개인, 커플, 가족 등으로 구분 |
stateCode | 11 | |
currencyId | 26 | 통화의 고유 식별자 |
languageId | 9 | 언어의 고유 식별자 |
productType | -1 | 검색 중인 제품 또는 숙박 유형 -1: 유형 분류 없음을 의미 |
browserFamily | Safari | 검색 사이트 종류 |
trafficGroupId | 5 | 트래픽 그룹 ID |
* prid, gclid, correlationId, analyticsSessionId, pageTypeId, realLanguageId, origin, tag, whitelabelid, storefrontId, machineName, sessionId, trafficSubGroupId, aid, useFullPageLogin, cttp, isRealUser, mode, cdnDomain, priceCur, familyMode, ds 등은 주로 아고다의 내부 추적, 마케팅, 분석, 사용자 경험 등을 위해 사용되는 다양한 매개변수
* url 기반으로 값을 변경해 조회해도 막힘
url의 변수명 변경을 통한 홈페이지 접속이 불가능함. ( agoda2.ipynb 파일 참조)