본문 바로가기
IT 동향

기계에 의한 웹 트래픽이 사람을 추월하다

by SenseChef 2015. 2. 5.

"와 ! 방문자가 늘어나 너무 기뻐 ..."

 

블로그를 만들어 운영하기 시작한 친구가 갈수록 늘어나는 방문자 수에 기쁨의 함성을 지른다. 자신이 노력했던 성과가 나타나는 것이니 이보다 더 좋을 수는 없을 것이다.


그런데 친구가 궁금해 한다. 자신의 블로그를 누가 방문하고 있는 것일까 ?


필자의 블로그 역시 카운터 수치로 보면 매일 평균 2천명 정도가 방문한다. 그러나 서버를 직접 운영하지 않고 티스토리에서 제공하는 제한된 로그 정보만 접할 수 있으니 방문자들의 실체를 정확히 알기는 어렵다.


블로그의 접속 로그를 살펴 보면 여러가지 다양한 경로가 존재한다. 또한 새로운 글이 발행되면 다음이나 네이버, 구글 등에서 자동적으로 사이트를 방문해 새글의 정보를 읽어 감을 알 수 있다. 사람이 아닌 기계에 의한 접속도 꽤 된다는 의미이다.


또한 웹 사이트를 돌아 다니며 정보를 분석하고 색인하는 곳이 점점 더 증가 된다. 일본이나 중국  등 해외 여러 곳에 존재하는 포털, 검색엔진, 국가 기관 등이 이에 해당 된다. 따라서 사람이 아닌 기계에 의한 웹 사이트 트래픽 역시 이제 무시할 수 없게 되었다.


그렇다면 웹 사이트 방문자들 중 과연 사람의 비중은 얼마나 될까 ? 기계에 의한 웹 트래픽은 어떤 의미를 가질까 ? 


기계에 의한 웹 트래픽은 얼마나 될까에 대한 의문, Source: Office clip art


 

웹 사이트 트래픽의 절반 이상을 기계화된 Bot이 차지한다 !

 

Incapsula라는 곳에서 흥미로운 조사 결과를 발표 했다. 이들은 전 세계 웹 사이트들의 접속 트래픽을 유형별로 나누어 분석했다. 사람에 의한 트래픽, 기계에 의한 트래픽, 악의적인 트래픽 등이 이에 해당된다.


조사 결과 전세계 웹 트래픽 중 사람에 의한 발생 비율은 절반에도 미치지 못하는 44%를 차지했다. 달리 말하면 기계가 사람보다 웹 트래픽을 더 많이 발생 시킨다는 의미이다.


기계에 의한 트래픽 구성을 보면 검색 엔진이 27%를, DDoS 등의 공격성 허위 트래픽(Impersonator)이 22%를, 나머지는 해킹 툴, 스팸 등이 차지했다.


아래는 조사 결과를 그래프로 나타낸 것이다.

웹 사이트의 트래픽 소스별 분석 결과, Source: statista



소규모의 웹 사이트일수록 기계에 의한 트래픽 비중이 증가된다 !


조사를 진행했던 Incapsula는 2014년 8월 2일부터 10월 30일간 발생된 150억 건의 트래픽을 분석 했다. 인터넷을 이용하는 249개 국의 데이터를 골고루 이용 했다고 한다.


그런데 조사 결과 중 흥미를 끄는 부분은 웹 사이트의 규모에 따른 조사 결과이다.


일일 1천건 미만의 방문이 이루어지는 소규모 웹 사이트의 기계에 의한 트래픽 비중은 무려 80.5%에 달했다. 결코 적지 않은 수준인 1일 1만건 방문의 경우에도 63.2%나 되었다. 대형급 사이트가 되어야 비로소 52.3% 수준으로 떨어진다. 이 경우에도 사람에 의한 트래픽 비중은 기계보다 낮다.

웹 사이트 규모별 트래픽 발생 비중 비교, Source: Incapsula


 

기계화된 웹 트래픽을 줄이려면 robot.txt을 이용하자 !


위와 같은 조사 결과를 커피 한잔 하면서 지인에게 얘기 했더니 그의 반응이 흥미롭다.


"아 ! 내 소중한 돈이 낭비 되고 있었구나 ! 인터넷 데이터센터(IDC, Internet Data Center)에 비싼 돈 내고 웹 서버 운영 하고 있는데 이젠 돈을 줄일 수 있겠어 !"


그의 설명을 들어보니 웹 서버의 트래픽량이 일정 수준 이상 넘어 가면 IDC 사업자에게 추가로 돈을 내야 된다고 한다. 따라서 이제부터라도 기계(Bot)에 의한 트래픽을 차단해 비용 절감을 하겠다는 반응이었다.  


웹 사이트에 robot.txt라는 화일을 넣어두면 Bot에 의한 트래픽 유입을 상당 부분 줄일 수 있다. 이는 해당 웹 사이트를 방문하는 검색 엔진에 의한 Bot 트래픽을 허용 할 것인지, 허용 한다면 얼마나 많은 영역을 허용할 것인지 등을 설정하는 화일이다. 


아래는 Robot.txt 화일의 설정 사례들이다.

[모든 트래픽을 허용하는 경우]

User-agent: *
Disallow: /


[모든 트래픽을 허용하되 특정 영역을 불허하는 경우] 하기의 경우 user, temp, analysis 폴더의 로봇 접속을 차단함

User-agent: *
Disallow: /user/
Disallow: /temp/
Disallow: /analysis/


[특정 Bot의 접속 차단] 하기의 경우 구글 검색 엔진의 로봇 접속만을 차단함

User-agent: Googlebot
Disallow: /


 

무조건적인 Bot 트래픽 차단은 사람에 의한 순 방문자까지 감소 시킨다 !

 

Robot.txt로 구글 검색엔진의 Bot(Googlebot)을 차단하면 어떤 일이 벌어질까 ? 그건 구글 검색 결과에서의 배제를 의미한다. 또한 더 이상 새로운 정보가 구글 측에 전달되지 않아 오래된 내용만 나타날 뿐이다.


검색 엔진 등 선의의 목적을 갖고 있는 트래픽의 차단은 자신의 웹사이트나 블로그가 대중들에게 검색, 노출 될 수 있는 기회를 스스로 차단하는 것이다. 트래픽 절감에 의한 비용 감소 효과를 얻을 것이나 웹 사이트를 운영하는 취지를 상실하는 것이다. 

 

따라서 악성 로봇 또는 도움이 되지 않는 기계화된 Bot 트래픽을 선별적으로 차단하는 것이 좋다.


또한 자신의 웹 사이트 접속 로그 또는 통계를 주기적으로 점검해야 한다. 정규화된 트래픽 외에 해킹, 스팸, 좀비 PC화 등의 흐름이 감지될 수 있기 때문이다.


또한 카운터를 통해 나타나는 자신의 웹 사이트 트래픽을 현실적으로 바라봐야 한다. 기계화된 웹 트래픽이 제외된, 사람에 의한 순수 방문자 수가 정말로 자신의 비즈니스나 홍보에 도움이 될 것이기 때문이다.


사람과 기계가 공존하는 세상 ! 기계의 영향력이 사람을 이미 추월한 곳이 바로 눈에 보이지 않는 인터넷 웹의 세계이다. 기계에 의해 편리하게 인터넷 생활을 하고 있으니 무조건 이를 탓할 수도 없다. 그러나 기계에 의한 인간 생활의 점유가 이제 현실이 된 것 같아 진한 아쉬움이 느껴진다.