상세 컨텐츠

본문 제목

크롤러란? SEO에 필요한 크롤링 최적화 방법

본문

반응형

크롤러란? SEO에 필요한 크롤링 최적화 방법

웹 사이트를 검색 결과에 표시시키려면 검색 엔진에 웹 사이트의 존재나 정보를 인식시킬 필요가 있습니다.
그러기 위해서는 크롤러라고 불리는 프로그램을 통해 웹사이트를 발견하게 하고 정보를 수집해야 합니다.
깨끗한 Web 사이트나 양질의 컨텐츠를 작성해도, 검색 엔진에 인식되지 않으면 어떤 곳에서도 노출되는 일은 없습니다.
크롤러의 기능이나, 검색 순위를 결정하는 구조에 대해 크롤링에 최적화한 Web 사이트를 구축하기 위한 10가지 체크 포인트를 알아야 합니다.



크롤러 란?
크롤러는 구글 등의 검색 엔진이 이용하는 프로그램의 총칭입니다.
웹 페이지의 링크를 따라 웹 사이트를 검출하고, 찾은 사이트 상에 있는 각종 파일을 수집하여 데이터베이스에 축적합니다.
모아진 데이터는 웹 페이지마다 인덱스화되어 검색 엔진의 알고리즘에 따라 웹 페이지의 순위부여가 이루어집니다.

알아야 할 크롤러의 특징

크롤러가 어떻게 회전하며 정보를 수집하고 있는지를 알아두는 것은 크롤러에 대한 SEO 대책을 세우는 데 중요한 팩터가 됩니다. 그 중에서도 아래의 특징을 파악해 두면 사이트나 컨텐츠의 설계에 도움이 될 것입니다.

사이트의 모든 페이지를 빠짐없이 순회하는 것은 아니다
크롤러는 순회하기 쉽도록 순회하기 위해 모든 페이지를 크롤하는 것은 아닙니다. 특히 어느 페이지와도 링크되지 않은 페이지가 크롤되는 일은 없으므로 자주 링크 누락이 없는지 체크해 주세요.

페이지를 발견하기 전까지 시차가 있다
크롤러는 이름 그대로 순식간에 사이트 전체를 보는 것이 아니라 페이지 링크를 따라 순회합니다. 공개한 페이지는 즉시 크롤되지 않고 검색 결과에 반영될 때까지 어느 정도의 시간이 필요합니다.

크롤러가 수집하는 파일
크롤러가 수집하는 웹상의 파일이란 'http'나 'https'에서 취득할 수 있는 정보이며, 주요 파일은 다음과 같은 것을 들 수 있습니다.
▶크롤러가 수집하는 각종 파일
텍스트 파일
▶그림 파일
영상 화일
PDF 파일
CSS파일
자바스크립트 파일

크롤러의 종류
크롤러는 검색엔진에 따라 독자적으로 개발하고 있으며, Google과  Bing에서는 각각 다른 크롤러가 사용되고 있습니다.

대표되는 검색엔진의 크롤러
-구글bot 구글의 크롤러
-bingbot 마이크로소프트 운영 'Bing'의 크롤러
또한 같은 검색 엔진이라도 다른 크롤러를 가지고 있습니다.
예를 들면 Google의 경우는 Web 사이트용의 "Googlebot", 모바일용 페이지의 "Googlebot-Mobile", 광고의 품질을 체크하는 "AdsBot-Google", 그림에 대해서 크롤을 실시하는 "Googlebot-Image"등이 있습니다.

크롤러 되는 것의 의미
크롤러가 검출한 웹사이트를 순회함으로써 검색엔진은 그 웹사이트의 존재를 인식할 수 있습니다.
그 때문에, 양질의 정보를 게재하고 있는 Web 사이트라도 크롤러에 순회되지 않으면, 검색 결과에 표시되지 않습니다.
덧붙여 크롤러는 Web 페이지 사이의 링크를 더듬어 순회하고 있기 때문에, 시작한지 얼마 안된 Web 사이트에서는 데이터베이스에 인덱스되기까지 시간이 필요합니다.
그러나 여기에서 크롤러를 불러오는 것으로, 신규 사이트에서도 빠르게 인덱스될 수 있게 됩니다.

내 사이트의 인덱스 상황을 확인한다.
내 사이트의 인덱스 상황을 확인하려면 검색엔진 검색창에 'site:(이후 내 사이트의 도메인을 입력)'라고 입력하고 검색결과가 표시되는지 확인합니다.
크롤러가 순회하고 인덱스되어 있으면 검색 결과로서 자 사이트의 컨텐츠가 표시됩니다.
단, 이러한 확인 방법이므로, 정확성이 부족하기 때문에, 정확하게 인덱스 상황을 확인하는 경우는, Search Console의 "인덱스" 커버리지"를 확인합니다.

웹사이트의 존재를 검색 엔진에 전달하는 방법
구글 Search Console 로그인 https://search.google.com/
왼쪽 사이드 메뉴의 URL 검사에 구글에 크롤 인덱싱을 원하는 페이지의 URL을 입력
새로운 사이트 맵의 추가에 사이트 맵의 URL을 입력하여 송신 
그 후 몇 시간에서 길어도 2주 정도 지나면 인덱싱 될 것입니다.
웹 사이트를 검색 결과에 표시시키려면 크롤러가 큰 역할을 하고 있습니다. 



크롤러의 기능과 검색 순위가 결정되는 구조
크롤러의 주된 기능은 웹 페이지 사이의 링크를 더듬어 웹 사이트를 검출하는 것, 사이트상의 정보를 수집해 가지고 가는 것, 그리고 가지고 간 정보를 검색 엔진의 데이터베이스에 인덱싱하는 것 등 3가지입니다.
크롤러의 순회 프로세스는 아래의 순서로 진행됩니다.
▶과거 인덱싱된 웹 페이지 목록 및 사이트 맵 정보 확인
대상 웹사이트에 있는 신규정보 확인 및 수집
대상 웹사이트에 있는 새로운 링크 확인 및 유효하지 않은 링크 확인
이 때, 크롤러는 순회처의 Web 사이트 정보와 함께 새로운 링크의 확인도 합니다.
이것에 의해 크롤러는 새로운 Web 사이트를 발견할 수 있습니다.

검색 순위가 결정되는 구조
검색 순위를 결정하는 정확한 구조는, 각 검색 엔진의 알고리즘을 비공개로 하고 있기 때문에, 단정할 수 없습니다.
그러나 Google은 200이상의 시점에서, 대상 키워드를 검색한 유저에 대해서 바람직한 사이트를 판단해, 검색 결과나 순위에 반영시키고 있다고 합니다.
그 때 중요한 요소가 되는 것이 데이터베이스에 인덱싱된 웹사이트 정보입니다.

인덱스란?
인덱스(색인)란 검색 엔진의 데이터베이스에 기록,축적되어 있는 웹사이트의 정보를 말합니다.
또 기록,축적을 할 때 크롤러에 의해 가지고 돌아가는 정보를 정리하여 알기 쉬운 형태로 정리하고 있습니다.
정보를 정리하는 이유는 대상이 되는 웹 사이트상에는 어떤 주제의 정보가 있고 어떤 내용을 다루고 있는지 등을 알기 쉽게 정리하기 위해서입니다.
이렇게 정리된 정보를 바탕으로 웹사이트를 평가하고 검색결과에 표시하는 순위를 결정합니다.
크롤러에 의한 순회와 인덱스가 웹사이트가 검색되기 위한 첫걸음이 되므로 SEO 대책을 할 때 기본적이고 중요한 체크 포인트가 됩니다.

크롤링을 최적화하여 SEO를 강화하는 대책  
크롤러빌리티의 향상이 왜 중요한가?
크롤러빌리티란 말하자면 크롤러가 얼마나 그 페이지를 쉽게 찾을 수 있는가 하는 지표로 서버에 있는 html이나 css와 같은 각종 파일을 Googlebot 등이 읽기 쉽게 정리하여 크롤러가 순회하기 쉽도록 개선하는 것을 '크롤러빌리티의 향상'이라고 부릅니다.
크롤러빌리티의 향상에 의한 효과는 다양하지만, 직접적인 이점은 크롤의 빈도가 높아지는 것입니다.
단, 클롤러가 검색 순위를 결정하는 것은 아닙니다.
그러나 크롤해서 가져온 정보를 바탕으로 검색순위가 도출되기 때문에 크롤러를 적절히 순회시키는 것은 SEO 강화에 필수적입니다.

아래에 이유를 들어보겠습니다.
크롤러가 순회하지 않은 사이트는 검색 결과에 표시되지 않는다.
검색 엔진이 크롤러가 모은 정보를 바탕으로 검색 결과를 내고 있다는 성질상 크롤링되지 않은 페이지는 기본적으로 검색 결과에 표시되지 않습니다. 앞서 언급했듯이 크롤러가 한꺼번에 사이트 전체를 둘러보는 것은 아니기 때문에 거기서 누락된 페이지는 검색결과에 반영되지 않습니다.

크롤러의 빈도가 높아지면 갱신이 반영되기 쉬워진다
크롤되지 않은 페이지가 검색 결과에 반영되지 않도록 아무리 업데이트를 해도 해당 페이지가 크롤이 되지 않으면 검색 엔진에 영향을 주지 않습니다.
크롤러는 며칠 정도 만에 순회하는 경우도 있고, 2, 3개월 이상 지나도 오지 않는 경우도 있으며, 상당한 흔들림 폭이 있기 때문에 크롤의 빈도가 높은 사이트와 그렇지 않은 사이트 간에 상당한 차이가 발생하게 됩니다.

반응형

관련글 더보기

댓글 영역