본문 바로가기
세상에서 알아두면 이로운 상식,법률상식,일반상식/IT정보

검색 순위를 결정하는 구조에 대해 크롤링 최적화된 Web사이트를 구축하기 위한 체크 포인트

by 꿈해몽 천국 2020. 4. 4.
반응형

Web사이트를 검색 결과에 표시하려면 검색 엔진에 Web사이트의 존재나 정보를 인식할 필요가 있습니다. 그러기 위해서는 무한 궤도로 불리는 프로그램으로 Web사이트를 발견하면서 정보를 수집해야 겠지요. 멋있는 Web사이트나 양질의 콘텐츠를 작성해도 검색 엔진에 인식되지 않으면 누구도 알지 못합니다.
크롤러에 대해서 아는 것은 사이트를 검색 엔진이 좋아하는 사이트로 개선하기 위한 지름길이며 SEO에서도 유효합니다. 거기에서 무한 궤도의 작용이나, 검색 순위를 결정하는 구조에 대해 크롤링 최적화된 Web사이트를 구축하기 위한 체크 포인트를 알아봅니다.

크롤러란?
크롤러는 Google등의 검색 엔진이 이용하는 프로그램의 총칭입니다.
Web페이지의 링크를 달게되면 Web사이트를 검출하고 발견한 사이트상에 있는 각종 파일을 수집하고 데이터베이스에 축적합니다.
모아진 데이터는 web페이지마다 인덱스화되면서 검색 엔진의 알고리즘에 따라서 web페이지의 순위가 열립니다.

알고 싶은 무한 궤도의 특징
크롤러가 어떻게 돌며 정보를 수집하는지를 알아 두는 것은 크롤러에 대한 SEO대책을 하는 데 중요한 팩터가 됩니다. 아래의 특징을 클릭하게 되면 사이트나 콘텐츠의 설계에 도움이 됩니다.

-사이트의 모든 페이지를 빠짐없이 순회하는 것은 아니다
크롤러는 순회하기 쉽게 순회하는 모든 페이지를 자유롭게 하는 건 아니에요. 특히 어떤 페이지와 링크되지 않은 페이지가 크롤러 할 수 없으므로 링크 누락이 없는지 체크해야 합니다.

-페이지를 발견하기까지 시차가 있다
크롤러는 이름과 같이 순식간에 사이트 전체를 보는 것이 아니라 페이지의 링크를 순회합니다. 공개한 페이지는 바로 자유노출이 되지 않고 검색 결과에 반영될 때까지 어느 정도의 시간을 요합니다.

크롤러가 수집하는 Web상의 파일은 『 http』과 『 https』에서 취득할 수 있는 정보이고 주요 파일에는 아래와 같습니다.
크롤러가 수집하는 각종 파일
-텍스트 파일
-사진 파일
-동영상 파일
-PDF파일
-CSS파일
-JavaScript파일

크롤러의 종류
크롤러는 검색 엔진에 의해서 독자적으로 개발하고 있으며, Google, Bing에서는 각각 다른 무한 궤도가 사용되고 있습니다.
대표되는 검색 엔진 크롤러
-Googlebot Google의 무한 궤도
-bingbot 마이크로 소프트 운영 『 Bing』의 무한 궤도
또 같은 검색 엔진이라도 다른 무한 궤도를 가지고 있습니다. 예를 들면 Google의 경우는 WEB사이트용"Googlebot", 모바일용 페이지의 "Googlebot-Mobile"광고의 품질을 체크한다"AdsBot-Google", 그림에 대해서 자유롭게한다"Googlebot-Image"등이 있습니다.

크롤러가 하는 일
크롤러가 검출한 Web사이트를 순회함으로써 검색 엔진은 그 Web사이트의 존재를 인식할 수 있습니다. 그래서 양질의 정보를 게재한 Web사이트라도 무한 궤도에 순회되지 않으면 검색 결과에 표시되지 않습니다. 또한 크롤러는 Web페이지 간 링크를 돌아 순회하여 만들어 곧 Web사이트에서는 데이터베이스에 인덱스될 때까지 시간이 필요합니다.
그러나 무한 궤도를 끌어들임으로써 신규 사이트에서도 빠른 인덱스되게 됩니다.

사이트의 인덱스 상황을 확인한다
사이트의 인덱스 상황을 확인하려면 검색 엔진 검색 창에 『 site:(사이트의 도메인을 입력)』을 적고 검색 결과가 표시되는지 확인합니다.
크롤러가 돌며 인덱스되면 검색 결과로서 사이트의 콘텐츠가 표시됩니다.
다만 이곳은 간이적인 확인 방법으로 정확도가 낮기 때문에 정확히 인덱스 상황을 확인할 경우에는 Search Console의 "인덱스 커버리지"을 확인합니다.

사이트에 무한 궤도를 유도 
사이트에 무한 궤도를 유도하는 대표적인 방법은 두가지입니다.
『 사이트 맵을 검색 엔진에 제공하는 것 』과 『 Web사이트의 존재를 검색 엔진에 전달하기 』입니다.

사이트 맵을 검색 엔진에 제공하는 방법
사이트 맵은 무한 궤도와 사용자에게 사이트에 어떤 페이지가 존재하는지를 부감적으로 명시한 것입니다.
사이트 맵에는 사용자에게 html형식의 것으로 크롤러에 대한 xml형식의 것이 있는데 여기에서는 크롤러에 제공하는 xml형식에 대해서 설명하고 있습니다. 보다 효율적으로 검색 순위를 올린다면 모두 설치하는 것이 바람직합니다.

1. Sitemap.xml을 작성
예)사이트 맵 자동 생성 도구 등을 사용. "sitemap.xml Editor:https://goodstar.tistory.com/"
2. 작성한 파일을 서버에 업로드
3. Google Search Console에 로그인
4. 왼쪽 사이드 메뉴의 인덱스 안의 사이트 맵을 선택
5. 새 사이트 맵의 추가에 사이트 맵의 URL을 입력하여 전달

Web사이트의 존재를 검색 엔진에 전달 방법
1. Google Search Console에 로그인
2.왼쪽 사이드 메뉴의 URL검사에 Google에 자유형 인덱스를 해달페이지의 URL을 입력
3.새 사이트 맵의 추가에 사이트 맵의 URL을 입력하는 전달
위와 같이 끝나면 몇시간에서 길어도 2주 정도에 인덱스될 것입니다.
Web사이트를 검색 결과에 표시시키려면 무한 궤도가 큰 역할을 하고 있습니다.
그럼, 무한 궤도와 검색 결과의 순위에는 어떤 관계가 있을까요? 이 점에 대해서 살펴봅시다.

무한 궤도의 기능과 검색 순위가 정해지는 구조
크롤러의 주요 기능은 Web페이지 간 링크를 걸Web사이트를 검출하는 것, 사이트의 정보를 수집하고 가져오기, 그리고 가져온 정보를 검색 엔진 데이터베이스에 인덱스 하는 3가지입니다.
크롤러 순회 프로세스는 아래의 순서로 진행됩니다.
1. 과거에 인덱스된 Web페이지 목록 및 사이트 맵 정보 확인
2. 대상 Web사이트에 있는 신규 정보 확인 및 수집
3. 대상 Web사이트에 있는 새로운 링크의 확인 및 무효인 링크의 확인
이때 크롤러는 순회처의 Web사이트 정보와 더불어 새로운 링크처의 확인도 합니다. 이에 따른 무한 궤도는 새로운 Web사이트를 발견합니다.

검색 순위가 정해지는 구조
검색 순위를 결정하는 정확한 구조는, 각 검색 엔진의 알고리즘을 비공개로 하고 있어 단정할 수 없습니다. 그러나 Google은 200자 이상의 관점에서 대상 키워드를 검색하고 이용자에 대한 바람직한 사이트를 판단하고 검색 결과와 순위에 반영시키고 있다고 합니다.
그 때에 중요한 요소가 되는 것이 데이터베이스에 자수된 Web사이트 정보입니다.

인덱스
인덱스(색인)은 검색 엔진 데이터베이스에 기록·축적된 Web사이트의 정보를 말합니다.
또 기록·축적하면서 무한 궤도로 가져간 정보를 정리하고 알기 쉬운 형태로 정리하고 있습니다.
정보를 정리하는 이유는 대상 Web사이트상에는 어떤 주제의 정보가 있고, 어떤 내용을 담고 있는지 등을 쉽게 정리하기 때문입니다.
이렇게 정리된 정보를 바탕으로 Web사이트를 평가하고 검색 결과에 표시하는 순위를 결정합니다.
크롤러에 의한 순회와 인덱스가 Web사이트가 검색되기 위한 첫걸음이 되므로, SEO 할 때 기본적이고 중요한 체크 포인트가 됩니다.

크롤링을 최적화하고 SEO을 강화하는 정책

크롤러가 얼마나 그 페이지를 찾기가 쉽게하기 위하여 지표로 서버에 있는 html, css 같은 각종 파일을 Googlebot등이 읽기 쉽도록 묶어 무한 궤도가 순회하기 쉽게 개선하는 것을 『 크로라비리티의 향상 』이라고 부릅니다.
쿠로라비리티의 향상에 의한 효과는 다양하지만, 직접적인 이점은 자유검색 빈도가 높아질 것입니다. 다만 무한 궤도가 검색 순위를 정하는 것은 아닙니다.
그러나 자유롭게 가져간 정보를 바탕으로 검색 순위가 도출되기 때문에 무한 궤도를 적절하게 순회하는 것은 SEO의 강화에 필요 불가결합니다.

크롤러가 순회하지 않는 경우는 검색 결과에 표시되지 않는다

검색 엔진이 무한 궤도가 모은 정보를 바탕으로 검색 결과를 내고 있고 성질상 크롤링되지 않은 페이지는 기본적으로 검색 결과에 표시되지 않습니다. 전술한 대로 크롤러는 한번에 사이트의 모든 것을 둘러보지 않기 때문에 거기에서 누출된 페이지는 검색 결과에 반영되지 않습니다.

빈도가 높아지면 갱신되어 반영되기 쉬워진다.

사이트 페이지가 검색 결과에 반영되지 않도록 아무리 갱신을 하더라도 그 페이지가 크롤링 하지 않으면 검색 엔진에 영향을 주지 않아요.
크롤러는 며칠 정도로 순회하는 경우도 있으면 2,3개월 이상 지나도 나오지 않는 경우도 있으며 상당한 폭이 있기 때문에 자유롭게 노출되는 빈도가 높은 사이트와 그렇지 않은 사이트는 엄청난 차이가 생기게 됩니다.
이상과 같이 자유롭게 빈도가 향상됨으로써, 검색 순위에 영향을 주는 적절한 SEO대책이 보다 신속하게 효과를 발휘할 수 있습니다.
반대로 말하면 크로라비리티가 나쁘면 페이지에 어떤 SEO대책을 실시하고 있어도 같은 효과를 얻을 수 없게 됩니다.

1. 사이트의 갱신 빈도의 향상
크롤러는 1회 순회에서 Web사이트 내에 있는 모든 정보를 가져갈 수 없어, 필요에 따라서 몇번이나 사이트를 방문합니다. Web사이트의 갱신 빈도를 높임으로써 무한 궤도는 사이트를 방문하고 새로운 정보를 수집할 필요가 생기고 인덱스되는 정보가 끊임없이 충족됩니다.
Web사이트의 정보를 항상 최신으로 유지함으로써 콘텐츠의 질이나 정확성 등이 평가되는 일과 연결됩니다. 양질의 콘텐츠에 정당한 평가를 받기 위해서도 Web사이트의 갱신은 부지런히 하고 무한 궤도의 순회를 촉진시키죠.

2. 디렉토리 구조를 개선
디렉토리 구조란 파일을 분류·보관하는 디렉토리가 어떤 구조로 되어 있는지 말합니다.
이상적인 디렉토리 구조는 계층적으로 정리되어 있는지, 계층에 공백이 없는지 계층에서 중복되지 않느냐가 기준이 됩니다.
또 크롤러는 얕은 계층에 있는 콘텐츠를 중요하다고 인식하므로 검색 결과에 포함시킬 페이지는 얕은 계층에 배치하는 것을 추천합니다.
너무 복잡한 디렉토리 구조는 무한 궤도의 원활한 순회를 가로막는 요소가 됩니다.
그래서 3계층 내의 구조에서 중요한 콘텐츠에 도달할 수 있도록 합시다.

3. 사이트 이동 경로의 설치
사이트 이동 경로는 사이트의 계층을 나타내는 것으로써, 유저가 현재 어떤 계층에 있는지를 쉽게 전달할 수 있습니다. 이는 무한 궤도에 있어서도 마찬가지로 순회할 루트가 최단으로 알기 쉽게 됩니다.
주요 사이트 이동 경로의 형식은 아래의 3가지 있습니다.

*유저가 설정한 경로를 표시하는 것
*유저가 실제로 들어온 경로를 표시하는 것
* 페이지에 이어지는 전체 경로를 표시하는 것

4. 텍스트 링크 설치
크롤러는 그림을 이해할 수 없고 그림 링크보다 텍스트 링크가 크롤러는 선호합니다.
그림의 링크를 사용할 때는 무한 궤도에 이해하기 위해서, 『 alt』에 그림 내 텍스트를 설치하는지, 그림에 댓글로 설명을 하면 됩니다.

5. 앵커 텍스트의 내용 개선
링크가 붙은 텍스트에서 많이 보이는데 『 이어서 보기는 여기 』또는 『 관련 기사 』 같은 표현입니다. 크롤러는 앵커 텍스트(링크가 붙은 텍스트의 것)에 의해서 링크처의 내용을 이해할 수 있기 때문에 링크처의 내용을 알기 쉽게 텍스트로 표시하고 링크해야 합니다.
링크의 내용과 링크를 넣은 문장의 관련성이 낮은 경우 검색 엔진의 평가가 떨어질 가능성이 있으므로 주의하세요. 링크의 컨텐츠에서는 앵커 텍스트와 관련성이 높은 키워드를 짜넣는 것이 중요합니다.

6. 사이트 내의 페이지 콘텐츠에 대한 링크 설정
사이트 내에서 내부 링크가 붙지 않은 페이지나 콘텐츠가 있는 경우 관련 콘텐츠에 링크를 연결하도록 해야 합니다.
크롤러는 링크를 걸게되면 페이지나 콘텐츠를 발견하고 링크의 페이지를 중요한 페이지라고 판단하는 경향이 있기 때문에 내부 링크에서는 도달할 수 없고 고립된 페이지는 질 좋은 콘텐츠라도 그 정보를 활용할 수 없습니다.
특히 새롭게 페이지를 작성한 경우 외부 링크는 기대 못하는데 관련 항목 등 내부 링크를 이용한 크롤링 하기 쉬운 적절한 링크 구조를 만들도록 해야합니다.

7. 중복된 불필요한 페이지는 삭제
단순히 내용이 중복된 페이지 같은 페이지인데 『 www. 』가 있는 경우와 없는 경우 등 알고 보니 몇가지의 중복 페이지가 발견될 수 있습니다.
크롤러는 같은 내용으로 여러 페이지일 경우 의미 없는 페이지라고 판단하고 마이너스 평가할 가능성이 있습니다.
사이트 내에 중복된 페이지가 없는지 『 site:( 사이트의 도메인을 입력)』에서 확인하고 중복 페이지가 확인 된 경우는 그 상태로 대응 방법이 다릅니다.
예를 들어 EC사이트 등에서 같은 상품의 다른 색깔의 상품별로 페이지가 있는 경우는 그 페이지를 삭제하지 않고, canonical을 사용하여 정규의 페이지를 무한 궤도에 나타냄으로써 중복 페이지가 아님을 전할 수 있습니다. 단순하게, 콘텐츠 내용이 거의 비슷하다는 점에, 다른 페이지의 경우는, 어느 페이지와 통합되는 것이 좋겠죠.
그럼으로써, 그 정보를 찾아 온 유저가 원하는 페이지를 찾기 쉽게 노출됩니다.
완전히 중복된 페이지가 존재할 경우 어느 한쪽을 남기고 다른 페이지를 사이트상에서 삭제합니다. 혹은 어느 페이지에도 접속이 되는 경우는 301방향 수정의 설정(복제 페이지에 접속이 있을 때에, 원본 페이지에 전송시키는 설정)을 하는 방안도 권장할 수 있습니다.

 

반응형