Темата за Бюджета за обхождане на Google често остава на заден план, но истината е, че тя стои в сърцевината на качествената органична оптимизация. Първо, нека да изясним:
Какво е Crawl Budget и защо е важно за сайтовете?
Когато говорим за обхождане и индексиране на страници, често могат да се срещнат термините “ботове”, “роботи”, “паяци”, “краулери”. Това са компютърни програми, създадени да събират информация от уеб страниците. Те могат да са зловредни (хакерски) или полезни (паяците на търсачките). По-надолу ще си говорим за вторите.
Под Бюджет за обхождане, всъщност се има предвид честотата, с която ботовете посещават вашите страници. Въпреки, че в старата версия на Google Search Console има опция да намалите тази честота (ако евентуално се чудите дали честото обхождане не забавя сървъра ви), е силно препоръчително да не я променяте. Google разполага с ограничен ресурс за обхождане и е редно да оставите роботите да действат по оптимален начин.
Точно този “оптимален начин” трябва да се опитате да подобрите. Най-просто казано, колкото по-висок Бюджет на обхождане имате, толкова по-често ботовете ще се връщат на страниците ви и ще обновяват и обогатяват индекса си с тях. Вие искате трафик, а този трафик ще дойде, когато имате прясно съдържание в индекса, което хората да намират чрез търсачката.
Отваряме една скоба – нисък Crawl Budget е голяма заплаха конкретно за големите сайтове с повече от няколко десетки хиляди страници. Това, обаче, не трябва да ви навежда на мисълта, че можете да го пренебрегнете. Оптимизирането на този бюджет може да ви даде предимството пред конкуренцията, която не се е сетила да поработи в тази насока. Да не говорим, че има вероятност вашият Crawl Budget да е на толкова ниско ниво, че от Google почти да са спрели да индексират новото ви съдържание.
Да, именно защото Google нямат неизчерпаем ресурс за обхождане, те предпочитат да “възнаграждават” с него сайтовете, които улесняват роботите в тяхната работа. Тези сайтове се радват на често и пълноценно обхождане и индексиране на съдържанието, докато останалите биват, донякъде логично, посещавани рядко и набързо. Това от своя страна може да навреди на сайта ви. Представете си, че публикувате ново и полезно съдържание, което се надявате хората да намерят чрез търсачката в близките дни. Да, но ако целият ви сайт е объркващ и тромав за ботовете, те ще са се научили да го посещават веднъж на 2 седмици. По този начин хубавата ви страница ще остане необходена и неиндексирана дълго време, а когато индексирането най-сетне се случи, съдържанието в страницата може вече да не е актуално.
Добрата новина е, че при положителна промяна от ваша страна, роботите също ще започнат да променят нагласата си спрямо сайта ви.
Та, ако искате да имате висок Бюджет за обхождане, обърнете внимание на следните съвети:
Чеклист с 6 практически насоки за оптимизиран Crawl Budget
1. Не блокирайте достъпа до важни страници
Трябва да сте напълно сигурни, че важните страници от сайта ви са достъпни за обхождане. Вашето полезно съдържание би било напълно безполезно, ако чрез .htaccess или robots.txt възпрепятствате способността на паяците да посетят основните ви страници. Забраните за ботовете трябва да се отнасят за по-незначителните ви страници, но и тук трябва да имате едно наум – ако имате твърде много забрани, краулерът може да прецени, че сте допуснали грешка и въпреки всичко, да посети тези страници. Също така, ако тези забранени за достъп страници имат много линкове към тях, паяците може да попаднат на пътека и отново да ги обходят. Ако забележите нещо подобно да се случва с някои от страниците ви, можете да сложите в <head> частта на всяка такава страница <meta name=”robots” content=”noindex”>, и така да предотвратите индексирането.
2. Придържайте се към HTML-а
Googlebot вече все по-добре обхожда съдържание от JavaScript и XML, или поне така твърдят от Google. Дори имат серия от видеа, свързани с JS и SEO. Въпреки това, все още способността на роботите да разчитат правилно JS файловете не е напълно развита и рискът от неточности съществува. Съветът ни е, ако имате възможност да използвате повече чист HTML, да го правите.
3. Намалете прекалените редиректи
Всеки пренасочен адрес изцежда по мъничко бюджет. По лошото е, че ако имате много страници, правещи по 3-4 безпричинни пренасочвания преди да заредят съдържанието, ботовете може да спрат да следват връзките, за да пестят ресурс. Старайте се да нямате страници, правещи по повече от два 301 или 302 редиректа.
4. Запознайте Googlebot с URL параметрите ви
Ако CMS системата ви генерира много на брой динамични URL адреси (както често се случва), има вероятност да губите от Crawl Budget-а си, че дори и да се сблъсквате с проблема с дублираното съдържание. За да избегнете това, в старата версия на GSC, все още е достъпна опцията да зададете кои URL параметри генерира системата ви, така че Googlebot да ги взема под внимание, и да не се заблуждава, когато обхожда съдържанието ви (GSC > Crawl > URL Parameters).
5. Поправете HTTP грешките
Както знаете, 404 и 410 error кодовете, сами по себе си не представляват пряка заплаха за SEO състоянието на вашия сайт, но могат да навредят косвено, ако са прекалено много на брой. Друг проблем при тях е, че “ядат” от Бюджета ви за обхождане. Във ваш най-голям интерес е да сведете до минимум тези HTTP грешки.
6. Поддържайте XML сайтмапа актуален
Чистата XML карта на вашия сайт помага на ботовете да се ориентират накъде водят вътрешните връзки и как е структурирано съдържанието ви. Сайтмапът ви трябва да съдържа само канонични URL адреси и да е съобразен с директивите в robots.txt файла ви – не включвайте в сайтмапа страница, която сте забранили за обхождане в robots.txt.
В заключение
Важно е да отбележим, че начина, по който работи Crawl Budget не е константен и търпи промени, също както постоянно се променят и алгоритмите на Google. Така например, след проведен през 2017г. тест на специалисти от link-assistant.com, се получават данни за корелация между беклинковете и нивото на Бюджета за обхождане – силният линк профил на дадена страница е предпоставка за висок Crawl Budget. Към 2019г., обаче, авторите на експеримента посочват, че такава зависимост вече НЯМА.
Накратко, грижете се пътят пред ботовете да е чист. Също така, проверявайте регулярно за технически грешки и следете скоростта на зареждане на страниците. Най-просто казано, ако една страница се зарежда бързо, то значи и информацията от нея бива извлечена от ботовете бързо. По този начин ще дадете зелена светлина за обхождането на повече страници от паяците и съответно ще се радвате на качествено индексиране, а оттам и на по-добри възможности за достигане до потребителите (което всъщност е основната ни цел, нали така).