Правильный robots.txt для LibArea

Nikita Nikita 23 Октября 2023 (ред)

Кто использует данный движок для сайтов, поделитесь кто как настраивает robots.txt.
Хотелось бы увидить наилучший вариант.

Сандартный из коробки выглядит следующим обазом:

User-agent: *
Disallow: /search
Disallow: /oauth
Disallow: /recover
Disallow: /top
Disallow: /all
Disallow: /s/*/top*
Disallow: /s/flud/*
Disallow: /page/*
Disallow: /*/page/*
Disallow: /page
Disallow: /web/edit/*
Disallow: /web/github/*
Disallow: /web/forum/*
Disallow: /web/portal/*
Disallow: /web/reference/*
Disallow: /web/blog/*
Disallow: /rss-feed/*
Disallow: /*?*

Тут конечно многое убрать нужно, то что косается web, ну тут уже конечно все индивидуально под каждый проект.

У меня же вопрос по:

Disallow: /top
Disallow: /all

Так понимаю мы их закрывам от индексации, чтобы небыло дублей в поиске?

2 Ответа

  1. Evg Evg 23 Октября 2023

    Чуток пост подправил, кодом выделил. По поводу /top и /all: вы можете открыть у себя, это не особо критично. Просто на этом сайте у меня политика такая: минимально давать в поиск. Эти страницы не нужны, они дублируют контент.

    Если вы убираете каталог, то и строчки с /web можно удалить.

    1. Nikita Nikita 23 Октября 2023 (ред.)

      Не ну если они будут дублировать контент, то конечно нужно закрывать, я вот про это и спрашивал! Знаю что дубли плохо влияют на сайты, еще с тех пор, когда на WP метками баловался и не закрывал от индексации их!

      Насчет каталога, то думаю его стоит закрывать, так как в нем имеются ссылки, хотя посмотрел и ссылки как я понимаю обернуты в nofollow noreferrer ugc.