Правильный robots.txt для LibArea

Кто использует данный движок для сайтов, поделитесь кто как настраивает robots.txt.
Хотелось бы увидить наилучший вариант.

Сандартный из коробки выглядит следующим обазом:

User-agent: *
Disallow: /search
Disallow: /oauth
Disallow: /recover
Disallow: /top
Disallow: /all
Disallow: /s/*/top*
Disallow: /s/flud/*
Disallow: /page/*
Disallow: /*/page/*
Disallow: /page
Disallow: /web/edit/*
Disallow: /web/github/*
Disallow: /web/forum/*
Disallow: /web/portal/*
Disallow: /web/reference/*
Disallow: /web/blog/*
Disallow: /rss-feed/*
Disallow: /*?*

Тут конечно многое убрать нужно, то что косается web, ну тут уже конечно все индивидуально под каждый проект.

У меня же вопрос по:

Disallow: /top
Disallow: /all

Так понимаю мы их закрывам от индексации, чтобы небыло дублей в поиске?

LibArea

442

+ Читать

2 Ответа

Evg 23 Октября 2023 (ред.)
Ссылка
Чуток пост подправил, кодом выделил. По поводу /top и /all: вы можете открыть у себя, это не особо критично. Просто на этом сайте у меня политика такая: минимально давать в поиск. Эти страницы не нужны, они дублируют контент.

Если вы убираете каталог, то и строчки с /web можно удалить.
2
Ответить
1. Nikita Автор 23 Октября 2023
  
  Ссылка
  Не ну если они будут дублировать контент, то конечно нужно закрывать, я вот про это и спрашивал! Знаю что дубли плохо влияют на сайты, еще с тех пор, когда на WP метками баловался и не закрывал от индексации их!
  
  Насчет каталога, то думаю его стоит закрывать, так как в нем имеются ссылки, хотя посмотрел и ссылки как я понимаю обернуты в nofollow noreferrer ugc.
  Ответить