Классификация блогов с использованием тегов: эмпирическое исследование
Нашел, возможно заинтересует. Классификацию данных можно в широком смысле определить как процесс организации и маркировки данных по категориям, чтобы собранные данные можно было использовать и защищать наиболее эффективным способом.
С экспоненциальным ростом веб-журналов (или блогов) появилось много каталогов блогов, которые помогают пользователям находить тематические блоги.
Поскольку теги обычно используются для описания блогов, мы изучаем эффективность тегов при классификации блогов. По сравнению с заголовками и описаниями наши эксперименты с использованием 24 247 блогов показали, что теги могут повысить точность классификации.
Интересно отметить, что большее количество тегов не обязательно ведет к повышению точности классификации. Чтобы лучше описать блоги, мы также предложили алгоритм расширения тегов, который присваивает блогу больше тегов, которые часто совпадают с тегами, уже связанными с блогом. Наши эксперименты показали, что расширение тегов помогло улучшить отзывчивость классификации блогов за счет снижения точности.
Это исследование поддержано грантом SUG7 / 06, Технологический университет Наньян, Сингапур.
Источник: Blog Classification Using Tags: An Empirical Study
Где содержится источники множество связанных исследований:
-
Dumais, S., Chen, H.: Иерархическая классификация веб-контента.
-
Hayes, C., Avesani, P., Veeramachaneni, S.: Анализ использования тегов в системе рекомендаций веб-блогов.
-
Улучшение аннотации блогосферы с помощью автоматической пометки и иерархической кластеризации.
И т.д.
Спасибо. Это все статьи 20, 15 летней давности, читал. (Надо перечитать). Мы когда-то занимались этим. и мне не совсем понятно другое, почему как-то халатно отнеслись, возможно понимания не было?
Простой пример. Были помечены сайты, статьи метками. Но в выдачи, мы придерживались ленточной структуру. Люди писали, раз у вас есть метки, а в этих метках есть иерархия, почему лента? Почему инфа идет сплошным потоком, как в Яндексе?
А сейчас думаю не об этом. Какая разница чем помечены. И вообще, есть ли разница между категориями. группами и тегами. Я бы не спешил делать выводы тут. Меня интересует вопрос, где заканчиваются категории и начинаются теги? 1 таблица связи и 2 поля всё меняется, так?
У нас теги с оговоркой. Тегам можно иметь оговорки, а почему нельзя категориям? Например, теги имеют вложения — оговорка. А в категории добавим, что они могут объединяться в группы и иметь перекрестные связи, кстати, которые были уже в некоторых проектах сделаны уже давно (Майл.Каталог, DMOZ) и помечались так: @Спорт (собакой).
Вот сдесь ситуация, зовем сейчас это темами (тегами по сути). А если бы назвали категориями. с одной оговоркой, многоуровневые, или сказали, что это группы. Ярылки часто не важны. А вот что важно.
На сайте что-то есть, допустим статьи. Мы чем-то пометили их, кстати мы делаем это постоянно. всё равно. Так вот, чем пометили инструмент гибкий или нет? Как мы его можем использовать? Что он может делать вообще?
А если мы рассмотрим саму гибкость, то окажется, что решение гибкости иногда лежит в 2 полях? И всё? Вчера долго говорил по этому поводу. Ладно, с теорией этой. Метки эти можно называть как угодно. Группы, категории, теги, темы. Не важно. Что они могут? Вот вопрос. Как мы их используем?
А если бы SO назвал это не тегами, а категориями. И начали бы СМИ писать о гибких категориях, чтобы было бы?
Им конечно бы сказали, что-то у вас категории на теги похоже, так и ответить можно: не знаю на что похоже, но это категории. Мы их считаем категориями. Чтобы было?
В базе поля категорий от тегов отличаются? Данные отличаются? Мало данных в категории содержится, так добавить можно. А от тегов, которые тут, убрать и называть категориями. Какая-то словестная ерунда выходит. Нет разницы. Для меня чего-то её не много.
Вот типичный пример. Названы Рубриками, т.е. это категории, так?
Нет, не так. Это теги. Опс… Просто оформлены, как категории.
Фасетная схема, миллионы комбинаций. Город Москва ваш, один каталог, для Питера, другой. Сборка идет вертикальная, горизонт и смежная. Группировка и перекресные связи. Любые. В зависимости от свойств внутри сущности.
Иногда эти свойства помещают так:
В качестве концепции:
Что касается места:
Как событие:
Чтобы описать его тип:
И т.д. Много свойств, которые учитываются при группировки.
И получился, вы в Москве, вы увидите один каталог, а в другом городе другой. Сколько города столько каталогов, сколько тематик, столько каталогов.
Мы правильно сделали, что выбрали то, что выбрали! Убеждаюсь в этом всё больше. Потенциал бешенный.
В сайтах, скоро можно будет посмотреть, как теги выглядят, как категории. А на всём сайте, они уже как группы выглядят. Возможностей уже больше, чем на в соц. сетях у групп. Так это теги, или темы, или группы. А может быть это вообще что-то другое? Слова, слова, ярлыки бесполезные… Путают только. )
Возможно категория, это связь статьи и категории? Поле с одним значением id категории в таблице статей?