Почему Википедия важна и как ее понять (программно)

Некоторые из самых сложных проблем, которые можно решить в экосистеме разработки программного обеспечения, — это те, на которые «интуитивно» есть простой ответ.

Сколько людей живет в Албании? Как называется Игра престолов S05E07? Какие книги написала Туве Янссон? Когда появился Google?

Как на это ответить сегодня?

В статье автор пишет: https://zverok.github.io/blog/2021-10-19-wikipedia.html

Да, я знаю! Вы гуглите (или, ну, черт возьми), заглядываете в Википедию, спрашиваете у Siri. Но как вы ответили на эти вопросы, если вы разработчик и вам нужно использовать данные в своем коде? И здесь начинается «трудная проблема, которая кажется легкой».

Обсуждая этот вопрос, меня часто спрашивают: «Но зачем вам отвечать на эти вопросы в коде?» Но для меня это не вопрос. Для меня кажется самоочевидным, что все «общеизвестные факты» должны быть доступны в вычислимой форме, ТОГДА мы увидим, почему. Однако в наш век повсеместных вычислений необходимость дополнения нашего понимания окружающего мира общедоступными знаниями, кажется, становится очевидной.

И т.д. И вот центральная точка этой статьи:

я действительно считаю, что нужно уметь написать (на Python, Ruby, Haskell, на любом другом языке) что-то по смыслу World.country("Ukraine").attr("area") и получить осмысленный ответ. Для любого / большинства «общеизвестных».

Последний прототип, который он разработал и продемонстрировал, как он пишет сам, имеет все возможные ошибки.

Получение данных

И первая из них, к его большому сожалению, было выполнение этого на Ruby.

Т.к он думал, что Ruby действительно хорош для реализации и использования такого рода экспериментов. Но этого не следовало делать на Ruby.

Я должен был пойти туда, где есть сообщества данных.

И он выбрал Python.


PHP, как и Ruby, не отличается «сообществом данных?

2 Ответа

  1. Более фундаментальная проблема, о которой автор, похоже, не догадывается: извлечение структурированных данных из неструктурированных или полуструктурированных данных, таких как HTML или простой текст, в общем случае является очень сложной проблемой.

    1. Именно! Одно дело получать и отображать готовые данные (в Вики они есть), а другое дело, пытаться делать то, о чем вы пишите. Взять те-же сайты с одной стороны и поиск с другой. Я не вижу больших проблем для работы с данными на любом языке (в том числе и на PHP), если конечно они есть да ещё и в структуре.