Почему Википедия важна и как ее понять (программно)
Некоторые из самых сложных проблем, которые можно решить в экосистеме разработки программного обеспечения, — это те, на которые «интуитивно» есть простой ответ.
Сколько людей живет в Албании? Как называется Игра престолов S05E07? Какие книги написала Туве Янссон? Когда появился Google?
Как на это ответить сегодня?
В статье автор пишет: https://zverok.github.io/blog/2021-10-19-wikipedia.html
Да, я знаю! Вы гуглите (или, ну, черт возьми), заглядываете в Википедию, спрашиваете у Siri. Но как вы ответили на эти вопросы, если вы разработчик и вам нужно использовать данные в своем коде? И здесь начинается «трудная проблема, которая кажется легкой».
Обсуждая этот вопрос, меня часто спрашивают: «Но зачем вам отвечать на эти вопросы в коде?» Но для меня это не вопрос. Для меня кажется самоочевидным, что все «общеизвестные факты» должны быть доступны в вычислимой форме, ТОГДА мы увидим, почему. Однако в наш век повсеместных вычислений необходимость дополнения нашего понимания окружающего мира общедоступными знаниями, кажется, становится очевидной.
И т.д. И вот центральная точка этой статьи:
я действительно считаю, что нужно уметь написать (на Python, Ruby, Haskell, на любом другом языке) что-то по смыслу
World.country("Ukraine").attr("area")
и получить осмысленный ответ. Для любого / большинства «общеизвестных».
Последний прототип, который он разработал и продемонстрировал, как он пишет сам, имеет все возможные ошибки.
И первая из них, к его большому сожалению, было выполнение этого на Ruby.
Т.к он думал, что Ruby действительно хорош для реализации и использования такого рода экспериментов. Но этого не следовало делать на Ruby.
Я должен был пойти туда, где есть сообщества данных.
И он выбрал Python.
PHP, как и Ruby, не отличается «сообществом данных?
Более фундаментальная проблема, о которой автор, похоже, не догадывается: извлечение структурированных данных из неструктурированных или полуструктурированных данных, таких как HTML или простой текст, в общем случае является очень сложной проблемой.
Именно! Одно дело получать и отображать готовые данные (в Вики они есть), а другое дело, пытаться делать то, о чем вы пишите. Взять те-же сайты с одной стороны и поиск с другой. Я не вижу больших проблем для работы с данными на любом языке (в том числе и на PHP), если конечно они есть да ещё и в структуре.