Как мога да взема определени данни от сайт без RSS или JSON


0

Здравейте,

Имам следният казус. Трябва да взема едно съдържание от определен сайт който за съжаление няма RSS или JSON. Налага се да пиша паяк който да го обходи и да ми събере всичко, но не знам как да взема целият линк и после да започне да дълбае към други линкове.

Може ли да ми дадете малко повече информация как да започна? Дали има нещо готово или ще трябва да го пиша от 0та?




Отговори



2

Предполагам ти трябва нещо доста по-всеобхватно, но ако случайно е от полза за нуждите ти или за друг проект - https://import.io

Идеята на това е да пейстнеш линк и то създава таблица с данни, които можеш да ползваш с api/CSV. Например столовете в IKEA връщат нещо такова - столове в IKEA

Не е мега мощно, но мен лично ми спести време преди време :-)


от stoberov (3451 точки)


0
P.S. Сега видях най-отдолу на главната страница, че имат и десктоп приложение, което изглежда доста по-мощно - 56-секунден тъториал

от stoberov (3451 точки)


0

Ако искаш всичко да се случва на твоя сървър, може да си напишеш или вече да намериш готово писано прокси на PHP и cURL, и да зарежедаш URL във iframe, и тъй като ще изглежда все едно е зареден от същия домейн няма да има проблем със Same Origin Policy и ще можеш да достъваш всякаква информация.

Може и да не го зареждаш в iframe, ако не държиш да си го визуализираш, а директно да парсваш това което проксито ти връща и така ще може да използваш дори и POST/PUT заявки върху сайта който искаш да обходиш, така ще може да се логнеш и да обходиш съдържание което е видимо само си логнат (Само трябва да видиш как да конфигурираш cookies в cURL).

Ето един прокси скрипт който не съм пробвал но изглежда читав. https://github.com/joshdick/miniProxy/blob/master/miniProxy.php


от avalkov (628 точки)