Парсинг

Тема в разделе "PHP программирование", создана пользователем sasha465, 18 апр 2011.

  1. sasha465

    sasha465 Well-Known Member

    Регистрация:
    29 мар 2009
    Сообщения:
    69
    Симпатии:
    0
    Подскажите пожалуйста реализуема ли такая задача: Найти прямые ссылки на скачивание для драйвера, название которого пользователь введет в строке поиска? Поясню: пользователь вводит название искомого драйвера устройства, далее программа должна определить на каком сайте искать данный драйвер(скорее всего на сайте производителе). Далее следует парсинг сайта для поиска ссылки на скачивание данного драйвера. Возможно ли это реализовать, например с помощью регулярных выражений? Может быть кто-нибудь знает уже готовые реализации данной задачи или алгоритмы парсинга страниц?
     
  2. vital

    vital Больной Компом Детектед

    Регистрация:
    29 янв 2006
    Сообщения:
    2.468
    Симпатии:
    27
    Алгоритм парсинга хтмл страниц всего один - поиск подстроки в строке. А вот каким образом - это уже другой вопрос. Обычно - регулярками, но не обязательно.

    Задача - реализуема, но сложно. Вам нужно будет заранее составить список производителей обуродования и их сайтов. Далее, на каждом сайте есть ведь свои особенности. Где-то надо регистрация лдя скачивания, где-то нет. Где-то надо еще вводить капчу, где-то нет. Где-то надо подтверждение по е-меил, где-то нет. Вобщем, вы поняли, да? Нет ничего невозможного, но стоимость и сроки такой программы вряд ли могут себя окупить.
     
  3. sasha465

    sasha465 Well-Known Member

    Регистрация:
    29 мар 2009
    Сообщения:
    69
    Симпатии:
    0
    Ну в общем-то я согласен. Получается целесообразнее просто делать сайт с базой драйверов,но для меня это тоже не очень хороший вариант. Может быть пытаться делать запросы поисковику и переходить тупо по результатам пока не найдется сайт который сразу выдаст прямую ссылку? :ya_lamo:
     
  4. vital

    vital Больной Компом Детектед

    Регистрация:
    29 янв 2006
    Сообщения:
    2.468
    Симпатии:
    27
    Как вы себе видите алгоритм определения нужной прямой ссылки? Это граничит с искусственным интеллектом. Вы можете попасть на запароленынй архив,можете получить ссылку на устройство той же линейки, но старшей\младшей модели, можете не найти вообще..(как прервать обработку рез-в?)
    Нет, это не выход.

    Вариант, который я описал в своем первом ответе - попроще будет

    А вообще. Я бы попробовал юзать сервис по типу driver.ru(или погуглите какой-нить буржуйский аналог). Там надо только капчу расшифровывать. Есть готовые сервисы, которые предоставляют апи, по расшифровке капч. И вполне успешно расшифровывают. Не бесплатно, конечно. Есть даже один российский, правда, раньше рега по инвайтам была, сейчас хз. даже адрес не помню.Гуглите)
     
  5. sasha465

    sasha465 Well-Known Member

    Регистрация:
    29 мар 2009
    Сообщения:
    69
    Симпатии:
    0
    ну просто тавтология какая-то получается, если я создам сервис, который будет качать дрова с другого сервиса... Чем я тогда лучше их? Единственное что мне тогда в голову приходит это сделать так: человек не выбирает категории драйверов, производителя, например на driver.ru необходимо выбирать сначала к какому типу устройств относится драйвер. то есть юзер вводит просто название драйвера, а мой сервис уже сам определяет к какой категории драйверов его отнести и ищет в разных базах драйверов.
    Не удивляйтесь моему неадекватному желанию выполнить это задание, просто это мой диплом)
    Хотя ща посомтрел на driver.ru есть поиск, который также легко выдает нужный драйвер(((
     
  6. sasha465

    sasha465 Well-Known Member

    Регистрация:
    29 мар 2009
    Сообщения:
    69
    Симпатии:
    0
    Правда появилась ща мысля одна. Можно задавать таким образом запрос гуглу что он будет выдавать с высокой вероятностью страницу с дровами сайта-производителя. Например так: sites.amd.com скачать драйвер radeon hd 2600 и первая же ссылка будет на нужный мне сайт где без проблем найду нужную ссыль. Хотя не уверен что со всем так же прокатит.
     
  7. vital

    vital Больной Компом Детектед

    Регистрация:
    29 янв 2006
    Сообщения:
    2.468
    Симпатии:
    27
    ну у них то своя база дравйверов. А не из гула поиск.
    Это не метод.
     
  8. sasha465

    sasha465 Well-Known Member

    Регистрация:
    29 мар 2009
    Сообщения:
    69
    Симпатии:
    0
    Кароче говоря искать ссылки на драйверы посредством парсинга бессмысленно и неэффективно. Но мне нужно это сделать черт побери) хотя это совсем не весело :gifts:
     
  9. vital

    vital Больной Компом Детектед

    Регистрация:
    29 янв 2006
    Сообщения:
    2.468
    Симпатии:
    27
    Состовляйте свою базу.. Например, можете спарсить драйвер ру весь. Перегнать себе в базу. И использовать как хотите)
     
  10. sasha465

    sasha465 Well-Known Member

    Регистрация:
    29 мар 2009
    Сообщения:
    69
    Симпатии:
    0
    Но мне как я понимаю требуется именно парсить каждый раз драйвер а не иметь свою собственную базу В принципе тогда можно иметь ввиду несколкьо сайтов по типу driver.ru и с них парсить искомый драйвер.
     
  11. vital

    vital Больной Компом Детектед

    Регистрация:
    29 янв 2006
    Сообщения:
    2.468
    Симпатии:
    27
    Тоже можно. Получится сервис, который проверяет наличие в неск-х базах драйверов. Почему бы и нет?
     
  12. typak

    typak Гость

    А от я хотел такую програмку написать, чтобы пир переходе по ссылке загружался сайт например php.net тока с обработанными ссылками под мой обработчик. Вообщем я так прикинул вроде не труднореализуемая задача. Легче чем писать смс. База данных ненужна. Да и вообще с десяток функций та и все.

    Смущает одно время за которое будет осуществлен переход по ссылке(опятьже повторится цыкл: считывание, обработчик формирование ссылок вывод страницы) Интересно кто делал скоко времени занимает переход по ссылке (обрабатываться будет все спомощью рег выражений)


    п.с.
    Такой бы скрипт значительно сократил бы время создания сайта да и головняка б небыло (сканирование, редактирование, копирование, и.т.д) просто вывел ссылку на главно с url сайта и вся работа.
     
  13. vital

    vital Больной Компом Детектед

    Регистрация:
    29 янв 2006
    Сообщения:
    2.468
    Симпатии:
    27
    Так и не понял, что должно делаться и зачем. НО поиск ссылок регуляркой будет не долгий. Если конечно ссылок на странице не стопицоттыщ.
     
  14. typak

    typak Гость

    Поиск и замена наверно всетаки будет долгой :rolleyes:

    Должно:
    1. Считывать страницу допустим сайта php.net (с помощью кюрл или сокетов)
    2. Считаный текст обрабатываем заменяем (допустим заменяем ссылки которые находятся в тексте своей ссылкой на обработчик и передаем обработчику url куда ведет ета ссылка типа такого http://obrabotchik?url=znachenie_url_kotoroe_bulo_v_ssulke)
    3. Обрабатываем картинки заменяем src=url_saita_schituvaemogo+kyda ona vela do etogo делаем чтобы при просмотре картинки
    и всякие теги которые можно обработать там обрабатываем, чтобы было примерно как на считываемом сайте либо делаем свой дизайн
    3.Выводим текст в браузер пользователя.

    Пользователь при клике по любой ссылке(а ссылка у нас передаст url обработчику который проведет операции тотже самый цыкл: считывание, обработка считаного текста (сформирует ссылки такогоже типа, позаменяет картинки и прочие теги на собственное усмотрение можно просто чистый текст считать) и опять вывод текста страницы тока уже новой.

    Своего рода такой прикольнинький движочек получится который будет просто дублировать какой нибуть сайт (можно поменять дизайн, а можно и попытаться скопировать тот который был так и оставить без изменений)
    Вообщем отаким способом генерация сайта.
    Посути, сводится к написании проги которая буте просто считывать страницы сайта дальше формируем нужные нам ссылки чтобы загнать новый url в обработчик и просто выводим уже обработанный текст

    Правда круто ?
    Я тоже так думаю ;)


    Тока смущает одно время за которое пользователь будет переходить по ссылкам оно наверно будет минут по 5 минимум
    Можно просто прикинуть: время сщитывания + время обработки + время вывода на экран.
    Это уже время загрузки страницы как минимум удваивается (загрузка страницы для считывания сервером + загрузка обработаного текста) ето не считая времени на поиск и замену ссылок + рисунков можно попробовать КСС втулить

    Было бы круто такой движок иметь?
    Да я с вами тоже обсолютно согласен. Неплохая вещ ;)


    Да и пишется он если подумать легче раза в 3 чем писать свою смс, а пользы в разы больше
    Баз данных ненада, написал тока двиг и все на автомате генерит. Там вся прога всего навсего из 10 функций примерно будет состоять и стокоже файлов, а можно все в один влепить.
    Да и создать сайт будет просто добавил url понравившегося сайта от и все сайт готов.

    Ну а если прикинуть как он сыкономит время при написании сайтов пофигу на яндекс гугл же за копипаст не банит так шо таким макаром можно наделать огромное количество сайтов буквально за мецяс (тока успевай хостер регестрировать) Головняка никакого небудет с копированием контента просто сформировали первую ссылку и полностью генерируется сайт. Вообще бомба.
    Я просто в шоке. Или я неправ?
     
  15. vital

    vital Больной Компом Детектед

    Регистрация:
    29 янв 2006
    Сообщения:
    2.468
    Симпатии:
    27
    ВСе бред.
    Это называется веб-прокси. И таких скриптов тучи. А еще это один из способов создания зеркал. Ничего специфического. Не изобретайте велосипед.
    Секунд 20-30. Не больше, при нормальном интернете.
    Еще как банит. Это же не копипаст, а полное копирование. ПРичем и вас, и сайт оригинал. А после того, как владельцы сайта оригинала напишут в саппорт, мол какого хрена, им покажут ваш сайт.
    Дальше дело техники подать в суд. Будь все так просто - сателлиты по 30-150$ не продавали бы, и не нанимали бы рерайтеров писать тексты для поисковиков.

    Вобщем, бред все.
     
  16. typak

    typak Гость

    А как это веб-прокси? это скорей всего просто создание сайта. Можнож просто поставить условие если нет в базе url то считываем и добавляем в базу url и весь текст, картинки копируем, а если есть url то вытягиваем из базы.

    И получится шо первый раз пройдясь по ссылкам заполнится база, а второй раз проходясь будет уже вытягивать данные из своей базы. И время перехода по ссылкам будет уже не 20-30сек, а таким каким и должно быть
    Я бы сказал это легкий способ создания сайта за 5 минут он совсем небудет работать как прокси он раз тока обратится к сайту родителю и все, а потом будет со своей базы всё брать.
    Но это уже второй этап создания загон в базу хотя там кода небольше 30-50 строчек



    Ну подать они подадут, а как они меня найдут ? И на этом все дело закончится.
    А если и найдут + еще доказать надо шо это я зделал хоть мы и живем в непрововом государстве но всеравно есть же какието нормы, даже если и докажут судить то меня будут как никак по законам страны в которой я живу как никак, а может у нас закон разрешает такое дело, им проще чем меня искать просто в сапорт написать шоб мой сайт забанили чем меня искать этож скоко людей надо привлечь шоб меня попхнули.
    Да и вообще ето бред шо меня найдут, если разместить сайт на хосте какой нибудь страны например Гандураса или какой нибудь Зимбабуе нидружественной со страной владельца сайта и фиг им хостер предоставить информацию обо мне (ну там ip мой да и вообще непомню как можнаж даже ip свой скрывать прокси сервером связано вроде, имя и адрес никто настоящее давать небудет) И всё и отрезали каналы связи. Не ip, не адреса. А больше непочем им меня определить. Да и вообще можно с любого интернет клуба скинуть сайт на хостер.
    Незнаю мне так пока некажется
     
  17. typak

    typak Гость

    p.s.
    Посмотреть бы на них в тото момент када им мой пакажут. Это полный отпад был бы пупок можна сорвать :rolleyes:
     
  18. vital

    vital Больной Компом Детектед

    Регистрация:
    29 янв 2006
    Сообщения:
    2.468
    Симпатии:
    27
    При регистрации домена требуются паспортные данные.
    А на бесплатном не стоит и пытаться.
    Это не создание сайта - это его воровство.
    А если сайт часто меняется? Например, хотя бы новости на главной.
    строго пофиг. Опять же - домен.

    первая строчка гугла
    http://www.webproxy.ru/

    Добавлено: Открывает главную форума, за 8 секунд у меня, если что.
     
  19. typak

    typak Гость

    Так можно ж счетчик поставить типа при первой загрузке не из базы вытягивать а считать и в базу скопировать
    там уже при переходе с последующих страниц на главную будет загружатса копированная страница которая тока шо скопировалась. Липо сесию открыть. Поэксперементировать короче.
    А больше, то и нечему менятся изменится картинка нам пофигу мыж ее к себе на сервер скопировали (создадим функцию для создания копии изображения) ксс изменится так его тоже можна попытаться считать и на сервере записать (в ксс тоже пути обозначены шо где какое изображение подключается тоже считываем) шо может еще изменится? Да больше непридумаю.
    Да нам впринцыпе пофигу на дальнейшие изменения главное, что уже получится ниплохая версия статическая без обновления информации. И можна такой сай отнести уже не к ГС а к СДЛ свободно если я неошибаюсь мыж ведь делаем сайт с СДЛа значит и получится СДЛ. А шоб информация на нем сильно устарела нужно шоб пару лет прошло. Плевать на новости. А то это сильно нагло будет сделать еще шоб и новости обновлялись лутше сильно ненаглеть хотябы контент скопировать. :rolleyes:
    Да и будет то неполное копирование, а тока контента (разные формы повырезаются)

    А тут мб можно левые данные втулить либо на ксероксе попросить шоб зделали, или попробовать в интернете поискать, а если потребует отсканированные прислать, то попробовать в фотошопе чо нить зделать. Вариантов много

    Да и смысл сайт который мб проживет недолго пробный проект на платном хосте размещать лутше на бесплатном (базу зделать на локальном кампе и скинуть, а темболее в бд долно быть тока два поля текст и URL так можна вообще запись в файл делать с именем URL а потом поиск делать в директории и подгружать нужный файл с файлами като мутно все) А хост бесплатный каждый почти пхп поддерживает. Да и вообще сайт то можно зделать тока контентом похожый а все оформление там фон... и.т.д. просто поменять кароче свой ксс попытаться прикрутить и будет уже визуально новый сайт.

    Да я уже понял тока он для для избранных ip сканирует и выводит информацию как положено с нормальными ссылками. Вообщем принимает запросы с определенного ip считывает информацию с сайта а потом возвращает на ip кароче как посредник работает.

    Ничо поэксперементировать в учебных целях стоит.
    А вдрух пойдет Я не раз видел в гугле 2 одинаковых сайта с одинаковыми контентами точь в точь даже верстка одинаковая, тока оформление разное
     
  20. vital

    vital Больной Компом Детектед

    Регистрация:
    29 янв 2006
    Сообщения:
    2.468
    Симпатии:
    27
    :rolleyes:
    как об стенку.
     
Загрузка...

Поделиться этой страницей