• 🔥 Бесплатный курс от Академии Кодебай: «Анализ защищенности веб-приложений»

    🛡 Научитесь находить и использовать уязвимости веб-приложений.
    🧠 Изучите SQLi, XSS, CSRF, IDOR и другие типовые атаки на практике.
    🧪 Погрузитесь в реальные лаборатории и взломайте свой первый сайт!
    🚀 Подходит новичкам — никаких сложных предварительных знаний не требуется.

    Доступ открыт прямо сейчас Записаться бесплатно

Программирование для ИБ

Поиск, скачивание и извлечение метаданных из документов в свободном доступе с помощью Python. #02

  • 3 366
  • 0
В предыдущей статье мы начали писать скрипт поиска проиндексированных документов на определенном сайте, скачивание этих документов и извлечение из них доступных метаданных. И все это с помощью Python. Давайте продолжим создавать код и разбирать работу функций.

02.jpg

Дисклеймер: Все данные, предоставленные в данной статье, взяты из открытых источников, не призывают к действию и являются только лишь данными для ознакомления, и изучения механизмов используемых технологий.

Загрузка найденных документов

После того, как документы будут найдены, нужно их загрузить для анализа, да и просто, если есть желание, для чтения. Иногда можно узнать много нового и...

Поиск, скачивание и извлечение метаданных из документов в свободном доступе с помощью Python. #01

  • 3 123
  • 0
В широком понимании метаданных, все уже привыкли к тому, что метаданные есть в фото, аудио или видео. Но мы редко задумываемся о том, что метаданные есть и у других типов файлов. Например, у различных форматов офисных документов. И содержаться в них может имя учетной записи, который этот документ создал, иногда электронная почта или ФИО, реже телефон. И если с фото более-менее все почти наладилось и очисткой метаданных занимаются сами сайты, куда вы его загружаете, если это не стоковое изображение, конечно, то вот с документами несколько иная картина. Редко кто заморачивется над тем, чтобы удалить метаданные из документа, перед тем, как его загрузить на сайт. А вот о том, как получить документы с нужного сайта и извлечь эти метаданные с помощью Python давайте и поговорим.

01.jpg

Дисклеймер: Все данные, предоставленные в...

Сжатие PDF тремя библиотеками и сравнение результатов с использованием Python

  • 4 980
  • 0
Как работать с PDF-файлами, а именно извлекать текст, изображения, объединять файлы в один я писал вот в этой статье. Но, помимо всех, вышеперечисленных операций, немаловажной опцией является размер полученного файла. Ведь зачастую коллекции книг или статей в PDF занимают значительный объем жесткого диска. И тогда начинаешь задумываться, а можно ли как-то уменьшить размер документов до приемлемого уровня, чтобы не пострадало при этом качество и не была нарушена структура документа. И тут на помощью нам снова приходит Python. С его помощью и использованием библиотек для работы с файлами PDF давайте попробуем это сделать.

000.jpg

Для сравнения попробуем выполнить сжатие не одной библиотекой, а тремя, одна из которых является платной, чтобы выбрать наиболее подходящий алгоритм для использования в будущих...

Статья Наведите Порядок: Автоматическая Сортировка Файлов в Python с Pathlib

  • 8 190
  • 23
У каждого из нас в какой-либо из папок скапливается большое количество файлов, рассортировать которые все никак не доходят руки. Мне приходилось наблюдать папку «Загрузки» забитую неимоверным количеством файлов, «Рабочие столы», фото на которых лежит почти друг на друге. И у меня иногда скапливаются файлы, на сортировку которых уходит время. А что, если написать небольшой скрипт на Python, который рассортирует файлы по расширениям и разложит по папкам, попутно удалив пустые директории автоматически? Давайте сделаем это.

000.jpg

Думаю, что не сделаю никаких открытий, сказав, что рассортировать файлы можно с использованием одной библиотеки pathlib, а точнее, ее модуля Path. Каюсь, до недавнего времени, почему-то не обращал на эту библиотеку должного внимания. Может быть потому, что она не представляет из себя ничего экзотического. Но, вот попалась она мне на глаза и попробовав с ней работать я понял, насколько это удобнее, когда идет...

Извлекаем метаданные из фото, аудио и видео файлов с помощью Python

  • 9 349
  • 0
Давайте представим, что к вам попал некий файл: изображение, видео, а может быть аудиофайл, и вам нужно узнать о данном файле чуть больше информации чем отображается в свойствах файла. Если она там есть. Ведь современные камеры, смартфоны и прочее фото и видео оборудование добавляет их в файл в автоматическом режиме. И если файл не обработан программами, которые могут их затереть, то из таких метаданных, иногда, можно получить много разнообразной информации. В этом вам могут помочь специализированные программы, а можно воспользоваться небольшим скриптом на Python и получить необходимую информацию. Давайте создадим скрипт, который будет получать метаданные из фото, видео и аудио файлов.

52bd08545c8e0d74b54dac88d9027bc7.jpg

Что понадобиться?

Для работы с изображениями установим библиотеку Pillow. Именно с ее помощью мы будем получать метаданные, если они, конечно же есть. А также установим библиотеку ffmpeg, которая работает с...

Перевод текста в переводчике DeepL с использованием Selenium в Python

  • 4 856
  • 0
Когда вы собираетесь читать книгу на иностранном языке, вы либо учите этот язык, для того, чтобы можно было читать тексты в оригинале, либо пользуетесь услугами машинного перевода. Если, конечно, книга уже не переведена на ваш язык опытным переводчиком. И, несомненно, лидерами в области машинного перевода долгое время были программы, которые устанавливались на компьютер, имели собственную базу в соответствии, с которой и переводили с одного языка на другой. Но, появился интернет и все большую популярность стали набирать онлайн переводчики, такие как Google Translate или Яндекс Переводчик. Но, речь сейчас не о них, а об онлайн переводчике, который в области машинного перевода гораздо лучше, чем упомянутые выше гиганты. Речь о DeepL Translate. И все бы хорошо, если бы не одно «но». И вот об этом «но» я и расскажу, как я автоматизировал его с помощью Python.

bigtyx6muc8kgipsaqbn0z7f3r14oh295eljvdw.jpg

[COLOR=rgb(0, 168...

Работа с видеофайлами с помощью Python

  • 10 215
  • 0
Для работы с видеофайлами создано достаточно программ. Сложнее - проще, платные - бесплатные. На любой вкус и цвет. Но что, если вам не нужно редактировать само видео, а надо по быстрому объединить два фрагмента или наоборот извлечь. А может быть, вы хотите создать по-быстрому видео из картинок или извлечь аудиодорожку. В общем, вариантов работы с видеофайлами, помимо редактирования видео может быть много. И в какой-то части из них нам может помочь Python. Тем более что написанная вами программа будет бесплатна, без водяных знаков и прочего лицензионного шума.

000.jpg

Что потребуется?

Из сторонних библиотек нужно будет установить библиотеку moviepy. С ее помощью мы и будем работать с видеофайлами. Пишем в терминале:

pip install moviepy

Также, необязательная, но просто для красоты, библиотека colorama. С ее помощью мы немного раскрасим вывод в терминале, чтобы строки не сливались...

Распознаем текст на изображении двумя библиотеками с помощью Python

  • 19 893
  • 5
Уже довольно давно признанным лидером по распознаванию текста в пользовательском сегменте является Abbyy FineReader. К тому же, она не только позволяет распознавать тексты, но, также и сканировать документы с помощью сканера. Но, речь не о ней. А о том, что в области распознавания текста может предложить Python. Давайте рассмотрим две популярные библиотеки и попробуем сравнить качество распознавания.

001.png

Если честно, то узнав, как давно разрабатывалась первоначальная версия Tesseract OCR, я был удивлен. Ее разработка велась с середины 80-х по середину 90-х годов компанией Hewlett-Packard. После была благополучно забыта аж на целых 10 лет. В 2006 году была выкуплена Google, а ее исходные тексты стали открыты для разработчиков. И, дело сдвинулось с мертвой точки. В настоящий момент существует версия 5.0, которая уже очень далеко ушла от своей библиотеки-прародительницы.

Разработка EasyOCR была представлена...

Поиск в ВК фото с геометками с помощью Python. Часть #03.2 - Фильтрация по параметрам

  • 2 620
  • 0
В предыдущей статье мы начали писать код для скрипта, который ищет данные о геометках на фото пользователей ВК с помощью ВК API и выводит данные на карту. Давайте продолжим начатое. Для меня это была довольно увлекательная практика. Я сделал некоторые выводы из всего, что получилось. Но ими я поделюсь с вами уже в конце описания данного кода.

03_2.jpg


0000.jpg


Просмотр фото за определенную дату

Предположим, что вы уже запросили данные о пользователе, скрипт нашел фото с геометками, рассортировал их и сохранил о них данные в файлах. Теперь нужно посмотреть, что же он нашел. Для этого в пользовательском выборе есть пункт «Посмотреть полученные данные на карте». При выборе данного пункта, в зависимости от того, что ввел пользователь, запускается...

Извлечение текста, изображений и другие операции с документами PDF с помощью Python

  • 4 681
  • 0
PDF. Именно в этом формате мы читаем электронные книги, делаем презентации и руководства. И он действительно удобен тем, что дает возможность, вне зависимости от платформы, легко и просто работать с документами. Изначально, а может быть даже в первую очередь, данный формат был предназначен для представления в электронном виде полиграфической продукции. С июля 2008 года данный формат стал открытым. А на сегодняшний день, можно сказать, что он стал стандартом обмена электронными документами полиграфического качества уже подготовленными для печати. Но, несмотря на открытый стандарт, работать с контентом представленным в таком виде, на самом деле сложно. Давайте посмотрим, сможет ли Python хоть немного облегчить задачу по работе с форматом PDF.

000.jpg

Кроме создания документов в формате PDF над ним можно проводить разнообразные операции. Давайте рассмотрим сегодня несколько из них, а именно: сохранение текста из документа в...