Форматы офисных документов, такие как: «.docx», «.xlsx», «.odt», «.ods» содержат в себе механизмы, которые могут защитить текст или определенные ячейки в таблице от изменений. Более того, такая защита предусматривает механизм установления пароля для ее снятия. Таким образом, посторонний человек не сможет снять защиту и изменить документ по своему усмотрению.
Обратите внимание, что в данном случае речь не идет о шифровании документа. Такую защиту достаточно легко убрать. Вспомним, что настройки документа хранятся в архиве «zip», которым и являются современные офисные форматы.
Все действия, которые описаны ниже, достаточно легко проделать руками. Однако давайте автоматизируем данный процесс, а заодно потренируемся распаковывать и упаковывать простые архивы. Для процесса автоматизации будем использовать язык программирования python.
Установка пароля на редактирование в документе «.docx»
Для того чтобы потренироваться, защитим документ «.docx» паролем от изменения. Думаю, что все знают, как это делается. Может быть, в различных редакциях будут слегка отличаться меню, но общая суть остается одинаковой. Жмем кнопку «Файл -> Защитить документ -> Ограничить редактирование».
Выбираем необходимые ограничения, для кого они будут действовать, и жмем на кнопку «Да, включить защиту».
Открывается окно, в котором предлагается ввести пароль (или не ввести, тут уже на выбор), и после нажатия на кнопку «ОК» защита будет установлена.
Теперь при попытке редактирования текста и нажатии на кнопку отключения защиты будет появляться поле для ввода пароля.
Но, мы же помним, что «.docx» это архив. Поэтому меняем расширение на «zip» и распаковываем в директорию с названием файла. После распаковки переходим в папку «word» и ищем файл «settings.xml», именно в нем содержаться настройки, с которыми мы будем работать.
Открываем данный файл «.xml» и ищем строку, которая начинается с тэга
Данные пояснения были даны для того, чтобы понимать механизм и принцип, по которому будет сниматься защита на редактирование в документах. Практически во всех документах всё более-менее одинаково, различаются только названия тэгов и их расположение. Поэтому, в дальнейшем я не буду подробно описывать установку и снятие защиты, а более сосредоточусь на коде. В случае необходимости я буду пояснять, какие тэги необходимо удалить и где они располагаются.
Снимаем защиту с документа «.docx»
Импорт библиотек
Для работы будущего скрипта сторонних библиотек не потребуется. Достаточно будет тех, что идут с python «из коробки». Импортируем необходимые библиотеки:
Смена расширения у документа
Для того чтобы распаковать документ, необходимо изменить его расширение на «.zip». А так как данная операция будет выполняться в процессе снятия защиты два раза: первый раз при распаковке, второй раз после упаковки, необходимо создать функцию, которая в качестве аргументов будет принимать путь к файлу для смены расширения и само расширение, на которое нужно изменить текущее.
Создадим функцию def rename_document(path: str, new_suffix) -> Path. В данном случае path – строковый параметр, в котором передается путь к документу, а new_suffix – новое расширение документа. Чтобы иметь возможность работать в дальнейшем с переименованным документом, возвращать из функции будем путь к документу с измененным расширением.
Для начала формируем новое имя документа с нужным нам расширением и помещаем его в переменную doc_name. После переименовываем с помощью передачи необходимых параметров в класс Path библиотеки pathlib. Возвращаем из функции путь к документу с измененным расширением.
Распаковка архива
Следующее действие, которое необходимо выполнить – распаковать полученный в результате смены расширения архив. Для этого создадим функцию def extract_doc(path: Path) -> Path, которая будет принимать в качестве аргумента путь к файлу для распаковки, а возвращать путь к директории, в которую был распакован файл. Во избежание перегрузки скрипта библиотеками, библиотеку zipfile использовать не будем, а воспользуемся библиотекой shutil, которая предоставляет функцию unpack_archive. В данном случае ее будет вполне достаточно.
Формируем путь для распаковки архива и передаем его в переменную path_unpack, которая будет возвращена из функции. Затем с помощью shutil.unpack_archive, куда передаем: путь к архиву, путь к директории для распаковки, тип архива, - распаковываем архив. Все параметры, которые передаются в unpack_archive, должны быть строковыми. Возвращаем из функции путь к директории, куда был распакован архив.
Упаковка файлов в архив
Хотя, если придерживаться порядка повествования, следующим действием необходимо снимать защиту от изменения, однако, немного его нарушим и напишем функцию, которая будет упаковывать файлы в директории. Создадим функцию def zip_document(doc: str, path: Path) -> None, которая принимает в качестве аргументов имя архива для упаковки, - doc и путь к директории, содержимое которой необходимо упаковать, - path.
Дальше, с помощью shutil и его функции make_archive упаковываем содержимое директории. В качестве аргументов make_archive принимает: имя архива (возможно указание пути, куда поместить архив), тип архива, путь к директории для упаковки. Функция zip_document ничего не возвращает.
Получение пути к документу, передача параметров в функции
И снова мы пока не будем создавать функцию для снятия защиты, а для начала создадим функцию main(), которая является точкой входа в скрипт. Чтобы было немного понятнее, что откуда приходит и что где делается, подпишу все комментариями.
Для начала запрашиваем у пользователя путь к документу и передаем в переменную path_doc_file. Выполняем проверку, существует ли данный файл и является ли он файлом с расширением «.docx». Если не выполняется хоть одно из условий, выходим из скрипта. Если все в порядке – двигаемся дальше. Сохраняем в переменной origin_suffix первоначальное расширение файла. Переименовываем файл, точнее меняем расширение и получаем в переменную rename_doc путь к нему. Распаковываем файл и получаем в переменную path_doc путь к директории, куда был распакован архив. Затем удаляем оригинальный файл. Здесь можно немного изменить, при необходимости скрипт и просто переименовать оригинальный файл или переместить в другое место. Это уже как вы захотите.
Снимаем защиту с помощью функции delete_protection, которую мы еще не написали. Упаковываем содержимое директории. Снова меняем расширение файла с «.zip» на «.docx» и удаляем директорию, куда был распакован архив.
Снятие защиты с документа
Пришло время написать функцию, которая будет снимать защиту с документа. На самом деле, она довольно проста. Ее логика заключается в поиске и удалении того тэга, про который было сказано в начале. Конечно, документ для обработки является XML-документов, и можно было бы воспользоваться библиотекой xml. Но, в данном случае глобальной задачи не стоит. Поэтому просто обработаем документ как текст, найдем в нем тэг с помощью библиотеки re и удалим его. После чего, сохраним изменения.
Создадим функцию delete_protection(file: Path) -> None, которая в качестве аргумента принимает путь к файлу «.xml». Открываем данный файл и считываем его содержимое в переменную txt_xml. Выполняем с помощью re.sub поиск и замену тэга, после чего сохраняем модифицированный текст.
Модифицируем скрипт. Удаляем защиту на изменение с офисных документов другого типа
Снятие защиты с документов «.odt»
А что же другие форматы документов? Например «.odt». Здесь тоже все достаточно просто. Данный тип файла также является «zip» архивом. Если его переименовать и распаковать, мы увидим содержащиеся в нем XML документы с настройками и содержимым. Нас интересует файл: content.xml, именно в нем, помимо содержимого документа, находится также и защита.
Для примера скриншот защищенной области при попытке внести изменения:
В файле content.xml нас интересует тэг:
Параметры данного тэга приведены для примера. Но признаком защиты будет наличие параметров:
Однако удалять его полностью не нужно, необходимо только удалить параметры с ключами и данными о защите. Поэтому, давайте модифицируем предыдущий скрипт, переименуем функцию delete_protection –> delete_protection_docx, создадим функцию delete_protection_odt(file: Path) -> None, куда в качестве параметра передадим путь к файлу «.xml». А дальше все похоже на предыдущую функцию. Открываем документ, передаем текст в переменную txt_xml, находим и меняем тэг, после чего сохраняем измененный xml.
Причем, следует обратить внимание, что здесь удаляются и другие параметры, так как защита в документ «.odt» устанавливается несколько другим образом, а именно вставляется защищенный раздел. Потому, наличие параметров с упоминанием раздела не обязательно. Причем, защищенных разделов в документе может быть довольно много, поэтому, для начала найдем их все и будем убирать защиту с каждого из них, причем, оставляя сами разделы, чтобы не нарушить структуру документа.
Также, необходимо модифицировать функцию main(), чтобы для различного типа файлов запускать различные функции. Но, это немного позже. А пока давайте подумаем, ведь и остальные форматы, такие как «.xlsx» и «.ods» позволяют установить защиту от изменений. И они также являются zip-архивами, а значит можно их распаковать и снять защиту. Давайте это и сделаем далее.
Снимаем защиту от изменения с документа «.xlsx»
Создадим функцию delete_protection_xlsx(path: Path) -> None, которая принимает в качестве параметра путь к директории для поиска файлов XML. Почему путь к директории, а не к файлу? Тут все достаточно просто. В базовом варианте, если вы не удалите, после создания, лишние листы, из у вас 3. Да и листов в документе может быть больше, чем один. Находятся они в распакованном архиве по пути: «xl –> worksheets».
Поэтому, необходимо получить каждый файл в этой директории и обработать по отдельности. Искать здесь нужно тэг
Снятие защиты с документов «.ods»
И еще один тип таблиц с защитой – «.ods». Здесь немного больше операций, но не намного. В отличие от «.xlsx», листы в «.ods» находятся в одном файле. Поэтому итерироваться по директории здесь не нужно. Но, так как каждый лист находится в одном файле, и у каждого из листов может быть защита, следовательно, тэгов для модификации может быть несколько. Поэтому необходимо для начала выпоить их поиск. Название файла: content.xml.
Так как здесь может быть установлено два типа защиты, от изменения содержимого и от изменения структуры, удалим все типы защиты. Создадим функцию delete_protection_ods(file: Path) -> None, которая принимает путь к файлу для обработки. Открываем файл и считываем его содержимое в переменную txt_xml. Удаляем защиту от изменения структуры.
Выполняем поиск всех тэгов содержащих таблицы:
После чего сохранить модифицированный текст.
Модификация функции main()
И, последний штрих, это модификация функции main(). Здесь необходимо добавить определение расширения и выполнение определенной функции в зависимости от него. Все остальное, кроме небольшой модификации проверки на расширение файла, остается без изменения.
Таким образом, мы сняли защиту на изменение данных в различных типах документов: «.docx», «.xlsx», «.odt» и «.ods» с помощью скрипта на python.
К сожалению, не могу проверить данный скрипт на документах последнего офиса, однако, еще на документах 2013 данный код был рабочим.
А на этом все. Спасибо за внимание. Надеюсь, данная информация будет вам полезна
Обратите внимание, что в данном случае речь не идет о шифровании документа. Такую защиту достаточно легко убрать. Вспомним, что настройки документа хранятся в архиве «zip», которым и являются современные офисные форматы.
Все действия, которые описаны ниже, достаточно легко проделать руками. Однако давайте автоматизируем данный процесс, а заодно потренируемся распаковывать и упаковывать простые архивы. Для процесса автоматизации будем использовать язык программирования python.
Установка пароля на редактирование в документе «.docx»
Для того чтобы потренироваться, защитим документ «.docx» паролем от изменения. Думаю, что все знают, как это делается. Может быть, в различных редакциях будут слегка отличаться меню, но общая суть остается одинаковой. Жмем кнопку «Файл -> Защитить документ -> Ограничить редактирование».
Выбираем необходимые ограничения, для кого они будут действовать, и жмем на кнопку «Да, включить защиту».
Открывается окно, в котором предлагается ввести пароль (или не ввести, тут уже на выбор), и после нажатия на кнопку «ОК» защита будет установлена.
Теперь при попытке редактирования текста и нажатии на кнопку отключения защиты будет появляться поле для ввода пароля.
Но, мы же помним, что «.docx» это архив. Поэтому меняем расширение на «zip» и распаковываем в директорию с названием файла. После распаковки переходим в папку «word» и ищем файл «settings.xml», именно в нем содержаться настройки, с которыми мы будем работать.
Открываем данный файл «.xml» и ищем строку, которая начинается с тэга
<w:documentProtection…
. Если мы удалим данный тэг в любом текстовом редакторе и снова упакуем документ, защиты на нем уже не будет.Данные пояснения были даны для того, чтобы понимать механизм и принцип, по которому будет сниматься защита на редактирование в документах. Практически во всех документах всё более-менее одинаково, различаются только названия тэгов и их расположение. Поэтому, в дальнейшем я не буду подробно описывать установку и снятие защиты, а более сосредоточусь на коде. В случае необходимости я буду пояснять, какие тэги необходимо удалить и где они располагаются.
Снимаем защиту с документа «.docx»
Импорт библиотек
Для работы будущего скрипта сторонних библиотек не потребуется. Достаточно будет тех, что идут с python «из коробки». Импортируем необходимые библиотеки:
Python:
import re
import shutil
from pathlib import Path
Смена расширения у документа
Для того чтобы распаковать документ, необходимо изменить его расширение на «.zip». А так как данная операция будет выполняться в процессе снятия защиты два раза: первый раз при распаковке, второй раз после упаковки, необходимо создать функцию, которая в качестве аргументов будет принимать путь к файлу для смены расширения и само расширение, на которое нужно изменить текущее.
Создадим функцию def rename_document(path: str, new_suffix) -> Path. В данном случае path – строковый параметр, в котором передается путь к документу, а new_suffix – новое расширение документа. Чтобы иметь возможность работать в дальнейшем с переименованным документом, возвращать из функции будем путь к документу с измененным расширением.
Python:
def rename_document(path: str, new_suffix) -> Path:
"""Изменение расширения файла."""
doc_name = Path(path).parent / f'{Path(path).name.removesuffix(Path(path).suffix)}{new_suffix}'
Path(path).rename(doc_name)
return doc_name
Для начала формируем новое имя документа с нужным нам расширением и помещаем его в переменную doc_name. После переименовываем с помощью передачи необходимых параметров в класс Path библиотеки pathlib. Возвращаем из функции путь к документу с измененным расширением.
Распаковка архива
Следующее действие, которое необходимо выполнить – распаковать полученный в результате смены расширения архив. Для этого создадим функцию def extract_doc(path: Path) -> Path, которая будет принимать в качестве аргумента путь к файлу для распаковки, а возвращать путь к директории, в которую был распакован файл. Во избежание перегрузки скрипта библиотеками, библиотеку zipfile использовать не будем, а воспользуемся библиотекой shutil, которая предоставляет функцию unpack_archive. В данном случае ее будет вполне достаточно.
Python:
def extract_doc(path: Path) -> Path:
"""Распаковка архива."""
path_unpack = path.parent / Path(path).name.removesuffix(Path(path).suffix)
shutil.unpack_archive(path, path_unpack, "zip")
return path_unpack
Формируем путь для распаковки архива и передаем его в переменную path_unpack, которая будет возвращена из функции. Затем с помощью shutil.unpack_archive, куда передаем: путь к архиву, путь к директории для распаковки, тип архива, - распаковываем архив. Все параметры, которые передаются в unpack_archive, должны быть строковыми. Возвращаем из функции путь к директории, куда был распакован архив.
Упаковка файлов в архив
Хотя, если придерживаться порядка повествования, следующим действием необходимо снимать защиту от изменения, однако, немного его нарушим и напишем функцию, которая будет упаковывать файлы в директории. Создадим функцию def zip_document(doc: str, path: Path) -> None, которая принимает в качестве аргументов имя архива для упаковки, - doc и путь к директории, содержимое которой необходимо упаковать, - path.
Дальше, с помощью shutil и его функции make_archive упаковываем содержимое директории. В качестве аргументов make_archive принимает: имя архива (возможно указание пути, куда поместить архив), тип архива, путь к директории для упаковки. Функция zip_document ничего не возвращает.
Python:
def zip_document(doc: str, path: Path) -> None:
"""Упаковка директории в архив."""
shutil.make_archive(str(path.parent / doc), 'zip', path)
Получение пути к документу, передача параметров в функции
И снова мы пока не будем создавать функцию для снятия защиты, а для начала создадим функцию main(), которая является точкой входа в скрипт. Чтобы было немного понятнее, что откуда приходит и что где делается, подпишу все комментариями.
Для начала запрашиваем у пользователя путь к документу и передаем в переменную path_doc_file. Выполняем проверку, существует ли данный файл и является ли он файлом с расширением «.docx». Если не выполняется хоть одно из условий, выходим из скрипта. Если все в порядке – двигаемся дальше. Сохраняем в переменной origin_suffix первоначальное расширение файла. Переименовываем файл, точнее меняем расширение и получаем в переменную rename_doc путь к нему. Распаковываем файл и получаем в переменную path_doc путь к директории, куда был распакован архив. Затем удаляем оригинальный файл. Здесь можно немного изменить, при необходимости скрипт и просто переименовать оригинальный файл или переместить в другое место. Это уже как вы захотите.
Снимаем защиту с помощью функции delete_protection, которую мы еще не написали. Упаковываем содержимое директории. Снова меняем расширение файла с «.zip» на «.docx» и удаляем директорию, куда был распакован архив.
Python:
def main():
path_doc_file = input("Введите путь к документу: ")
if not Path(path_doc_file).exists():
print("Указанного файла не существует")
exit()
elif Path(path_doc_file).suffix not in [".docx"]:
print("Неверный тип файла")
exit()
origin_suffix = Path(path_doc_file).suffix # оригинальное расширение файла
rename_doc = rename_document(path_doc_file, ".zip") # имя файла после смены расширения
path_doc = extract_doc(rename_doc) # директория куда распакован файл
Path(rename_doc).unlink() # удаление оригинального файла
delete_protection(path_doc / "word" / "settings.xml") # удаление защиты
zip_document(f'{Path(rename_doc).name.removesuffix(Path(rename_doc).suffix)}',
Path(path_doc)) # упаковка файла в архив
rename_document(str(rename_doc), origin_suffix) # переименование архива в оригинальное имя
shutil.rmtree(path_doc) # удаление директории с распакованным документом
Снятие защиты с документа
Пришло время написать функцию, которая будет снимать защиту с документа. На самом деле, она довольно проста. Ее логика заключается в поиске и удалении того тэга, про который было сказано в начале. Конечно, документ для обработки является XML-документов, и можно было бы воспользоваться библиотекой xml. Но, в данном случае глобальной задачи не стоит. Поэтому просто обработаем документ как текст, найдем в нем тэг с помощью библиотеки re и удалим его. После чего, сохраним изменения.
Создадим функцию delete_protection(file: Path) -> None, которая в качестве аргумента принимает путь к файлу «.xml». Открываем данный файл и считываем его содержимое в переменную txt_xml. Выполняем с помощью re.sub поиск и замену тэга, после чего сохраняем модифицированный текст.
Python:
def delete_protection(file: Path) -> None:
"""Удаление защиты из документа. Сохранение без удаленного элемента."""
with open(file, "r", encoding="utf-8") as set_xml:
txt_xml = set_xml.read()
updated_xml_string = re.sub(r'<w:documentProtection.*?/>', '', txt_xml)
with open(file, "w", encoding="utf-8") as set_xml:
set_xml.write(updated_xml_string)
Python:
import re
import shutil
from pathlib import Path
def rename_document(path: str, new_suffix) -> Path:
"""Замена расширения файла."""
doc_name = Path(path).parent / f'{Path(path).name.removesuffix(Path(path).suffix)}{new_suffix}'
Path(path).rename(doc_name)
return doc_name
def extract_doc(path: Path) -> Path:
"""Распаковка архива."""
path_unpack = path.parent / Path(path).name.removesuffix(Path(path).suffix)
shutil.unpack_archive(path, path_unpack, "zip")
return path_unpack
def delete_protection(file: Path) -> None:
"""Удаление защиты из документа. Сохранение без удаленного элемента."""
with open(file, "r", encoding="utf-8") as set_xml:
txt_xml = set_xml.read()
updated_xml_string = re.sub(r'<w:documentProtection.*?/>', '', txt_xml)
with open(file, "w", encoding="utf-8") as set_xml:
set_xml.write(updated_xml_string)
def zip_document(doc: str, path: Path):
"""Упаковка директории в архив."""
shutil.make_archive(str(path.parent / doc), 'zip', path)
def main():
path_doc_file = input("Введите путь к документу: ")
if not Path(path_doc_file).exists():
print("Указанного файла не существует")
exit()
elif Path(path_doc_file).suffix not in [".docx"]:
print("Неверный тип файла")
exit()
origin_suffix = Path(path_doc_file).suffix # оригинальное расширение файла
rename_doc = rename_document(path_doc_file, ".zip") # имя файла после смены расширения
path_doc = extract_doc(rename_doc) # директория куда распакован файл
Path(rename_doc).unlink() # удаление оригинального файла
delete_protection(path_doc / "word" / "settings.xml") # удаление защиты
zip_document(f'{Path(rename_doc).name.removesuffix(Path(rename_doc).suffix)}',
Path(path_doc)) # упаковка файла в архив
rename_document(str(rename_doc), origin_suffix) # переименование архива в оригинальное имя
shutil.rmtree(path_doc) # удаление директории с распакованным документом
if __name__ == "__main__":
main()
Модифицируем скрипт. Удаляем защиту на изменение с офисных документов другого типа
Снятие защиты с документов «.odt»
А что же другие форматы документов? Например «.odt». Здесь тоже все достаточно просто. Данный тип файла также является «zip» архивом. Если его переименовать и распаковать, мы увидим содержащиеся в нем XML документы с настройками и содержимым. Нас интересует файл: content.xml, именно в нем, помимо содержимого документа, находится также и защита.
Для примера скриншот защищенной области при попытке внести изменения:
В файле content.xml нас интересует тэг:
<text:section text:style-name="Sect1" text:name="Раздел1" text:protected="true" text:protection-key="btWDPPNShuv4Zit7WUnw10K77D8=">
Параметры данного тэга приведены для примера. Но признаком защиты будет наличие параметров:
text:protected и text:protection-key
Однако удалять его полностью не нужно, необходимо только удалить параметры с ключами и данными о защите. Поэтому, давайте модифицируем предыдущий скрипт, переименуем функцию delete_protection –> delete_protection_docx, создадим функцию delete_protection_odt(file: Path) -> None, куда в качестве параметра передадим путь к файлу «.xml». А дальше все похоже на предыдущую функцию. Открываем документ, передаем текст в переменную txt_xml, находим и меняем тэг, после чего сохраняем измененный xml.
Причем, следует обратить внимание, что здесь удаляются и другие параметры, так как защита в документ «.odt» устанавливается несколько другим образом, а именно вставляется защищенный раздел. Потому, наличие параметров с упоминанием раздела не обязательно. Причем, защищенных разделов в документе может быть довольно много, поэтому, для начала найдем их все и будем убирать защиту с каждого из них, причем, оставляя сами разделы, чтобы не нарушить структуру документа.
Python:
def delete_protection_odt(file: Path) -> None:
"""Удаление защиты из документа. Сохранение без удаленного элемента."""
with open(file, "r", encoding="utf-8") as set_xml:
txt_xml = set_xml.read()
protect_sections = re.findall(r'<text:section.*?>', txt_xml)
for protect_section in protect_sections:
replace_section = " ".join([x for x in protect_section.split()
if not x.startswith(("text:protected", "text:protection-key"))]) + ">"
txt_xml = re.sub(protect_section, replace_section, txt_xml)
with open(file, "w", encoding="utf-8") as set_xml:
set_xml.write(txt_xml)
Также, необходимо модифицировать функцию main(), чтобы для различного типа файлов запускать различные функции. Но, это немного позже. А пока давайте подумаем, ведь и остальные форматы, такие как «.xlsx» и «.ods» позволяют установить защиту от изменений. И они также являются zip-архивами, а значит можно их распаковать и снять защиту. Давайте это и сделаем далее.
Снимаем защиту от изменения с документа «.xlsx»
Создадим функцию delete_protection_xlsx(path: Path) -> None, которая принимает в качестве параметра путь к директории для поиска файлов XML. Почему путь к директории, а не к файлу? Тут все достаточно просто. В базовом варианте, если вы не удалите, после создания, лишние листы, из у вас 3. Да и листов в документе может быть больше, чем один. Находятся они в распакованном архиве по пути: «xl –> worksheets».
Поэтому, необходимо получить каждый файл в этой директории и обработать по отдельности. Искать здесь нужно тэг
<sheetProtection...
и просто удалить. Формируем путь к директории с файлами листов и передаем в переменную path_sheets. Получаем список файлов в директории в переменной files. В цикле пробегаемся по каждому файлу. Открываем его, с помощью библиотеки re выполняем поиск и замену тэга, после чего записываем измененный текст в файл XML.
Python:
def delete_protection_xlsx(path: Path) -> None:
"""Удаление защиты из документа. Сохранение без удаленного элемента."""
path_sheets = path / "xl" / "worksheets"
files = [x for x in Path(path_sheets).iterdir()]
for file in files:
with open(file, "r", encoding="utf-8") as set_xml:
txt_xml = set_xml.read()
updated_xml_string = re.sub(r'<sheetProtection.*?/>', '', txt_xml)
with open(file, "w", encoding="utf-8") as set_xml:
set_xml.write(updated_xml_string)
Снятие защиты с документов «.ods»
И еще один тип таблиц с защитой – «.ods». Здесь немного больше операций, но не намного. В отличие от «.xlsx», листы в «.ods» находятся в одном файле. Поэтому итерироваться по директории здесь не нужно. Но, так как каждый лист находится в одном файле, и у каждого из листов может быть защита, следовательно, тэгов для модификации может быть несколько. Поэтому необходимо для начала выпоить их поиск. Название файла: content.xml.
Так как здесь может быть установлено два типа защиты, от изменения содержимого и от изменения структуры, удалим все типы защиты. Создадим функцию delete_protection_ods(file: Path) -> None, которая принимает путь к файлу для обработки. Открываем файл и считываем его содержимое в переменную txt_xml. Удаляем защиту от изменения структуры.
Выполняем поиск всех тэгов содержащих таблицы:
<table:table table:name
и передаем список в переменную tables. Итерируемся по списку. Разобьем найденный тэг на параметры, отфильтруем те, что относятся к защите. Сформируем тэг, который необходимо найти find_tag, а также тэг, на который будем менять найденный: remove_tag. Выполняем поиск тэга и его замену. Также необходимо найти и заменить тэг <loext:table-protection…
, а точнее – удалить.После чего сохранить модифицированный текст.
Python:
def delete_protection_ods(file: Path) -> None:
"""Удаление защиты из документа. Сохранение без удаленного элемента."""
with open(file, "r", encoding="utf-8") as set_xml:
txt_xml = set_xml.read()
txt_xml = re.sub(r'<office:spreadsheet.*?>', '<office:spreadsheet>', txt_xml)
tables = re.findall(r'<table:table table:name.*?>', txt_xml)
for table in tables:
tag = [x for x in table.split() if not x.startswith(("table:protected", "table:protection-key"))]
find_tag = " ".join(tag[0:2]) + ".*?>"
remove_tag = " ".join(tag) + ">"
txt_xml = re.sub(find_tag, remove_tag, txt_xml)
txt_xml = re.sub(r'<loext:table-protection.*?/>', '', txt_xml)
with open(file, "w", encoding="utf-8") as set_xml:
set_xml.write(txt_xml)
Модификация функции main()
И, последний штрих, это модификация функции main(). Здесь необходимо добавить определение расширения и выполнение определенной функции в зависимости от него. Все остальное, кроме небольшой модификации проверки на расширение файла, остается без изменения.
Python:
def main() -> None:
path_doc_file = input("Введите путь к документу: ")
if not Path(path_doc_file).exists():
print("Указанного файла не существует")
exit()
elif Path(path_doc_file).suffix not in [".docx", ".odt", ".xlsx", ".ods"]:
print("Неверный тип файла")
exit()
origin_suffix = Path(path_doc_file).suffix # оригинальное расширение файла
rename_doc = rename_document(path_doc_file, ".zip") # имя файла после смены расширения
path_doc = extract_doc(rename_doc) # директория куда распакован файл
Path(rename_doc).unlink() # удаление оригинального файла
if origin_suffix == ".docx":
delete_protection_docx(path_doc / "word" / "settings.xml") # удаление защиты
elif origin_suffix == ".odt":
delete_protection_odt(path_doc / "content.xml") # удаление защиты
elif origin_suffix == ".xlsx":
delete_protection_xlsx(path_doc) # удаление защиты
elif origin_suffix == ".ods":
delete_protection_ods(path_doc / "content.xml")
zip_document(f'{Path(rename_doc).name.removesuffix(Path(rename_doc).suffix)}',
Path(path_doc)) # упаковка файла в архив
rename_document(str(rename_doc), origin_suffix) # переименование архива в оригинальное имя
shutil.rmtree(path_doc) # удаление директории с распакованным документом
Python:
import re
import shutil
from pathlib import Path
def rename_document(path: str, new_suffix) -> Path:
"""Изменение расширения файла."""
doc_name = Path(path).parent / f'{Path(path).name.removesuffix(Path(path).suffix)}{new_suffix}'
Path(path).rename(doc_name)
return doc_name
def extract_doc(path: Path) -> Path:
"""Распаковка архива."""
path_unpack = path.parent / Path(path).name.removesuffix(Path(path).suffix)
shutil.unpack_archive(path, path_unpack, "zip")
return path_unpack
def delete_protection_docx(file: Path) -> None:
"""Удаление защиты из документа. Сохранение без удаленного элемента."""
with open(file, "r", encoding="utf-8") as set_xml:
txt_xml = set_xml.read()
updated_xml_string = re.sub(r'<w:documentProtection.*?/>', '', txt_xml)
with open(file, "w", encoding="utf-8") as set_xml:
set_xml.write(updated_xml_string)
def delete_protection_odt(file: Path) -> None:
"""Удаление защиты из документа. Сохранение без удаленного элемента."""
with open(file, "r", encoding="utf-8") as set_xml:
txt_xml = set_xml.read()
protect_sections = re.findall(r'<text:section.*?>', txt_xml)
for protect_section in protect_sections:
replace_section = " ".join([x for x in protect_section.split()
if not x.startswith(("text:protected", "text:protection-key"))]) + ">"
txt_xml = re.sub(protect_section, replace_section, txt_xml)
with open(file, "w", encoding="utf-8") as set_xml:
set_xml.write(txt_xml)
def delete_protection_xlsx(path: Path) -> None:
"""Удаление защиты из документа. Сохранение без удаленного элемента."""
path_sheets = path / "xl" / "worksheets"
files = [x for x in Path(path_sheets).iterdir()]
for file in files:
with open(file, "r", encoding="utf-8") as set_xml:
txt_xml = set_xml.read()
updated_xml_string = re.sub(r'<sheetProtection.*?/>', '', txt_xml)
with open(file, "w", encoding="utf-8") as set_xml:
set_xml.write(updated_xml_string)
def delete_protection_ods(file: Path) -> None:
"""Удаление защиты из документа. Сохранение без удаленного элемента."""
with open(file, "r", encoding="utf-8") as set_xml:
txt_xml = set_xml.read()
txt_xml = re.sub(r'<office:spreadsheet.*?>', '<office:spreadsheet>', txt_xml)
tables = re.findall(r'<table:table table:name.*?>', txt_xml)
for table in tables:
tag = [x for x in table.split() if not x.startswith(("table:protected", "table:protection-key"))]
find_tag = " ".join(tag[0:2]) + ".*?>"
remove_tag = " ".join(tag) + ">"
txt_xml = re.sub(find_tag, remove_tag, txt_xml)
txt_xml = re.sub(r'<loext:table-protection.*?/>', '', txt_xml)
with open(file, "w", encoding="utf-8") as set_xml:
set_xml.write(txt_xml)
def zip_document(doc: str, path: Path) -> None:
"""Упаковка директории в архив."""
shutil.make_archive(str(path.parent / doc), 'zip', path)
def main() -> None:
path_doc_file = input("Введите путь к документу: ")
if not Path(path_doc_file).exists():
print("Указанного файла не существует")
exit()
elif Path(path_doc_file).suffix not in [".docx", ".odt", ".xlsx", ".ods"]:
print("Неверный тип файла")
exit()
origin_suffix = Path(path_doc_file).suffix # оригинальное расширение файла
rename_doc = rename_document(path_doc_file, ".zip") # имя файла после смены расширения
path_doc = extract_doc(rename_doc) # директория куда распакован файл
Path(rename_doc).unlink() # удаление оригинального файла
if origin_suffix == ".docx":
delete_protection_docx(path_doc / "word" / "settings.xml") # удаление защиты
elif origin_suffix == ".odt":
delete_protection_odt(path_doc / "content.xml") # удаление защиты
elif origin_suffix == ".xlsx":
delete_protection_xlsx(path_doc) # удаление защиты
elif origin_suffix == ".ods":
delete_protection_ods(path_doc / "content.xml")
zip_document(f'{Path(rename_doc).name.removesuffix(Path(rename_doc).suffix)}',
Path(path_doc)) # упаковка файла в архив
rename_document(str(rename_doc), origin_suffix) # переименование архива в оригинальное имя
shutil.rmtree(path_doc) # удаление директории с распакованным документом
if __name__ == "__main__":
main()
Таким образом, мы сняли защиту на изменение данных в различных типах документов: «.docx», «.xlsx», «.odt» и «.ods» с помощью скрипта на python.
К сожалению, не могу проверить данный скрипт на документах последнего офиса, однако, еще на документах 2013 данный код был рабочим.
А на этом все. Спасибо за внимание. Надеюсь, данная информация будет вам полезна
Вложения
Последнее редактирование: