Использование кодировок в Python

19 июня 2026

Автор

Олег Марков

Введение

Работа с текстовыми данными в Python часто требует понимания кодировок. От правильного указания кодировки зависит корректное чтение и запись файлов, обработка символов и совместимость с различными системами. В этой статье мы разберём, как использовать кодировки в Python и безопасно обрабатывать текстовые данные.

Чтение файлов с указанием кодировки

При открытии файла важно указывать кодировку, чтобы Python корректно интерпретировал символы:

# Чтение файла в кодировке UTF-8
with open("example.txt", "r", encoding="utf-8") as f:
    content = f.read()
    print(content)

Если файл сохранён в другой кодировке, например cp1251, её нужно указать:

with open("example_cp1251.txt", "r", encoding="cp1251") as f:
    content = f.read()
    print(content)

Для практики работы с различными кодировками и управления текстовыми данными, включая чтение и запись файлов, полезно изучить курс Основы Python. Курс включает 209 уроков, 34 упражнения, AI-тренажёры для практики 24/7 и живое ревью наставников. Вы сможете закрепить навыки работы с кодировками и безопасно обрабатывать текст в проектах.

Запись файлов с кодировкой

При записи файлов также важно указывать кодировку:

text = "Привет, мир!"
with open("output.txt", "w", encoding="utf-8") as f:
    f.write(text)

Такой подход гарантирует, что файл будет корректно прочитан на другой системе или при последующей обработке.

Преобразование строк между кодировками

Python позволяет конвертировать строки между кодировками:

s = "Привет".encode("utf-8")     # str → bytes
print(s)  # b'\xd0\x9f\xd1\x80\xd0\xb8\xd0\xb2\xd0\xb5\xd1\x82'

decoded = s.decode("utf-8")       # bytes → str
print(decoded)  # Привет

Это важно при работе с сетевыми данными, API и внешними источниками, где кодировка может отличаться.

Работа с Unicode

Python 3 использует Unicode для строк по умолчанию, что облегчает обработку символов из разных языков:

emoji = "🙂"
print(emoji)
print(len(emoji))  # 1

При работе с Unicode важно помнить, что символ может занимать несколько байт при кодировании в UTF-8, но в Python это всё ещё один символ строки.

Частые ошибки

Неуказание кодировки при открытии файла, вызывающее UnicodeDecodeError.
Попытка декодировать байты в неправильной кодировке.
Смешивание строк и байтов без преобразования (TypeError).

Частозадаваемые вопросы

Как узнать кодировку файла? Можно использовать утилиты вроде chardet или открыть файл в текстовом редакторе с отображением кодировки.

Что делать при ошибке UnicodeDecodeError? Проверить правильность указанной кодировки и при необходимости использовать аргумент errors="ignore" или errors="replace".

Почему Python 3 проще для работы с текстом, чем Python 2? В Python 3 строки по умолчанию используют Unicode, а в Python 2 строки были байтами, что требовало дополнительного управления кодировками.

Заключение

Правильная работа с кодировками в Python необходима для корректного чтения, записи и обработки текстовых данных. Это помогает избежать ошибок при работе с файлами и внешними источниками информации.

Для системного изучения работы с текстом, кодировками, Unicode и безопасного чтения/записи данных рекомендуем курс Основы Python. В первых 3 модулях доступно бесплатное содержание, что позволяет практиковаться с кодировками и закрепить навыки работы с текстовыми данными.