Загрузка данных Python

28 января 2026

Автор

Олег Марков

Введение

Работа с данными в Python начинается с их загрузки из различных источников. Это могут быть локальные файлы, базы данных или внешние веб-сервисы. Умение правильно загружать и структурировать данные — ключ к эффективному анализу и дальнейшему применению методов машинного обучения.

В этой статье мы разберём, как загружать данные в Python из разных источников и подготовить их к обработке.

Если вы хотите системно освоить Python и научиться работать с данными на практике, приходите на курс Основы Python. На курсе 209 уроков и 34 упражнения, AI-тренажёры для практики с кодом, решение задач с ревью наставника и еженедельные встречи с менторами.

Загрузка данных из файлов

CSV

import pandas as pd

data = pd.read_csv("data.csv")
print(data.head())

CSV — самый популярный формат для табличных данных. pandas позволяет легко считывать, фильтровать и преобразовывать их.

Excel

data = pd.read_excel("data.xlsx", sheet_name="Sheet1")
print(data.head())

Для работы с Excel также используется библиотека openpyxl или встроенные возможности pandas.

Подключение к базам данных

Python поддерживает работу с различными СУБД: SQLite, PostgreSQL, MySQL и другими.

import sqlite3

conn = sqlite3.connect("my_database.db")
query = "SELECT * FROM users"
data = pd.read_sql_query(query, conn)
print(data.head())
conn.close()

Для PostgreSQL и MySQL используют psycopg2 и mysql-connector-python.

Загрузка данных через API

Для работы с веб-сервисами удобно использовать библиотеку requests:

import requests

response = requests.get("https://api.example.com/data")
json_data = response.json()
print(json_data)

Данные могут быть в формате JSON или XML. После загрузки их можно преобразовать в DataFrame для удобной обработки.

Веб-скрапинг

Если данные доступны только на веб-страницах, применяют библиотеки BeautifulSoup или Scrapy:

from bs4 import BeautifulSoup
import requests

html = requests.get("https://example.com").text
soup = BeautifulSoup(html, "html.parser")
titles = [t.text for t in soup.find_all("h2")]
print(titles)

Скрапинг полезен для сбора данных, недоступных через API.

Практические советы

Проверяйте корректность загружаемых данных (null-значения, типы данных).
Структурируйте данные в DataFrame для дальнейшей обработки.
Используйте try-except блоки при работе с внешними источниками для обработки ошибок.

Заключение

Загрузка данных — первый и критически важный этап работы с Python для анализа и машинного обучения. Освоив работу с файлами, базами данных, API и веб-страницами, вы сможете быстро подготовить данные к обработке и анализу.

Для комплексного освоения Python и практики работы с данными рекомендуем курс Основы Python. В первых 3 модулях уже доступно бесплатное содержание — начните погружаться в Python и работу с данными прямо сегодня.

Частые ошибки

Неправильное указание пути к файлу.
Игнорирование кодировки при чтении текстовых файлов.
Прямое обращение к API без обработки ошибок и таймаутов.

Часто задаваемые вопросы

Как загружать большие файлы CSV? Используйте параметр chunksize в pandas.read_csv для чтения файла по частям.
Можно ли подключаться к удалённым базам данных? Да, при наличии сетевого доступа и правильных учетных данных.
Как обрабатывать JSON с вложенными структурами? Используйте json_normalize из pandas или рекурсивное преобразование данных в DataFrame.

Управление проектами на GitHub с Python