Олег Марков
Загрузка данных Python
Введение
Работа с данными в Python начинается с их загрузки из различных источников. Это могут быть локальные файлы, базы данных или внешние веб-сервисы. Умение правильно загружать и структурировать данные — ключ к эффективному анализу и дальнейшему применению методов машинного обучения.
В этой статье мы разберём, как загружать данные в Python из разных источников и подготовить их к обработке.
Если вы хотите системно освоить Python и научиться работать с данными на практике, приходите на курс Основы Python. На курсе 209 уроков и 34 упражнения, AI-тренажёры для практики с кодом, решение задач с ревью наставника и еженедельные встречи с менторами.
Загрузка данных из файлов
CSV
import pandas as pd
data = pd.read_csv("data.csv")
print(data.head())CSV — самый популярный формат для табличных данных. pandas позволяет легко считывать, фильтровать и преобразовывать их.
Excel
data = pd.read_excel("data.xlsx", sheet_name="Sheet1")
print(data.head())Для работы с Excel также используется библиотека openpyxl или встроенные возможности pandas.
Подключение к базам данных
Python поддерживает работу с различными СУБД: SQLite, PostgreSQL, MySQL и другими.
import sqlite3
conn = sqlite3.connect("my_database.db")
query = "SELECT * FROM users"
data = pd.read_sql_query(query, conn)
print(data.head())
conn.close()Для PostgreSQL и MySQL используют psycopg2 и mysql-connector-python.
Загрузка данных через API
Для работы с веб-сервисами удобно использовать библиотеку requests:
import requests
response = requests.get("https://api.example.com/data")
json_data = response.json()
print(json_data)Данные могут быть в формате JSON или XML. После загрузки их можно преобразовать в DataFrame для удобной обработки.
Веб-скрапинг
Если данные доступны только на веб-страницах, применяют библиотеки BeautifulSoup или Scrapy:
from bs4 import BeautifulSoup
import requests
html = requests.get("https://example.com").text
soup = BeautifulSoup(html, "html.parser")
titles = [t.text for t in soup.find_all("h2")]
print(titles)Скрапинг полезен для сбора данных, недоступных через API.
Практические советы
- Проверяйте корректность загружаемых данных (null-значения, типы данных).
- Структурируйте данные в DataFrame для дальнейшей обработки.
- Используйте try-except блоки при работе с внешними источниками для обработки ошибок.
Заключение
Загрузка данных — первый и критически важный этап работы с Python для анализа и машинного обучения. Освоив работу с файлами, базами данных, API и веб-страницами, вы сможете быстро подготовить данные к обработке и анализу.
Для комплексного освоения Python и практики работы с данными рекомендуем курс Основы Python. В первых 3 модулях уже доступно бесплатное содержание — начните погружаться в Python и работу с данными прямо сегодня.
Частые ошибки
- Неправильное указание пути к файлу.
- Игнорирование кодировки при чтении текстовых файлов.
- Прямое обращение к API без обработки ошибок и таймаутов.
Часто задаваемые вопросы
Как загружать большие файлы CSV? Используйте параметр
chunksizeвpandas.read_csvдля чтения файла по частям.Можно ли подключаться к удалённым базам данных? Да, при наличии сетевого доступа и правильных учетных данных.
Как обрабатывать JSON с вложенными структурами? Используйте
json_normalizeизpandasили рекурсивное преобразование данных в DataFrame.
Постройте личный план изучения Python до уровня Middle — бесплатно!
Python — часть карты развития Backend
100+ шагов развития
30 бесплатных лекций
300 бонусных рублей на счет
Все гайды по Python
Лучшие курсы по теме

Основы Python
Антон Ларичев
Nest.js с нуля
Антон Ларичев