NTM Solutions

Thứ Hai, 10 tháng 3, 2025

Sử dụng nhanh pandas trong Python


01. Cài đặt pandas

Bạn có thể cài đặt pandas bằng pip với lệnh sau:

pip install pandas

Nếu bạn muốn cài đặt pandas cùng với numpymatplotlib để hỗ trợ phân tích dữ liệu, sử dụng:

pip install pandas numpy matplotlib

Nếu bạn đang sử dụng Jupyter Notebook, có thể dùng:

!pip install pandas

02. Sử dụng pandas trong Python

Sau khi cài đặt, bạn có thể sử dụng pandas như sau:

2.1. Import pandas
import pandas as pd
2.2. Tạo DataFrame từ danh sách
data = {'Tên': ['An', 'Bình', 'Chi'],
        'Tuổi': [25, 30, 35],
        'Thành phố': ['Hà Nội', 'HCM', 'Đà Nẵng']}

df = pd.DataFrame(data)
print(df)
2.3. Đọc dữ liệu từ file CSV
df = pd.read_csv("data.csv")
print(df.head())  # Xem 5 dòng đầu tiên
2.4. Ghi DataFrame ra file CSV
df.to_csv("output.csv", index=False)
2.5. Thao tác dữ liệu
  • Lấy dữ liệu của một cột:
    print(df['Tên'])
  • Lọc dữ liệu:
    print(df[df['Tuổi'] > 28])
  • Tính toán thống kê:
    print(df.describe())  # Thống kê cơ bản

Link trang official của pandas

📌 https://pandas.pydata.org

Trang này chứa tài liệu chính thức, hướng dẫn, và API reference cho pandas.


Khởi động lại VSCode để cập nhật -> Nếu vẫn lỗi thì đọc tiếp:

Lệnh nâng cấp pip

python -m pip install --upgrade pip

Giải thích:

  • python -m → Chạy module pip bằng trình thông dịch Python.
  • pip install --upgrade pip → Cập nhật pip lên phiên bản mới nhất.

Nếu dùng Python3 (trên Linux/macOS)

python3 -m pip install --upgrade pip

Kiểm tra phiên bản pip sau khi nâng cấp

pip --version

💡 Lưu ý: Nếu gặp lỗi quyền hạn, hãy thêm --user hoặc chạy với sudo (trên Linux/macOS):

python -m pip install --upgrade pip --user

Hoặc:

sudo python -m pip install --upgrade pip 


Ví dụ về Pandas

import pandas as pd
import os

# 🔹 Dữ liệu mẫu
data = {'Tên': ['An', 'Bình', 'Chi'],
        'Tuổi': [25, 30, 35],
        'Thành phố': ['Hà Nội', 'HCM', 'Đà Nẵng']}
df = pd.DataFrame(data)
print(df)  # 🖨️ In DataFrame mẫu

# 🔹 Kiểm tra thư mục làm việc hiện tại
print("📂 Thư mục hiện tại:", os.getcwd())

# 🔹 Đường dẫn file
script_dir = os.path.dirname(os.path.abspath(__file__))
file_path = os.path.join(script_dir, "data.csv")

# 🔹 Đọc file CSV (nếu có)
if os.path.exists(file_path):
    df = pd.read_csv(file_path, sep=";", dtype=str)  # ⚠️ Bỏ header=None để Pandas nhận diện tên cột
    print("\n📌 Xem 5 dòng đầu file data.csv:")
    print(df.head())

    # ✅ Chuyển cột 'Tuổi' sang số nguyên để tránh lỗi so sánh
    if 'Tuổi' in df.columns:
        df['Tuổi'] = pd.to_numeric(df['Tuổi'], errors='coerce')
else:
    print(f"❌ LỖI: File '{file_path}' không tồn tại!")

# 🔹 Lưu file CSV
output_path = os.path.join(script_dir, "output.csv")
df.to_csv(output_path, index=False)
print(f"\n✅ Đã lưu file: {output_path}")

# 🔹 Lọc dữ liệu theo cột 'Tên' và 'Tuổi'
print("\n📊 Lọc dữ liệu theo cột Tên-Tuổi:")

if "Tên" in df.columns:
    print("\n🔹 Cột Tên:")
    print(df["Tên"])

if "Tuổi" in df.columns:
    print("\n🔹 Danh sách người trên 28 tuổi:")
    print(df[df["Tuổi"] > 28])

# 🔹 Thống kê dữ liệu
print("\n📈 Thống kê dữ liệu:")
print(df.describe())

Nội dung file data.csv (cùng thư mục)

Tên;Tuổi;Thành phố
An;25;Hà Nội
Bình;30;HCM
Chi;35;Đà Nẵng

Made by AI

Không có nhận xét nào:

Đăng nhận xét

Facebook Youtube RSS