Open Source · Apache-2.0 · Python 3.10+

วิเคราะห์ข้อมูลภาษาไทย
ได้ในคำสั่งเดียว.

ThaiEDA คือเครื่องมือ AutoEDA และทำความสะอาดข้อมูลอัจฉริยะ ที่เข้าใจปัญหาเฉพาะของข้อมูลภาษาไทย — ปี พ.ศ., เลขไทย, อักขระล่องหน, mojibake — และจัดการให้อัตโนมัติ
One-line EDA & smart data cleaning for Thai and mixed-language datasets.

$ pip install thaieda
$ thaieda mydata.csv
# → สร้าง mydata-report.html ในโฟลเดอร์เดียวกับไฟล์
"ชุดข้อมูลนี้เชื่อถือได้แค่ไหน?"Quality score 0–100 (เกรด A–F)
"ควรเริ่มสำรวจตรงไหนก่อน?"Insight cards จัดลำดับความสำคัญ
"ข้อมูลพร้อมทำโมเดลหรือยัง?"Blueprint mode สำหรับ ML

How it works

จากไฟล์ดิบ สู่รายงาน
ในขั้นตอนเดียว.

01

Detect

ตรวจประเภทคอลัมน์ไทย/อังกฤษ จับปี พ.ศ. เบอร์โทร เลขบัตรประชาชน และข้อมูลผสมภาษาโดยอัตโนมัติ

02

Clean

แก้ Unicode, ลบอักขระล่องหน, แปลงเลขไทย → อารบิก, พ.ศ. → ค.ศ. พร้อม audit trail ทุกการแก้ไข

03

Insight

ค้นความสัมพันธ์ แนวโน้ม ค่าผิดปกติ และ target leakage พร้อมกรองสัญญาณรบกวนออก

04

Report

สร้างรายงาน HTML สองภาษา พร้อม insight cards บทสรุปผู้บริหาร และแผนภูมิแบบโต้ตอบ

Features

ทุกอย่างที่ต้องใช้
ในการทำความเข้าใจข้อมูล.

🔍

Smart Detection

ตรวจประเภทคอลัมน์ภาษาไทย/อังกฤษ ค้นตัวเลขที่แฝงในข้อความ จับปี พ.ศ. รูปแบบเบอร์โทรและบัตรประชาชน

One-liner API

run() / EDA() — ตรวจจับ ทำความสะอาด วัดคุณภาพ หา insight วาดกราฟ และออกรายงาน HTML ในคำสั่งเดียว

🧹

Thai-aware Cleaning

จัดการ Unicode, zero-width, เลขไทย, พ.ศ.→ค.ศ., สกุลเงิน, ลบแถวซ้ำ, เติมค่าว่างด้วย ML พร้อม guardrails

💡

Insight Engine

ความสัมพันธ์, outliers ตามการกระจาย (z/MAD/IQR/GESD), แนวโน้ม, Simpson's paradox และ target leakage

📊

Quality Score

คะแนน 0–100 (เกรด A–F) ถ่วงน้ำหนักตามขนาดของปัญหา สะท้อนความน่าเชื่อถือของข้อมูลจริง

📄

Executive Reports

รายงาน HTML สองภาษา พร้อม insight cards จัดกลุ่ม (critical → warning → info) และบทสรุปแบบบรรยาย

🚀

Fast & Robust

เร็วขึ้นมากบนข้อความขนาดใหญ่ (เช่น 24k แถว ~68s → ~14s) และ degrade อย่างสุภาพเมื่อ backend ไม่พร้อม

🧩

Blueprint Mode

รายงานกระชับนำไปใช้ต่อได้ทันที เหมาะกับงาน Machine Learning เมื่อกำหนด target_column

🗂️

Schema Discovery

ตรวจหา PK/FK เชื่อมโยงข้ามไฟล์ พร้อมสร้างแผนภาพ Mermaid ER diagram ให้อัตโนมัติ

🤖

LLM Summaries

สรุปวิเคราะห์ด้วย LLM พร้อมโหมดรักษาความเป็นส่วนตัว 5 ระดับ (OpenAI, Anthropic, Ollama)

Built for Thai data

ปัญหาที่เครื่องมือทั่วไป
มองข้าม.

เครื่องมือ profiling ทั่วไปนับค่าว่างและวาดกราฟได้ดี แต่มักสะดุดกับข้อมูลภาษาไทย ThaiEDA จัดการให้เป็นเรื่องปกติในกระบวนการทำงาน

ปี พ.ศ.

แปลง Buddhist Era → ค.ศ. อัตโนมัติ

๑๒๓ เลขไทย

แปลงเลขไทยเป็นอารบิกอย่างปลอดภัย

‌zero-width

ลบอักขระเว้นวรรคที่มองไม่เห็น (ZWSP/BOM)

mojibake

กู้ตัวอักษรไทยที่เพี้ยนจาก encoding ผิด

เบอร์/บัตร

รู้จักรูปแบบเบอร์โทรและเลขบัตรประชาชน

ฟอนต์กราฟ

เรนเดอร์กราฟภาษาไทยอ่านออก ไม่เป็นกล่อง

Quickstart

เริ่มใช้งานในไม่กี่วินาที.

$ pip install thaieda
$ thaieda data.csv -o report.html      # ระบุ output
$ thaieda data.csv --target clicked    # ระบุคอลัมน์เป้าหมาย
$ thaieda data.csv --explore           # รายงาน EDA แบบเต็ม
$ thaieda data.csv --columns           # ดูคอลัมน์ + target ที่คาดเดา
import thaieda

# รัน pipeline เต็มในบรรทัดเดียว: detect → clean → quality → insight → report
result = thaieda.run("data.csv", target_column="clicked")

# เข้าถึงผลลัพธ์
print(result.quality_score)   # เช่น 87 (เกรด A)
result.to_html("report.html")    # บันทึกรายงาน HTML สองภาษา

FAQ

คำถามที่พบบ่อย.

ThaiEDA ต่างจากเครื่องมือ profiling อื่นอย่างไร?

เครื่องมือทั่วไปเก่งเรื่องนับค่าว่างและกราฟมาตรฐาน แต่ ThaiEDA ออกแบบมาเพื่อข้อมูลภาษาไทยโดยเฉพาะ — ปี พ.ศ., เลขไทย, อักขระล่องหน, mojibake, เบอร์โทร/บัตรประชาชน — และรวมการทำความสะอาด การวัดคุณภาพ และการหา insight ไว้ในคำสั่งเดียว

ต้องติดตั้ง dependency เพิ่มเองไหม?

ตั้งแต่ v2.2.0 เป็นต้นไป แพ็กเกจหลักและ dependencies ทั้งหมด (pandas, pythainlp, plotly, scikit-learn ฯลฯ) จะถูกติดตั้งพร้อมใช้งานอัตโนมัติด้วย pip install thaieda

รองรับภาษาอังกฤษหรือข้อมูลผสมภาษาไหม?

รองรับครับ ThaiEDA จัดการข้อมูลผสมไทย-อังกฤษได้ และสร้างรายงานได้ทั้งสองภาษา (เลือกด้วย --lang en)

ใช้ได้บน Jupyter Notebook ไหม?

ได้ครับ ผลลัพธ์แสดงผลบน Jupyter ได้สวยงาม และยังเรียกผ่าน CLI หรือ Python API ได้ตามสะดวก

ข้อมูลของฉันปลอดภัยไหมเมื่อใช้ฟีเจอร์ LLM?

ฟีเจอร์ LLM เป็นทางเลือก (optional) และมีโหมดรักษาความเป็นส่วนตัว 5 ระดับ รองรับทั้ง OpenAI, Anthropic และ Ollama (รันในเครื่องได้)

พร้อมวิเคราะห์ข้อมูลของคุณแล้วหรือยัง?

ติดตั้งครั้งเดียว แล้วได้รายงานที่เชื่อถือได้ในคำสั่งเดียว

$ pip install thaieda