Detect
ตรวจประเภทคอลัมน์ไทย/อังกฤษ จับปี พ.ศ. เบอร์โทร เลขบัตรประชาชน และข้อมูลผสมภาษาโดยอัตโนมัติ
ThaiEDA คือเครื่องมือ AutoEDA และทำความสะอาดข้อมูลอัจฉริยะ
ที่เข้าใจปัญหาเฉพาะของข้อมูลภาษาไทย — ปี พ.ศ., เลขไทย, อักขระล่องหน, mojibake —
และจัดการให้อัตโนมัติ
One-line EDA & smart data cleaning for Thai and mixed-language datasets.
$ pip install thaieda
$ thaieda mydata.csv
# → สร้าง mydata-report.html ในโฟลเดอร์เดียวกับไฟล์
How it works
ตรวจประเภทคอลัมน์ไทย/อังกฤษ จับปี พ.ศ. เบอร์โทร เลขบัตรประชาชน และข้อมูลผสมภาษาโดยอัตโนมัติ
แก้ Unicode, ลบอักขระล่องหน, แปลงเลขไทย → อารบิก, พ.ศ. → ค.ศ. พร้อม audit trail ทุกการแก้ไข
ค้นความสัมพันธ์ แนวโน้ม ค่าผิดปกติ และ target leakage พร้อมกรองสัญญาณรบกวนออก
สร้างรายงาน HTML สองภาษา พร้อม insight cards บทสรุปผู้บริหาร และแผนภูมิแบบโต้ตอบ
Features
ตรวจประเภทคอลัมน์ภาษาไทย/อังกฤษ ค้นตัวเลขที่แฝงในข้อความ จับปี พ.ศ. รูปแบบเบอร์โทรและบัตรประชาชน
run() / EDA() — ตรวจจับ ทำความสะอาด วัดคุณภาพ หา insight วาดกราฟ และออกรายงาน HTML ในคำสั่งเดียว
จัดการ Unicode, zero-width, เลขไทย, พ.ศ.→ค.ศ., สกุลเงิน, ลบแถวซ้ำ, เติมค่าว่างด้วย ML พร้อม guardrails
ความสัมพันธ์, outliers ตามการกระจาย (z/MAD/IQR/GESD), แนวโน้ม, Simpson's paradox และ target leakage
คะแนน 0–100 (เกรด A–F) ถ่วงน้ำหนักตามขนาดของปัญหา สะท้อนความน่าเชื่อถือของข้อมูลจริง
รายงาน HTML สองภาษา พร้อม insight cards จัดกลุ่ม (critical → warning → info) และบทสรุปแบบบรรยาย
เร็วขึ้นมากบนข้อความขนาดใหญ่ (เช่น 24k แถว ~68s → ~14s) และ degrade อย่างสุภาพเมื่อ backend ไม่พร้อม
รายงานกระชับนำไปใช้ต่อได้ทันที เหมาะกับงาน Machine Learning เมื่อกำหนด target_column
ตรวจหา PK/FK เชื่อมโยงข้ามไฟล์ พร้อมสร้างแผนภาพ Mermaid ER diagram ให้อัตโนมัติ
สรุปวิเคราะห์ด้วย LLM พร้อมโหมดรักษาความเป็นส่วนตัว 5 ระดับ (OpenAI, Anthropic, Ollama)
Built for Thai data
เครื่องมือ profiling ทั่วไปนับค่าว่างและวาดกราฟได้ดี แต่มักสะดุดกับข้อมูลภาษาไทย ThaiEDA จัดการให้เป็นเรื่องปกติในกระบวนการทำงาน
แปลง Buddhist Era → ค.ศ. อัตโนมัติ
แปลงเลขไทยเป็นอารบิกอย่างปลอดภัย
ลบอักขระเว้นวรรคที่มองไม่เห็น (ZWSP/BOM)
กู้ตัวอักษรไทยที่เพี้ยนจาก encoding ผิด
รู้จักรูปแบบเบอร์โทรและเลขบัตรประชาชน
เรนเดอร์กราฟภาษาไทยอ่านออก ไม่เป็นกล่อง
Quickstart
$ pip install thaieda
$ thaieda data.csv -o report.html # ระบุ output
$ thaieda data.csv --target clicked # ระบุคอลัมน์เป้าหมาย
$ thaieda data.csv --explore # รายงาน EDA แบบเต็ม
$ thaieda data.csv --columns # ดูคอลัมน์ + target ที่คาดเดา
import thaieda
# รัน pipeline เต็มในบรรทัดเดียว: detect → clean → quality → insight → report
result = thaieda.run("data.csv", target_column="clicked")
# เข้าถึงผลลัพธ์
print(result.quality_score) # เช่น 87 (เกรด A)
result.to_html("report.html") # บันทึกรายงาน HTML สองภาษา
FAQ
เครื่องมือทั่วไปเก่งเรื่องนับค่าว่างและกราฟมาตรฐาน แต่ ThaiEDA ออกแบบมาเพื่อข้อมูลภาษาไทยโดยเฉพาะ — ปี พ.ศ., เลขไทย, อักขระล่องหน, mojibake, เบอร์โทร/บัตรประชาชน — และรวมการทำความสะอาด การวัดคุณภาพ และการหา insight ไว้ในคำสั่งเดียว
ตั้งแต่ v2.2.0 เป็นต้นไป แพ็กเกจหลักและ dependencies ทั้งหมด (pandas, pythainlp, plotly, scikit-learn ฯลฯ) จะถูกติดตั้งพร้อมใช้งานอัตโนมัติด้วย pip install thaieda
รองรับครับ ThaiEDA จัดการข้อมูลผสมไทย-อังกฤษได้ และสร้างรายงานได้ทั้งสองภาษา (เลือกด้วย --lang en)
ได้ครับ ผลลัพธ์แสดงผลบน Jupyter ได้สวยงาม และยังเรียกผ่าน CLI หรือ Python API ได้ตามสะดวก
ฟีเจอร์ LLM เป็นทางเลือก (optional) และมีโหมดรักษาความเป็นส่วนตัว 5 ระดับ รองรับทั้ง OpenAI, Anthropic และ Ollama (รันในเครื่องได้)
ติดตั้งครั้งเดียว แล้วได้รายงานที่เชื่อถือได้ในคำสั่งเดียว
$ pip install thaieda