Bank Churner Prediction — PartII : Feature Engineering & Selection

Nattachai Bovornmongkolsak
3 min readJul 1, 2021

--

Feture Engineering & Selection

Photo by Martin Sanchez on Unsplash

ต่อจาก PartI ซึ่งเราได้ทำความเข้าใจข้อมูลที่มี และทำความเข้าใจพฤติกรรมลูกค้าแต่ละกลุ่มกันไป ใน PartII จะเป็นส่วนของหาคุณลักษณะพิเศษ และ การคัดเลือกตัวแปร เพื่อนำไปใช้สร้างตัวแบบเพื่อพยากรณ์ลูกค้าที่จะเลิกใช้บริการ

Feature Engineering

  • Binning : การทำ binning เพื่อให้เราสามารถอธิบายตัวแปรได้ดีมากขึ้น เช่นเรื่องของอายุ ถ้าใช้ตัวแปรเป็นตัวเลข อาจจะตีความยาก แต่ถ้าเราแบ่งอายุเป็นช่วง วัยเด็ก, วัยทำงาน, วัยเกษียณ เราก็จะอธิบายข้อมูลได้ดีขึ้น นอกจากนี้การทำ binning ยังสามารถ Capture ความสัมพันธ์ที่เป็น non-linear ระหว่างตัวแปรที่สนใจได้ด้วย
    - ในการ binning อายุ ส่วนตัวคิดว่าขึ้นอยู่กับ
    1.context เช่นเราทำ Credit Scoring ก็อาจจะตัดโดยพิจารณาเรื่องวัยทำงานหรือ context ด้านเกี่ยวกับรายได้ว่าแต่ละช่วงจะอยู่กลุ่มไหน ถ้าเป็นด้าน Medical เวลาวิเคราะห์โรคไหน ส่วนใหญ่ก็จะมี criteria ทางการแพทย์ เป็นต้น
    2. การกระจายตัวของdata(กว้างหรือถี่ไปก็ไม่ informative)
    - ตัวแปร Continuous อื่น ๆ จะตัดตาม Quartile Q1 — Q4
รูปแสดง distribution หลังการทำ binning

จากการทำ binning และพิจารณาสัดส่วนของ Attrited Customer จะเห็นว่าบางตัวแปร พอจะบอกได้คร่าว ๆ ว่า ค่าไหนมีสัดส่วน Attrited Customer เยอะ ถ้าตัวแปรไหนยิ่งเห็นชัดเจน ก็น่าจะมีประโยชน์ในการนำไปใช้สร้างโมเดลเพื่อจำแนกประเภทลูกค้า

  • Weight of Evidence (WoE) : เป็นการให้น้ำหนักของข้อมูล เพื่อให้เกิดความสัมพันธ์ระหว่างตัวแปรที่แปลงค่าให้อยู่ในรูป WoE และ ตัวแปรตาม (Attrition_Flag) โดยจะทำให้ความสัมพันธ์ทั้ง 2 เป็นไปในทางเดียวกัน (Monotonic) [1]

WOE — Closely related to the IV value, WOE measures the strength of each grouped attribute in predicting the desired value of the Dependent Variable. [2]

โดยหลังจากคำนวณ WoE แล้วเราจะแทนค่าข้อมูล เพื่อให้ตัวแปรมี Monotonic relationship โดยแสดงในรูป Log Odds สามารถคำนวณได้ดังนี้

สมการที่ใช้คำนวณ WoE

โดย %Distr Bad คือ สัดส่วนของ Attrited Customer ของค่าที่ i ในตัวแปรนั้น ๆ
และ %Distr Good คือ สัดส่วนของ Existing Customer ของค่าที่ i ในตัวแปรนั้น ๆ

Feature Selection

ในการคัดเลือกตัวแปรเพื่อนำไปใช้สร้างตัวแบบ จะพิจารณาจาก Information Value (IV) ซึ่งเป็นค่าที่แสดงถึงความสามารถในการจำแนกประเภทของตัวแปรนั้น

IV — A numerical value that quantifies the predictive power of an independent continuous variable x in capturing the binary dependent variable y. IV is helpful for reducing the number of variables as an initial step in preparing for Logistic Regression, especially when there are a large amount of potential variables. IV is based on an analysis of each individual independent variable in turn without considering other predictor variables. [2]

โดยค่า Information Value สามารถคำนวณได้ดังนี้

สมการที่ใช้คำนวณ IV

โดยค่า IV จะมี criteria มาตรฐานที่ใช้กันอย่างแพร่หลาย โดยกำหนดไว้ตามตารางดังนี้ โดยเราจะใช้ตัวแปรที่มี Predictive Power ระดับ Strong ขึ้นไป (IV ≥ 0.3)

IV criteria (ref. https://docs.tibco.com/pub/sfire-dsc/6.5.0/doc/html/TIB_sfire-dsc_user-guide/GUID-07A78308-525A-406F-8221-9281F4E9D7CF.html)
กราฟแสดงค่า Information value แต่ละตัวแปร

จากนั้นจะลองพิจารณาตัวแปรที่ค่า IV ≥ 0.3 โดยเปรียบเทียบระหว่าง Attrited Customer กับ Existing Customer

กราฟแสดงการเปรียบเทียบ Attrited Customer กับ Existing Customer

Code

Reference

  1. https://www.bot.or.th/Thai/MonetaryPolicy/ArticleAndResearch/FAQ/FAQ_132.pdf
  2. https://docs.tibco.com/pub/sfire-dsc/6.5.0/doc/html/TIB_sfire-dsc_user-guide/GUID-07A78308-525A-406F-8221-9281F4E9D7CF.html

--

--