Feature Scaling (การปรับคุณสมบัติ)
Introduction
การปรับขนาดคุณลักษณะเป็นวิธีที่ใช้ในการสร้างมาตรฐานช่วงของตัวแปรอิสระหรือคุณลักษณะของข้อมูล ในการประมวลผลข้อมูลจะเรียกว่าการทำข้อมูลให้เป็นมาตรฐานและโดยทั่วไปจะดำเนินการในระหว่างขั้นตอนการประมวลผลข้อมูลล่วงหน้า ตั้งแต่ช่วงของค่าของข้อมูลดิบที่แตกต่างกันไปอย่างกว้างขวางในขั้นตอนวิธีการเรียนรู้เครื่องมือบางฟังก์ชั่น วัตถุประสงค์จะไม่ทำงานอย่างถูกต้องโดยการฟื้นฟู
Definition
คือ การปรับคุณสมบัติต่างๆที่สามารถนำมาใช้กับปรับขนาดหรือค่าต่างๆได้ เช่น การลดขนาด (การทำให้เป็นมาตรฐานต่ำสุดสูงสุด) หรือที่เรียกว่าการปรับขนาด min-max หรือการปรับมาตรฐานของ min-max เป็นวิธีที่ง่ายที่สุดและประกอบด้วยการลดขนาดช่วงของคุณสมบัติเพื่อขยายช่วงใน [0, 1] หรือ [−1, 1] การเลือกช่วงเป้าหมายขึ้นอยู่กับลักษณะของข้อมูล
ยกตัวอย่างเช่น
ส่วนใหญ่ของลักษณนามคำนวณระยะห่างระหว่างจุดสองจุดโดยระยะทางยุคลิด หากหนึ่งในคุณสมบัติที่มีความหลากหลายของค่าระยะทางที่จะถูกควบคุมโดยคุณลักษณะนี้โดยเฉพาะ ดังนั้นช่วงของคุณสมบัติทั้งหมดที่ควรจะเป็นปกติเพื่อให้แต่ละคุณลักษณะก่อประมาณสัดส่วนกับระยะทางสุดท้าย เป็นอีกเหตุผลที่ทำไมใช้การปรับขนาดคุณลักษณะเป็นไล่ระดับได้เร็วมาก ด้วยคุณลักษณะการปรับมาตราส่วนเกินโดยไม่ได้
Function Types
1. Rescaling (min-max normalization)
2. Mean normalization
3. Standardization
4. Scaling to unit length
Methods
1. Rescaling (min-max normalization)
การลดขนาด(การทำให้เป็นมาตรฐานต่ำสุดต่ำสุด)
หรือที่เรียกการปรับขนาด min-max หรือการปรับมาตรฐานของ min-max เป็นวิธีที่ง่ายที่สุดและประกอบด้วยการลดขนาดช่วงของคุณสมบัติเพื่อขยายช่วงใน [ 0, 1 ] หรือ [ -1, 1 ] การเลือกช่วงเป้าหมายขึ้นอยู่กับลักษณะของข้อมูล
สูตรที่มี คือ โดยที่ x คือค่าดั้งเดิม x’ เป็นค่าปกติ
ตัวอย่างของเรื่อง Rescaling (min-max normalization)
2. Mean normalization
สูตรที่มี คือ
โดยที่ x คือค่าดั้งเดิม x’ คือค่าปกติ
ตัวอย่างของเรื่อง Mean normalization
3. Standardization
ในการเรียนรู้เรื่อง Machine Learning เราสามารถจัดการข้อมูลภาพนี้และรวมได้หลายมิติ การทำให้เป็นมาตรฐานของคุณสมบัติทำให้ค่าของแต่ละคุณลักษณะในข้อมูลมีค่าเป็นศูนย์ ( เมื่อลบค่าเฉลี่ยในตัวเศษ ) และความแปรปรวนของหน่วย วิธีนี้ใช้กันอย่างแพร่หลายสำหรับการเรียนรู้เรื่อง Machine Learning ( เช่นสนับสนุนเวกเตอร์การถดถอยโลจิสติกและระบบประสาทเทียม ) วิธีการคำนวณทั่วไป คือ การกำหนดค่าเฉลี่ยการกระจายและส่วนเบี่ยงเบนมาตรฐานสำหรับแต่คุณสมบัติ ต่อไปเราจะลบค่าเฉลี่ยจากแต่ละฟีเจอร์ จากนั้นเราแบ่งค่า ( หมายถึงถูกลบออกไปแล้ว ) ของแต่ละสถานที่ด้วยค่าเบี่ยงเบนมาตรฐาน
คำว่า ”มาตรฐาน” อาจฟังดูแปลก ๆ ในตอนแรก แต่การเข้าใจในบริบทของสถิติไม่ใช่การผ่าตัดสมอง มันเป็นสิ่งที่จะทำอย่างไรกับการกระจาย ในความเป็นจริงการกระจายทุกครั้งสามารถเป็นมาตรฐาน ค่าเฉลี่ยและ ความแปรปรวน ของตัวแปรคือ mu และ sigma ยกกำลังสองตามลำดับ การทำให้เป็นมาตรฐานเป็นกระบวนการในการแปลงตัวแปรให้เป็นหนึ่งเดียวที่มี ค่าเฉลี่ย 0 และ ค่าเบี่ยงเบนมาตรฐานเท่ากับ 1
คุณสามารถดูวิธีการทุกอย่างที่จะแสดงด้านล่างพร้อมกับสูตรที่ช่วยให้เราสามารถที่จะสร้างมาตรฐานกระจาย
การแจกแจงแบบปกติมาตรฐาน
เหตุผลการ แจกแจงแบบปกติ สามารถเป็นมาตรฐานได้ ผลลัพธ์ถูกเรียกว่าการแจกแจงแบบปกติมาตรฐาน
ใช้ตัวอักษร Z เพื่อแสดงว่า ดังที่เราได้กล่าวไปแล้วค่าเฉลี่ยของมันคือ 0 และส่วนเบี่ยงเบนมาตรฐาน : 1
4. Scaling to unit length
อีกตัวเลือกหนึ่งที่ใช้กันอย่างแพร่หลายในการเรียนรู้เรื่อง Machines Learning
คือ การปรับขนาดส่วนประกอบของคุณสมบัติเวกเตอร์เพื่อให้เวกเตอร์ที่สมบูรณ์ที่มีความยาวหนึ่งหมายถึงการหารแต่ละองค์ประกอบด้วยความยาวของยุคลิดของเวกเตอร์
ในบางแอปพลิเคชัน ( เช่นคุณสมบัติฮิสโตแกรม ) สามารถใช้ประโยชน์ได้มากกว่าในบรรทัดฐาน ( เช่นระยะทางแมนฮัตตัน,ความยาวบล็อกของเมืองหรือเรขาคณิต Taxicab ) ของเวกเตอร์ คุณลักษณะนี้เป็นสิ่งสำคัญอย่างยิ่งหากในขั้นตอนการเรียนรู้ต่อไปนี้มาตรวัดสเกลาร์ถูกใช้เป็นเครื่องวัดระยะทาง
Example of Application
Example of Application
Example of Application
Example of Application
Benefit
ประโยชน์ที่ได้รับจากเรื่องนี้ คือ เราสามารถทำให้ข้อมูลที่มีจำนวนเยอะๆและอ่านยาก เช่นจำพวกข้อมูลดิบ ที่มีจำนวนเยอะมากๆ นำมาจัดหรือทำให้ข้อมูลนั้นเป็นมาตรฐานมากยิ่งขึ้น เพื่อความสะดวกสบายของผู้ที่จะเข้ามาศึกษาข้อมูลในแต่เรื่องที่เรานำการทำ Feature Scaling เข้าไปใช้ ไม่ว่าจะเป็นการหาค่า max-min หรืออีกหลากหลาย ที่ Feature Scaling ได้มีสูตรให้เลือกใช้ และนำมาปรับใช้กับข้อมูลต่างๆได้นั่นเอง นี่คือวิธีที่เราสามารถรับการแจกแจงแบบปกติมาตรฐานจากชุดข้อมูลที่กระจายแบบปกติ การใช้มันทำให้การคาดการณ์และการอนุมานง่ายขึ้นมาก นี่คือสิ่งที่จะช่วยเราได้อย่างมากในการวิเคราะห์ข้อมูลต่างๆ ดังนั้นหากคุณต้องการใช้ความรู้ที่คุณได้รับจากบทความนี้ ควรศึกษาทั้งบทความและควรหาความรู้เพิ่มจากแหล่งข้อมูลภายนอกและนำมาประยุกต์ใช้ให้เกิดประโยชน์แก่ตนเองและผู้อื่นมากที่สุด
คลิป VDO on YouTube ที่นำเสนอในห้อง
FEATURE SCALING
จัดทำโดย
นายณรงค์พร งิ้วใหญ่
นายปกรณ์ ศรีวัฒนโกศล