Feature Scaling การปรับคุณสมบัติ คืออะไร

Feature Scaling (การปรับคุณสมบัติ)

Introduction
การปรับขนาดคุณลักษณะเป็นวิธีที่ใช้ในการสร้างมาตรฐานช่วงของตัวแปรอิสระหรือคุณลักษณะของข้อมูล ในการประมวลผลข้อมูลจะเรียกว่าการทำข้อมูลให้เป็นมาตรฐานและโดยทั่วไปจะดำเนินการในระหว่างขั้นตอนการประมวลผลข้อมูลล่วงหน้า ตั้งแต่ช่วงของค่าของข้อมูลดิบที่แตกต่างกันไปอย่างกว้างขวางในขั้นตอนวิธีการเรียนรู้เครื่องมือบางฟังก์ชั่น วัตถุประสงค์จะไม่ทำงานอย่างถูกต้องโดยการฟื้นฟู

Definition

คือ การปรับคุณสมบัติต่างๆที่สามารถนำมาใช้กับปรับขนาดหรือค่าต่างๆได้ เช่น การลดขนาด (การทำให้เป็นมาตรฐานต่ำสุดสูงสุด) หรือที่เรียกว่าการปรับขนาด min-max หรือการปรับมาตรฐานของ min-max เป็นวิธีที่ง่ายที่สุดและประกอบด้วยการลดขนาดช่วงของคุณสมบัติเพื่อขยายช่วงใน [0, 1] หรือ [−1, 1] การเลือกช่วงเป้าหมายขึ้นอยู่กับลักษณะของข้อมูล

ยกตัวอย่างเช่น

ส่วนใหญ่ของลักษณนามคำนวณระยะห่างระหว่างจุดสองจุดโดยระยะทางยุคลิด หากหนึ่งในคุณสมบัติที่มีความหลากหลายของค่าระยะทางที่จะถูกควบคุมโดยคุณลักษณะนี้โดยเฉพาะ ดังนั้นช่วงของคุณสมบัติทั้งหมดที่ควรจะเป็นปกติเพื่อให้แต่ละคุณลักษณะก่อประมาณสัดส่วนกับระยะทางสุดท้าย เป็นอีกเหตุผลที่ทำไมใช้การปรับขนาดคุณลักษณะเป็นไล่ระดับได้เร็วมาก ด้วยคุณลักษณะการปรับมาตราส่วนเกินโดยไม่ได้

Function Types

1. Rescaling (min-max normalization)

2. Mean normalization

3. Standardization

4. Scaling to unit length

Methods

1. Rescaling (min-max normalization)

การลดขนาด(การทำให้เป็นมาตรฐานต่ำสุดต่ำสุด)

หรือที่เรียกการปรับขนาด min-max หรือการปรับมาตรฐานของ min-max เป็นวิธีที่ง่ายที่สุดและประกอบด้วยการลดขนาดช่วงของคุณสมบัติเพื่อขยายช่วงใน [ 0, 1 ] หรือ [ -1, 1 ] การเลือกช่วงเป้าหมายขึ้นอยู่กับลักษณะของข้อมูล

สูตรที่มี คือ โดยที่ x คือค่าดั้งเดิม x’ เป็นค่าปกติ

ตัวอย่างของเรื่อง Rescaling (min-max normalization)

2. Mean normalization

สูตรที่มี คือ

โดยที่ x คือค่าดั้งเดิม x’ คือค่าปกติ

ตัวอย่างของเรื่อง Mean normalization

3. Standardization

ในการเรียนรู้เรื่อง Machine Learning เราสามารถจัดการข้อมูลภาพนี้และรวมได้หลายมิติ การทำให้เป็นมาตรฐานของคุณสมบัติทำให้ค่าของแต่ละคุณลักษณะในข้อมูลมีค่าเป็นศูนย์ ( เมื่อลบค่าเฉลี่ยในตัวเศษ ) และความแปรปรวนของหน่วย วิธีนี้ใช้กันอย่างแพร่หลายสำหรับการเรียนรู้เรื่อง Machine Learning ( เช่นสนับสนุนเวกเตอร์การถดถอยโลจิสติกและระบบประสาทเทียม ) วิธีการคำนวณทั่วไป คือ การกำหนดค่าเฉลี่ยการกระจายและส่วนเบี่ยงเบนมาตรฐานสำหรับแต่คุณสมบัติ ต่อไปเราจะลบค่าเฉลี่ยจากแต่ละฟีเจอร์ จากนั้นเราแบ่งค่า ( หมายถึงถูกลบออกไปแล้ว ) ของแต่ละสถานที่ด้วยค่าเบี่ยงเบนมาตรฐาน

สูตรที่มี คือ

คำว่า ”มาตรฐาน” อาจฟังดูแปลก ๆ ในตอนแรก แต่การเข้าใจในบริบทของสถิติไม่ใช่การผ่าตัดสมอง มันเป็นสิ่งที่จะทำอย่างไรกับการกระจาย ในความเป็นจริงการกระจายทุกครั้งสามารถเป็นมาตรฐาน ค่าเฉลี่ยและ ความแปรปรวน ของตัวแปรคือ mu และ sigma ยกกำลังสองตามลำดับ การทำให้เป็นมาตรฐานเป็นกระบวนการในการแปลงตัวแปรให้เป็นหนึ่งเดียวที่มี ค่าเฉลี่ย 0 และ ค่าเบี่ยงเบนมาตรฐานเท่ากับ 1

คุณสามารถดูวิธีการทุกอย่างที่จะแสดงด้านล่างพร้อมกับสูตรที่ช่วยให้เราสามารถที่จะสร้างมาตรฐานกระจาย

การแจกแจงแบบปกติมาตรฐาน

เหตุผลการ แจกแจงแบบปกติ สามารถเป็นมาตรฐานได้ ผลลัพธ์ถูกเรียกว่าการแจกแจงแบบปกติมาตรฐาน

ใช้ตัวอักษร Z เพื่อแสดงว่า ดังที่เราได้กล่าวไปแล้วค่าเฉลี่ยของมันคือ 0 และส่วนเบี่ยงเบนมาตรฐาน : 1

4. Scaling to unit length

อีกตัวเลือกหนึ่งที่ใช้กันอย่างแพร่หลายในการเรียนรู้เรื่อง Machines Learning

คือ การปรับขนาดส่วนประกอบของคุณสมบัติเวกเตอร์เพื่อให้เวกเตอร์ที่สมบูรณ์ที่มีความยาวหนึ่งหมายถึงการหารแต่ละองค์ประกอบด้วยความยาวของยุคลิดของเวกเตอร์

สูตรที่มี คือ

ในบางแอปพลิเคชัน ( เช่นคุณสมบัติฮิสโตแกรม ) สามารถใช้ประโยชน์ได้มากกว่าในบรรทัดฐาน ( เช่นระยะทางแมนฮัตตัน,ความยาวบล็อกของเมืองหรือเรขาคณิต Taxicab ) ของเวกเตอร์ คุณลักษณะนี้เป็นสิ่งสำคัญอย่างยิ่งหากในขั้นตอนการเรียนรู้ต่อไปนี้มาตรวัดสเกลาร์ถูกใช้เป็นเครื่องวัดระยะทาง

Example of Application

Benefit

ประโยชน์ที่ได้รับจากเรื่องนี้ คือ เราสามารถทำให้ข้อมูลที่มีจำนวนเยอะๆและอ่านยาก เช่นจำพวกข้อมูลดิบ ที่มีจำนวนเยอะมากๆ นำมาจัดหรือทำให้ข้อมูลนั้นเป็นมาตรฐานมากยิ่งขึ้น เพื่อความสะดวกสบายของผู้ที่จะเข้ามาศึกษาข้อมูลในแต่เรื่องที่เรานำการทำ Feature Scaling เข้าไปใช้ ไม่ว่าจะเป็นการหาค่า max-min หรืออีกหลากหลาย ที่ Feature Scaling ได้มีสูตรให้เลือกใช้ และนำมาปรับใช้กับข้อมูลต่างๆได้นั่นเอง นี่คือวิธีที่เราสามารถรับการแจกแจงแบบปกติมาตรฐานจากชุดข้อมูลที่กระจายแบบปกติ การใช้มันทำให้การคาดการณ์และการอนุมานง่ายขึ้นมาก นี่คือสิ่งที่จะช่วยเราได้อย่างมากในการวิเคราะห์ข้อมูลต่างๆ ดังนั้นหากคุณต้องการใช้ความรู้ที่คุณได้รับจากบทความนี้ ควรศึกษาทั้งบทความและควรหาความรู้เพิ่มจากแหล่งข้อมูลภายนอกและนำมาประยุกต์ใช้ให้เกิดประโยชน์แก่ตนเองและผู้อื่นมากที่สุด

คลิป VDO on YouTube ที่นำเสนอในห้อง

FEATURE SCALING
จัดทำโดย
นายณรงค์พร งิ้วใหญ่

นายปกรณ์ ศรีวัฒนโกศล

NARONGPORN NGEWYAI

at GlurGeek.Com