Feature Scaling การปรับคุณสมบัติ คืออะไร

Feature Scaling (การปรับคุณสมบัติ)

Introduction
  การปรับขนาดคุณลักษณะเป็นวิธีที่ใช้ในการสร้างมาตรฐานช่วงของตัวแปรอิสระหรือคุณลักษณะของข้อมูล ในการประมวลผลข้อมูลจะเรียกว่าการทำข้อมูลให้เป็นมาตรฐานและโดยทั่วไปจะดำเนินการในระหว่างขั้นตอนการประมวลผลข้อมูลล่วงหน้า ตั้งแต่ช่วงของค่าของข้อมูลดิบที่แตกต่างกันไปอย่างกว้างขวางในขั้นตอนวิธีการเรียนรู้เครื่องมือบางฟังก์ชั่น  วัตถุประสงค์จะไม่ทำงานอย่างถูกต้องโดยการฟื้นฟู  

Definition

คือ   การปรับคุณสมบัติต่างๆที่สามารถนำมาใช้กับปรับขนาดหรือค่าต่างๆได้  เช่น  การลดขนาด (การทำให้เป็นมาตรฐานต่ำสุดสูงสุด) หรือที่เรียกว่าการปรับขนาด min-max หรือการปรับมาตรฐานของ min-max เป็นวิธีที่ง่ายที่สุดและประกอบด้วยการลดขนาดช่วงของคุณสมบัติเพื่อขยายช่วงใน [0, 1] หรือ [−1, 1] การเลือกช่วงเป้าหมายขึ้นอยู่กับลักษณะของข้อมูล

ยกตัวอย่างเช่น

ส่วนใหญ่ของลักษณนามคำนวณระยะห่างระหว่างจุดสองจุดโดยระยะทางยุคลิด หากหนึ่งในคุณสมบัติที่มีความหลากหลายของค่าระยะทางที่จะถูกควบคุมโดยคุณลักษณะนี้โดยเฉพาะ ดังนั้นช่วงของคุณสมบัติทั้งหมดที่ควรจะเป็นปกติเพื่อให้แต่ละคุณลักษณะก่อประมาณสัดส่วนกับระยะทางสุดท้าย เป็นอีกเหตุผลที่ทำไมใช้การปรับขนาดคุณลักษณะเป็นไล่ระดับได้เร็วมาก ด้วยคุณลักษณะการปรับมาตราส่วนเกินโดยไม่ได้

Function Types

1. Rescaling (min-max normalization)

2. Mean normalization

3. Standardization

4. Scaling to unit length

 

Methods

1. Rescaling (min-max normalization)

การลดขนาด(การทำให้เป็นมาตรฐานต่ำสุดต่ำสุด)

หรือที่เรียกการปรับขนาด min-max หรือการปรับมาตรฐานของ min-max เป็นวิธีที่ง่ายที่สุดและประกอบด้วยการลดขนาดช่วงของคุณสมบัติเพื่อขยายช่วงใน [ 0, 1 ] หรือ [ -1, 1 ] การเลือกช่วงเป้าหมายขึ้นอยู่กับลักษณะของข้อมูล

                       สูตรที่มี คือ                  โดยที่ x คือค่าดั้งเดิม x’ เป็นค่าปกติ

ตัวอย่างของเรื่อง Rescaling (min-max normalization)

 

2. Mean normalization

              สูตรที่มี คือ 

โดยที่ x คือค่าดั้งเดิม x’ คือค่าปกติ

ตัวอย่างของเรื่อง Mean normalization

 

3. Standardization

ในการเรียนรู้เรื่อง Machine Learning เราสามารถจัดการข้อมูลภาพนี้และรวมได้หลายมิติ การทำให้เป็นมาตรฐานของคุณสมบัติทำให้ค่าของแต่ละคุณลักษณะในข้อมูลมีค่าเป็นศูนย์ ( เมื่อลบค่าเฉลี่ยในตัวเศษ ) และความแปรปรวนของหน่วย วิธีนี้ใช้กันอย่างแพร่หลายสำหรับการเรียนรู้เรื่อง Machine Learning ( เช่นสนับสนุนเวกเตอร์การถดถอยโลจิสติกและระบบประสาทเทียม ) วิธีการคำนวณทั่วไป คือ การกำหนดค่าเฉลี่ยการกระจายและส่วนเบี่ยงเบนมาตรฐานสำหรับแต่คุณสมบัติ ต่อไปเราจะลบค่าเฉลี่ยจากแต่ละฟีเจอร์ จากนั้นเราแบ่งค่า      ( หมายถึงถูกลบออกไปแล้ว ) ของแต่ละสถานที่ด้วยค่าเบี่ยงเบนมาตรฐาน

สูตรที่มี คือ

คำว่า ”มาตรฐาน” อาจฟังดูแปลก ๆ ในตอนแรก แต่การเข้าใจในบริบทของสถิติไม่ใช่การผ่าตัดสมอง         มันเป็นสิ่งที่จะทำอย่างไรกับการกระจาย ในความเป็นจริงการกระจายทุกครั้งสามารถเป็นมาตรฐาน ค่าเฉลี่ยและ ความแปรปรวน ของตัวแปรคือ mu และ sigma ยกกำลังสองตามลำดับ การทำให้เป็นมาตรฐานเป็นกระบวนการในการแปลงตัวแปรให้เป็นหนึ่งเดียวที่มี ค่าเฉลี่ย 0 และ ค่าเบี่ยงเบนมาตรฐานเท่ากับ 1

คุณสามารถดูวิธีการทุกอย่างที่จะแสดงด้านล่างพร้อมกับสูตรที่ช่วยให้เราสามารถที่จะสร้างมาตรฐานกระจาย

การแจกแจงแบบปกติมาตรฐาน

เหตุผลการ แจกแจงแบบปกติ สามารถเป็นมาตรฐานได้ ผลลัพธ์ถูกเรียกว่าการแจกแจงแบบปกติมาตรฐาน

ใช้ตัวอักษร เพื่อแสดงว่า ดังที่เราได้กล่าวไปแล้วค่าเฉลี่ยของมันคือ 0 และส่วนเบี่ยงเบนมาตรฐาน : 1

4. Scaling to unit length

อีกตัวเลือกหนึ่งที่ใช้กันอย่างแพร่หลายในการเรียนรู้เรื่อง Machines Learning

คือ การปรับขนาดส่วนประกอบของคุณสมบัติเวกเตอร์เพื่อให้เวกเตอร์ที่สมบูรณ์ที่มีความยาวหนึ่งหมายถึงการหารแต่ละองค์ประกอบด้วยความยาวของยุคลิดของเวกเตอร์

สูตรที่มี คือ

ในบางแอปพลิเคชัน ( เช่นคุณสมบัติฮิสโตแกรม ) สามารถใช้ประโยชน์ได้มากกว่าในบรรทัดฐาน ( เช่นระยะทางแมนฮัตตัน,ความยาวบล็อกของเมืองหรือเรขาคณิต Taxicab ) ของเวกเตอร์ คุณลักษณะนี้เป็นสิ่งสำคัญอย่างยิ่งหากในขั้นตอนการเรียนรู้ต่อไปนี้มาตรวัดสเกลาร์ถูกใช้เป็นเครื่องวัดระยะทาง

Example of Application

YouTube Preview Image

Example of Application

YouTube Preview Image

Example of Application

YouTube Preview Image

Example of Application

YouTube Preview Image

Benefit

ประโยชน์ที่ได้รับจากเรื่องนี้ คือ เราสามารถทำให้ข้อมูลที่มีจำนวนเยอะๆและอ่านยาก เช่นจำพวกข้อมูลดิบ ที่มีจำนวนเยอะมากๆ  นำมาจัดหรือทำให้ข้อมูลนั้นเป็นมาตรฐานมากยิ่งขึ้น เพื่อความสะดวกสบายของผู้ที่จะเข้ามาศึกษาข้อมูลในแต่เรื่องที่เรานำการทำ Feature Scaling เข้าไปใช้ ไม่ว่าจะเป็นการหาค่า  max-min หรืออีกหลากหลาย ที่ Feature Scaling ได้มีสูตรให้เลือกใช้ และนำมาปรับใช้กับข้อมูลต่างๆได้นั่นเอง นี่คือวิธีที่เราสามารถรับการแจกแจงแบบปกติมาตรฐานจากชุดข้อมูลที่กระจายแบบปกติ การใช้มันทำให้การคาดการณ์และการอนุมานง่ายขึ้นมาก นี่คือสิ่งที่จะช่วยเราได้อย่างมากในการวิเคราะห์ข้อมูลต่างๆ ดังนั้นหากคุณต้องการใช้ความรู้ที่คุณได้รับจากบทความนี้ ควรศึกษาทั้งบทความและควรหาความรู้เพิ่มจากแหล่งข้อมูลภายนอกและนำมาประยุกต์ใช้ให้เกิดประโยชน์แก่ตนเองและผู้อื่นมากที่สุด

คลิป VDO on YouTube ที่นำเสนอในห้อง

YouTube Preview Image

 

FEATURE SCALING
จัดทำโดย
นายณรงค์พร งิ้วใหญ่ 1590902126

นายปกรณ์ ศรีวัฒนโกศล 1590901995

  •  
  •  
  •  
  •  
  •  
  •  
NARONGPORN NGEWYAI
at GlurGeek.Com

Leave a Reply