การติดตามมือแบบเรียลไทม์
ภาษามือถูกใช้โดยผู้คนหลายล้านคนทั่วโลก นักวิจัยได้ทำงานเพื่อสร้างเทคโนโลยีที่สามารถเข้าใจท่าทางและแปลงเป็นภาษาที่มนุษย์เข้าใจได้โดยอัตโนมัติ อย่างไรก็ตามโครงการดังกล่าวไม่ได้รับความสำเร็จอย่างมากในแง่ของความถูกต้อง
Google เพิ่งพัฒนาอัลกอริทึมที่สามารถใช้สำหรับการติดตามมือแบบเรียลไทม์ ระบบอัจฉริยะใช้ประโยชน์จากการเรียนรู้ของเครื่องเพื่อสร้างแผนที่ของมือ แผนที่สร้างขึ้นด้วยความช่วยเหลือของกล้องหรือสมาร์ทโฟน เราไม่สามารถปฏิเสธความจริงที่ว่าระบบส่วนใหญ่ไม่สามารถจับการเคลื่อนไหวของมือที่รวดเร็วได้อย่างแม่นยำ Google ได้กล่าวถึงปัญหานี้โดยเฉพาะในงานวิจัยนี้ ที่น่าสนใจคือพวกเขาได้ จำกัด จำนวนข้อมูลที่อัลกอริทึมประมวลผลก่อนหน้านี้
การติดตามมือแบบเรียลไทม์ทำงานอย่างไร
โครงการที่มีอยู่ส่วนใหญ่แปลภาษามือโดยการตรวจจับขนาดและตำแหน่งของมือที่สมบูรณ์ ด้วยงานวิจัยนี้. นักวิจัยได้ขจัดความจำเป็นในการจัดการกับรูปทรงสี่เหลี่ยมในขนาดต่างๆ ระบบของ Google เพียงแค่จดจำฝ่ามือซึ่งมีรูปร่างเป็นสี่เหลี่ยมจัตุรัส ประการที่สองกระบวนการวิเคราะห์แยกต่างหากจะทำสำหรับนิ้วมือ
ท่าทางมือ
นักวิจัยใช้ภาพมือราว 30,000 ภาพเพื่อฝึกอัลกอริทึมการเรียนรู้ของเครื่อง ภาพเหล่านี้ถ่ายในสภาวะและท่าทางการลดน้ำหนักที่แตกต่างกัน จากนั้นระบบจะตรวจจับท่าทางโดยทำการเปรียบเทียบระหว่างท่ามือกับรายการของสิ่งที่เป็นที่รู้จักเช่นลูกบอลหรือความสุข Google อธิบายการจดจำท่าทางในไฟล์ โพสต์บล็อก .
จากนั้นเราจะแมปชุดของสถานะนิ้วกับชุดท่าทางสัมผัสที่กำหนดไว้ล่วงหน้า เทคนิคตรงไปตรงมา แต่มีประสิทธิภาพนี้ช่วยให้เราประเมินท่าทางคงที่พื้นฐานได้อย่างมีคุณภาพ ไปป์ไลน์ที่มีอยู่รองรับท่าทางการนับจากหลายวัฒนธรรมเช่น อเมริกันยุโรปและจีนและป้ายมือต่างๆเช่น 'ยกนิ้ว' กำปั้นปิด 'ตกลง' 'ร็อค' และ 'สไปเดอร์แมน'
อัลกอริธึมการติดตามด้วยมือขั้นสุดท้ายให้ผลลัพธ์ที่ทันสมัยในแง่ของความเร็วและความแม่นยำ อัลกอริทึมใช้กรอบงาน MediaPipe เพื่อเรียกใช้ เทคนิคนี้ดูเหมือนเป็นความก้าวหน้าครั้งสำคัญในโดเมนภาษามือ แม้ว่าจะยังมีช่องว่างให้ปรับปรุงอีกมาก เพื่อสร้างความเข้าใจที่ดีขึ้นเกี่ยวกับภาษามือ ทุกคนสามารถขยายงานนี้เพื่อใช้การแสดงออกทางสีหน้าและทั้งสองมือเพื่อให้ได้ผลลัพธ์ที่ดีขึ้น
แม้ว่าจะไม่มีคำพูดใด ๆ จาก Google แต่ก็มีความเป็นไปได้ที่ Google สามารถปรับปรุงเทคโนโลยีการติดตามด้วยมือแบบเรียลไทม์นี้เพื่อใช้ในผลิตภัณฑ์ของตน ในขณะเดียวกันหากคุณต้องการเล่นกับโค้ดก็คือ เผยแพร่สู่สาธารณะบน GitHub .
แท็ก google