อัลกอริทึมการติดตามมือแบบเรียลไทม์ของ Google ใช้สมาร์ทโฟนเพื่อปรับปรุงการจดจำภาษามือ

เทคโนโลยี / อัลกอริทึมการติดตามมือแบบเรียลไทม์ของ Google ใช้สมาร์ทโฟนเพื่อปรับปรุงการจดจำภาษามือ อ่าน 2 นาที การติดตามมือแบบเรียลไทม์

การติดตามมือแบบเรียลไทม์



ภาษามือถูกใช้โดยผู้คนหลายล้านคนทั่วโลก นักวิจัยได้ทำงานเพื่อสร้างเทคโนโลยีที่สามารถเข้าใจท่าทางและแปลงเป็นภาษาที่มนุษย์เข้าใจได้โดยอัตโนมัติ อย่างไรก็ตามโครงการดังกล่าวไม่ได้รับความสำเร็จอย่างมากในแง่ของความถูกต้อง

Google เพิ่งพัฒนาอัลกอริทึมที่สามารถใช้สำหรับการติดตามมือแบบเรียลไทม์ ระบบอัจฉริยะใช้ประโยชน์จากการเรียนรู้ของเครื่องเพื่อสร้างแผนที่ของมือ แผนที่สร้างขึ้นด้วยความช่วยเหลือของกล้องหรือสมาร์ทโฟน เราไม่สามารถปฏิเสธความจริงที่ว่าระบบส่วนใหญ่ไม่สามารถจับการเคลื่อนไหวของมือที่รวดเร็วได้อย่างแม่นยำ Google ได้กล่าวถึงปัญหานี้โดยเฉพาะในงานวิจัยนี้ ที่น่าสนใจคือพวกเขาได้ จำกัด จำนวนข้อมูลที่อัลกอริทึมประมวลผลก่อนหน้านี้



การติดตามมือแบบเรียลไทม์ทำงานอย่างไร

โครงการที่มีอยู่ส่วนใหญ่แปลภาษามือโดยการตรวจจับขนาดและตำแหน่งของมือที่สมบูรณ์ ด้วยงานวิจัยนี้. นักวิจัยได้ขจัดความจำเป็นในการจัดการกับรูปทรงสี่เหลี่ยมในขนาดต่างๆ ระบบของ Google เพียงแค่จดจำฝ่ามือซึ่งมีรูปร่างเป็นสี่เหลี่ยมจัตุรัส ประการที่สองกระบวนการวิเคราะห์แยกต่างหากจะทำสำหรับนิ้วมือ



Google

ท่าทางมือ



นักวิจัยใช้ภาพมือราว 30,000 ภาพเพื่อฝึกอัลกอริทึมการเรียนรู้ของเครื่อง ภาพเหล่านี้ถ่ายในสภาวะและท่าทางการลดน้ำหนักที่แตกต่างกัน จากนั้นระบบจะตรวจจับท่าทางโดยทำการเปรียบเทียบระหว่างท่ามือกับรายการของสิ่งที่เป็นที่รู้จักเช่นลูกบอลหรือความสุข Google อธิบายการจดจำท่าทางในไฟล์ โพสต์บล็อก .

จากนั้นเราจะแมปชุดของสถานะนิ้วกับชุดท่าทางสัมผัสที่กำหนดไว้ล่วงหน้า เทคนิคตรงไปตรงมา แต่มีประสิทธิภาพนี้ช่วยให้เราประเมินท่าทางคงที่พื้นฐานได้อย่างมีคุณภาพ ไปป์ไลน์ที่มีอยู่รองรับท่าทางการนับจากหลายวัฒนธรรมเช่น อเมริกันยุโรปและจีนและป้ายมือต่างๆเช่น 'ยกนิ้ว' กำปั้นปิด 'ตกลง' 'ร็อค' และ 'สไปเดอร์แมน'

อัลกอริธึมการติดตามด้วยมือขั้นสุดท้ายให้ผลลัพธ์ที่ทันสมัยในแง่ของความเร็วและความแม่นยำ อัลกอริทึมใช้กรอบงาน MediaPipe เพื่อเรียกใช้ เทคนิคนี้ดูเหมือนเป็นความก้าวหน้าครั้งสำคัญในโดเมนภาษามือ แม้ว่าจะยังมีช่องว่างให้ปรับปรุงอีกมาก เพื่อสร้างความเข้าใจที่ดีขึ้นเกี่ยวกับภาษามือ ทุกคนสามารถขยายงานนี้เพื่อใช้การแสดงออกทางสีหน้าและทั้งสองมือเพื่อให้ได้ผลลัพธ์ที่ดีขึ้น



แม้ว่าจะไม่มีคำพูดใด ๆ จาก Google แต่ก็มีความเป็นไปได้ที่ Google สามารถปรับปรุงเทคโนโลยีการติดตามด้วยมือแบบเรียลไทม์นี้เพื่อใช้ในผลิตภัณฑ์ของตน ในขณะเดียวกันหากคุณต้องการเล่นกับโค้ดก็คือ เผยแพร่สู่สาธารณะบน GitHub .

แท็ก google