Speech2Face : Learning the Face Behind a Voice
मात्र आवाज़ सुनकर (जैसे फोन पर) किसी व्यक्ति की शक्ल सूरत की छवि बनाने की कोशिश हम सभी करते हैं, और अक्सर वह छवि वास्तविकता से मेल नहीं खाती। अब यही काम कंप्यूटर यानी कृत्रिम बुद्धि- Artificial intelligence (एआई) से करवाने की कोशिश की गई है। स्पीच-2-फेस (speech2face app), एक ऐसा कंप्यूटर है जो मानव मस्तिष्क के समान सोचता है।
वैज्ञानिकों ने इस कंप्यूटर को इंटरनेट पर उपलब्ध लाखों वीडियो क्लिप्स दिखाकर प्रशिक्षित किया है।
इस डैटा की मदद से स्पीच-2-फेस ने ध्वनि संकेतों (यानी बोली गई बातों से मिल रहे संकेतों) और चेहरे के कुछ गुणधर्मों के बीच सम्बंध बनाना सीखा। इसके बाद कंप्यूटर ने ऑडियो क्लिप को सुनकर यह अनुमान लगाने की कोशिश की कि उस आवाज़ के पीछे शक्ल कैसी होगी और एक चेहरे का मॉडल तैयार किया। शुक्र है कि अभी तक कृत्रिम बुद्धि यह तो पता नहीं लगा पाई है कि किसी व्यक्ति की आवाज़ के हिसाब से वो ठीक-ठीक कैसा दिखता होगा।
आर्काइव्स नामक शोध पत्रिका में बताया गया है कि उक्त कंप्यूटर ने कुछ लक्षणों को चिंहित किया है जो व्यक्ति के लिंग, उम्र और धर्म व भाषा सम्बंधी सुराग देते हैं।
Speech-2-Face Created Faces
अध्ययन के अनुसार स्पीच-2-फेस द्वारा निर्मित चेहरे तटस्थ भाव वाले थे और सम्बंधित व्यक्ति के चेहरे से मेल नहीं खाते थे। अलबत्ता, इन चित्रों से किसी व्यक्ति की लगभग आयु, जातीयता और लिंग की पहचान की जा सकती है। वैसे, स्पीच-2-फेस बोलने वाले की भाषा को उसका चित्रण करने का प्रमुख आधार बनाता है। उदाहरण के लिए जब कंप्यूटर ने चीनी भाषा बोलते एशियाई व्यक्ति का ऑडियो सुना तो उसने एक एशियाई दिखने वाले आदमी का चित्र बनाया।
लेकिन जब उसी आदमी ने एक अलग ऑडियो क्लिप में अंग्रेज़ी भाषा का उपयोग किया तो कंप्यूटर ने एक गोरे आदमी का चित्र पेश कर दिया।
इस मॉडल में लिंग पूर्वाग्रह भी देखने को मिला। कंप्यूटर ने मोटी आवाज़ों (कम तारत्व) को पुरुष चेहरे के साथ जोड़ा और पतली आवाज़ों (उच्च तारत्व) को महिला के चेहरे के साथ।
हमें गूगल न्यूज पर फॉलो करें. ट्विटर पर फॉलो करें. वाट्सएप पर संदेश पाएं. हस्तक्षेप की आर्थिक मदद करें