Home » Latest » Speech2Face : आवाज़ सुनकर चेहरे की डिजिटल तस्वीर
Research News

Speech2Face : आवाज़ सुनकर चेहरे की डिजिटल तस्वीर

Speech2Face : Learning the Face Behind a Voice

मात्र आवाज़ सुनकर (जैसे फोन पर) किसी व्यक्ति की शक्ल सूरत की छवि बनाने की कोशिश हम सभी करते हैं, और अक्सर वह छवि वास्तविकता से मेल नहीं खाती। अब यही काम कंप्यूटर यानी कृत्रिम बुद्धि- Artificial intelligence (एआई) से करवाने की कोशिश की गई है। स्पीच-2-फेस (speech2face app), एक ऐसा कंप्यूटर है जो मानव मस्तिष्क के समान सोचता है।

वैज्ञानिकों ने इस कंप्यूटर को इंटरनेट पर उपलब्ध लाखों वीडियो क्लिप्स दिखाकर प्रशिक्षित किया है।

इस डैटा की मदद से स्पीच-2-फेस ने ध्वनि संकेतों (यानी बोली गई बातों से मिल रहे संकेतों) और चेहरे के कुछ गुणधर्मों के बीच सम्बंध बनाना सीखा। इसके बाद कंप्यूटर ने ऑडियो क्लिप को सुनकर यह अनुमान लगाने की कोशिश की कि उस आवाज़ के पीछे शक्ल कैसी होगी और एक चेहरे का मॉडल तैयार किया।  शुक्र है कि अभी तक कृत्रिम बुद्धि यह तो पता नहीं लगा पाई है कि किसी व्यक्ति की आवाज़ के हिसाब से वो ठीक-ठीक कैसा दिखता होगा।

आर्काइव्स नामक शोध पत्रिका में बताया गया है कि उक्त कंप्यूटर ने कुछ लक्षणों को चिंहित किया है जो व्यक्ति के लिंग, उम्र और धर्म व भाषा सम्बंधी सुराग देते हैं।

Speech-2-Face Created Faces

अध्ययन के अनुसार स्पीच-2-फेस द्वारा निर्मित चेहरे तटस्थ भाव वाले थे और सम्बंधित व्यक्ति के चेहरे से मेल नहीं खाते थे। अलबत्ता, इन चित्रों से किसी व्यक्ति की लगभग आयु, जातीयता और लिंग की पहचान की जा सकती है। वैसे, स्पीच-2-फेस बोलने वाले की भाषा को उसका चित्रण करने का प्रमुख आधार बनाता है। उदाहरण के लिए जब कंप्यूटर ने चीनी भाषा बोलते एशियाई व्यक्ति का ऑडियो सुना तो उसने एक एशियाई दिखने वाले आदमी का चित्र बनाया।

हस्तक्षेप के संचालन में मदद करें!! 10 वर्ष से सत्ता को दर्पण दिखाने वाली पत्रकारिता, जो कॉरपोरेट और राजनीति के नियंत्रण से मुक्त भी हो, के संचालन में हमारी मदद कीजिये. डोनेट करिये.
 
 भारत से बाहर के साथी पे पल के माध्यम से मदद कर सकते हैं। (Friends from outside India can help through PayPal.) https://www.paypal.me/AmalenduUpadhyaya
लेकिन जब उसी आदमी ने एक अलग ऑडियो क्लिप में अंग्रेज़ी भाषा का उपयोग किया तो कंप्यूटर ने एक गोरे आदमी का चित्र पेश कर दिया।

इस मॉडल में लिंग पूर्वाग्रह भी देखने को मिला। कंप्यूटर ने मोटी आवाज़ों (कम तारत्व) को पुरुष चेहरे के साथ जोड़ा और पतली आवाज़ों (उच्च तारत्व) को महिला के चेहरे के साथ।

देशबन्धु

हस्तक्षेप के संचालन में मदद करें!! सत्ता को दर्पण दिखाने वाली पत्रकारिता, जो कॉरपोरेट और राजनीति के नियंत्रण से मुक्त भी हो, के संचालन में हमारी मदद कीजिये. डोनेट करिये.
 

हमारे बारे में hastakshep

Check Also

congress

कांग्रेस की सियासत और उसूल जब गांधीवाद पर आधारित है तो ये कांग्रेसी कैसे गांधी विरोधी संगठनों के हमराही बन जाते हैं?

कांग्रेस की सियासत और उसूल जब गांधीवाद पर आधारित है तो ये कांग्रेसी कैसे गांधी …