首页 | 注册 | 登陆 | 网站繁體 | 手机版 | 设为首页 婵犵數鍋涢顓熸叏閹绢喗鏅濋柕鍫濐槸妗呮繝銏e煐閸旀洟宕f繝鍥ㄧ叆闁绘洖鍊圭€氾拷2025濠德板€楁慨鐑藉磿閹达箑绠柨鐕傛嫹6闂傚倷绀侀幖顐︽偋閻愬搫绠柨鐕傛嫹26闂傚倷绀侀幖顐﹀窗濞戙垹绠柨鐕傛嫹 闂傚倷绀侀幖顐も偓姘煎櫍瀹曚即骞囬濠呪偓鍧楁煥閻曞倹瀚�侀 闂傚倷鑳剁划顖滃垝瀹ュ拋鐔嗘俊顖滃皑閼版寧銇勮箛鎾跺缂侇偄绉归弻娑㈩敃閿濆棛顦ㄩ梺鎸庣〒閸犳牠寮婚敓鐘茬闁兼悂娼ч锟�11:19:27    闂傚倷娴囧畷鐢稿窗閹捐纾婚柣鏃傚帶缁犵喖鏌涘┑鍡楊伌闁哥喎鎳橀弻鐔虹磼濡櫣鐟ㄥ┑顕嗙到椤︾敻寮婚敐澶涚稏妞ゆ棁妫勯锟�5587婵犵數濮伴崹濂割敊閹版澘绠柨鐕傛嫹1闂備浇顕х换鎰崲閹邦喗宕查柟瀛樼箥濞撳鏌ㄩ悤鍌涘54闂傚倷绀侀幉锛勬暜椤忓牆绠柨鐕傛嫹27缂傚倸鍊风粈渚€篓閳ь剟鏌熼崙銈嗗  缂傚倸鍊峰鎺楁倿閿旂偓宕查柛鎰靛枛缁€澶愭偡濞嗗繐顏い鈺冨厴閺屸€崇暤椤旂厧鈧懓螣婵犲洦鐓欓柛蹇撳悑缂嶆垿鏌涢姀锛勫弨妤犵偞鎹囬崺锟犲磼濠х偓鐏嗛梻浣哥秺閸嬪﹪宕㈡總鍛婂€堕柛銉墯閳锋帡鏌嶈閸撶喎鐣烽悩缁樻櫖闁告洦鍙忕槐锟�

您的位置:长沙社区通 > 新闻 > 国内 > 科技 > 堪称“玄学”!百度机器翻译技术获重大突破“能预测发言者未来几秒的内容!”
堪称“玄学”!百度机器翻译技术获重大突破“能预测发言者未来几秒的内容!”
网址:www.cssqt.com 编辑:长沙社区通 时间:2018-10-26 149

上面的中文是人类说的话,下面的英文是百度 AI 给出的实时翻译。可以看到,没等说到“莫斯科”的时候,AI 自动翻译的英语就已经出现了“meet”,也就是汉语句末的“会晤”。

难道现在 AI 已经掌握了读心术?

其实这是百度在机器同传中研发的最新技术,有预测和可控延迟能力,能实现两种语言之间的高质量、低延迟翻译。它的出现让机器同传又有了新进展!

 

在我们了解机器同传之前,首先要知道人类同传是什么。

同声传译是一项很重要的工作,在国际会议、外交谈判、演讲等场合,只要交流之间出现了两种语言,就需要同声翻译的帮助,他们会在现场听取演讲,并实时翻译成另一种语言。

▲ 在会场的同声传译(图片来自网络)

同声传译工作通常在一句话的话音刚落,2-3秒之内就要立即传译出来,是一份高压力、高强度的职业。而 AI 机器同传就是把人类翻译工作的过程用 AI 技术来代替。

机器同传运用语音识别技术自动识别演讲者的讲话内容,把语音转化为文字,然后调用机器翻译引擎,将文字翻译为目标语言,显示在大屏幕或者通过语音合成再播放出来。

并不是!在人工智能领域,两种语言的“即时互译”是一项难以攻克的技术问题,主要原因在于源语言和目标语言之间存在较大的词序和语序差异。

▲ 中文语序下,“香山”在前,“最美的时候”在后;而英文翻译中,“香山”被后置,“最美的时候”被提前

这种语序的差异,让同传陷入一种“准确度与速度不可兼得”的尴尬境地:

百度工程师们针对同传中遇到的难题,提出了“一揽子”解决方案,一起看看它有哪些亮点?

人类同传译员常用的一个技巧就是“合理预测”:在发言人话说到一半时,预测到后半句可能要讲的内容,超前翻译,这样能使同传又快又准。

百度的工程师们模仿这一点,研发出了“wait-k words”模型,让机器同传也拥有了“合理预测”的能力,一定程度上解决了上面所说的“准确度与速度不可兼得”的问题。

普通的 AI 同传是一整句话说完之后才进行翻译,而百度同传没等说完前半句,它的“大脑”就会瞬间做出反应,可以“边听边脑补”!

▲ 这是百度同传的脑补现场,当说到“百度在18年前”时,AI 就预测出了“started a business”

另外一点是!百度同传可以个性化控制翻译时的延迟速度,像法语和西班牙语这种比较接近的语言,延迟就设置在比较低的水平。

但是,英语和汉语这种差异较大的语言,以及英语和德语这种词序不同的语言,延迟可以设置为较高水平,从而更好地应对差异。

人类同传译员在接到翻译任务后,通常会提前很多天学习相关知识,进行“备课”,为的就是更好地应对陌生词汇而临危不惧。

于是,百度工程师们模仿了这一准备过程,让机器同传也能通过快速融合领域知识策略,快速学习专业知识,提前“备课”。

当 AI 同传接到某一个领域的翻译任务时,系统会收集该领域数据并在通用模型的基础上进行增强训练,最后对该领域术语库进行强制解码,使专业术语翻译得准确可靠,且提升翻译效率。

区别于传统的上下文相关建模技术,百度推出了上下文无关音素组合的中英文混合建模单元,包含1749个上下文无关中文音节和1868个上下文无关英文音节。这个方法具有泛化性能好、对噪声鲁棒、中英文混合识别等特点。

根据语音识别模型常犯的错误,在训练数据的时候加入噪声数据,让模型在接收到错误的语音识别结果时,也能在译文中纠正过来。

比如,语音识别系统将“大堂”错误地识别为“大唐”,这一对噪声词被收录到训练数据里,再把源语言句子“我们在酒店大堂见面吧”替换为“我们在酒店大唐见面吧”,而保持目标语言翻译不变“Let's meet at the lobby of the hotel”,同时将这两个中文句子存储在它的“大脑”里面,以后再出现类似的情况会更轻松地解决!

和咱们人类译员相比,机器最大的优势是不会因为疲倦而导致译出率下降,能把所有“听到”的句子全部翻译出来,这让机器的“译出率”可以达到100%,远高于人类译员的60%-70%。

同声传译被广泛应用于政府间的峰会、多边谈判和其他商业场合,但是同传人员稀缺也成为了当前的棘手问题。

研发百度同传的目的,并不是取代人类译员,而是为了降低同传成本,让同传的应用范围更加广泛。我们希望世界各地的人在 AI 的帮助下早日实现“无障碍”的交流,用科技让复杂的世界更简单!

TAGS:科技 | 新闻转载:长沙社区通
顶一下
(0)
踩一下
(0)
最新评论     查看全部评论     发表评论
闂傚倸鍊搁崐鐑芥嚄閸洖纾块柣銏⑶归悿鐐節闂堟稒宸濆ù鐘冲哺濮婄粯鎷呴崨濠傛殘濡炪倕绻戦幃鍌氱暦閵娾晩鏁婇柤娴嬫櫅闁伴亶姊婚崒娆戭槮闁规祴鈧秮娲晝閸屾岸妫峰銈嗘磵閸嬫挾鈧娲﹂崹璺虹暦婵傜ǹ唯闁挎梹鍎抽獮妤呮⒒娓氣偓濞佳呮崲閹烘挻鍙忛悗闈涙憸缁€濠偯归敐鍫燁仩缁炬儳鍚嬮妵鍕敇閻旈浠存繝鈷€鍕唉闁哄瞼鍠栭、娑橆潩椤掑绱戠紓鍌欑贰閸犳鎮烽埡浣烘殾鐟滅増甯╅弫濠囨煠濞村娅囬柍钘夘樀濮婂宕掑▎鎴М闂佽绁撮埀顒€纾獮鎾绘煕瑜庨〃鍛玻濡ゅ懎绠圭紒顔炬嚀閻撴垿鏌涘┑鍡楊仱闁割偒浜弻娑㈩敃閿濆洨鐣洪柡澶婄墕閻楁挸顫忛搹鍦煓闁圭ǹ瀛╅幏杈╃磽娴e壊鍎愰悽顕枫倖顥ら柣鐔哥矋濡啫顕g拠娴嬫婵犲﹤鎳愰弶鎼佹⒑閸濆嫬鈧摜鑺遍柆宥呭嚑婵炲棗绻嗛弨浠嬫煃閽樺顥滃ù婊堢畺閺岀喖宕欓妶鍡楊伓
发表评论
·网友评论仅供网友表达个人看法,并不表明网站同意其观点或证实其描述。
·请注意语言文明,尊重网络道德,并承担一切因您的行为而直接或间接引起的法律责任。
·长沙社区通管理员有权保留或删除其管辖留言中的任意非法内容。

更多>>长沙常用电话

闂傚倷鑳剁划顖炲礉濡ゅ懎绠犻柟鎹愵嚙閸氳銇勯弴妤€浜鹃悗瑙勬礃椤ㄥ﹪鐛惔銊﹀殟闁靛鍨冲婕�
闂傚倸鍊搁崐鎼佸磻閸℃稑闂柨婵嗩槶閳ь剙鍊圭粋鎺斺偓锝庝簽閻撴垿鎮楅獮鍨姎妞わ箒妫勭叅闁汇儻鎷�
闂傚倷鑳剁划顖炲礉濡ゅ懎绠犻柟鎹愵嚙閸氳銇勯弮鍥撳ù婧垮€濋弻锟犲磼濞戞﹩鍤嬬紓浣插亾闁逞屽墯娣囧﹪鎮欓鍕ㄥ亾閺囥垺鍋夊┑鍌溓圭壕鍧楁煥閻曞倹瀚�
闂傚倷娴囬褏鈧稈鏅犻、娆撳冀椤撶偟鐛ュ┑顔角瑰▔娑氱不閻樼粯鐓欓柟瑙勫姦閸ゆ瑩鏌涘鎰佹綈闁靛洤瀚伴獮妯兼崉閻╂帇鍎甸弻锝呪堪閸涱垰绗℃繛锝呮搐閿曨亝淇婇崼鏇炵<婵﹩鍋勯ˉ姘舵⒑閼姐倕鏋戠紒顔煎閺呰泛螖閸涱喖鍓銈嗙墬閸戝綊宕甸弴鐏诲綊鎮╁顔煎壈闂佺粯鍔曢敃銉╁Φ閸曨垰绠抽柟鎼幗鏁堟繝娈垮櫙缁蹭粙顢楅敓锟�