欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    第3回机械翻訳技术ー.pdf

    • 资源ID:46681936       资源大小:1.41MB        全文页数:57页
    • 资源格式: PDF        下载积分:30金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要30金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第3回机械翻訳技术ー.pdf

    1用語抽出技術用対訳抽出技術同義語獲得距離学習中川裕志 清水伸幸 範暁蓉東京大学 中川研究室第回機械翻訳技術2009年3月8日 東大2同義語抽出技術用語抽出技術用対訳抽出技術実部分進、用語抽出技術統計翻訳組合結果得、少先送状態。3専門用語対訳辞書自動生成?背景専門用語対訳辞書、特日中間未不十分。?目的本開発日中対訳専門用語日中対訳辞書自動生成。?日中言語&処理上特徴単語分書。単語語順違。共通単語多。単語分割、多。?提案手法専門用語膨大増加、自動生成欲。専門用語抽出言選言選Web統計翻訳単語組合専門用語辞書生成手法4日中対訳各単言語用語抽出?言選言選Web用語抽出。日本語、中国語、英,仏,独,伊,西,言語用語抽出。性能:Average Precision 0.7強?言選言選Web日中対訳用語抽出日中対訳用語抽出情報分野日中利用日中、各単言語、重要単単語用語複合語用語抽出5目標?抽出日本語用語中国語用語対訳関係獲得。中国語用語抽出結果抽出用語重要度语言信息1047366.81数据库1005124.71提案系统285528.44声音数据283352.13语义信息186011.79信息词典25464.93日本語用語抽出結果抽出用語重要度言語情報862376.11認証858010.91構造化854445.99形態素解析851941.17音声847816.53開発者847550.34?言選web日本語中国語用語抽出結果6従来方法?単単語用語翻訳対 統計翻訳単語利用抽出?複合語用語翻訳対課題?手法.統計翻訳対訳抽出問題点:抽出対訳対対、両言語対応専門用語存在限、重要対訳判断。?手法.既存対訳辞書文脈利用問題点:中専門用語含辞書存在。(専門語新語多問題)7提案手法?提案手法【段階】用語【段階】用語1.形態素解析、単語分割行、複合語含重要用語抽出。2.用語認複合語一、単単語処理最小単位。Re-segment呼。3.単位行。間対訳良専門用語言選web結果存在、用語対抽出。、実際甘【段階】結果【段階】結果Re-ranking改善改善8段階:段階:Re-segment?例?処理前:意味情報記載辞書意味辞書 呼(日本語)录入了语义信息的词典称为语义词典。(中国語)?処理後:意味情報 記載 辞書意味辞書呼(日本語)录入了语义信息 的 词典称为语义词典。(中国語)中国語用語結果语义信息语义词典?複数単語?基準:言選web結果日本語用語結果意味情報意味辞書言選Web結果9段階:用語結果?GIZA+結果中国語日本語対訳確率(P1)人手評価根的部分树结构Tv 根的部分树结构Tv 部分木Tv部分一致相对音高值相对音高值相対音高値一致瓶颈瓶颈化措置誤回路区域回路区域回路領域一致回路区域回路区域機器側誤和局和局引分部分一致x方向x方向線密度画像0.768054誤句法范畴的数量句法范畴的数量終端構文範疇0.767711 部分一致因果知识因果知识因果知識0.736054一致单元种类单元种类種類0.73605一致信念状态信念状态信念状態0.735999一致向量计算机向量计算机計算機0.735996 一致間違多発、使物。10段階:段階結果改善用語候補段階:段階結果改善用語候補Re-ranking?段階結果対訳確率実際結果一致場合多。?原因日本語用語中国語用語構造的一致場合。単語分割誤。(結果部分一致)単語誤。?改善手法 用語対Re-ranking用語対含単語間対訳確率高、用語対対訳確率高仮定、用語対Re-ranking。言選Web結果複合語正場合Rank 下効果狙11Re-ranking方法方法?対訳用語類似度定義、用語S=ws1ws2 wsn用語 T=wt1wt2 wtm単語対訳確率集合Q=p(wtj wsi)=pij:i=1n,j=1m2(,)max(,)P S Tm n=入力単語対訳確率集合QStep:Step:f max(pij)Step:f=0,終了Step:+fStep:pi.p.jQ取除,step計算方法ws1ws2ws3ws4wt1.wt2.max1.wt3.0.0ws1ws2ws3ws4wt1max2.wt2.wt3.ws1ws2ws3ws4wt1max2.wt2.max1.wt3.0.0終了+max1+max212Re-ranking方法(Cont.)?例S:和局=(和局)(単語,中国語)T:引分=(引分)(単語,日本語)P1(S,T)=1単語対訳状況p(和局,引分)=1、p(和局,)=0引分(日本語)和局(中国語)類似度P2(S,T)=1/2=0.5P(S,T)=1*0.5+0.5*0.5=0.75(w1=w2=0.5)?Re-rankingP(S,T)=w1P1(S,T)+w2P2(S,T)(w1+w2=1)、P1:Giza+用語P2:用語対単語間確率組合13Re-ranking必要単語対訳関係以下必要単語対訳関係以下Giza+確率使確率使?目的:用語対含単単語対訳関係発見。単語対訳辞書含単語辞書。?解決方法 Re-segment前単語行、単語対訳関係獲得。中国語日本語対訳確率偶人人形1科教教諭1笑容笑顔1洞察力洞察1电子电路回路0.999纵线縦0.935999双边0.935922Linux5.2RedHat0.935138那样0.933003文科文系0.932996単語結果14実験設定?対訳NICT日中情報分野対訳日中:378,132文対?用語抽出TermExtract(*)日本語版TermExtract中国語版?単語GIZA+?結果単単語用語複合語用語分。*TermExtract:言選 Web版15用語流()TermExtractorChineseTermsJapaneseTermsJapaneseCorpus(w)ChineseCorpus(w)Step1 専門用語抽出分割日本語中国語対応用語抽出利用用語抽出。Step2 Re-segment抽出用語基分割日本語中国語re-segment。Step3 Re-segmented日本語中国語行。16用語流()TermExtractorChineseTermsJapaneseTermsJapaneseCorpus(w)ChineseCorpus(w)Re-SegmentRe-SegmentJapaneseCorpus(p)ChineseCorpus(p)Step1 専門用語抽出分割日本語中国語対応用語抽出利用用語抽出。Step2 Re-segment抽出用語基分割日本語中国語re-segment。Step3 Re-segmented日本語中国語行。17用語流()TermExtractorChineseTermsGIZA+JapaneseTermsJapaneseCorpus(w)ChineseCorpus(w)Re-SegmentRe-SegmentJapaneseCorpus(p)ChineseCorpus(p)TermalignmentresultStep1 専門用語抽出分割日本語中国語対応用語抽出利用用語抽出。Step2 Re-segment抽出用語基分割日本語中国語re-segment。Step3 Re-segment日本語中国語対行。18Re-ranking流(1)TermExtractorChineseTermsGIZA+JapaneseTermsJapaneseCorpus(w)ChineseCorpus(w)Re-SegmentRe-SegmentJapaneseCorpus(p)ChineseCorpus(p)TermalignmentresultGIZA+ChineseCorpus(w)JapaneseCorpus(w)WordalignmentresultStep4 re-segment前対行。Step5 Re-ranking19Re-ranking流(2)TermExtractorChineseTermsGIZA+GIZA+JapaneseTermsJapaneseCorpus(w)ChineseCorpus(w)Re-SegmentRe-SegmentJapaneseCorpus(p)ChineseCorpus(p)ChineseCorpus(w)JapaneseCorpus(w)TermalignmentresultWordalignmentresultRe-rankingTranslation pairsStep4 Re-segment前対行。Step5 Re-ranking20Re-ranking前後比較順番Re-ranking前(30%)Re-ranking後(90%)1具体的知识 知識表現 1 奥津 奥津2Sj的子片段 CHB法 1长裤 3对象的国民性常规模式的印象 国民性 1 东南亚 東南 1 1.0 1.0 4因子的组 遺伝子 1 拍卖员 5初级电路回路和初级力学领域 初等電気回路 1 忍耐力 忍耐 1 1.0 1.0 6作用例子 初等電気回路 1 周报 週報 1 1.0 1.0 7技术方针 操作記述 1 契据 8抗体所标记 操作記述 1 霞浦 霞浦9时候的句子 平均単語認識率 1 田舍 田舎10禁忌 搜索 1 敬而远之 敬遠11法和禁忌 搜索 1 非洲 12混音次数 回数 1 河冈池原 河岡池原13对象数据库使用者问句语料库 発話文 1 体温计 体温計14奥津 奥津 1 觉悟 覚醒 1 1.0 1.0 15图片放映机 1 异教 異教 1 1.0 1.0 16数据DQ的问句 疑問詞学習DQ 1 回味无穷 味 1 1.0 1.0 17系统的要求信息 初期時点 1 最高法院昭和 最高裁昭和 1 1.0 1.0 18性质协议 出力fB 1 土木 土木 1 1.0 1.0 19有效的棋局 局面評価方法 1 盆景 箱庭 1 1.0 1.0 20场所的c语言的局部变量时 保管場所 1 匈牙利 1 1.0 1.0 21最後結果(1)上位1-20中国語日本語対訳確率評価奥津奥津1 1.0 1.0长裤1 1.0 1.0东南亚東南1 1.0 1.0 拍卖员1 1.0 1.0忍耐力忍耐1 1.0 1.0周报週報1 1.0 1.0契据1 1.0 1.0 霞浦霞浦1 1.0 1.0 田舍田舎1 1.0 1.0敬而远之敬遠1 1.0 1.0 非洲1 1.0 1.0河冈池原河岡池原1 1.0 1.0体温计体温計1 1.0 1.0 觉悟覚醒1 1.0 1.0异教異教1 1.0 1.0 回味无穷味1 1.0 1.0 最高法院昭和最高裁昭和1 1.0 1.0 土木土木1 1.0 1.0 盆景箱庭1 1.0 1.0 匈牙利1 1.0 1.0 注【】Escrow Service商取引安全性保証仲介。第三者預託意味。契据:契約書証書類総称22最後結果(2)上位1001-1020(80%)中国語日本語対訳確率評価葡萄酒1 1.0 1.0清音清音1 1.0 1.0一举一动一挙一動1 1.0 1.0 巨人巨人1 1.0 1.0品目品目1 1.0 1.0周报週報1 1.0 1.0雨滴雨滴1 1.0 1.0 河马1 1.0 1.0 常春藤1 1.0 1.0胶皮地下足袋1 1.0 1.0 直拍滑翔1 1.0 1.0可加1 1.0 1.0共和党共和党1 1.0 1.0 安田安田1 1.0 1.0鲜花1 1.0 1.0 饵料Fv餌Fv1 1.0 1.0 气压计minimini1 1.0 1.0 康帕内拉1 1.0 1.0 袖珍本文庫本1 1.0 1.0 病床1 1.0 1.0 注:胶皮意味。23最後結果(3)上位3101-3120(100%)中国語日本語対訳確率評価要素xt要素xt1 0.945 0.973国民待遇国民待遇1 0.945 0.973处理器qq 1 0.945 0.973 全球VLANVLAN1 0.945 0.973CRL数据CRL0.991 0.954 0.973公理AO公理AO1 0.945 0.973进程PP1 0.945 0.973pass算法pass1 0.945 0.973 笔迹数据筆跡1 0.945 0.973椭圆曲线E楕円曲線E1 0.945 0.973昆虫昆虫0.945 1.0 0.973门牌番地0.945 1.0 0.973模型MtMt1 0.945 0.9725OWP模型OWP1 0.945 0.973 Anim模型Anim1 0.945 0.973passion模型1 0.945 0.973胴体模型胴体1 0.945 0.973模型LgLg1 0.945 0.973EBA模型EBA1 0.945 0.973HPP模型HPP1 0.945 0.973統計機械翻訳対訳適用統計機械翻訳対訳適用?抽出重要用語対訳効果SMT適用、効果測?SMTMose利用?日中対訳以下使?万文言語,言選Web抽出重要用語対訳辞書獲得?1万文辞書抽出?別100文対、1000文対BLUE評価?、open、未知対効果不明。24Closed data 評価結果25?Re-ranking score0.5以上対訳利用?言選Web抽出重要用語対訳使場合BULE値使用対訳数重要用語対訳使用使用対訳数重要用語対訳使用100 0.23130.23611000 0.25580.2659Open向追加実験Open向追加実験?文対、提案方法抽出対訳Moses辞書追加、別1000文対評価実験。?現在調整不足改善0.1%以下、辞書追加方法検討余地。?Re-ranking score0.6以下対訳使BLUE値劣化(誤訳増)効果対訳辞書選択指針2627今後研究?付工夫 付方法、理論的説明?閾値最適化?他対訳抽出法比較?自動評価手法研究 正解集合必要評価手法開発?他分野、他言語対適用同義語獲得距離学習28分布仮説 分布仮説用同義語獲得法 単語表単語出現定義 単語、食動詞目的語回出現 単語次情報 素性:食目的語 値:30 値単純回数以外、pointwise mutual information統計量使 何指標用、間距離類似度評価29距離類似度指標類似度係数他 係数,距離30拡張手法:同義語同義語同義語 W n x n 行列 i,j 単語同義語、Wij=1 Y=WW 計算、Yij 同義語考。提案手法:Graph Laplacian Embedding 目的関数式最小化 単語座標 探。32 目的関数変換、z 共分散行列 仮定、最適化問題、行列固有見等価。単語 z 表、距離、類似度用、同評価。33設定34760 entries In the thesaurus5736 synonyms in the thesaurustraining set 教師存在同義語設定35100 queries in the test set26,928 words in the corpus1010 words synonymous with the 100 queriessynonyms in test set(下)与(右)単語(右下)正解同義語設定36100 queries in the test set760 entries In the thesaurus26,928 words in the corpus318 bridge pairs5736 synonyms in the thesaurus84 overlapping words1010 words synonymous with the 100 queriestraining set synonyms in test set 教師何形同義語知、単語 z 座標求、同義語候補抽出。、教師 拡張不可能。実験、数増性能変化比較。提案手法、拡張性能発揮。37実験 数徐増性能見 提案手法二従来手法比較38結果39 超従来手法高性能見。同様拡張方法高性能。手法比較、素性取出、部分単語非常良性能発揮 例:pedigree parentage,bloodline,genealogy,ancestry,lineage、。4041結論 同義語獲得容易自動拡張手法提案。上記方法実験同義語獲得性能向上示。42自動拡張自動拡張清水伸幸学術情報研究部門東京大学情報基盤1自動拡張自動拡張?十分数内場合?従来分布仮説(類似単語類似使)基手法?同義語同義語同義語(?)既知内正解使手法?良明?後者基新手法提案2Distributional Hypothesis?分布仮説用同義語獲得法?単語表単語出現定義?単語、食動詞目的語回出現?単語次情報?素性:食目的語?値:30?値単純回数以外、pointwise mutual information統計量使?何指標用、間距離類似度評価3距離類似度指標距離類似度指標?類似度?係数?他?係数,距離4Squared Affinity Matrix?同義語同義語同義語?W n x n 行列、i,j 同義語、Wij=1?Y=WW 計算、Yij 調。5x2x1x3x4x5x2x1x3x4x5提案手法:提案手法:Graph Laplacian Embedding?Graph Laplacian Embedding?目的関数式最小化 単語座標 探。?目的関数変換、z 共分散行列 仮定、最適化問題、行列固有見等価。?単語 z 表、次元削減後、距離、類似度用、同評価。6提案手法提案手法7z2z1z3z4z5x2x1x3x4x5同義語近新座標投射、距離測同義語近新座標投射、距離測実験設定実験設定8760 entries In the thesaurus5736 synonyms in the thesaurustraining set 教師存在同義語設定設定9100 queries in the test set26,928 words in the corpus1010 words synonymous with the 100 queriessynonyms in test set(下)与(右)単語(右下)正解同義語設定設定10100 queries in the test set760 entries In the thesaurus26,928 words in the corpus318 bridge pairs5736 synonyms in the thesaurus84 overlapping words1010 words synonymous with the 100 queriestraining set synonyms in test set?教師何形同義語知、単語z 座標求、同義語候補抽出。?、教師 拡張不可能。?実験、数増性能変化比較。?提案手法、拡張性能発揮。11実験実験?数徐増性能見?提案手法二従来手法比較12結果結果13?超従来手法高性能見。?同様拡張方法高性能。?手法比較、素性取出、部分単語非常良性能発揮?例:pedigree parentage,bloodline,genealogy,ancestry,lineage、。1415結論結論?同義語獲得容易自動拡張手法提案。?上記方法実験同義語獲得性能向上示。16

    注意事项

    本文(第3回机械翻訳技术ー.pdf)为本站会员(赵**)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开