Emu: E-mail Preprocesor pre Textu na Hlas

Link: https://rws.xoba.com/mmsp98.html
IEEE Spracovanie Signálu Spoločnosti 1998 Workshop na Multimediálne Spracovanie Signálu
Decembra 7-9, 1998, Los Angeles, Kalifornia, USA
Elektronické Konanie
© 1998 IEEE

Richard Sproat, Jianying Hu
Bell Laboratories
Lucent Technologies
600 Horských Avenue, Murray Hill, NJ, 07974, USA
+1-908-582-{5296,5660}
{rw, jianhu}@research.bell-labs.com

http://www.bell-labs.com/project/tts/rws.htmlHao ChenUniversity of CaliforniaSchool of Information Management & SystémyBerkeley, CA 94720-4600+1-510-642-1464
[email protected]
http://www.sims.berkeley.edu/~hchen/

Abstraktné

E-mail čítanie je jedno z najdôležitejších obchodných aplikácií text-to-speech synthesis (TTS). Ešte e-mail je jednou z najťažších typy textu zaoberať, pretože je vysoko štruktúrované — často obsahujú prvky, ako napríklad tabuľky, podpisy, “diela” a citácie z predchádzajúcich správ; a zároveň často chýba akýkoľvek spoľahlivé a jednoznačné ukazovatele pre takéto štruktúry. Tento dokument popisuje Hmú, e-mail mark-up a poskytovanie program, ktorý preprocesses e-mail pre TTS. Sme diskutovali algoritmov na odhaľovanie oblastí záujmu v zadávania textu; na “normalizačného” vstup; a pre skutočne vykresľovanie vstup cez Bell Labs TTS systém.

Obsah

Úvod

Audio rendering e-mail je jednou z najdôležitejších obchodných aplikácií text-to-speech synthesis (TTS), a je ústredným prvkom multimediálnych správ. Ešte e-mail je jednou z najťažších typy textu zaoberať, pretože je vysoko štruktúrované — často obsahujú prvky, ako napríklad tabuľky, podpisy, “diela” a citácie z predchádzajúcich správ; a zároveň často chýba akýkoľvek spoľahlivé a jednoznačné ukazovatele pre takéto štruktúry. Tento dokument popisuje Hmú, e-mail mark-up a poskytovanie program, ktorý preprocesses e-mail pre TTS.

To je užitočné, ak chcete nakresliť analógie medzi proces konverzie elektronického dokumentu do tlačené vykreslení tohto dokumentu, a proces prevodu dokumentu do reči — čo T. V. Raman [1] hľadiska audio rendering. Zvážte prvý tlačený dokument: tlačenej verzii tento papier bol vyrobený tak, že najprv pripraviť dokument s rôznymi štrukturálnych vlastností označené pomocou Latexovépríkazy; druhá zariadenia nezávislé vykresľovanie bola vypočítaná z ktorých rôzne výstupné formáty môžu byť odvodené; a po tretie, zariadenie-nezávislé zastúpenie bol prevedený do Postscript. Tento konečnej podobe potom môžu byť zobrazené alebo vytlačené na všetky postscript zariadenie.

Model predpokladá, že do Emú je podobné. E-mailová správa je prvý analyzovaný do rôznych regiónov (nadpisy, citovaný materiál, podpis bloky,…), a tieto regióny sú označené symbolom značky, ktoré označujú regiónov ” vlastnosti. Druhý normalizácie text je vypočítaná. Normalizáciu vykonané v tejto druhej fáze, ktorá sa vo veľkej miere zahŕňa rozšírenie nezvyčajné “vkladajú slová” vrátane “skratky” (WinNT), ako aj e-mailové adresy URL a iných neštandardných materiálov. Výstup normalizácie fáza je “zariadenia nezávislé” v tom zmysle, že normalizations vykonáva produkovať text, ktorý je vhodný ako vstup (angličtina) TTS systém. Nakoniec, v tretej fáze, označené-up a normovaná text je stala prevedením do textu striedajú s sekvenciami pre Bellových Laboratóriách Americkej angličtine TTS systém.

Algoritmy pre Text-Oblasť Detekcie

Prvá fáza analýzy vykonanej Hmú je zisťovanie a markup významných častí textu text. Hmú sa predpokladá, že vstupné text je blokovaný do regiónov, kde kraja je vymedzené byť blok súvislej čiary oddelené od iných regiónov, ktoré buď: (i) jeden alebo viac prázdnych riadkov; alebo (ii) jasne definované, oddeľovač dátumu, ako odosielaniu správ oddeľovač. Každý región sa predpokladá, že byť rovnakého typu. Tak, napríklad, región môže byť označené ako obyčajný text (PTEXT) alebo ako tabuľke (tabuľka), ale nie oboje. Táto jednotnosť prevzatie, a zároveň nie je úplne správny, je však správne dostatočne často, aby boli užitočné. Upozorňujeme, že ak niektorý z nich nie je, aby sa tento predpoklad, analýza textu text by stala podstatne viac computationally drahé, pretože jeden by mal zvážiť každý blok súvislých liniek, ktoré sa majú potenciál regiónu.

V niektorých prípadoch detekciu kraja je jednoduché. Napríklad, to je pomerne ľahké odhaliť hlavičky e-mailov, pretože sú ľahko identifikovateľné podľa existenciu určitých linka-pôvodné tagy ako :,:, Predmet: a tak ďalej. Detekciu iných regióne typy vyžaduje, viac sofistikované analýzy. Hmú rozlišuje medzi osem základného textu-región typy: obyčajný text (PTEXT), “umelecké diela” (GRAFICKÝ), citoval regiónov (KÓTOVANÉ), rozpísané zoznamy (POLOŽKY), podpisy (SIG), titulky (HEADL), adresy (ADRESY) a tabuľky (TABUĽKA). (Tento konkrétny 8-spôsob klasifikácie bolo navrhnuté, aby nám David Yarowsky, ktorí tiež láskavo poskytol nám s niektorými úvodnej strane označenej tréningové údaje.)

Počiatočné detekcia týchto regiónov sa začína takto intuícia: pre mnoho typov regiónov, jeden nemusí byť schopný vidieť text jasne, aby sa rozhodlo, že región je určitého typu. Takže, predstavte si, že ste sa pozerali na stránke z diaľky, tak, že je nemožné, aby prečítajte si, čo je na stránke. Napriek tomu by sa dalo jasne rozpoznať stoly, veľa podpisy, adresy, titulky a grafika samotná vzhľad textu. Každý z týchto regióne typov má pomerne spoľahlivú distribúciu skutočný text materiálu a medzier. Tak titulky majú tendenciu byť krátke regiónov textu, kde materiál je zameraný na stránke. Tabuľky a mnoho podpisov majú tendenciu mať text usporiadané v stĺpcoch s stĺpce oddelené veľké množstvo bielych znakov. Adresy majú tendenciu sa skladajú zo série krátkych tratiach. Konečne grafika majú tendenciu mať veľa medzier a len riedko rozložené non-whitespace materiálu. Obyčajný text, citovaný text a rozpísané zoznam prvky sú samozrejme ťažšie zistiť takéto hrubé znamená, a ďalšie špeciálne účely techniky sú potrebné v týchto prípadoch. Napríklad, citoval regióny sú často označené jedným z mála význačné znaky (často “>”) na začiatku každého riadku.

Základné intuícia vyššie je implementovaný ako takto. Prvý každý znak v vstup je deterministically mapované na jeden z sadou preddefinovaných tried postáv. Znak triedy sa v súčasnosti používajú, patria: PRIESTOR, ČÍSLICE, ABECEDNÉ, “>” a”: ‘(spoločné indikátory kótovaných správy), a INTERPUNKČNÉ znamienka. Po druhé, individuálny charakter-class-kódovaný línie každý blok sa porovnávajú ôsmich znak triedy pentagram modelov, jeden pre každý text typ oblasti. Tieto modely sú vyškolení na 5,590 linky ručne-tagged netnews text. Uplatňuje sa v každom riadku, modely dať opatrenie, na každý text typ oblasti, ako silne danej priamke zápasy, ktoré konkrétny typ. Formálne modely sú implementované ako vážený finite-state elektróny príjemcovi — WFSA [3], a každý z modelov je pretína s vstupného riadku, sám predstavoval ako nevážený acceptor. To nám dáva hmotnosť pre každú triedu úlohy pre každý riadok. Samozrejme, to, čo chceme, je jedinečný klasifikácia pre každú linku, a jednotnej klasifikácie pre bloku. Tretia fáza analýzy dosiahne to. Blok je reprezentovaný ako vážený finite-state automat s n+1) štátov, kde n je počet riadkov v bloku. Existuje osem oblúky medzi každú dvojicu susedných štátov i a i+1, každý označený ako s jedným z ôsmich tried postáv, a váženou podľa pentagram skóre pre iteho riadku triedy. Príklad takejto automat je uvedené v Obrázok 1. Tento automat — odteraz B blok automat — je potom v kombinácii so sadou finite-state elektróny príjemcovi — G — vykonávacie gramatické obmedzenia, ako napríklad obmedzenie, že všetky prvky blok musí byť rovnakého typu. Zaviedli aj niektoré dĺžka obmedzenia: napríklad, ADRESA polia sú len zriedka kratšia ako dva riadky; a SIG polia sú málokedy dlhšie ako desať riadkov. Analýza bloku je získané prechádzajúcej B G, a potom computing najnižšiu cenu cesty. Formálne:

[0]   Charles Davies
[1]   Dialógu Modelovanie Výskumné Oddelenie
[2]   Multimediálne Komunikácie Výskumné Laboratóriumy
[3]   Bell Laboratories, Lucent Technologies    | tel (908) 582-1234
[4]   600 Mountain Avenue, Room 2d-500          | fax (908) 582-4321
[5]   Murray Hill, NJ 07974, USA                | [email protected]
[6]   http://www.bell-labs.com/noname/mcs/
[Bloku Automat]

Obrázok 1. Blok automat a jej pridružené SIG regióne. Oblúky ukončenia štátnej i zodpovedajú vstupného riadku i.výkonnosť algoritmu len popísané bola meraná na skúšobnej korpus 2543 riadky netnews text. Celkový výkon, počítanie do správne klasifikované linky (ignoruje prázdne), mal chyba sadzbou 7%. Najväčší triedy chýb zahŕňa SIG polia, ktoré sú chybne klasifikovaný ako PTEXT. Ako sme sa pozri na okamih, potenciál SIG polia — vrátane materiálu blízkosti konci správy pôvodne klasifikované ako PTEXT — podrobiť sa viac dôsledná analýza, ktorá opravuje niektoré chyby.

Po klasifikačnej fáze je kompletný, označené bloky sú rozložený do dokumentu strom, s uzol dominuje každý blok so značkami triedy, ktoré sa vypočítajú pre tento blok: model štruktúry dokumentu predpokladá, že do Hmú takto úzko že SGML [4].

Dva typy blokov, potom prijímať ďalšie spracovanie: KÓTOVANÉ regióny sú rekurzívne vystavené klasifikácia a analýza algoritmov len popísané; a potenciál podpis bloky podrobiť jemnejšie-zrnitá analýza popísané ďalej. Podpis bloku analýzy začína dvojrozmerný geometrický analýza, ktorý sa snaží nájsť pripojené komponenty. Napríklad, podpis bloku v Obrázok 2pozostáva z dvoch pripojených komponentov, ktoré zodpovedajú dva stĺpce.

Charles Davies e-mail: [email protected] Lucent Technologies Bell Labs WWW: http://www.bell-labs.com/noname/mcs/ 600 Horských Avenue, 2D-500 Hlas: 908 582-1234 Murray Hill, NJ 07974 Fax: 908 582-4321

Obrázok 2. blok s dvoma pripojených komponentov.geometrických analýza výnosov súbor čítanie bloky zodpovedajúce objavil pripojené komponenty: vo všeobecnosti sa predpokladá, že pri čítaní textu v podpise, prvky, ktoré sú súčasťou toho istého čítanie bloku patria viac prirodzene spolu ako prvky v rôznych čítanie bloky. Ale v rámci čítanie bloku tam môže byť niekoľko funkčných blokov. Napríklad, v Obrázok 2, pravý čítanie blok obsahuje e-mailovú adresu, niektoré WWW kontaktné informácie, telefónne číslo a faxové číslo. Každý z nich predstavuje samostatný funkčný blok. Funkčné bloky sú zisťované pomocou jazykovej analýzy textu materiálu v rámci každej čítanie bloku. Ak podpis-blok analýza algoritmov odhaliť niektoré požadované súčasti — e-mailové adresy, www adresy, telefónne a faxové čísla, názvy, alebo poštové adresy — potom algoritmy pokračujte kompletnú analýzu a označiť podpis región ako “overené”. Inak sa označiť regiónu ako neoverené a vrátiť ho na spracovanie etapy Hmú. Hmú bude potom vrátiť regiónu do pôvodnej analýzy, alebo ak to bolo pôvodne pridelené SIG, bude sa vrátil k PTEXT. Ďalšie podrobnosti o podpis bloku analýzy algoritmov možno nájsť v [5].

Device-Independent Vykresľovanie

Funkcia Emu device-independent vykresľovanie fáza je “normalizovať” rôzne elementy označené dokument na zlepšenie konečného vykresľovanie do reči. Medzi funkcie, ktoré táto fáza sa vykonáva sú:

  • Rozpoznať a označiť “oddeľovač” línie, ako je “–” bežne vyskytujú na začiatku SIG polí.
  • Rozbaliť [Rr]e: Predmet: riadok do o.
  • Rozpoznať rôzne konvencie pre označenie dôraz: dohovorom patria kapitalizácie, a vymedzujú slovo s hviezdičkou (*vyžadovať*). Dôrazné slová sú označené tag <emph>.
  • Rozbaliť emotikony (smajlíky) do slov.
  • Rozhodnite sa či zarábal slová by sa mali čítať ako slová (LOS ANGELES, UNESCO) alebo ako postupností písmen (CIA, WABC).
  • Rozšíriť elektronické adresy, pathnames, a URL primerane.
  • Rozbaliť non-bežné slová, ako napríklad WinNT do príslušných omietkami.

Z dôvodov priestor, nemôžeme opísať, ako všetky tieto typy analýzy sú vykonávané. Namiesto toho, aby sme popisujú manipuláciu jeden problém, a to liečbe veľkými písmenami slov. Používame jednoduchý, ale prekvapivo efektívny algoritmus na určenie, či je alebo nie je, aby si zarábal slovo ako slovo, alebo ako postupnosť písmen:

  • Ak kapitalizované postupnosť je dlhšia ako 5 písmená, čítať ju ako slovo.
  • Ak kapitalizované postupnosť je 5 listov alebo kratšie, kontrola slovo proti slovník známe slová z 5 písmen, alebo kratšie. Ak je v tomto slovníku si to ako slovo. Inak si to ako postupnosť písmen.

Aktuálny slovník, odvodené od slov v roku 1994 Associated Press (AP) newswire, 5 listov alebo kratšie, obsahuje približne na 11 000 záznamov. Pre slová dlhšie ako päť písmen, napríklad algoritmus je správny viac ako 99% času, merané na január 1994 AP.

Prirodzene, ako disambiguation nie je vždy spoľahlivo byť vykonané v súvislosti s-nezávislé módy: človek nemôže povedať, či ADA, by sa mali chápať ako slovo (napr. názov, Ada) alebo ako postupnosť písmen (napr., ako skratka pre American Dental Association), bez ohľadu na kontext, v ktorom sa slovo vyskytuje. Vzhľadom na dobu, disambiguation metódy popísané v [6], mohli by sa využili na tento problém. Ale v prvom rade-pass model, ten je celkom účinné.

Audio Rendering

Audio rendering je etapa, v ktorej Hmú vykonáva svoje konečné formátovanie textu text a odovzdáva ho na TTS systém pre prevod do reči. Ako je uvedené vyššie, označené-up a normovaná text jestala prevedením do textu striedajú s ovládacích prvkov na Bell Labs TTS systém. Najdôležitejšou funkciou kontroly v tejto žiadosti, ak chcete zmeniť hlas, ktorý sa použije podľa syntetizátor, ako prostriedku s uvedením štruktúry dokumentu. Teda, keď systém vykresľuje vložené ponuky, napríklad, sa zmení na iný hlas, pobyt v tom, že hlas do konca kurzu, na ktorom mieste sa vráti na predtým použitý hlas. (Používateľ je tiež oboznámený, že systém má zapísať novú úroveň štruktúry. Napríklad, štandardne top-level citoval správu bude mať za následok systém informovania používateľa: “toto je úroveň 1 kótované správy”.) Pre niektoré typy textu prvok Hmú robí niečo viac než informovať užívateľa, že je región, ktorý typ súčasnosti. Pre GRAFICKÝ, napríklad, Hmú informuje poslucháčov, že “je regióne non-text typu ascii-grafické tu.” Ukážkový príklad ukazuje správanie Hmú možno nájsť na nasledujúcej adrese URL: http://www.bell-labs.com/project/tts/emu.html.

Literatúra

[1] T. V. Ramanovho. Audio Systému pre Technické Čítania. Dizertačná práca, Cornell University, 1994.
[2] Richard Sproat, editor. Viacjazyčný Text-to-Speech Synthesis: Bell Labs Prístup. Kluwer, Boston, MA, 1997.
[3] Mehryar Mohri, Fernando Pereira, a Michael Riley. racionálny dizajn pre vážený finite-state snímače knižnice. V Druhý Medzinárodný Workshop na Vykonávanie Automaty, stránky 43–53, Ontario, Kanada, september 1997.
[4] Charles Goldfarb. SGML Handbook. Clarendon Press, Oxford, 1990.
[5] Hao Chen, Jianying Hu, a Richard Sproat. E-mail podpis bloku analýzy. V ICPR’98, Brisbane, Austrália, August 1998.
[6] David Yarowsky. Tri Algoritmy Strojového Učenia na Lexikálnej Nejednoznačnosť Rozlíšenie. Dizertačná práca, University of Pennsylvania, 1996.