Kendskab til optisk tegngenkendelse (OCR)
Hvad er OCR?
Optical Character Recognition, normalt forkortet OCR, er den mekaniske eller elektroniske oversættelse af scannede billeder af håndskrevet, maskinskrevet eller trykt tekst til maskine-kodet tekst.
Hvorfor bruge OCR?
OCR er almindeligt anvendt til at konvertere forskellige typer dokumenter, f.eks. scannede papirdokumenter, PDF-filer eller billeder taget med et digitalt kamera til redigerbare og søgbare data. I nogle faglige miljøer (f.eks. biblioteker, kontorer) scannes tusindvis af bøger og dokumenter regelmæssigt for back-up og arkiv. En scanner tager blot fotografier af de oprindelige papirdokumenter, hvilket resulterer i image-baserede scannede dokumenter i PDF-format. Det store spørgsmål med forarbejdning og opbevaring af sådanne store mængder af scannede dokumenter er den manglende evne til at søge efter en bestemt sætning eller et navn i en fil. Også kan ingen tekst være fremhævet, kopieres eller ændres, fordi dokumentet indeholder én stor billedfil i stedet for enkelte teksttegn.
Før du udfører OCR, hele det område på siden er markeret og fremhævet og ingen tekst kan søges og redigeret.
Efter at udføre OCR, tekst på siden kan vælges med udvælgelse værktøj, kan du søge og redigere tegn, ord og afsnit let.
Hvordan Wondershare PDF OCR værktøjer hjælpe dig?
Wondershare PDF OCR værktøjer kan hjælpe dig med at genkende tekst fra scannede PDF hurtigt og præcist og bevare de anerkendte resultater i flere redigerbare formater.
Wondershare PDF Editor Pro for Mac: med fremragende OCR nøjagtighed og format bevarelse, giver dig mulighed at søge i, rette og kopiere tekst i scannede eller image-baseret PDF direkte på Mac. Det giver også mulighed du eksportere scannede PDF til formateret tekst baseret Word, Excel, PowerPoint, EPUB, HTML og tekst formaters.
Wondershare PDF Converter Pro: genkender tekst fra scannede PDF med udestående OCR-nøjagtighed og kan konvertere flere scannede PDF-filer til tekst-baserede Word, Excel, PowerPoint, EPUB, HTML og tekst dokumenter på Windows.
Wondershare PDF Converter Pro for Mac: genkender tekst fra scannede PDF med udestående OCR-nøjagtighed og kan konvertere flere scannede PDF-filer til tekst-baserede Word, Excel, PowerPoint, EPUB, HTML og tekst dokumenter på Mac.
Hvordan man kan forbedre OCR anerkendelse kvalitet?
OCR anerkendelse kvalitet afhænger i høj grad kvaliteten af det billede, som stærkt afhænger af de indstillinger, der bruges under dokumentscanning proces. For at få bedre OCR anerkendelse kvalitet for dine scannede dokumenter, er her nogle tips til dokumentscanning:Skrifttypen er for lille
For optimal anerkendelse resultater, scan dokumenter udskrives i meget små skrifttyper på højere opløsninger.
Du kan angive den ønskede opløsning i egenskaben opløsning af objektet ScanSourceSettings .
Kildebilledet | Anbefalede opløsning |
---|---|
|
300 dpi for typiske tekster (trykt i skrifter af størrelse 10 pt eller større) |
|
400-600 dpi for tekster trykt i mindre skrifter (9pt eller mindre) |
Tuning lysstyrke
Du skal muligvis justere lysstyrkeindstillingen når scanning i sort-hvid. Du kan angive den ønskede lysstyrke i egenskaben lysstyrke for objektet ScanSourceSettings . En medium værdi af omkring 50% bør være tilstrækkeligt i de fleste tilfælde.
Hvis den resulterende billede indeholder for mange "revet" eller "sidder fast" sammen breve, fejlfinding ved hjælp af nedenstående tabel.
Dit billede ser sådan ud | Anbefalinger |
---|---|
|
Dette billede er velegnet til anerkendelse |
tegn er "revet" eller meget lys |
|
tegn er meget forvrænget, hænger sammen, eller fyldt |
|
Udskriftskvalitet
Dårlig kvalitet dokumenter med "støj" (dvs. tilfældige sorte prikker eller pletter), sløret og ujævn breve, eller skæv linjer og skiftede tabelkanter kan kræve særlige scanningsindstillinger. For eksempel, denne fax og avis:
Dårlig kvalitet dokumenter er bedst scannes i gråtoneskala. Når du scanner i gråtoneskala, Vælg den optimal lysstyrkeværdi automatisk.
Gråtonetilstand bevarer flere oplysninger om bogstaverne i den scannet tekst til at opnå bedre anerkendelse resultater, når anerkende dokumenter af medium til dårlig kvalitet.