V oznámení OpenAI je ukázka. Klikněte na tab Take screenshots.
Diky!
Printscreen Lupy prepsal bezchybne do textu. Tohle je revoluce v digitalizaci dokumentu. Nechal spravne dokonce i formatovani a dokonce tam opravil i chyby v interpunkci:). Neuveritelny: prepsal dokonce spravne i ludicurum Remedium (lure). Ze se nejmenují I(i)udirucum Remedium t.j. I(i)uRe jsem zjistil az z jeho prepisu (chtel jsem mu to vytknout jako chyby v prepisu).
Existuji i jine AI, ktere zvladaji takhle spolehlive OCR textu?
Nebo aspon tusi nekdo, jake jsou limity pro Plus verzi? Tenhle dovoli jenom 2 printscreeny za 5 hodin. To navic byl jen maly vyrez obrazovky cca A7-A8. Potreboval bych aspon 50x A4 denne.
P.S. dokumenty jsou soukromy, takze dotace na deset placenych kont asi fakt nedostaneme.
1/ frontend AI zpracuje tvuj prompt a pusti na to image AI s parametrama
2/ image AI zpracuje obrazek a vrati to co pozadoval prompt (zde text)
3/ textova AI zpracuje vystup a provede s nim co si mysli, ze chces (vyhleda jmeno kocicky, opravi chyby, prelozi do svahilstiny, slozi haiku)
4/ fronend AI ti vrati text (opet ho nejak zpracuje)
To je hruby nastin jak to tam asi probiha. V ramci tech kroku jsou jeste mezikroky, ktery filtruji zavadny temata. Dalsi filtry jsou jeste na zacatku (vstup) a konci (vystup). OCR statistiku teda neobejdes, ale muzes ovlivnit co s tim prectenym textem bude delat (zde nic).
BTW. A nejspis do toho online zasahujou lidi.
Dnes jsem se z nej snazil vytahnout nazev pisnicky, kterou natocili Scooter spolecne s nejakou kapelou z konce minulyho stoleti. Nejdriv si vymyslel pisnicku. Pak zacal hazet kapely (minuly stoleti, top kapela, stara, rock and roll nejspis England). Ty uz aspon existovaly. Po cca deseti minutach si najednou vzpomel na presnej nazev pisnicky a 100% spravne i s celym nazvem.
Takze nejakymu indianovi tam blikala kontrolka, ze se s nim nekdo 10 minut hada. Pritom neni spokojen s zadnou odpovedi. Tak si to projel. Hodil do googlu No a vlozil vysledek.
"Transcript the text on the image and do not make any modifications. If the text contains mistakes, mistypes, bad formatting, errors in punctuation then leave the text as is with all the mistakes included as provided."
Nemam to ted jak vyzkouset (na tohle pulku denniho limitu nevyplacam, sorry), ale nejak takhle to bude prepisovat i chyby.
Samozrejme jakykoliv OCR je jen statistika, takze odchylky od originalu tam stejne budou.
Ciste chyby v textu by ale uz opravovat nemel.
Taky mu tam muzes napsat slohovku co vyslovne nema opravovat.
Nepochopil jsem těch 10 placených kont... Každopádně openai mají za $5 (min. částka dobití) dostupné API, které by to zvládlo i v té levné (4o-MINI) variantě. Není potřeba k tomu mít aktivní klasické subscription, používám to v Msty.app. Bere si to pak necelý dolar za 2 miliony tokenů (1M dovnitř, 1M ven)
Tady se dá i spočítat kolik sežere vision dle rozlišení (ocr, atd.): https://openai.com/api/pricing/
Případně pak nějaký lokální model (kombinaci modelů) třeba z ollama, ale to je práce na dny, vs pár minut přes to api.
19. 11. 2024, 09:21 editováno autorem komentáře
Se priznam, ze me vubec nenapadlo, ze by ta aplikace vyuzivala API cenik, nevztahuje se k ni spise tento cenik predplatneho, konkretne asi pro bezne domaci chatovani program Plus za 20 euro mesicne?
Diky za tip, vyzkousim.
Lokalni AI jsem zkousel rozchodit, kdyz vysla llama, ale nez jsem to stihl, tak MS pustil zdarma lepsi verzi pro vsechny. Nez se vyvoj ustali, tak to nema moc vyznam. Do par dni bude dostupna lepsi verze udrzovana profesionalnima developerama.
P.S. mini neumi pracovat s obrazkama. Akorat kratky text a ne tak dobry odpovedi.
Tady je ceník, analýza obrázku 800x600 vyjde na $0.003825
https://openai.com/api/pricing/
Tady jsem to zkoušel v msty: https://imgur.com/a/EgpyGeW
"attachements" možná myslí nějkou pokročilenší analýzu většíh příloh - ne obrázků.
Me odpovida.
Pod odpovedi je takovy repracek po jehoz stisknuti tu odpoved precte. Ted to nemam jak otestovat, ale zatim vsechny AI reagovaly zvykovym vystupem na zvukovy vstup. Testovali jsme to i na woknech a webovy verze cetly automaticky.
BTW. Microsoft repracek odstranil (u nekterych kont, prave dela A/B testing). Kdyz tuhle fci taky potrebujes, tak to Microsoftu napis. Prave se rozhodují, jestli ji tam nechaj. Cim vic lidi bude prudit, tim vetsi sance, ze to tam zustane.