quinta-feira, 22 de janeiro de 2015

Livros em pdf a as conjunturas da alta tecnologia


Outrora fui questionado pelo fato do acesso a um livro digitalizado para o formato portável (PDF) com reconhecimento de caracteres ativo (OCR), ainda ser na atualidade (2014), desconfortável para muitos usuários. 

Antes de qualquer conclusão é imprescindível estar ciente de dois importantes fatos, primeiro o que um arquivo de um livro digitalizado em pdf e segundo as conjunturas da tecnologia. 

Nestes primeiros quase cinco anos do segundo decênio do século XXI a tecnologia digital alcançou patamares que 50 anos atrás nem os filmes vislumbravam. Quando a empresa ADOBE lançou o Acrobat Reader foi um desespero, eu lembro disso, o software estava incluso em todo CD de instalação, mas não servia para muita coisa. Você pode até pensar assim, mas uma grande empresa pensa alto e a médio curto prazo. Não demorou muito para o formato PDF passar a fazer parte de nossas vidas, mesmo que não estivéssemos cientes disto.

Depois de algumas atualizações já alcançamos mais de dez versões do danado do Acrobata que sai do amadorismo e passou a ser um profissional. A versão ACROBAT PRO XI é muito completa e atualmente ser para quase tudo na vida de um acadêmico, mas será assunto para outro artigo.
Nosso objetivo aqui é demonstrar como funciona o “Behind the scenes” de um arquivo pdf para livros. Assim tomaremos como exemplo um livro de 500 páginas que tem apenas textos, sem nenhuma imagem. O seu peso real não passa de 480kg, mas como ficou popularmente conhecida capacidade de espaço que um arquivo possui, ou tamanho do arquivo não irá alcançar mais que 200mb. A primeira pergunta que surge é “isso tudo para um arquivo que só tem texto?”. Pois bem, este é o X da questão o “texto”.

Existem duas maneira de torna uma lauda (um dos lados de uma página) impressa digital, primeiro digitando-a caractere por caractere até finalizar. Este processo é o ideal tanto para a estética quando para o espaço que o arquivo ocupa que seria de 12,7kb. Outro beneficio seria o Reconhecimento Ótico dos Caracteres - OCR aplicado em sua totalidade, sem perdas. Em contrapartida uma página do de arquivo dox (Word) padrão (Times New Roman, fonte 12 com 1,5 de espaçamento) tem nada menos que 2.380 caracteres. Agora imagine digitar 500 páginas? Não vejo problemas, mas a velocidade dos tempos modernos enxerga, e sem óculos de grau, um trabalho desses como um enorme desperdício de tempo e claro de dinheiro para quem está investindo. Em linhas mais formais teria um custo muito elevado tanto de tempo quanto de insumos.

Assim a segunda opção que é mais rápida e requer menos investimento financeiro é a mais utilizada e aceita na comunidade de consumidores deste serviço. Sua desvantagem é pelo espaço que o arquivo ocupa, não vamos ficar dizendo que arquivo digital tem peso, por favor, ele nem existe são apenas pontos de luz. Então... quando a mesma lauda do dito livro é digitalizada, primeiramente ela precisa estar formatada no padrão que o sistema de OCR do ADOBE PRO aceita, do contrário não fará o reconhecimento. Segundo é que durante o processo de digitalização é necessária a utilização de equipamento especifico para captação digital. Na etapa de edição será feito o tratamento da imagem para finalmente torna-la um arquivo pdf reconhecível.




Como dito a “imagem”, diferente do primeiro processo onde os caracteres são digitados um a um, neste processo o que os olhos veem pode parecer uma páginas de um livro, simplesmente pelo fato de que está gravado em sua mente, é mágica, ilusão, indução. Nunca esqueça em informática nada existe, tudo são apenas pontos de luz. Mas a grande diferença é neste segundo processo, na verdade o que temos é uma imagem de um retângulo vertical só isso. Para facilitar imagine um delicioso pote de sorvete de creme com passas, imaginou? Agora na versão digitada você mete o dedão e come o sorvete e se quiser tirar as passas fazendo com elas o que bem entender, já na versão da página capturada por meio digital imagine a embalagem do delicioso pote. Agora tente tirar as passar ou tomar o sorvete, no máximo de a foto tiver em relevo você pode sentir uma elevação, nada além.

Por este simples motivo quando uma página digitada ocupa 12,7kb sua contrapartida digitalizada ocupa cerca de 2 mb, isto é mais de dez vezes o tamanho do primeiro. Como havia dito no inicio deste breve ensaio fui questionado que os arquivos de um livro de 500 páginas ocupava muito espaço e por isso os sistemas mais atuais demoravam a ter acesso. A justificação é a seguinte na última década d século XX tínhamos um tipo de computador conhecido como 486, que não tinha quase memória RAM, era muito lento e todo mundo reclamava, hoje temos computadores muito potentes com mais de 8 Gb de memória, onde facilmente assistimos filmes e ouvimos música, o que em 1998 era impossível. 

Conclusão: Não reclame os arquivos de livros em pdf estão sendo formatados para a posteridade, hoje o usuário pode ter certa dificuldade para ter acesso (abrir arquivo) em determinados consoles, mas é uma questão da tecnologia e não do processo. Contudo em 2 ou 3 anos 100mb de um pdf não fará diferença alguma.

"CARPE DIEM"

Por João Andrade, em 22.1.15
Related Posts Plugin for WordPress, Blogger...

SEJA NOSSO PARCEIRO\ Be our sponsor:

ACERVOS DIGITAIS NA REDE: