Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Elementos <volume>, <issue>, <fpage> e <lpage> não são inseridos no formato *xmlwos* #201

Open
amandasramalho opened this issue Jan 17, 2020 · 17 comments
Assignees
Labels
bug Something isn't working help wanted Extra attention is needed

Comments

@amandasramalho
Copy link
Member

amandasramalho commented Jan 17, 2020

Descrição do problema

O registro do documento S0253-570X2018000100010, da coleção cubana contém os metadados suficientes para que sejam representados utilizando os campos <volume>, <issue>, <fpage> e <lpage> quando no formato xmlwos, entretanto os elementos não constam no XML produzido.

Passos para reproduzir o problema

  1. O artigo é: http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S0253-570X2018000100010&lng=es&nrm=iso&tlng=es
  2. Pacote XML: scielo_articles.zip
  3. \cub\0253-570X\S0253-570X2018000100010.xml

Comportamento esperado

No arquivo XML disponível deveria conter os elementos: <volume>, <issue>, <fpage> e <lpage> do artigo.

Origem do erro:

Foi reportado originalmente pela OCLC, que coleta estes dados para os serviços de descoberta.
Mensagem original:
Can you also ask them to confirm that all metadata elements/tags are being collected as well? For example, for same journal I referenced earlier (ISSN: 2224-4700) the following elements/tags and values are often missing from articles dated 2016 and later (see the attached example):

<volume>
<issue>
<fpage>
<lpage>

I’m not sure if this is true of other journals. Many of the ones I checked have consistently have these tags, but I only checked a small sample articles from different journals in the database. The absence of these tags is not required for ingest into the central index, but having this metadata in the record would improve knowledge base OpenURL links to your platform from these records.

@amandasramalho amandasramalho added the bug Something isn't working label Jan 17, 2020
@robertatakenaka
Copy link
Member

robertatakenaka commented Feb 28, 2020

@scieloorg/scielo-brazil-developers
Me parece que o problema é que o dicionário (JSON) não contém a chave "issue".
Por este motivo, não gera: raw.issue. Veja:

if not raw.issue:

No entanto, os dados da chave "article" são suficientes para o que corresponde a raw.issue e raw.volume. De fato, não existe, raw.fpage nem raw.lpage.

Captura de Tela 2020-02-28 às 14 40 52

Relacionado com: #195

@robertatakenaka
Copy link
Member

Entrei em contato com a coleção Cuba para que o dado seja corrigido

@robertatakenaka
Copy link
Member

Estivemos em contato com Cuba e não entendemos como o script não funciona ao ser executado. No entanto, ao fazer manualmente os comandos de ftp. A transferência ocorre.
Vamos seguir trabalhando em deixar automático.
Mas por enquanto a base está atualizada com a data de 25 de março de 2020. E possivelmente corrija o problema.

@amandasramalho
Copy link
Member Author

Como o pacote scielo_articles.zip é atualizado semanalmente às terças-feiras, na próxima terça possivelmente os registros estarão corrigidos, é isso? Ou o pacote já foi reprocessado com a correção?

@gustavofonseca
Copy link
Contributor

Sim, mas vai ser necessário remover os XMLs do disco do local onde o pacote scielo_articles.zip é gerado.

\cub\0253-570X\S0253-570X2018000100010.xml é o único que deverá ser corrigido?

@amandasramalho
Copy link
Member Author

Acredito que tenham mais artigos com o mesmo problema, esse artigo foi somente para usar uma referência. Não analisei exaustivamente...

@gustavofonseca
Copy link
Contributor

Todos restritos à coleção Cuba?

@amandasramalho
Copy link
Member Author

Vou baixar o pacote e olhar, a OCLC me deu esse exemplo mas não me disse se acontecia em mais coleções.

@gustavofonseca
Copy link
Contributor

Ok, aguardo tua resposta.

@amandasramalho
Copy link
Member Author

@gustavofonseca, olhei todas as coleções por amostragem e aparentemente só acontece com Cuba mesmo.

@gustavofonseca
Copy link
Contributor

Ok, vou forçar que todos os documentos de Cuba sejam atualizados no pacote que será disponibilizado na próxima terça-feira. Podemos fechar este ticket?

@amandasramalho
Copy link
Member Author

Eu fecharia após validação. Na terça mesmo posso baixar os arquivos atualizados e dar uma olhada.

@gustavofonseca
Copy link
Contributor

Nós podemos adiantar essa validação acessando http://articlemeta.scielo.org/api/v1/article/?collection=cub&code=S0253-570X2018000100010&format=xmlwos, e conferindo a presença dos dados (acabo de ver que não estão presentes). @robertatakenaka, é esperado que os dados não estejam presentes neste momento?

@robertatakenaka
Copy link
Member

@gustavofonseca : só podemos garantir que os dados estão atualizados no ftp esperado, nada mais.

@gustavofonseca
Copy link
Contributor

@gustavofonseca : só podemos garantir que os dados estão atualizados no ftp esperado, nada mais.

Ok. Aguardaremos a execução dos processamentos diversos e verificamos na próxima semana. Grato!

@robertatakenaka robertatakenaka added help wanted Extra attention is needed and removed bloqueado labels Mar 30, 2020
@amandasramalho
Copy link
Member Author

amandasramalho commented Apr 1, 2020

@gustavofonseca @robertatakenaka
Baixei o pacote atualizado hoje e verifiquei os registros, continuam sem os dados de <volume>, <issue>, <fpage> e <lpage>. A data do arquivo continua sendo de 10/12/2019.

@amandasramalho
Copy link
Member Author

@robertatakenaka
Apenas para registro: baixei o pacote atualizado hoje e verifiquei os registros, continuam sem os dados de , , e . A data do arquivo continua sendo de 10/12/2019.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working help wanted Extra attention is needed
Projects
None yet
Development

No branches or pull requests

3 participants