Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Feature/exclusion url okodayon #123

Merged
merged 6 commits into from
Dec 1, 2021

Conversation

okodayon
Copy link
Collaborator

概要

  • この変更により、Crawl時に除外したいURLの入力ができるようになりました。
  • また、isSameOriginの関数名の変更を行いました。
  • 入力された除外したいURLと、Crawlで見つけたURLの比較はPathの部分で行っています。

関連するIssue

#118 #74

変更点

  • isSameOriginshouldCrawl に名前が変更になりました。
  • shouldCrawl 関数内で、除外したいURLと次にアクセスするURLのPathの部分を比較しています。
  • 比較し、同じだった場合にはfalseを返すようにしています。

チェック項目

  • 機能が正常に動作することを確認しました。

再現手順

crawl画面で除外したいURLを入力し、crawlを行ってください。

gatherCandidates内で行われていた不要なfor文を削除。それに伴いfor分の削除と、postかgetの条件式を変更。
fullscan語にmessageがIssueを空にし、candidateが埋まっているsitemapをダウンロードできます。それをImportしてQuickScanをすることにより、2回目以降にgatherをせずにstoredを見つけることができる。
hrefなどタグ内のURLは今まで元のURLにくっつけて送信するだけだったが、そこにランダムなcsrfトークンなどが含まれた場合に、無限ループに陥る可能性がある。そこで、applyDataと関連付けることにより、applyDataに入力された値をQueryに入れるようになり、ランダムなcsrfトークンなどによる無限ループを回避できる。
除外したいURLを入力できるように。除外したいURLと見つけたURLの比較には、Parseした後の、pathの文字列比較を行っています。
exclusionと書かれていた場所をexclusiveに変更
今までリセットが行われなかったため、二回目以降にも除外URLが引き継がれてしまった。また、毎回Parseしていたが、一回やれば十分なのでcontrollerで受け取った時にParseするように。
}
fmt.Println("QuickScan : ", scanner.QuickScan)
Copy link
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

👀

@okodayon okodayon merged commit ff76f99 into fix/gatherCandidates Dec 1, 2021
@okodayon okodayon deleted the feature/exclusionURL-okodayon branch December 1, 2021 07:56
@y0d3n y0d3n mentioned this pull request Dec 1, 2021
1 task
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

2 participants