SANER2021 ERA Dataset

About

On this page, we publish the dataset used in the our paper “Onboarding to Open Source Projects with Good First Issues: A Preliminary Analysis (Hyuga Horiguchi, Itsuki Omori and Masao Ohira)” has been accepted for inclusion in the Early Research Achievements (ERA) track of the 28th IEEE International Conference on Software Analysis, Evolution and Reengineering (SANER ’21).

File list

  1. prs_nums_before_resolving_issue.csv
  2. resolved_issues_percenrage.csv
  3. prs_nums_after_resolving_issues.csv

Description

The first file was used for the analysis of RQ1.
The violin plot in Fig. 1 shows the distribution of the prs_num in the 4th column of the file for each issue_type in the 3rd column.
The 1st column, dev_id is the ID to identify the developer. It is used to anonymize the account information of GitHub.
The 2nd column, issue_url is the URL of the issue resolved by the developer.
The 3rd column, issue_type shows whether the issue is a Regular Issue or a Good First Issue.
The 4th column, prs_num is the number of PRs that the developer with the dev_id has posted on GitHub before resolving the issue with the issue_url.

The second file was used for the analysis of RQ2.
Table II shows the 1st, 4th, and 7th columns of the file as shown below.
The 1st column, repo_url is the URL of the repository.
The 2nd column, issues_num is the number of Regular Issues that the repository has.
The 3rd column, resolved_issues_num is the number of resolved Regular Issues.
The 4th column, resolved_issues_percentage is the value of the resolved_issues_num (3rd column) divided by the issues_num (2nd column).
The 5th column, good_first_issues_num is the number of Good First Issues that the repository has.
The 6th column, resolved_good_first_issues_num is the number of resolved Good First Issues.
The 7th column, resolved_good_first_issues_percentage is the value of the resolved_good_first_issues_num (6th column) divided by the good_first_issues_num (5th column).
The 8th column, resolved_ratio is the ratio of the resolved_good_first_issues_percentage (7th column) divided by the resolved_issues_percentage (4th column).

The third file was used for the analysis of RQ3.
Table III shows the percentage of developers for each repository whose the prs_num(4th column) is 1 or higher among the Good First Issue of the issue_type(3rd column).
The 1st column, dev_id is the ID to identify the developer.
The 2nd column, issue_url is the URL of the issue resolved by the developer.
The 3rd column, issue_type shown whether the issue is a Regular Issue or a Good First Issue.
The 4th column, prs_num is the number of PRs that the developer with the dev_id has posted to the same repository as the issue_url after resolving the issue with the issue_url.

Contact

Hyuga Horiguchi (hhyuga201515xx@xxgmail.com)
Masao Ohira (masaoxx@xxwakayama-u.ac.jp)

Accepted for SANER2021 ERA Track!

Our paper “Onboarding to Open Source Projects with Good First Issues: A Preliminary Analysis (Hyuga Horiguchi, Itsuki Omori and Masao Ohira)” has been accepted for inclusion in the Early Research Achievements (ERA) track of the 28th IEEE International Conference on Software Analysis, Evolution and Reengineering (SANER ’21).

FOSE2019

日本ソフトウェア科学会主催第25回ソフトウェア工学の基礎ワークショップ(FOSE2019)にて,5件のポスター発表を行いました!

  • 日本語非機能要件分類の自動化におけるデータサイズの影響(池内未来,大平雅雄)
  • 遅延を伴う事象を分析するためのデータマイニング手法の提案(加藤寛瑛,大平雅雄)
  • 自動分類におけるデータセット作成時のミスラベルの調査:非機能要件分類を例として(木村祐太,大平雅雄)
  • 不具合修正時間削減のための修正リーダー影響力の調査(作島大智,大平雅雄)
  • StackOverflowからGitHub開発コミュニティに移動する開発者の分析(堀口日向,大平雅雄)

SNPD2019 in 富山

20th IEEE/ACIS International Conference on Software Engineering, Artificial Intelligence, Networking and Parallel/Distributed Computing (SNPD 2019) in 富山にて研究発表を行いました!!

  • Suggesting Questions that Match Each User’s Expertise in Community Question and Answering Services (Katsunori Fukui, Tomoki Miyazaki, Masao Ohira)
  • Code Clone Tracer (CCT): A Tracking Tool for Analyzing Human and Social Factors in Creating and Reusing Code Clones (Yusuke Kukita, Kojiro Noguchi, Masao Ohira)

荒木富松特別奨励賞

ソフトウェア・シンポジウム2019 in 熊本において,野口耕二朗さんが発表した論文『コードクローンへの欠陥混入防止に向けた欠陥混入クローンの特徴分析(著者:野口耕二朗,大平雅雄)』が荒木富松特別奨励賞を受賞しました!

本論文は,コードクローンへの欠陥混入の防止の前段階として,欠陥混入クローンのソースコードの特徴とコードクローンに混入した欠陥の特徴を調査したものです.

@inproceedings{Noguchi2019,
         title = {コードクローンへの欠陥混入防止に向けた欠陥混入クローンの特徴分析},
        author = {野口 耕二朗 and 大平 雅雄 },
     booktitle = {ソフトウェア・シンポジウム 2019 in 熊本 },
         pages = {56--65},
         month = {6},
          year = {2019},
}

カテゴリー: News

ソフトウェア・シンポジウム2019 in 熊本

ソフトウェア技術者協会主催のソフトウェア・シンポジウム2019 in 熊本にて研究発表を行いました!!

  • コードクローンへの欠陥混入防止に向けた欠陥混入クローンの特徴分析(野口 耕二郎, 大平 雅雄)
  • 日本語非機能要件の自動分類における教師あり学習アルゴリズムの評価(大東 誠弥, 福井 克法, 宮崎 智己, 大平 雅雄)

FOSE2018

日本ソフトウェア科学会主催第24回ソフトウェア工学の基礎ワークショップ(FOSE2018)にて,4件のポスター発表を行いました!

  • リリースサイクルが不具合修正プロセスに及ぼす影響調査(柏 祐太郎,ブラム アダムス,伊原 彰紀,大平 雅雄)
  • ソフトウェア工学分野におけるエキスパート検索技術に関する文献調査(福井 克法,大平 雅雄)
  • コードクローンに混入した不具合の発生原因の調査:RxJavaプロジェクトを対象として(野口 耕二朗 ,大平 雅雄)
  • ソフトウェアテストの偽陰性に関するケーススタディ:Apache Derbyプロジェクトを対象として(吉富 楓雅,宮崎 智己,大平 雅雄)